본문 바로가기
AI Researcher가 될끄야!/자연어처리

GPT3 모델을 소개합니다! (대규모 언어모델의 등장, OPEN AI)

by 여니여니여 2022. 1. 18.

Few-shot multi-task learner 

 

GPT3는 Few-shot multi-task learner 라는 이름으로 논문이 나왔는데 일반적인 multi가 아닌 적은 양의 데이터를 Fine tuning시에 사용해도 task에 잘 작동될 수 있도록한 언어모델이다.

 

여기서 사용된 Prompt 러닝이 사용되었는데 영어를 불어로 번역한다고 했을 때, 프롬프트 창에서 영어를 입력을 주고 출력이 나올 수 있도록하는 구조로 몇개의 예시를 주고 학습을 진행합니다.

위 상황에서는 치즈는 무엇으로 바뀔까 라고 문제를 주어 nlp 문제를 비지도 학습을 진행하는 것 입니다.

 

GPT3는 96개의 attention layer였으며, 128 dimension을 가지고 있습니다. train data는 460B tokens라고 합니다. 

NLP 분야에서 주목할 만한 점은 'Trivia QA' 테스크 ( 일반 상식에 관련된 TASK ) 에서 모델이 커지면 성능이 더욱 좋아짐.

SuperGLUE 테스크에서 살펴보면 SOTA 모델에 비해서는 떨어짐 ( Fine tuning을 집중하여 하지 않았기 때문에 ) 

 

Arithmetic calculations

더하기 빼기에 관련된 task 이다. 자릿수가 늘어날 수록 성능은 떨어지나 두자리수에는 높은 성능을 보임. 빼기는 훨씬 잘함. 일반적인 언어모델은 본 테스크에서 잘 하지 못한다라는 결과가 나옴.

 

News article generation 

새로운 뉴스를 써내는 task를 하는 것으로, 실제 사람에게 평가를 진행함. 모델 사이즈가 커질 수록 기계가 쓴 기사를 잘 찾아내지 못함. 문맥이나 논리적 전개가 사람이 말하는 것과 동일하게 생성가능 

 

 

Compounds 

어떠한 복합명사의 예문을 줬을 때 그 명사간의 관계를 찾아 답으로 Return하는 task.

본 task에서 GPT3가 성능이 매우 좋았는데 이는 명사간의 관계성을 적절하게 잘 학습하고 있음을 알 수 있음.

댓글