meta learning for nlp1 [논문 리뷰] Few Shot Dialogue State Tracking using Meta-learning (PART 2 Result, additional Analysis) Result 평가는 일반적으로 dst 분야는 jga를 사용하는데 여기서는 none값으로 분류된 slot 말고 실제 값이 매칭되는 activate한 slot에 대해서만 정확도를 평가했다고 합니다. 그리고 모델은 starc 모델 구조로 두가지 알고리즘을 비교했고, 기본적으로 워드 임베딩은 로버타 라지 모델, 그리고 옵티마이저는 아담을 사용했습니다. 결과적으로 32개의 대화 셋 데이터만을 가진 로우 리소스에서 dst가 잘된다. 여기 정확도를 보시면 동일한 데이터 양으로 기존의 dst 모델을 학습시켰을 때는 다음과 같은 성능인데 본 모델은 가장 낮은 도메인에서도 32를 넘습니다. 이는 메타러닝에 의해 선택된 초기화가 그레이디언트 단계 측면에서 대상 도메인의 최적 매개 변수에 더 가깝기 때문에 데이터가 매우 적을.. 2022. 1. 17. 이전 1 다음