본문 바로가기

분류 전체보기77

Automatic deep learning with meta learner - 2019년 까지의 연구동향 Auto Iteration을 통해 하이퍼 파라미터를 최적화 하는 연구가 진행되어왔다. 하지만 최근에는 라벨되지 않는 데이터를 활용하는 방법, 데이터 증강에 대한 방식이 많이 연구되고 있음. 따라서 모델을 선택하는 부분과 데이터를 다루는 부분을 자동으로 하는 것을 메타러닝의 방식을 사용한다. -Auto Data 라벨링을 하는 과정을 스스로 해주는 것이고, 라벨이 불분명한 경우는 스스로 사람에게 물어봐 라벨을 정정하는 과정입니다. 불분명한 라벨이란 다양한 것이 있다. cvat 이라는 기본 툴을 활용하여 auto data 를 수행할 수 있다. -Auto Trainer 여러개의 모델들의 결과를 받아볼 수 있고, 이터레이션 반복을 거쳐 다양한 프리트레인 모델에서 성능이 안좋은 것은 .. 2022. 1. 17.
자연어의 의미 이해 방법 Semantics 1. 자연어는 동일하더라도 다른 의미를 가지는 경우가 많다. (어떻게 이해할 수 있을까?) 위의 예와 비슷하게 '고양이'라고 했을 때 실제 동물 고양이일 수도 있고 '고양이'인형일 수도 있다 이럴 경우에 주변의 단어들의 조합으로 그 단어의 의미를 유추 할 수 있을 것이다. 전자의 의미일 경우 '고양이 밥 언제 줘야해?', '고양이 왜이렇게 살쪗어?'등의 문장이 나올 것이고, 후자의 의미라면 '나 이번에 고양이 인형 사줘',혹은 '고양이 캐릭터는 어디 진열되어있죠?'등일 것이다. 이렇게 비슷한 의미를 가지는 단어들 주변에는 동시에 비슷한 단어들이 올것이다. 예시는 다음과 같다, 이를 매트릭스 형태로 변경해 볼 수 있다. 2.일반적인 방식 1) From a word-context matrix of count.. 2022. 1. 3.
자연어의 특징 1. 자연어 분석 단계 1) 화용론 : 화자의 진짜 의도 2) 의미론 : 문장의 의미 * 특정 도메인에 대한 지식 -> 의미 사전이 필요함 *같은 의미 표현에 대한 정규화 다만 대화 상황에 따라 그 의도가 달라질 수 있음! 따라서 대화 상황에 대한 지식이 필요함 3)구문론: 문장의 구조 * 형태소 : 뜻을 가지는 가장 작은 말의 단위 2. 자연어의 특징 1) 합성성 위의 예시 처럼 명사 구문이 하나의 명사부분에 들어갈 수 있다는 점에서 합성성을 가짐 2) 비합성성 관용적인 표현으로 구성이 되는 경우가 있다. 또한 '좋은 날'같은 경우는 조합으로 생각 하면 안됨. 3) 생략 의미를 내포하고 있거나 관용적으로 쓰이기 때문에 생략이 되는 경우가 많음 4) 모호성과 불확실성 아이유 노래 라고 했을 때 두가지로 .. 2022. 1. 3.
자연어 이해 기술이란? (NLU) 1. 자연어 이해 기술 기계가 사람의 말을 이해할 수 있도록 하는 기술 기계는 사람의 말을 특정 기호로 여긴다. 따라서 기계가 사람의 말을 이해할 수 있도록 할 필요가 있다. 자연어 이해 기술의 목적은 가장 인간 같은 기계를 만들기 위해 노력하는 것이다. ✅ 뢰브너 상 튜링테스트를 통해 가장 인간적인 컴퓨터를 선발하는 것을 목적으로 창안된 뢰브너 상은 역설적이게도 '가장 인간적인 인간'을 선발하기에 이른다. 직접 보지 않은 상태에서 이루어지는 대화(정확히는 화면에 표시)만으로는 기계와 인간의 구별이 모호해진다. 진짜 인간의 대답도 기계의 대답으로 간주되는 현상이 생기면서 제한된 조건에서 가장 인간적인 인간을 뽑는 것도 의미 있는 일이 된 것이다. 뢰브너 상 수상자를 선정하는 대회에서는 다양한 주제를 가지.. 2022. 1. 3.
데이터 쪼개기, 스케일링, 인코딩 1) 데이터 쪼개기 사이킷런의 train_test_split 함수 사용 사용예제 - 인덱스를 다시 초기화 (섞은 후 다시 초기화 ) 2) 스케일링 Standard Scaler 모듈 사용 -범주형과 수치형 나누기 -train 기준으로 스케일링하기 3)인코딩 범수형 변수를 수치형 변수로 인코딩 Onehot Encoding 합쳐서 시키고 -기존 범주형 변수 제거 2021. 5. 13.
데이터 확인, 결측치 처리, Log변환 1. 데이터 불러오기 + 목표변수 제거 2. 목표변수 수치형 자료형으로 변경 3. 필요없는 데이터들 삭제 2) 데이터 확인 .head(), describe(), .info()등의 함수로 데이터 확인하기 -> 결측치 파악 3) 결측치 처리 범주형 변수의 경우 가장 간단하게 최빈값으로 처리, 다른 칼럼을 필터링해서 결측치를 처리 할 수 있음 loc함수로 조건을 걸어서 일괄변환 4) Log 변환 -데이터가 치우쳐 있을때 -쓸때 없는 값 지우기 2021. 5. 13.