TL;DR
온갖 한글 텍스트 데이터를 수집하자.
WHY?
엘라스틱 서치 구축이 완료되었고 관련된 논문 내의 내용 구현도 곧 완료 될것으로 보인다.
데이터 수집 방법에 대한 모색이 필요하다.
WHAT?
속담이 사용될 가능성이 있는 모든 데이터를 수집하면 된다.
- 우선 사용 신청을 해야하는 모두의 말뭉치는 빠른 시일내에 연구목적으로 재신청하고
(지난 번 신청이 반려? 되었던 점을 고려해서 구체적으로 써보려한다.)
- AIHub는 회원가입하면 바로 사용할 수 있을 것 같아보인다. 사용가능한 데이터들을 바로 수집을 하자.
- 경진대회에 공개된 데이터도 참고해보자.
a. Kaggle
b. Dacon
TODOs