속담이 사용될 가능성이 있는 모든 문장 수집

## TL;DR
온갖 한글 텍스트 데이터를 수집하자.

## WHY?
엘라스틱 서치 구축이 완료되었고 관련된 논문 내의 내용 구현도 곧 완료 될것으로 보인다.
데이터 수집 방법에 대한 모색이 필요하다.

## WHAT?
속담이 사용될 가능성이 있는 모든 데이터를 수집하면 된다.
1. 우선 사용 신청을 해야하는 [모두의 말뭉치](https://corpus.korean.go.kr/)는 빠른 시일내에 연구목적으로 재신청하고
(지난 번 신청이 반려? 되었던 점을 고려해서 구체적으로 써보려한다.)
2. [AIHub](https://aihub.or.kr/)는 회원가입하면 바로 사용할 수 있을 것 같아보인다. 사용가능한 데이터들을 바로 수집을 하자.
3. 경진대회에 공개된 데이터도 참고해보자.
    a. [Kaggle](https://www.kaggle.com/search?q=korean+text)
    b. [Dacon](https://dacon.io/en)

## TODOs
- [ ] 모두의 말뭉치 데이터 신청
- [x] AIhub 데이터 수집
- [ ] kaggle에서 사용할 만한 데이터 탐색
- [ ] Dacon에서 사용할 만판 데이터 탐색


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

속담이 사용될 가능성이 있는 모든 문장 수집 #42

TL;DR

WHY?

WHAT?

TODOs

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

속담이 사용될 가능성이 있는 모든 문장 수집 #42

Description

TL;DR

WHY?

WHAT?

TODOs

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions