Skip to content
This repository was archived by the owner on Oct 14, 2021. It is now read-only.

속담이 사용될 가능성이 있는 모든 문장 수집 #42

@ArtemisDicoTiar

Description

@ArtemisDicoTiar

TL;DR

온갖 한글 텍스트 데이터를 수집하자.

WHY?

엘라스틱 서치 구축이 완료되었고 관련된 논문 내의 내용 구현도 곧 완료 될것으로 보인다.
데이터 수집 방법에 대한 모색이 필요하다.

WHAT?

속담이 사용될 가능성이 있는 모든 데이터를 수집하면 된다.

  1. 우선 사용 신청을 해야하는 모두의 말뭉치는 빠른 시일내에 연구목적으로 재신청하고
    (지난 번 신청이 반려? 되었던 점을 고려해서 구체적으로 써보려한다.)
  2. AIHub는 회원가입하면 바로 사용할 수 있을 것 같아보인다. 사용가능한 데이터들을 바로 수집을 하자.
  3. 경진대회에 공개된 데이터도 참고해보자.
    a. Kaggle
    b. Dacon

TODOs

  • 모두의 말뭉치 데이터 신청
  • AIhub 데이터 수집
  • kaggle에서 사용할 만한 데이터 탐색
  • Dacon에서 사용할 만판 데이터 탐색

Metadata

Metadata

Labels

No labels
No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions