[부스트캠프][P-stage][WK15 / Day2] 자연어처리 데이터 소개

[부스트캠프][P-stage][WK15 / Day2] 자연어처리 데이터 소개

1. 강의 내용

자연어처리 데이터 소개 1 (한지윤님)

1) 국내 언어 데이터의 구축 프로젝트

2) 21세기 세종 계획과 모두의 말뭉치

21세기 세종 계획

'21세기 세종계획'은 1997년에 그 계획이 수립되었고 이듬해인 1998년부터 2007년까지 10년 동안 시행된 한국의 국어 정보화 중장기 발전 계획(홍윤표, 2009) 총 2억 어절의 자료 구축, 공개

XML 형식, 언어정보나눔터 누리집을 통해 배포하다 중단 후 DVD로만 배포

모두의 말뭉치

인공지능의 한국어 처리 능력 향상에 필수적인 한국어 학습 자료 공개 플랫폼. '21세기 세종계획'에 비해 일상 대화, 메신저, 웹 문서 등 구어체 자료의 비중을 높임. 다층위 주석 말뭉치 포함(형태, 구문, 어휘 의미, 의미역, 개체명, 상호 참조 등)

JSONU형식,U모두의 말뭉치 누리집(https://corpus.korean.go.kr/)에서 배포

-> 학습, 검증, 평가용 데이터가 나누어져 있지 않으므로 사용자가 직접 나누어 사용해야 함.

세종 형태 분석 태그표

Mecap, Khaiii, kkma, Hannanum, komoran 등에서 채택

https://docs.google.com/spreadsheets/d/1OGAjUvalBuX-oZvZ_-9tEfYD2gQe7hTGsgUpiiBSXI8/edit?usp=sharing

3) 엑소브레인

엑소브레인(ExoBrain) : 내 몸 바깥에 있는 인공 두뇌

엑소브레인은 인간의 지적 노동을 보조할 수 있는 언어처리 분야의 AI 기술개발을 위해, 전문직 종사자(예: 금융, 법률, 또는 특허 등)의 조사·분석 등의 지식노동을 보조 가능한 1. 언어 문법 분석을 넘어선 언어의 의미 추론 기술 개발, 2. 전문분야 원인, 절차, 상관관계 등 고차원 지식 학습 및 축적 기술 개발, 3. 전문분야 대상 인간과 기계의 연속적인 문답을 통한 심층질의응답 기술 개발 및 국내외 표준화를 통해 핵심 IPR을 확보하는 우리나라 대표 인공지능 국가 R&D; 프로젝트.

21세기 세종 계획에서 개발된 주석 말뭉치의 체계를 확장하고 추가하여 TTA 표준안 마련(형태, 구문, 개체명)

http://exobrain.kr/pages/ko/business/index.jsp

4) AI 허브

AI 허브는 AI 기술 및 제품·서비스 개발에 필요한 AI 인프라(AI 데이터, AI SW API, 컴퓨팅 자원)를 지원하는 누구나 활용하고 참여하는 AI 통합 플랫폼

데이터별로 데이터 설명서, 구축활용 가이드 제공

JSON, 엑셀 등 다양한 형식의 데이터 제공

실제 산업계 수요 조사를 반영하여 다양한 TASK를 수행할 수 있는 자원 구축

5) 민간 주도 데이터셋

KLUE

한국어 이해 능력 평가를 위한 벤치마크 뉴스 헤드라인 분류 문장 유사도 비교 자연어 추론 개체명 인식 관계 추출 형태소 및 의존 구문 분석 기계 독해 이해 대화 상태 추적

KorQuAD 1.0 & 2.0

KorQuAD 2.0은 KorQuAD 1.0에서 질문답변 20,000+ 쌍을 포함하여 총 100,000+ 쌍으로 구성된 한국어 기계 독해(Machine Reading Comprehension) 데이터셋

스탠포드 대학교에서 공개한 SQuAD(https://rajpurkar.github.io/SQuADexplorer/) 를 벤치마킹 (CC BY-ND 2.0 KR)

https://korquad.github.io/

KorNLU

영어로 된 자연어 추론(NLI,Natural language inference) 및 문장 의미 유사도(STS, semantic textual similarity) 데이터셋을 기계 번역하여 공개 (CC BY-SA 4.0)

https://github.com/kakaobrain/KorNLUDatasets

자연어처리 데이터 소개 2 (한지윤님)

최신 자연어처리 데이터를 찾는 법

1) 질의응답 (Question Answering)

SQuAD

위키피디아 데이터를 기반으로 제작한 기계 독해 및 질의응답 데이터

URL : https://rajpurkar.github.io/SQuADexplorer/

SQuAD1.0

데이터 구축 구축 대상 기사 추출 위키피디아 상위 10,000 기사 중 500자 이하인 536 기사 무작위 추출 크라우드 소싱을 통한 질의 응답 수집, 각 문단마다 다섯 개의 질문과 답변 수집 추가 응답 수집, 평가를 통해서 각 질문 당 최소 두 개의 추가적인 답변 수집. 기사의 단락과 질문 노출 후 가장 짧은 대답 선택

https://arxiv.org/pdf/1606.05250.pdf

SQuAD2.0

데이터 형식: https://rajpurkar.github.io/SQuAD-explorer/explore/v2.0/dev/Amazon_rainforest.html

데이터 구축 크라우드 소싱 플랫폼을 통한 대답하기 어려운 질문(unanswerable questions) 수집 각 문단마다 각 문단 만으로는 대답할 수 없는 다섯 개의 질문 생성 적합한 질문을 25개 이하로 남김 적합한 질문이 수집되지 않은 기사 삭제 학습, 검증, 평가용 데이터 분할

https://arxiv.org/abs/1806.03822

2) 기계 번역 (Machine Translation)

WMT 데이터셋

2014년부터 시행된 기계 번역 학회에서 공개한 데이터셋 다국어 번역 데이터이며, 두 언어간의 병렬 말뭉치로 구성됨. 뉴스, 바이오, 멀티 모달 데이터 등이 제공됨

평가용 데이터 : 1,500개의 영어 문장을 다른 언어로 번역 +1,500개의 문장은 다른 언어에서 영어 문장으로 번역

훈련용 데이터 : 기존에 존재하는 병렬 말뭉치와 단일 언어 말뭉치를 제공

http://www.statmt.org/wmt18/pdf/WMT028.pdf

3) 요약 (Text Summarization)

CNN/Daily Mail

추상 요약 말뭉치. 기사에 대하여 사람이 직접 작성한 요약문이 짝을 이루고 있음.

학습 데이터 286,817쌍, 검증 데이터 13,368쌍, 평가 데이터 11,487쌍으로 구성

https://github.com/abisee/cnn-dailymail

4) 대화 (Dialogue)

DSTC - Dialog System Technology Challenges

DSTC1: human-computer dialogs in the bus timetable domain

DSTC2 and DSTC3: human-computer dialogs in the restaurant information domain

DSTC4 and DSTC5: DSTC4 human-human dialogs in the tourist information domain

DSTC6 이후: End-to-End Goal Oriented Dialog Learning, End-to-End Conversation Modeling, and Dialogue Breakdown Detection로 확장

Wizard-of-Oz

WoZ 방식으로 수집된 데이터셋이며 대화 상태 추적 데이터와 유사한 형태로 이루어짐

Woz 방식은 대화 수집 방식의 하나로, 참여자가 대화시스템을 통해 대화를 하고 있다고 생각하게 한 뒤 실제로는 실제 사람이 참여자의 발화에 맞추어 응답을 제시하고 대화를 이끌어나면서 대화를 수집하는 방식

https://huggingface.co/datasets/woz_dialogue

UDC4(Ubuntu4Dialogue4Corpus)

우분투 플랫폼 포럼의 대화를 수집한 데이터

100만 개의 멀티 턴 대화로 구성, 700만 개 이상의 발화와 1억개의 단어 포함, 특별한 레이블이 주석되어 있지 않음.

대화 상태 추적과 블로그 등에서 보이는 비구조적 상호작용의 특성을 모두 가지고 있음

https://arxiv.org/pdf/1506.08909v3.pdf

2. 피어세션 정리

스몰톡 + 개별 계획

강의 일정 및 내용 질의응답

데이터 제작 스페셜 미션 계획

최종 프로젝트 인원별 의견 정리 아이디어 정리 및 실현 가능성 확인

from http://taeuk-kim.tistory.com/46 by ccl(A) rewrite - 2021-11-12 19:00:20

댓글