로봇신문사
> 뉴스 > 인공지능
국립국어원, 인공지능 학습용 한국어 자료 2차 공개일상 대화 음성, 상호 참조 분석, 신문 등 한국어 자료(빅데이터) 8종 공개
폰트키우기 폰트줄이기 프린트하기 메일보내기 신고하기
승인 2021.03.30  14:29:03
트위터 페이스북 구글+ 밴드

국립국어원(원장 소강춘)은 인공지능의 한국어 처리 능력 향상에 필수적인 학습용 한국어 자료 8종(신규 5종, 수정 3종)을 30일 국립국어원 ‘모두의 말뭉치’(https://corpus.korean.go.kr)에서 공개한다. 공개 자료는 ‘모두의 말뭉치’ 누리집에서 온라인 약정서를 작성하여 승인을 받으면 누구나 파일을 내려받아 이용할 수 있다.

국립국어원은 지난해 8월 ‘모두의 말뭉치’에서 한국어 빅데이터 자료인 인공지능 학습용 한국어 말뭉치 13종 18억 어절을 공개한 바 있다. 이번에 공개하는 자료는 새로 공개하는 자료 5종과 기존 공개 자료에서 내용을 추가하고 형식 오류를 수정한 3종의 자료로, 총 4백만 건의 자료와 900만 어절의 분석 자료로 구성되어 있다.

참여자 모두와 저작권 문제를 해결한 인공지능 한국어 학습 자료 공개

이번에 새로 공개하는 자료는 2020년에 구축한 일상 대화 말뭉치 2232건과 대화를 녹음한 음성 자료 500시간 분량, 2019년에 생산된 35개 매체의 신문 기사 63만여 건, 그리고 한국어의 특성을 정밀하게 분석한 상호 참조 해결 말뭉치와 무형 대용어 복원 말뭉치 6백만 어절이다. 상호 참조 해결 말뭉치는 같은 대상을 가리키는 표현을 서로 연결(상호 참조)한 자료이고 무형 대용어 복원 말뭉치는 생략된 주어나 목적어 등을 복원한 자료이다.

▲ 공개 대상 자료 내역

음성까지 제공한 일상 대화 자료는 연령별, 지역별로 고르게 선정한 2500여 명의 참여자와 모두 이용 허락 계약을 체결하여 구축한 자료여서 음성을 활용한 대화 시스템 개발 등 다양한 인공지능 서비스 개발과 한국어 음성 연구에 폭넓게 활용할 수 있는 좋은 공공 자료가 될 것이다. 그리고 상호 참조 해결 말뭉치와 무형 대용어 복원 말뭉치는 기계가 인식하기 어려운 한국어의 특성을 심도 있게 분석한 자료로 한국어 인공지능 학습 및 개발에 중요한 역할을 할 것으로 기대된다.

인공지능에 필요한 전문적인 한국어 학습 자료 공급

이번에 새로 공개하는 자료는 수요는 많지만 구축에 많은 비용과 시간이 들고 한국어에 대한 전문적인 이해를 필요로 하기 때문에 기존에 구축된 자료의 양이 많지 않다. 따라서 이번 공개로 한국어 인공지능 서비스를 개발하는 중소기업과 새싹기업은 물론 대기업이나 관련 연구 기관 등에도 한국어 처리 기술을 한 단계 더 높이는 데 큰 도움이 될 것으로 기대된다.

이번 공개 자료에는 새로 공개한 자료 이외에도 기존에 배포한 신문 자료와 구문 분석 말뭉치를 수정, 보완한 자료도 포함하였다. 그리고 2003년에 서울말 변화 양상을 연구할 목적으로 만들었던 ‘서울말 낭독체 발화 말뭉치’도 활용성을 높일 수 있도록 최근 구축하고 있는 말뭉치에 맞추어 형식과 내용을 다듬어 포함시켰다.

국립국어원 소강춘 원장은 “국립국어원은 앞으로 한국어 인공지능이 한국어다운 소통 능력을 갖출 수 있도록 전문적이고 분석적인 한국어 언어 자료를 지속적으로 구축, 공개하여 관련 학계 및 산업계에서 적극 활용할 수 있도록 지원할 계획이다”라고 말했다.

문화체육관광부와 국립국어원은 2018년부터 한국어의 학습용 자료가 될 수 있는 전문적인 한국어 말뭉치를 본격적으로 구축하고 있으며 앞으로 보다 많은 수요 분석을 통하여 인공지능에게 필요한 한국어 말뭉치를 체계적으로 구축해 나갈 예정이다.

박경일  robot@irobotnews.com
이 기사에 대한 댓글 이야기 (0)
자동등록방지용 코드를 입력하세요!   
확인
- 200자까지 쓰실 수 있습니다. (현재 0 byte / 최대 400byte)
- 욕설등 인신공격성 글은 삭제 합니다. [운영원칙]
이 기사에 대한 댓글 이야기 (0)
박경일의 다른기사 보기  
폰트키우기 폰트줄이기 프린트하기 메일보내기 신고하기
트위터 페이스북 구글+ 밴드 뒤로가기 위로가기
인기기사
1
경기주택도시공사-서울대공대, UAM 상호협력 협약 체결
2
울산시, 과기부 'AI 기반 중량화물이동체 물류플랫폼 실증’ 공모 선정
3
중국산 4족 보행 로봇의 '가격 공세'
4
한국서부발전, 수중 태양광발전 오염물질 청소로봇 개발한다
5
구자춘 한국로봇학회장(성균관대 교수)
6
큐렉소, 4월까지 의료로봇 8대 수주 확보
7
현대로보틱스, 모바일 서비스 로봇 신규 모델 ‘러기지 로봇’ 출시
8
美 테러다인 로봇 그룹, 1분기 매출 33% 성장
9
일본 미쓰비시전기, 올해 AI 전문인력 2000명으로 확대
10
파나소닉, 노약자용 '보행 훈련 로봇' 양산 모델 개발
로봇신문 소개기사제보광고문의불편신고개인정보취급방침이메일무단수집거부청소년보호정책    *국제표준간행물번호 ISSN 2636-0381 *본지는 인터넷신문위원회 자율심의 준수 서약사입니다
08298) 서울 구로구 공원로 41(구로동, 현대파크빌 427호)  |  대표전화 : 02)867-6200  |  팩스 : 02)867-6203
등록번호 : 서울 아 02659  |  등록일자 : 2013.5.21  |  발행인·편집인 : 조규남  |  청소년보호책임자 : 박경일
Copyright © 2013 로봇신문사. All rights reserved. mail to editor@irobotnews.com