국립국어원, 한국어 말뭉치 13종 18억개 공개

- 원시 말뭉치 5종과 분석 말뭉치 8종으로 총 18억 어절 분량

국립국어원 전경. [출처: 국립국어원]

국립국어원이 한국어 인공지능 학습용 말뭉치(corpus) 18억 어절을 공개했다. 

앞으로 한국어 인공지능 서비스를 개발하는 기업과 새싹기업, 관련 연구기관 등이 따로 시간과 비용을 들이지 않고도 한국어 처리 기술 개발에 쉽게 접근할 수 있게 됐다.

국립국어원이 25일 공개한 한국어 학습 자료는 원시 말뭉치 5종과 분석 말뭉치 8종으로 총 18억 어절 분량이다. 

챗봇이나 인공지능 비서가 한국어를 자연스럽게 알아듣고 분석해 말할 수 있으려면 반드시 다양한 한국어 말뭉치로 학습을 해야 한다. 따라서 한국어 인공지능 기술의 성능 향상은 많은 양의 품질 좋은 한국어 말뭉치 확보에 달려 있다.

이번에 공개한 자료는 국립국어원이 한국어 자연어 처리를 위해 2018년부터 2022년까지 5년 동안 총 175억 원을 투입, 총 155억 어절 말뭉치를 구축하는 국어 정보화 사업에 따른 것이다.  

모두의 말뭉치(https://corpus.korean.go.kr) 첫 화면.

해당 자료는 국립국어원에서 저작권 문제를 해결하여 구축한 것으로 ‘모두의 말뭉치(https://corpus.korean.go.kr)’ 사이트에서 온라인 약정서를 작성, 승인을 받으면 누구나 파일을 내려받아 이용할 수 있다.

문화체육관광부와 국립국어원은 지난 1998년에서 2007년까지 10년간 150억원을 투입해 ‘21세기 세종계획’을 추진, 약 2억 어절의 자료를 구축, 공개한 바 있다. 하지만 투입된 돈에 비해 거의 쓸모가 없을 정도로 초라하다는 업계 평가를 받았다. 심지어 2007년 감리보고서에선 “향후 재활용 어렵다”라고 까지 지적했다.

그 후 10여 년이 지난 뒤 이번에 다시 예전보다 9배 많은 자료를 공개했다. 국립국어원은 이번에 구축한 자료에서는 지난 ‘21세기 세종계획’에 비해 일상 대화, 메신저, 웹 문서 등 구어체 자료의 비중을 높였다. 이는 최근 인공지능 스피커, 챗봇 등의 대화형 서비스가 늘어나면서 구어체 대화에 관한 관심과 요구가 높아지는 추세를 반영한 것이라고 밝혔다. 

특히 일상 대화 자료의 경우 표준어 위주의 수집에서 한 단계 더 나아가 지역별, 나이별로 다양한 대화 자료를 수집하여 인공지능 기술에서 지역별 방언도 처리할 수 있는 발판을 마련했다는 것이다.

국립국어원이 공개한 말뭉치 13종 18억 어절 내용

‘모두의 말뭉치’에서 받을 수 있는 자료에는 다양한 한국어 사용 양상이 담긴 최근 10년간의 신문 기사와 서적 20,188종, 일상생활에서의 음성 대화와 메신저 대화, 방송 자료, 대본 등이 포함됐고 각종 인터넷 사이트의 블로그, 게시판 등의 자료 210만 건도 포함됐다. 

또한 컴퓨터가 한국어를 더 잘 분석하고 이해할 수 있도록 한국어 자료를 더욱 정밀하게 형태, 구문, 의미, 개체 등 언어 단위별로 분석한 자료 1,100만 어절과 한국어에 대한 사용자 직관과 판단 정보를 분석한 문법성 판단과 어휘 관계 자료 40만 건도 포함됐다.

국립국어원은 이번에 공개한 자료의 의의와 활용을 주제로 한 온라인 전문가 토론회를 10월 초에 개최할 예정이다.

김들풀 기자 itnews@