뉴스광장

인공지능(AI)으로 고전문헌 자동번역 서비스 가능

swinfozine

2017-12-21

 “구글 번역처럼 과거의 문헌을 번역하여 쉽게 볼 수는 없을까?”, “왜 고문서는 자동번역이 이루어지지 않을까?”

이런 문제를 해결하기 위해 과학기술정보통신부와 한국정보화진흥원은 한국고전번역원 주관으로 ‘17년도에 ’인공지능 기반 고전문헌 자동번역시스템 구축‘ 과제를 추진하였다.
한국고전번역원은 이번 과제를 통해 자동번역시스템을 개발하여 승정원일기 원문을 번역하는 작업을 추진중이다. 승정원일기는 조선시대 왕명(王命)의 출납(出納)을 관장하던 승정원에서 매일매일 취급한 문서(文書)와 사건을 기록한 조선시대의 최고 기밀기록으로 지난 2001년 유네스코 세계기록유산으로 지정된 바 있다.

승정원일기의 필사 원본은 3,243책으로 약 2억 4,000만여 자에 이르는 방대함 탓에 한국고전번역원은 지난 1994년 번역을 시작하여 인조, 고종, 순종대의 번역을 완료하고, 현재 영조대 번역을 진행중이지만 전체 번역률은 20% 수준에 그치고 있는 실정이다. 이는 단순히 자료의 방대함뿐만 아니라 한문번역자 1명을 양성하는데 최대 10년이 소요되고, 번역자 1명이 승정원일기 번역서 1책(1,800매)을 담당하고 있어, 승정원일기 번역사업은 시간과 예산과 인력이 많이 소요되는 거대한 고전문헌 정리사업이기 때문이다.
 
이러한 문제를 해결하기 위해 이번에 개발한 고전문헌 자동번역시스템은 ‘인공 신경망 기계번역(NMT, Neural Machine Translation) 기술’을 적용하였다. NMT 기술은 기존에 단어와 구문을 쪼개어 번역했던 ‘통계기반번역(SMT)’과는 달리 문장을 통째로 파악해 번역하는 최신 기술로 어순, 문맥의 의미와 차이 등을 반영할 수 있으므로 문장 맥락 이해도 및 정확도가 높은편으로 구글번역과 네이버에서 서비스 중인 ‘파파고’도 적용중인 기술이다.
 
아울러 인공지능 자동번역 모델을 생성하기 위해 반드시 필요한 코퍼스(말뭉치) 구축작업도 동시에 추진하였다. 국사편찬위원회에서 구축한 승정원일기 표점원문과 한국고전번역원이 번역한 승정원일기 번역문 데이터를 번역문 150자 이내의 문장단위로 정제하고, 원문과 번역문을 1:1로 매칭하여 총 35만개의 병렬코퍼스를 구축하였으며, 고품질의 기계학습 데이터 확보를 위해 코퍼스 구축 시 원문과 번역문에 대한 문장 분절부터 윤문, 교열 등 고급 정제 작업 진행에 승정원일기 번역자와 이에 준하는 전문 인력을 투입하였다. 

이렇게 구축된 병렬코퍼스를 토대로 BLEU* 평가점수와 휴먼평가점수가 가장 높은 모델을 자동번역모델로 선정하여 자동번역기(데모ver1.0)로 번역한 결과물이 한국고전번역원 역사문헌번역실 승정원일기 번역자에 의해 실시된 휴먼평가에서 평균 3.0점(5점 만점)을 획득하였다.
BLEU(Bilingual Evaluation Understudy) 평가는 형태소 분석정보를 이용하여 기계번역문과 번역자가 번역한 정답문의 유사도를 평가하는 방법으로 기계번역 자동 평가에서 널리 사용되는 번역품질 측정 방법이다.

한국고전번역원은 승정원일기가 총 3,243권으로 1994년부터 번역을 시작하여 2062년에 완료될 것으로 예상했으나, 딥러닝 기반의 인공지능을 적용한 이번 과제를 통해 27년을 단축하여 2035년에는 번역이 완료될 것이라고 기대하고 있다. 서병조 한국정보화진흥원장은 “향후 인공지능 자동번역기술이 고전문헌의 번역 기간을 대폭 앞당길 것으로 기대하며 4차 산업혁명 시대 대응을 위해 인공지능 기술을 포함한 ICT신기술을 공공분야에 선도적으로 도입하여 개발·확산을 지속해 나가겠다.”라고 말했다. 

2017

march

Vol. 237

이달의퀴즈

"4차 산업혁명의 영향으로 조선 해양 산업에도 다양한 디지털 기술과 자동화 기술들이 활용되고 있으며, 선박에 사용되는 이러한 기술의 발달로 인해 자동화 시스템, 시스템 모니터링, 시스템 관리 및 데이터 통신 기능을 갖춘 선박인 이른바 ( )의 개념이 등장했다"

SW유관기관

  • sw중심사회
  • 미래창조과학부
  • nipa정보통신산업진흥원
  • 공개sw포털
  • 누리꿈스퀘어