대규모 데이터 세트 없이 인공지능(AI) 시스템을 학습할 수 있는 수학 모델이 개발됐다. 

워털루대학 통계학자인 일리아 수초루트스키(Ilia Sucholutskyr)와 매티하스 스콘라우(Matthias Schonlau)는 실제로 훈련된 예제 수보다 많은 물체를 정확하게 인지할 수 있는 ‘원 샷 미만: LO 샷((less than one-shot: LO Shot) 러닝’이라는 AI 모델을 개발했다.

연구 결과(‘Less Than One’-Shot Learning: Learning N Classes From M<N Samples)는  사전 출판 사이트 아카이브(arXiv)에 9월 17일(현지시각) 게시했다.

arXiv, Less Than One-Shot Learning: Learning N Classes From M&lt;N Samples

딥 러닝 네트워크는 군중에서 특정 얼굴을 선택하는 것과 같이 주어진 작업을 수행하는 방법을 나타내는 패턴을 감지하기 위해 대규모 데이터 세트가 필요하다. 하지만 이번 연구에서는 통계학자로써 데이터 세트 크기를 줄일 수 있는 방법으로 수학을 사용했다.

이 방법은 최근 MIT 연구팀 논문 기반이다. MNIST로 알려진 데이터 세트는 개념검증(PoC) 프로젝트에서 6만장 사진을 10장으로 줄였다. 그 결과 사진 데이터 10장만으로 훈련된 AI와 비교해 같은 수준 정확도를 보였다.

워털루대학 연구팀 연구 결과는 MIT 연구팀 업데이트 버전으로 그 보다 훨씬 적은 데이터로 줄이는 데 수학을 사용했다는 의미다.

숫자 3은 8처럼도 보이지만 10과는 전혀 닮은 점이 없다. 60%는 숫자 3, 30%는 숫자 8, 10%는 0이라는 소프트 라벨을 붙였다.  

그런 다음 kNN(k-nearest neighbor)이라고 하는 머신 러닝 모델에 적용해 그래픽 접근 방식으로 전환했다. 이러한 접근 방식은 그래프에서 XY 좌표를 설명하는 데이터 세트에 소프트 라벨을 적용할 수 있었다. 

결론은 AI 시스템은 큰 데이터 세트 없이도 그래프에 점을 배치하는 훈련이 쉽게 이루어졌다. 연구팀은 이러한 접근 방식을 ‘일회성 학습 미만’(LO-shot)으로 부른다. 

이번 연구는 아직 초기 단계지만 AI를 돌리는데 필요한 데이터 세트를 파격적으로 줄일 수 있다는 점에서 눈에 띄는 연구 결과다.

김들풀 기자 itnews@