딥마인드 ‘뮤제로’, 스스로 계획하는 AI

구글 산하 인공지능(AI) 업체 딥마인드(DeepMind)가 게임 규칙을 배우지 않고도 이기는 방법을 스스로 학습해 나가는 AI ‘뮤제로(MuZero)’를 발표했다.

인간지능 능력 중 계획 기능은 문제를 해결하고 미래에 대한 결정을 내릴 수 있는 중요한 부분이다. 그동안 인공지능에 계획 기능을 구성하는 것은 주요 과제였다. 

기존 알파고와 알파고 제로, 알파제로는 처음부터 게임의 규칙을 반드시 사전 학습시켜야 했지만, 뮤제로는 사전학습 없이 바둑과 장기, 체스, 아타리 등 게임에서 스스로 배워 이기는 전략을 계획하는 인공지능이다. 이는 스스로 생각하는 AI에 있어 중대 사건으로 볼 수 있다.

해당 논문(Mastering Atari, Go, chess and shogi by planning with a learned model)은 국제 학술지 네이처에 12월 23일(현지시각) 실렸다.

딥마인드가 개발한 인공지능 알파고(AlphaGo)는 2016년 당시 세계 최강 바둑 기사 이세돌을 이기며 일대 파란을 일으켰다. 이후 바둑에서 기보학습 없이도 최고수 실력을 쌓은 알파고제로(AlphaGo Zero)와 같은 알고리즘을 이용해 장기와 체스까지 석권한 알파제로(AlphaZero)를 잇따라 개발했다.

지금까지 딥마인드가 내놓은 인공지능은 모두 게임 규칙을 사전에 입력해줘야 했지만 새로운 AI 뮤제로는 게임에 관한 아무런 사전 정보도 없이 백지상태에서 경기를 치러가면서 스스로 게임 규칙과 보상을 터득해 간다. 이어 보상을 알고 난 뒤에는 보다 쉽게 보상을 획득하는 방법을 찾아낼 때까지 계속해서 경기 방법을 바꿔나간다. 

이를 관찰학습이라고 부른다. 즉 사람이 학습은 물론 규칙 또한 알려주지 않아도 남들의 경기를 보고 눈치껏 규칙을 알아채는 것과 비슷한 개념이다.

알파고 시리즈와 뮤제로 차이를 나타낸 그림

위 그림은 알파고 시리즈와 뮤제로 차이를 나타낸 그림이다. 왼쪽 녹색 부분이 플레이 할 수 있는 게임을, 우측이 사전 학습 지식을 보여준다. 알파고가 바둑만 플레이하고 인간의 데이터, 바둑 지식, 바둑 규칙을 미리 배울 필요가 있는 반면, 뮤제로는 바둑, 체스, 장기, 아타리를 사전 학습 없이 자율학습으로 플레이가 가능하다.

비를 맞지 않기 위해 공기 중 모든 빗방울 패턴을 모형화하는 것이 아니라 단지 우산을 쓰면 된다.

딥마인드는 공식 블로그를 통해 뮤제로 개발에 아타리가 이용된 것은 “플레이어가 정교한 전략을 세워야 작업이 풍부하고 게임 점수 등 단순한 진행 지표를 제공하기 위한 것”이라고 설명했다.

알파제로에 쓰였던 ‘미리보기 검색(Lookahead Search) 시스템’이나 ‘모델 기반 계획(Model-based Planning) 시스템’은 체스, 포커와 같은 고전적인 게임에서 높은 성능을 보여줬지만, 게임 규칙이나 정확한 모델링 학습 등 특정 지식을 주입해야 하기 때문에 게임 환경을 넘어 복잡한 현실 세계에는 적용하기 어렵다. 따라서 아타리와 같은 복잡한 시각적 요소가 많은 비디오 게임에서는 활용되기 어렵다. 

뮤제로 전까지는 알파고 전신인 심화신경망 방식 강화학습 인공지능 DQN(Deep-Q Network), R2D2, 에이전트57(Agent57)을 거치면서 아타리 비디오게임 57종 모두에서 인간 최고수를 뛰어넘는 능력을 구현했다. 이는 모델이 없는 시스템에서 나온 것이다. 모델 없는 알고리즘은 학습된 모델을 사용하지 않고 대신 다음을 취할 수 있는 가장 좋은 방법이 무엇인지 추정해 나가는 방식이었다.

뮤제로가 신경망을 이용한 몬테카를로 트리 검색이 어떻게 계획될 수 있는지에 대한 그림.

반면 뮤제로는 미리보기 검색과 모델 기반 계획 두 방식을 모두 사용한다. 대신 전체 환경을 모델링하지 않고 에이전트 의사 결정 프로세스에 중요한 측면만을 모델링했다. 이는 비를 맞지 않기 위해 공기 중 모든 빗방울 패턴을 모형화하는 것이 아니라 단지 우산을 쓰면 된다는 것을 알게 하는 방식이다

구체적으로 뮤제로는 학습된 모델을 사용하지 않고 다음 3가지 요소를 모델링한다. 먼저 “가치(Value)는 현재 위치가 얼마나 좋은지”, “정책(Policy)은 어떠한 조치를 하는 것이 좋은지”, “보상(Reward)은 마지막 행동이 얼마나 좋았는지”다.

이들은 뮤제로가 특정 행동을 취할 때 어떠한 일이 일어나는지 이해하고 그에 따라 계획을 세우는 데 필요한 요소들로 심층 신경망을 통해 학습하고 이해한다.

딥마인드 뮤제로 목표는 사람처럼 특정 문제 해결을 위해 교육을 받을 뿐만 아니라 문제에 대해 ‘생각’하는 AI를 개발하는 것이다.

알고리즘 구성이 성패 갈라

뮤제로 환경 모델 학습과 성공적인 계획 능력은 강화학습 기술 발전뿐만 아니라 범용 알고리즘에 대한 가능성을 열어줬다. 그동안 인류가 밝히지 못했던 복잡한 세상의 많은 비밀을 풀어줄 수 있을 것으로 기대된다.

이미 뮤제로는 구글에서 새로운 동영상 압축 기술과 유튜브 서비스 비용을 절감할 수 있는 새로운 동영상 인코딩 방법을 찾는 데 사용되고 있다. 딥마인드에 따르면 지금까지 비디오 압축률이 5% 향상됐다. 이처럼 이미 서비스가 진행되고 있는 분야에도 접목되어 더욱 효율적인 방안을 새롭게 찾아줄 수도 있다.

미 공군이 2020년 12월 15일 인공지능(AI)이 조종사 ‘알투뮤(ARTUμ)’를 공개했다. 알투뮤의 주요 임무는 적군의 미사일 발사체를 찾아내는 것이다. 알투뮤는 2019년 11월 온라인 사전출판 논문집 ‘아카이브’에 첫 공개된 오픈소스 알고리즘인 ‘µZero(뮤제로)’를 수정한 버전이다. 따라서 뮤제로처럼 확장 가능성이 높은 알고리즘 악용 가능성도 우려된다.

현재 업계에서는 데이터를 학습하지 않은 심층신경망에서 고등 인지기능이 자발적으로 발생하는 원리를 규명하는 논문들이 속속 나오고 있다.

페이스북은 최근 자연어 처리 분야에서 획기적인 심층 신경망 아키텍처인 트랜스포머(Transformers)를 활용해 컴퓨터 비전 모델을 훈련해 훨씬 적은 데이터와 컴퓨팅 리소스로 가동되는 고성능 이미지 분류 모델 ‘DeiT(Data-efficient image Transformers)’를 공개했다. 

구글 웨이모는 자율주행에서 CNN보다 더 적은 컴퓨팅을 사용하면서 보다 정확한 행동 예측을 제공하는 모델인 ‘벡터넷(VectorNet)’을 개발했다. 

이를테면 원래 있던 정지 표지판을 지우는 등 무작위로 지도 일부를 가리면(Masking), 그 빈 공간을 스스로 채우는 식 학습을 진행해 현실 세계에 대한 이해를 높인다, 즉 상식을 키워 주행 중 갑작스러운 돌발 상황에 대응한다. 이러한 학습 방식은 구글 언어모델 ‘BERT’를 학습시키는 방법과 매우 유사하다.

학습하는 데이터양이 많을수록 인공지능의 성능이 올라간다는 그간 통념이 서서히 무너지고 있다. 마치 인간처럼 발전하고 있다. 

지금까지는 자율주행이나 자연어 처리, 이미지 인식 등 인공지능 업계에서 대량 데이터를 보유한 업체들이 시장을 주도했다. 

하지만 앞으로는 한정된 데이터 또는 이미 학습된 데이터만을 가지고 있더라도 이를 어떻게 학습시키고 반복하느냐, 알고리즘을 어떻게 구성하느냐에 따라 성패가 좌우될 것으로 예상된다.

김들풀 기자 itnews@