그래픽_황성환 뉴스워커 그래픽1팀 팀장
그래픽_황성환 뉴스워커 그래픽1팀 팀장

미국 딥마인드(Deepmind), 스스로 규칙 찾는 AI인 뮤 제로 선보여


[뉴스워커_산업기획] 미국의 ‘딥마인드(Deepmind)’사는 게임의 규칙을 제공하지 않아도 스스로 학습하여 게임능력을 향상시키는 것이 가능한 인공지능 ‘뮤 제로(Mu Zero)’를 개발했다고 발표했다. 현지시각으로 지난 12월 23일의 일이다.

인간은 특정 사건의 가능성을 신속하게 인지하고 이를 일반화시키는 능력이 뛰어나다. 예를 들어 인간은 먹구름이 가득한 하늘에서 비가 내리는 것을 목격한다면 먹구름이 가득한 날에는 비가 올 수 있는 가능성을 인식하고, 이후 이 가능성을 일반화시켜 먹구름 가득한 날에는 우산을 챙기는 식으로 비가 오는 것에 대응이 가능하다.

AI 연구자들은 AI가 인간처럼 미래를 예측하고 대응할 수 있도록 ‘미리보기(Lookahead Search)’, ‘모델기반계획(Model-Based Planning)’이란 2가지 접근법을 통해 AI의 성능을 향상시키려고 하고 있다. 딥마인드는 미리보기 접근법을 채용한 AI가 바둑과 체스 같은 고전 게임에서 놀랄 만큼의 강점을 보이는 것은 사실이지만, 미리보기 접근법은 제작자가 AI에 제공한 게임 규칙과 관련 정보에 의존하는 경향이 크다고 평가했다.

이 같은 단점은 AI로 하여금 바둑과 체스와 달리 비교적 단순한 규칙이나 몇 개의 변수로 규정하기 어려울 정도로 복잡한 실생활에 대응하기 어렵게 만들었다.

이에 반해 모델기반계획 접근법은 AI가 환경을 먼저 학습하여 모델을 구축한 후 이에 기초하여 문제에 대응하는 방식으로, ‘아타리(Atari)’ 비디오 게임 같이 비교적 단순한 규칙으로 게임을 정의하기 어려운 분야에 대응하는 성능이 우수하다.

그러나 모델기반계획 접근법도 단점이 없는 것은 아니다. 환경을 정확하게 모사한 모델에 기초할수록 모델기반계획 접근법은 AI의 대응능력을 우수하게 만들 수 있지만, 환경의 모든 측면을 고려하여 모델을 구축할 경우 처리해야할 데이터 등이 광범위하게 증가하여 AI에 가해지는 부담이 천문학적으로 증가하게 된다.

딥마인드는 이 단점을 해결하기 위해 선택과 집중이라는 방식을 사용했다. 비가 올 때 일반적으로 인간은 우산을 사용한다면 비를 막을 수 있다는 것을 알고 우산을 쓰는 것만 생각하지 비가 내리는 패턴을 분석하지는 않는다.

정확한 모델을 구축하기 위해서는 비가 내리는 패턴도 분석할 필요가 있지만, 비가 내릴 때 이에 대응하는 문제 해결에만 집중한다면 비가 내리는 패턴을 분석하기보다 우산을 그냥 쓰는 것이 훨씬 효율적이다.

딥마인드는 이러한 개념을 자사의 AI인 뮤 제로에 적용했다. 미리보기와 모델기반계획 접근법을 모두 적용시킨 AI 뮤 제로는 고전 게임분야인 ‘바둑’, ‘체스’, ‘쇼기(일본장기)’에서 두각을 드러냈을 뿐만 아니라 아타리 비디오 게임분야에서도 우수한 적응력을 보이는 것에 성공했다. 특히 뮤 제로는 아타리 비디오 게임분야에서 이동당 시뮬레이션 수를 6~7개만 수행해도 50개 수행했을 경우와 유사할 정도로 우수한 수준의 결과를 도출할 수 있었다. 이는 AI가 우수한 문제해결 능력을 확보하기 위해 모든 가능성을 탐색할 필요는 없으며 딥마인드의 선택과 집중 전략이 합리적이라는 평가를 가능하게 한다.


범용 AI 가능성 높인 뮤 제로, 기존 AI와 비교해도 의미 작지 않아


제작자가 AI에게 게임의 규칙을 제공하지 않아도 스스로 규칙을 찾아내어 학습하는 것이 가능한 AI의 등장은, 바둑과 체스 등 특정분야가 아닌 광범위한 분야에 활용할 수 있는 범용 AI의 개발 가능성을 높인다는 점에서 주목받고 있다.

2016년 ‘이세돌’ 9단을 꺾어 세계에 적지 않은 반향을 남겼던 ‘알파고(AlphaGo)’는 바둑의 규칙과 기보 등 제작자가 AI에게 제공한 막대한 바둑 학습 정보를 기반으로 바둑 실력을 향상시켰다. 알파고는 ‘신경망 네트워크’와 ‘트리 탐색’ 기술의 적용으로 막대한 양의 학습이 가능하여 인간을 능가하는 바둑실력을 보유할 수 있었다.

한편 2017년 딥마인드는 ‘알파고 제로(AlphaGo Zero)’를 선보였는데, 알파고 제로에게는 바둑 규칙만 제공되었을 뿐 알파고와 달리 방대한 양의 기보를 포함한 바둑 관련 학습 정보는 제공되지 않았다.

알파고 제로는 수 천년동안 쌓아온 인간의 바둑 자료를 참고함 없이 수백만에 달하는 알파고 VS 알파고 바둑 게임을 계속 진행하여, 3시간 만에 바둑 초보자 정도의 실력에 도달했으며 70시간 후에는 세계 최고 수준의 실력을 발휘했다.

2900만회 정도의 독학을 수행한 알파고 제로는 기존 최강 버전인 ‘알파고 마스터’의 실력마저 추월했으며, 오랫동안 인류에게 정석으로 받아들여지던 바둑전략과 다른 방식의 독특한 전략을 구사하기도 하여 주위를 놀라게 했다.

2018년 딥마인드는 ‘알파 제로(Alpha Zero)’를 선보였는데 이 AI는 이전의 알파고 혹은 알파고 제로와 달리 바둑뿐만 아니라 체스와 쇼기(일본장기)에도 활용할 수 있는 특징이 있었다.

알파 제로에게는 바둑, 체스, 쇼기 관련 기본 규칙만 제공되었으며 실력 향상은 수 백 만회의 자체 게임 수행으로 얻은 시행착오를 통해 이뤄졌다.

딥마인드는 알파 제로가 수행한 초기 게임은 완전 무작위와 유사했지만 막대한 자체 게임 수행 중 얻은 승리, 패배, 무승부 경험이 축적되어 시간이 흐를수록 알파 제로의 실력이 향상되는 것을 확인할 수 있었다고 설명했다.

실력을 충분히 향상시킨 알파 제로는 각 분야 세계 최고 프로그램으로 인정되는 ‘Stockfish(체스)’, ‘Elmo(일본장기)’, ‘알파고 제로(바둑)’와의 대국에서 압도적인 승률을 기록하며 기술적 수준이 우수함을 입증하는 것에 성공했다.

이처럼 딥마인드는 알파고 – 알파고 제로 – 알파 제로로 이어지는 AI를 연이어 공개하면서 자사의 AI 기술 수준이 향상되고 있음을 지속적으로 입증하고 있다.

각 버전을 거치면서 딥마인드의 AI 기술 수준이 향상되었으며 알파 제로는 바둑 외에 체스와 쇼기에도 활용될 수 있음을 보여주어 제한적인 범용 가능성을 인정받기도 했지만, 알파 제로까지는 제작자가 AI에 관련 규칙을 제공해야 한다는 점에서 범용성의 한계 또한 분명했다.

그러나 딥마인드가 스스로 규칙을 찾아낼 수 있는 뮤 제로를 선보임으로서 특정 분야가 아닌 다양한 분야에서 스스로 상황을 분석하여 문제 해결을 할 수 있는 범용 AI 등장 가능성을 높인 것은 그 의미가 작지 않다.

물론 뮤 제로의 등장으로 단 시간 내에 인간처럼 다양한 상황에 능동적으로 대처할 수 있는 AI가 등장할 가능성은 높지 않다.

하지만 AI 분야에 대한 연구가 끊임없이 지속된다면 그리 멀지 않은 미래에 인간과 유사한 정도의 문제해결능력을 가진 범용 AI가 등장할 수 있으며 광범위한 분야에 범용 AI를 투입할 수 있을 것으로 전망된다.

이와 같은 배경에서 미국의 AI 회사인 딥마인드가 앞서 나가고 있는 것은 부정하기 어렵지만 한국 또한 미래 먹거리 경쟁에서 도태되지 않기 위해 기업뿐만 아니라 국가도 지속적으로 역량을 투입해야 한다는 주장이 제기되고 있다.

저작권자 © 뉴스워커 무단전재 및 재배포 금지