본문

뉴스 기사

[기사 제목]

AlphaStar: 실시간 전략 게임 StarCraft II를 정복하다

조회수 2420 | 루리웹 | 입력 2019.01.25 (11:41:41)
[기사 본문]

수십 년간 게임은 인공 지능 시스템의 성능을 시험하고 평가하는 중요한 방법으로 이용되었습니다. 성능이 향상되면서, 연구진은 과학적 문제와 실제 문제를 해결하는데 요구되는 다양한 지적 요소들이 포함된 더 복잡한 게임을 찾고 있었습니다. StarCraft는 가장 어려운 실시간 전략(Real-Time Strategy, RTS) 게임 중 하나이자  가장 오래 플레이된 e스포츠 중 하나로서 최근에 들어서는 AI 연구에 있어서 “위대한 도전”으로 떠오르고 있습니다. 


이제, 최고의 프로 선수를 꺾은 최초의 인공 지능 StarCraft II 프로그램인 AlphaStar를 소개합니다. 12월 19일에 있었던 시범 경기에서 AlphaStar는 세계 최정상인 StarCraft 선수들 중 하나인 “MaNa" 그레고리 코민츠를 5-0으로 완파했고 그 이전에는 Team Liquid의 “TLO” 다리오 뷘시와의 성공적인 벤치마크 경기를 가졌습니다.  경기는 프로 경기 규칙을 따른채로 대전 모드 에서 게임에 대한 아무런 제약이 없이 이루어졌습니다. 


비록 Atari, Mario, Quake 3 Arena Capture the Flag, 및 Dota 2 등과 같은 비디오 게임들에서는 큰 성공을 거둔 적이 있었지만, 지금까지 AI(인공지능) 기술은 StarCraft의 복잡함을 따라잡는 데 어려움이 있었습니다. 최고의 결과를 얻기 위해서는 게임 규칙에 큰 제한을 걸고, 시스템에 초인적인 능력을 부여하거나 단순한 맵을 사용하는 등 시스템의 주요 요소를 직접 변경해야만 가능했습니다. 이러한 수정을 거치더라도 그 어떠한 시스템도 프로 선수들의 수준에는 근접하지 못했습니다. 이와 대조적으로 AlphaStar는 지도 학습강화 학습을 통하여 순수한 게임 데이터로부터 직접 훈련된 심층 신경망을 사용하여 StarCraft II를 완전하게 플레이합니다.

 

 

StarCraft의 도전 과제

 

Blizzard Entertainment에서 제작한 StarCraft II는 가상 SF 세계관에서 인간의 지능을 시험하는 다양하고 다층적인 게임플레이를 제공합니다. 이전 작품과 함께 20년이 넘도록 선수들이 e스포츠 대회에서 자웅을 겨루는, 역사적으로 가장 크게 성공한 게임입니다. 


게임을 플레이하는 데는 여러 방법이 있지만, e스포츠에서는 보편적으로 1대 1 토너먼트전을 5경기 진행합니다. 시작하려면, 플레이어는 먼저 고유의 특징과 능력을 갖추고 있는 세 가지 외계 “종족”인 저그, 프로토스 또는 테란 중 하나를 선택해야 합니다(프로 선수들은 특정한 한 종족을 전문적으로 하는 경향이 있습니다). 각 플레이어는 일정 수의 일꾼 유닛을 가지고 게임을 시작합니다. 일꾼 유닛은 기초 자원을 모아 더 많은 유닛과 건물을 지으며 새로운 기술을 만들어 냅니다. 플레이어는 이들을 이용하여 다른 자원을 수확하고, 더 발달된 기지와 건물을 건설하고, 상대방을 이기는 데 사용할 수 있는 새로운 능력을 개발할 수 있습니다. 승리하기 위해서 플레이어는 자원 경제의 거시적인 균형을 주의를 기울이며 맞추어야 합니다. 이를 '매크로'라고 합니다. 또한, 각각의 유닛을 미시적으로 제어해야 합니다. 이는 '마이크로'라고 합니다.


단기 및 장기 목표의 균형을 잡고 예상치 못한 상황에 대처하는 것은 종종 단순하고 유연하지 못한 시스템에 큰 도전과제입니다. 이 문제를 해결하는데 다음과 같은 AI 연구 과제들의 성과가 필요합니다. 


 게임 이론: StarCraft는 가위바위보처럼 유일한 최고의 전략이 없는 게임입니다. 그렇기에, AI 훈련 과정에서 지속적으로 전략적 지식을 쌓고 넓혀나가야 합니다. 

 

 불완전한 정보: 플레이어가 모든 것을 볼 수 있는 체스나 바둑과는 다르게, StarCraft 플레이어에게 가장 중요한 정보는 숨겨져 있고 “정찰”을 통해 직접 발견해야 합니다. 

 

 장기 계획: 실제 문제처럼 인과관계가 즉각적으로 나타나지 않습니다. 게임 또한 최대 한 시간 정도 걸릴 수도 있으므로 게임 초반의 행해진 행동들이 긴 시간 동안 효과가 나타나지 않을 수도 있습니다. 

 

 실시간: 순서대로 플레이어가 본인의 차례를 가지는 전통적인 보드게임과 다르게, StarCraft는 게임 시간이 흐르는 동안 실시간으로 계속 플레이해야 합니다.

 

 넓은 동작 가능성: 수백 개의 서로 다른 유닛과 건물을 동시에, 실시간으로 제어해야 하기 때문에 그 조합에 따라 상황이나 가능성이 변합니다. 이뿐만 아니라, 동작이 계층적이고 이를 수정하거나 보완할 수도 있습니다. 당사의 게임 모수화에 단위 시간별 유효 동작은 평균 1026회입니다.


이러한 큰 도전 과제 덕분에 StarCraft는 AI 연구에 있어 “위대한 도전”으로 부상하였습니다. 2009년 출시된 BroodWar API 이후로 StarCraft 및 StarCraft II에서 진행 중인 다음과 같은 대회에서 진척 상황을 평가해왔습니다. AIIDE StarCraft AI 대회, CIG StarCraft 대회, StarCraft AI 학생 토너먼트, 및 StarCraft II AI 대항전

 

이 문제에 대해 커뮤니티가 더 깊게 살펴볼 수 있도록 하기 위해, 당사는 Blizzard와 협업하여 2016년 및 2017년에 PySC2라는 오픈소스 툴셋을 공개하였으며, 여기에는 전례 없는 최대 규모의 익명화된 게임 리플레이가 포함되었습니다. 연구진은 이 작업을 기반으로 공학적 및 알고리즘적인 해법을 결합하여 AlphaStar를 개발했습니다.

 

 

AlphaStar의 훈련 방법

 

AlphaStar의 동작은 전체 게임 인터페이스(유닛과 물자 목록)에서 입력 데이터를 받아 게임 내 동작을 구성하는 명령 시퀀스를 출력하는 깊은 심층 신경망에 의해 만들어집니다. 좀 더 자세히 설명하자면, 심층 신경망 구조는 트랜스포머 토르소를 유닛에 적용합니다. 이때, 딥 LSTM 코어, 포인터 네트워크를 갖춘 자동 회귀 정책망 헤드중앙 집중식 가치망을 함께 사용합니다. 연구진은 이런 진보된 구조를 가진 모델이 번역이나 언어 모델링 및 시각적 묘사와 같은 길이가 긴 시퀀스 모델링 혹은 광범위한 출력 공간을 갖는 머신 러닝 분야의 여러 도전적인 문제들에 도움이 될 것이라고 생각합니다.

 

AlphaStar는 새로운 다중 에이전트 학습 알고리즘도 사용합니다. 처음에 심층 신경망은 Blizzard에 의해 공개된 익명화된 사람이 플레이한 게임들을 바탕으로 지도 학습을 하여 훈련받았습니다. 이를 통해 AlphaStar는 StarCraft 대전 모드에서 플레이어들이 사용하는 기본적인 마이크로 및 매크로 전략을 모방하면서 학습할 수 있었습니다. 이러한 초기 단계에서 에이전트는 게임에 내장된 “엘리트” 수준의 AI를 상대로 95%의 경기에서 승리하였습니다.


이후 지도학습의 결과물들은 다중 에이전트 강화 학습 절차에 사용되었습니다. 마치 사람이 StarCraft 대전 모드에서 StarCraft 게임을 플레이하는 방법과 유사하게, 리그에서 상대편과 게임을 플레이하는 에이전트(경쟁자)들과 함께 계속해서 새로운 리그가 생성되었습니다. 새로운 경쟁자는 기존 경쟁자에서 파생되어 동적으로 리그에 추가되었으며, 각 에이전트는 다른 경쟁자들을 상대로 게임을 플레이하며 학습했습니다. 이러한 새로운 형태의 훈련방법은 인구 기반 강화 학습의 개념을 한층 더 발전시켜서 각 경쟁자가 가장 강력한 전략을 사용하는 상대로 분전하고 이전의 상대와 싸우는 방법을 기억하도록 하며, 지속적으로 StarCraft 게임 내의 방대한 전략들을 계속해서 탐색하는 절차를 생성합니다. 


리그가 진행되면서 새로운 경쟁자가 생성됨에 따라 기존의 전략을 이길 수 있는 새로운 상대 전략이 생성됩니다. 어떤 새 경쟁자는 이전 전략을 다듬은 수준의 전략을 구사하는 한편, 또 다른 경쟁자는 완전히 새로운 빌드 순서, 유닛 구성, 마이크로 관리 계획으로 이루어진 전혀 다른 새로운 전략을 발견합니다. 예를 들어, AlphaStar 리그 초기에는 광자포 또는 암흑 기사를 이용하여 매우 빠른 초반 속공을 구사하는 “치즈 러시”가 인기를 끌었습니다. 이런 위험도가 높은 전략은 훈련이 계속되면서 버려지고, 더 많은 일꾼으로 기지를 더 확장하여 경제적인 힘을 얻거나 두 기의 예언자를 희생하여 상대의 일꾼과 자원을 방해하는 등, 다른 전략이 떠올랐습니다. 이런 절차는 StarCraft가 출시된 후로 플레이어들이 새로운 전략을 발견하여 이전에 유행하던 전략을 상대로 이기는 방식과 유사합니다. 

 

리그 내의 다양성을 향상하도록 각 에이전트는 각자의 학습 목표를 가집니다. 예를 들어, 해당 에이전트가 승리하려는 목표 경쟁자라던가 에이전트가 경기하는 방법에 특정한 성향을 더하는 모든 내부적인 동기가 이에 해당합니다. 어떤 에이전트는 특정 경쟁자에게 승리하는 목표를 가질 수도 있고, 또 다른 에이전트는 특정 게임 유닛을 더 많이 생산해서 전체 경쟁자를 이겨야 할 수도 있습니다. 이러한 학습 목표는 훈련 중에 설정됩니다.


각 에이전트의 심층 신경망 가중치는 개별 학습 목표를 최적화하기 위해 경쟁자와의 게임을 통한 강화 학습을 통해 업데이트됩니다. 가중치 업데이트 규칙은 효율적이고 새로운 무-정책 행위자-비평가 강화 학습 알고리즘과 경험 리플레이자기 모방 학습 그리고 정책 증류입니다.


AlphaStar를 훈련하기 위해 수천 개의 StarCraft II 병렬 인스턴스에서 학습하는 에이전트를 지원하는 Google의 v3 TPU를 이용하여 확장성이 뛰어난 분산형 훈련 환경을 만들었습니다. AlphaStar 리그는 14일간 각 에이전트별로 16개의 TPU를 사용하여 진행되었습니다. 훈련 동안 각 에이전트는 최대 200년 치의 실시간 StarCraft 경기를 경험했습니다. 최종 AlphaStar 에이전트는 단일 데스크톱 GPU에서 실행가능한 리그의 내쉬 분포의 구성원들로 이루어졌습니다. 즉, 이 에이전트는 이제껏 발견된 가장 효율적인 전략들을 갖추고 있다는 뜻입니다. 


이 작업의 전체적인 기술 설명은 동료평가 저널에 개재하기 위한 준비중에 있습니다. 


 

AlphaStar가 게임을 하고 관찰하는 방법

 

TLO나 MaNa와 같은 StarCraft 프로 선수는 평균적으로 수백의 APM(Actions per minute, 분당 행동수)을 기록합니다. 이는 각각의 유닛을 독립적으로 계속 제어하여 수천 혹은 심지어 수만 APM을 유지하는 대다수의 기존 봇에 비해 훨씬 적은 수치입니다. 


TLO와 MaNa와의 경기에서 AlphaStar는 프로 선수보다 매우 낮은 평균 280의 APM을 기록했지만, 그 동작은 훨씬 정확하였습니다. 이런 낮은 APM의 원인 중 하나는 AlphaStar가 리플레이를 사용하여 훈련을 시작하며 사람이 게임을 경기하는 방식을 모방하기 때문입니다. 게다가 AlphaStar는 관찰입력을 받은 후 동작까지 평균 350ms의 지연 후 반응합니다. 


TLO와 MaNa의 경기 동안 AlphaStar는 StarCraft 게임 엔진과 전체 인터페이스를 통해 직접적으로 상호작용했습니다. 즉, 카메라를 움직일 필요 없이 맵에 보이는 본인 및 상대방의 유닛 속성을 직접 관찰할 수 있어 게임 화면을 줌아웃하여 효율적으로 플레이할 수 있다는 의미입니다. 반대로, 사람은 카메라가 어디를 비춰야 할지 결정하기 위해 관심 자원을 명시적으로 관리해야 합니다다. 그러나, AlphaStar 게임의 분석에 따르면 에이전트는 묵시적으로 관심 자원을 관리합니다. 평균적으로 에이전트는 MaNa나 TLO처럼 분당 평균 30번의 “화면 전환”을 수행했습니다.


추가적으로, 경기 이후 두 번째 버전의 AlphaStar를 개발하였습니다. 이 버전의 AlphaStar는 사람처럼 카메라를 언제 어디로 옮겨야 할지 결정하고, 인지할 수 있는 내용이 화면에 나타난 정보로 제한되며 보이는 지역에서만 동작을 수행할 수 있습니다. 


우리는 AlphaStar 리그에서 새롭게 전체 인터페이스를 사용하는 에이전트와 카메라를 제어하도록 학습시킨 에이전트의 두 종류를 훈련시켰습니다. 각 에이전트는 먼저 사람의 데이터로 지도 학습 후 위에 설명된 강화 학습 절차로 훈련받았습니다. 카메라 인터페이스를 사용하는 AlphaStar 버전은 전체 인터페이스를 사용하는 에이전트 만큼이나 강했으며, 내부 리더보드에서 7000MMR을 넘어섰다. 라이브 시범 경기에서 MaNa는 오직 일주일 정도 학습된 카메라 인터페이스를 사용하는 AlphaStar의 프로토타입과의 경기에서 승리했습니다. 우리는 가까운 미래에 완전하게 학습이 된 카메라 인터페이스를 활용하는 에이전트를 평가할 수 있게 되기를 바랍니다. 


이 결과는 MaNa와 TLO전에서 AlphaStar의 승리가 더 빠른 클릭 수나 더 빠른 반응속도 또는 전체 인터페이스에 기반한 것이 아니라 보다 나은 매크로 및 마이크로 전략 의사 결정에 의한 것임을 보여줍니다.

 

 

프로 선수와 비교한 AlphaStar 평가

 

StarCraft에서 플레이어는 테란, 저그 및 프로토스 세 외계인 종족 중 하나를 선택할 수 있습니다. 연구진은 AlphaStar가 단일 종족(프로토스)을 플레이하는 데 특화되도록 하여 훈련 시간을 줄이고 내부 리그의 결과를 산출할 때 변수를 줄이도록 했습니다. 다른 종족으로도 같은 훈련 방식을 사용할 수 있습니다. 에이전트는 StarCraft II(v4.6.2)에서 프로토스 대 프로토스전을 대전 모드의 카탈리스트 맵에서 경기하도록 훈련되었습니다. AlphaStar의 성능을 평가하기 위해, 먼저 당사의 에이전트를 최고의 프로 저그 선수이자 그랜드마스터 수준의 프로토스 선수인 TLO와 경기하여 시험했습니다. AlphaStar는 아주 다양한 유닛과 빌드 순서를 사용하여 경기를 5-0으로 승리했습니다. 선수는 다음과 같이 말했습니다. “저는 에이전트의 강함에 깜짝 놀랐습니다 AlphaStar는 잘 알려진 전략을 차용해서 완전히 새롭게 바꾸어 사용했습니다. 제가 전에 생각지도 못한 전략을 보여줬는데, 접해보지 못한 새로운 게임 플레이 방법이 아직 많다는 것을 보여주는 것 같습니다.”


한 주간 에이전트를 더 훈련시킨 후, 세계에서 가장 강한 StarCraft II 선수 중 한 명이자 가장 강한 프로토스 선수 10명에 꼽히는 MaNa와 경기했습니다. AlphaStar는 또다시 5대 0으로 승리하며 강력한 매크로 및 마이크로 전략 기술을 보여줬습니다. 선수는 다음과 같이 말했습니다. “AlphaStar가 제가 예상하지 못한 매우 사람과 같은 게임 플레이 스타일로 거의 모든 경기마다 높은 수준의 움직임과 다른 전략을 성공시킨다는 점에 깊은 감명을 받았습니다. 저는 제 게임플레이가 실수를 유도해서 상대방의 반응을 역이용하는 데 얼마나 기대고 있는지 깨달았습니다, 이건 저에게 완전히 새로운 시각으로 게임을 다시 보게 하네요. 다음엔 어떤 일이 일어날지 기대됩니다.” 


 

AlphaStar와 다른 복잡한 문제들

 

StarCraft가 아무리 복잡하더라도 그저 게임이지만, AlphaStar에 숨어 있는 기술은 다른 문제를 해결하는데 유용하리라 생각합니다. 예를 들어, 심층 신경망 구조는 불완전한 정보를 기반으로 발생할 수 있는 동작(한 시간 가량 지속되는 게임에서는 수십에서 수천 개의 동작까지 지속)의 매우 긴 시퀀스를 모델링할 수 있습니다. StarCraft의 모든 프레임은 입력의 한 단계로 사용되고 심층 신경망은 프레임마다 이후 게임에 대한 동작 예상 시퀀스를 예측합니다. 매우 긴 데이터의 시퀀스에 걸쳐 복잡한 예측을 하는 것은 근본적인 문제로서 날씨 예측이나 기후 모델링, 언어 이해 등과 같은 실생활의 문제에서도 볼 수 있습니다. AlphaStar 프로젝트로부터 학습과 개발을 사용하여 이러한 영역에서 중대한 발전을 할 수 있는 잠재력이 매우 고무적입니다.


또, 연구진의 훈련 방식이 안전하고 탄탄한 AI 연구에 매우 유용할 수 있다고 생각합니다. AI에서 가장 큰 도전 과제 중 하나는 시스템이 잘못될 수 있는 수많은 가능성이 있다는 것입니다. StarCraft 프로들은 이전에도 이런 실수를 유도함으로써 AI 시스템을 격파하는 창의적인 방법을 발견했습니다. AlphaStar의 혁신적인 리그 기반 훈련 절차는 가장 믿을 수 있고 잘못될 가능성이 적은 접근 방법을 찾습니다. 우리는 이런 접근 방식이 전반적인 AI 시스템, 특히 안전이 최우선으로 복잡한 최첨단의 사례를 처리하는 것이 필수적인 에너지 관리와 같은 시스템에서 안전성과 탄탄함을 개선할 잠재력이 있다는 점을 기대하고 있습니다.


비디오 게임 역사상 가장 복잡한 게임 중 하나인 StarCraft에서 가장 높은 레벨을 달성하는 것은 중대한 돌파구입니다. 

 

AlphaZeroAlphaFold와 같은 다른 프로젝트에서 얻은 최근의 진척상황과 더불어 이러한 결과는 언젠가 세계에서 가장 중요하고 기본적인 과학적 문제를 해결할 수 있는 새로운 해결법을 찾을 수 있는 지적 시스템을 창조하려는 우리의 사명에 한 걸음 더 나아가고 있다고 믿습니다.


Team Liquid의 TLO와 MaNa의 지원과 훌륭한 실력에 감사드립니다. 또한 이 작업이 가능하도록 계속해서 도와주신 Blizzard와 StarCraft 관계자 여러분께도 감사드립니다. 

 

 

AlphaStar 팀: 


Oriol Vinyals, Igor Babuschkin, Junyoung Chung(정준영), Michael Mathieu, Max Jaderberg, Wojtek Czarnecki, Andrew Dudzik, Aja Huang, Petko Georgiev, Richard Powell, Timo Ewalds, Dan Horgan, Manuel Kroiss, Ivo Danihelka, John Agapiou, Junhyuk Oh(오준혁), Valentin Dalibard, David Choi, Laurent Sifre, Yury Sulsky, Sasha Vezhnevets, James Molloy, Trevor Cai, David Budden, Tom Paine, Caglar Gulcehre, Ziyu Wang, Tobias Pfaff, Toby Pohlen, Dani Yogatama, Julia Cohen, Katrina McKinney, Oliver Smith, Tom Schaul, Timothy Lillicrap, Chris Apps, Koray Kavukcuoglu, Demis Hassabis, David Silver


 

감사의 인사:

 

Ali Razavi, Daniel Toyama, David Balduzzi, Doug Fritz, Eser Aygün, Florian Strub, Guillaume Alain, Haoran Tang, Jonathan Fildes, Julian Schrittwieser, Justin Novosad, Karen Simonyan, Karol Kurach, Philippe Hamel, Ricardo Barreira, Scott Reed, Sergey Bartunov, Shibl Mourad, Steve Gaffney, Thomas Hubert, Yuhuai Wu and the whole DeepMind Team, with special thanks to the RPT, comms and events teams.


● 여기서 리플레이 10개를 다운로드하세요

● 여기서 생중계를 시청하세요(MaNa와의 시범경기 포함)

● MaNa와 2경기에서 AlphaStar의 화면 시청하기

 

'MaNa' 그레고리 코민츠.jpg

 

 

'TLO' 다리오 뷘시.jpeg

 

 

데이빗 실버, 딥마인드 알파스타 프로젝트 연구원.jpg

 

 

알파스타 대 MaNa 시범경기.png

 

 

알파스타 스타크래프트 II 시연회  (1).jpg

 

 

알파스타 스타크래프트 II 시연회  (2).jpg

 

 

알파스타 스타크래프트 II 시연회  (3).jpg

 

 

오리올 빈얄스, 딥마인드 알파스타 프로젝트 연구원.jpg

 

 

팀 모튼, 블리자드 스타크래프트 II 프로덕션 디렉터.jpg

 

 

김영훈 기자   grazzy@ruliweb.com




관련게임정보 목록

스타크래프트 II

기     종

PC

발 매 일

서비스중

장     르

실시간 전략 시뮬레이션

가     격

제 작 사

블리자드 엔터테인먼트

기     타



댓글

목록보기

댓글 | 3
1
 댓글


(IP보기클릭)39.7.***.***

똥망겜 스투말고 스원으로하지ㅡㅡ
19.01.25 13:08

(IP보기클릭)115.41.***.***

MaNa와의 2경기에서 5:12 AlphaStar 유닛컨 뭐냐 맞는 유닛들은 그때그때 빼버리네
19.01.25 13:23

(IP보기클릭)220.94.***.***

펙트)흥겜 스1으로하면 우리나라사람말고 아무도 관심안준다
19.01.25 21:00


1
 댓글




목록보기
BEST 뉴스

PC/온라인
비디오/콘솔
모바일
PC/온라인
비디오/콘솔
모바일
PC/온라인
비디오/콘솔
모바일

BEST 유저정보
콘솔
PC
모바일
취미
BEST 게시글
게임
애니/책
갤러리
커뮤니티
게임
애니/책
갤러리
커뮤니티
게임
애니/책
갤러리
커뮤니티
게임
애니/책
갤러리
커뮤니티


X