https://www.clien.net/service/board/news/14377290?od=T31&po=0&category=&groupCd=
게임은 인공지능 알고리즘을 평가하기 위한 가장 효율적인 수단 중 하나가 되었습니다.
수십년동안, 게임은 복잡한 경쟁과 협업, 계획, 전략적 역학 관계를 구축해왔고, 이는 AI가 실제 세계에서 직면하는 과제를 잘 반영했습니다.
체스에서, 스타크래프트로, 게임은 AI의 기능을 평가하는 훌륭한 실험실이었습니다.
그러나, 이러한 AI 대부분은 게임 규칙에 대해 훈련을 받은 상태로 시작되었습니다.
최근 딥마인드는 처음부터 규칙을 배워서 여러 전략 게임을 숙달하는 새로운 에이전트 뮤제로 (MuZero) 를 공개하는 논문을 발표했습니다.
새로운 환경과 역학관계를 배울 수 있는 이 아이디어는 우리의 인지 과정과 인간과의 유사성을 보여줍니다.
아이패드에서 새로운 게임을 발견한 아이를 상상해보십시오.
규칙을 모른 채로 아이는 게임을 하고 나쁜 동작을 반복하기 시작합니다.
경제 정책의 설계, 위기 관리 전략 또는 심지어 전쟁과 시나리오에서도 이와 같은 역학을 추정할 수 있습니다.
AI에서 강화학습은 전략 게임을 마스터하기 위한 가장 인기있는 분야로 등장했습니다.
MuZero는 모델 기반 보강학습을 활용하여 계획과 직접 관련된 미래의 측면을 예측합니다.
모형은 관측치를 입력받아 숨겨진 상태로 변환합니다.
숨겨진 상태는 이전의 숨겨진 상태와 가상의 다음 동작을 수신하는 반복 프로세스에 의해 반복적으로 업데이트됩니다.
이 단계들에서, 모델은 정책, 가치함수, 즉각적인 보상을 예측합니다.
이 모델은 이러한 세가지 중요한 수량을 정확하게 추정하는 목적으로 엔드 투 엔드 교육을 받았습니다.
알파제로 (AlphaZero) 와 비슷하게 MuZero의 계획 프로세스는 두가지 개별 구성 요소를 기반으로 합니다.
시뮬레이터는 검색 트리를 통과하는 동안 게임의 상태를 업데이트하는데 사용되는 게임의 규칙을 구현합니다.
신경망은 시뮬레이터에서 생성된 보드 위치에 상응하는 정책과 가치를 공동으로 예측합니다.
환경에 대한 전체 지식은 신경망에 의해 포착되며 이후 단계에서 사용되게 합니다.
이 그림은 MuZero가 환경을 배우고 (A), 환경을 사용하는 방법 (B) 과 모델을 훈련시키는 방법 (C) 을 도식화한 것입니다.
딥마인드는 바둑, 체크, 및 쇼기 그리고 57개의 아타리 학습 환경에서 MuZero를 훈련시켰습니다.
모든 게임에서 놀라운 결과를 얻었습니다.
바둑에서 MuZero는 검색 트리의 노드 당 연산 (AlphaZero가 20개, MuZero가 16개 블록) 을 적게 사용함에도 AlphaZero의 성능을 약간 능가했습니다.
이는 MuZero가 검색 트리에 계산을 캐싱하고 각 동적 모델의 추가 응용프로그램을 사용해 위치를 더욱 깊이 이해할 수 있음을 보여줍니다.
마찬가지로 아타리 학습 환경의 57개 게임에서도 평균과 중위 표준 점수를 모두 갱신해 이전의 최신 방법 R2D2를 능가합니다.
다음은 4개의 대상 환경에서의 MuZero의 성능을 보여줍니다.
X축은 수백만개의 교육의 단계를 보여줍니다.
Y축은 체스, 쇼기, 바둑의 경우 AlphaZero와 게임을 함으로써 나온 Elo 등급입니다.
아타리는 4단계마다 50개의 시뮬레이선을 사용한 다음, 두 플레이어 모두 동작 당 800개의 시뮬레이션을 사용해 이전 작업과의 동작을
4번씩 반복하여 평가했습니다.
MuZero는 파란색, AlphaZero는 주황색 선입니다.
MuZero는 환경에 대한 사전지식없이도 전략적 작업에서 초인적인 성과를 달성할 수 있음을 보여주며,
강화 학습 새로운 마일스톤을 보여줍니다.
Muzero는 체스와 바둑, 쇼기 등 논리적으로 복잡한 게임들 뿐 아니라, 아타리처럼 시각적으로 복잡한 환경에서도 효율성을 보여줬습니다.
(IP보기클릭)118.235.***.***
요즘 디아하다보면 드는 생각 ai 한테 솔플로 대균열 150단을 최대한 빨리 정복하라고 하면 기상천외한 빌드를 계속 실험할까 아니면 정복자렙부터 죽어라고 올릴까 ㅎㅎ
(IP보기클릭)210.103.***.***
인간이 하기에 지루해서 그렇지 정복자렙이 짱이죠.... 제아무리 알파고라도 템빨ㅈ망겜은 어찌할 수 없기도 하고
(IP보기클릭)112.163.***.***
알파제로는 규칙을 알려주고 게임을 플레이하게 했습니다. 그래서 알고 있는 규칙을 가지고 게임을 하면서 스스로 데이터를 쌓았죠. 그런데 이번 인공지능은 규칙도 알려주지않고 게임을 할 수 있게 한다는 것 같네요. 즉 여러가지 시도를 해보면서 규칙을 유추해내는 것 같습니다. 이점이 알파제로보다 더 발전된 부분인듯 하네요. 그리고 좀 더 인간이 학습하는 방법과 닮은 것 같기도 하구요. 우리도 어떤 새로운 게임을 할때 이것저것 만져보면서 아~이건 이렇구나. 저건 저렇구나를 터득하잖아요. 이번 인공지능도 그렇다고 하네요.
(IP보기클릭)223.38.***.***
(IP보기클릭)112.163.***.***
오목기사
알파제로는 규칙을 알려주고 게임을 플레이하게 했습니다. 그래서 알고 있는 규칙을 가지고 게임을 하면서 스스로 데이터를 쌓았죠. 그런데 이번 인공지능은 규칙도 알려주지않고 게임을 할 수 있게 한다는 것 같네요. 즉 여러가지 시도를 해보면서 규칙을 유추해내는 것 같습니다. 이점이 알파제로보다 더 발전된 부분인듯 하네요. 그리고 좀 더 인간이 학습하는 방법과 닮은 것 같기도 하구요. 우리도 어떤 새로운 게임을 할때 이것저것 만져보면서 아~이건 이렇구나. 저건 저렇구나를 터득하잖아요. 이번 인공지능도 그렇다고 하네요. | 19.12.10 17:08 | | |
(IP보기클릭)223.38.***.***
그 규칙의 범위가 어느 정도를 의미 하는건지 이해가 안돼요 예를 들어 체스의 경우 체크 메이트를 만들면 이기게 규칙이잖아요. 이 규칙도 없이 만들었다는 건가요? | 19.12.10 17:18 | | |
(IP보기클릭)175.223.***.***
규칙은 있는데. Ai가 알지 못하는거에요 설명서 안읽고 보드게임 한다고 생각하면될듯 | 19.12.10 17:57 | | |
(IP보기클릭)223.38.***.***
그런거라면 알파고도 동일한걸로 알고 있는데 잘못 알고 있었던건가 ㄷㄷ | 19.12.10 18:16 | | |
(IP보기클릭)175.223.***.***
알파고는 간단한 설명서라도 줬엇어요 | 19.12.10 18:18 | | |
(IP보기클릭)118.235.***.***
요즘 디아하다보면 드는 생각 ai 한테 솔플로 대균열 150단을 최대한 빨리 정복하라고 하면 기상천외한 빌드를 계속 실험할까 아니면 정복자렙부터 죽어라고 올릴까 ㅎㅎ
(IP보기클릭)210.103.***.***
김꼴통
인간이 하기에 지루해서 그렇지 정복자렙이 짱이죠.... 제아무리 알파고라도 템빨ㅈ망겜은 어찌할 수 없기도 하고 | 19.12.10 16:57 | | |
(IP보기클릭)58.150.***.***
(IP보기클릭)223.38.***.***
ㅈ 망겜은 아무리 AI 라고해도 현질을 이길수 없음 | 19.12.10 18:02 | | |