구글 딥마인드, 규칙을 모르고 시작하는 새로운 인공지능 MuZero 공개

본문

PC 정보

[S/W] 구글 딥마인드, 규칙을 모르고 시작하는 새로운 인공지능 MuZero 공개 [10]

사쿠라모리 카오리P (1076219)
추천의 달인 추천흡수기 유게이 유저정보

활동내역 작성글 쪽지 마이피 타임라인

출석일수 : 4696일 | LV.182

Exp.44%

추천 15 | 조회 7458 | 비추력 807155

작성일 2019.12.10 (16:28:58)

IP : (IP보기클릭)163.239.***.***

프로필 열기/닫기

사쿠라모리 카오리P (1076219)

작성일 2019.12.10 (16:28:58) 프로필 열기/닫기

추천 15 | 조회 7458 | 댓글수 10

https://www.clien.net/service/board/news/14377290?od=T31&po=0&category=&groupCd=

게임은 인공지능 알고리즘을 평가하기 위한 가장 효율적인 수단 중 하나가 되었습니다.

수십년동안, 게임은 복잡한 경쟁과 협업, 계획, 전략적 역학 관계를 구축해왔고, 이는 AI가 실제 세계에서 직면하는 과제를 잘 반영했습니다.

체스에서, 스타크래프트로, 게임은 AI의 기능을 평가하는 훌륭한 실험실이었습니다.

그러나, 이러한 AI 대부분은 게임 규칙에 대해 훈련을 받은 상태로 시작되었습니다.

최근 딥마인드는 처음부터 규칙을 배워서 여러 전략 게임을 숙달하는 새로운 에이전트 뮤제로 (MuZero) 를 공개하는 논문을 발표했습니다.

새로운 환경과 역학관계를 배울 수 있는 이 아이디어는 우리의 인지 과정과 인간과의 유사성을 보여줍니다.

아이패드에서 새로운 게임을 발견한 아이를 상상해보십시오.

규칙을 모른 채로 아이는 게임을 하고 나쁜 동작을 반복하기 시작합니다.

경제 정책의 설계, 위기 관리 전략 또는 심지어 전쟁과 시나리오에서도 이와 같은 역학을 추정할 수 있습니다.

AI에서 강화학습은 전략 게임을 마스터하기 위한 가장 인기있는 분야로 등장했습니다.

MuZero는 모델 기반 보강학습을 활용하여 계획과 직접 관련된 미래의 측면을 예측합니다.

모형은 관측치를 입력받아 숨겨진 상태로 변환합니다.

숨겨진 상태는 이전의 숨겨진 상태와 가상의 다음 동작을 수신하는 반복 프로세스에 의해 반복적으로 업데이트됩니다.

이 단계들에서, 모델은 정책, 가치함수, 즉각적인 보상을 예측합니다.

이 모델은 이러한 세가지 중요한 수량을 정확하게 추정하는 목적으로 엔드 투 엔드 교육을 받았습니다.

알파제로 (AlphaZero) 와 비슷하게 MuZero의 계획 프로세스는 두가지 개별 구성 요소를 기반으로 합니다.

시뮬레이터는 검색 트리를 통과하는 동안 게임의 상태를 업데이트하는데 사용되는 게임의 규칙을 구현합니다.

신경망은 시뮬레이터에서 생성된 보드 위치에 상응하는 정책과 가치를 공동으로 예측합니다.

환경에 대한 전체 지식은 신경망에 의해 포착되며 이후 단계에서 사용되게 합니다.

max/977/1*S6QR8QcVBv3AAbJxnynB-w.png

이 그림은 MuZero가 환경을 배우고 (A), 환경을 사용하는 방법 (B) 과 모델을 훈련시키는 방법 (C) 을 도식화한 것입니다.

딥마인드는 바둑, 체크, 및 쇼기 그리고 57개의 아타리 학습 환경에서 MuZero를 훈련시켰습니다.

모든 게임에서 놀라운 결과를 얻었습니다.

바둑에서 MuZero는 검색 트리의 노드 당 연산 (AlphaZero가 20개, MuZero가 16개 블록) 을 적게 사용함에도 AlphaZero의 성능을 약간 능가했습니다.

이는 MuZero가 검색 트리에 계산을 캐싱하고 각 동적 모델의 추가 응용프로그램을 사용해 위치를 더욱 깊이 이해할 수 있음을 보여줍니다.

마찬가지로 아타리 학습 환경의 57개 게임에서도 평균과 중위 표준 점수를 모두 갱신해 이전의 최신 방법 R2D2를 능가합니다.

max/653/1*EsI4_4cfhtUi-iAgaUeyvQ.png

다음은 4개의 대상 환경에서의 MuZero의 성능을 보여줍니다.

X축은 수백만개의 교육의 단계를 보여줍니다.

Y축은 체스, 쇼기, 바둑의 경우 AlphaZero와 게임을 함으로써 나온 Elo 등급입니다.

아타리는 4단계마다 50개의 시뮬레이선을 사용한 다음, 두 플레이어 모두 동작 당 800개의 시뮬레이션을 사용해 이전 작업과의 동작을

4번씩 반복하여 평가했습니다.

MuZero는 파란색, AlphaZero는 주황색 선입니다.

MuZero는 환경에 대한 사전지식없이도 전략적 작업에서 초인적인 성과를 달성할 수 있음을 보여주며,

강화 학습 새로운 마일스톤을 보여줍니다.

Muzero는 체스와 바둑, 쇼기 등 논리적으로 복잡한 게임들 뿐 아니라, 아타리처럼 시각적으로 복잡한 환경에서도 효율성을 보여줬습니다.

출처 : https://towardsdatascience.com/deepmind-unveils-muzero-a-new-agent-that-mastered-chess-shogi-atari-and-go-without-knowing-the-d755dc80ff08?gi=a99fbe670c55

글쓰기

댓글 | 총 10 개

김꼴통 (1022223) (IP보기클릭)118.235.*.*	BEST 요즘 디아하다보면 드는 생각 ai 한테 솔플로 대균열 150단을 최대한 빨리 정복하라고 하면 기상천외한 빌드를 계속 실험할까 아니면 정복자렙부터 죽어라고 올릴까 ㅎㅎ	19.12.10 16:45
란즈크네츠 (250135) (IP보기클릭)210.103.*.*	BEST 인간이 하기에 지루해서 그렇지 정복자렙이 짱이죠.... 제아무리 알파고라도 템빨ㅈ망겜은 어찌할 수 없기도 하고	19.12.10 16:57
로키라 (4890110) (IP보기클릭)112.163.*.*	BEST 알파제로는 규칙을 알려주고 게임을 플레이하게 했습니다. 그래서 알고 있는 규칙을 가지고 게임을 하면서 스스로 데이터를 쌓았죠. 그런데 이번 인공지능은 규칙도 알려주지않고 게임을 할 수 있게 한다는 것 같네요. 즉 여러가지 시도를 해보면서 규칙을 유추해내는 것 같습니다. 이점이 알파제로보다 더 발전된 부분인듯 하네요. 그리고 좀 더 인간이 학습하는 방법과 닮은 것 같기도 하구요. 우리도 어떤 새로운 게임을 할때 이것저것 만져보면서 아~이건 이렇구나. 저건 저렇구나를 터득하잖아요. 이번 인공지능도 그렇다고 하네요.	19.12.10 17:08

오목기사 (4809489) (IP보기클릭)223.38.*.*	알파제로와 무제로의 차이점이 이해가 안가네유 등록	19.12.10 16:43
로키라 (4890110) (IP보기클릭)112.163.*.*	BEST 오목기사 알파제로는 규칙을 알려주고 게임을 플레이하게 했습니다. 그래서 알고 있는 규칙을 가지고 게임을 하면서 스스로 데이터를 쌓았죠. 그런데 이번 인공지능은 규칙도 알려주지않고 게임을 할 수 있게 한다는 것 같네요. 즉 여러가지 시도를 해보면서 규칙을 유추해내는 것 같습니다. 이점이 알파제로보다 더 발전된 부분인듯 하네요. 그리고 좀 더 인간이 학습하는 방법과 닮은 것 같기도 하구요. 우리도 어떤 새로운 게임을 할때 이것저것 만져보면서 아~이건 이렇구나. 저건 저렇구나를 터득하잖아요. 이번 인공지능도 그렇다고 하네요. \| 19.12.10 17:08 \| \| \| 등록
오목기사 (4809489) (IP보기클릭)223.38.*.*	로키라 그 규칙의 범위가 어느 정도를 의미 하는건지 이해가 안돼요 예를 들어 체스의 경우 체크 메이트를 만들면 이기게 규칙이잖아요. 이 규칙도 없이 만들었다는 건가요? \| 19.12.10 17:18 \| \| \| 등록
알라굳짭 (3629872) (IP보기클릭)175.223.*.*	오목기사 규칙은 있는데. Ai가 알지 못하는거에요 설명서 안읽고 보드게임 한다고 생각하면될듯 \| 19.12.10 17:57 \| \| \| 등록
오목기사 (4809489) (IP보기클릭)223.38.*.*	알라굳짭 그런거라면 알파고도 동일한걸로 알고 있는데 잘못 알고 있었던건가 ㄷㄷ \| 19.12.10 18:16 \| \| \| 등록
알라굳짭 (3629872) (IP보기클릭)175.223.*.*	오목기사 알파고는 간단한 설명서라도 줬엇어요 \| 19.12.10 18:18 \| \| \| 등록
김꼴통 (1022223) (IP보기클릭)118.235.*.*	BEST 요즘 디아하다보면 드는 생각 ai 한테 솔플로 대균열 150단을 최대한 빨리 정복하라고 하면 기상천외한 빌드를 계속 실험할까 아니면 정복자렙부터 죽어라고 올릴까 ㅎㅎ 등록	19.12.10 16:45
란즈크네츠 (250135) (IP보기클릭)210.103.*.*	BEST 김꼴통 인간이 하기에 지루해서 그렇지 정복자렙이 짱이죠.... 제아무리 알파고라도 템빨ㅈ망겜은 어찌할 수 없기도 하고 \| 19.12.10 16:57 \| \| \| 등록
Elroy (4743178) (IP보기클릭)58.150.*.*	AI에게 리니지를 정복해보라고 하고 싶군요... 등록	19.12.10 16:50
방탕아재단 (4783175) (IP보기클릭)223.38.*.*	Elroy ㅈ 망겜은 아무리 AI 라고해도 현질을 이길수 없음 \| 19.12.10 18:02 \| \| \| 등록

로그인이 필요합니다.

글쓰기

읽을거리

2024.04.15 12153 96

[게임툰] 공주의 변신은 무죄, 프린세스 피치 Showtime! (22)

2024.04.10 79738 89

[NS] 창세기전: 회색의 잔영, 기념사업의 끝 (146)

2024.04.08 44697 43

[MULTI] 개발 편의적 발상이 모든 것을 쥐고 비틀고 흔든다, 별이되어라2 (83)

2024.04.04 84393 61

[NS] 여아들을 위한 감성 영웅담, 프린세스 피치 Showtime! (48)

글쓰기

공지

스킨

인증글 베스트

ID	구분	제목	글쓴이	추천	조회	날짜
118	전체공지	업데이트 내역 / 버튜버 방송 일정	8[RULIWEB]			2023.08.08
352195	공지	국내외 언론 및 웹진 불펌 금지. (2)	관리자	6	179722	2010.06.22

2300409	S/W	구글 크롬 124.0.6367.61 업데이트	춘리허벅지	2	400	01:58
2300379	H/W	"한국에 또 졌다"… 日 반도체 낙담 (14)	불꽃남자 쟈기만	8	4823	2024.04.17
2300375	S/W	“깃을 넘어…” 데브옵스를 위한 버전 제어 시스템의 발전 동향 (6)	사쿠라모리 카오리P		967	2024.04.17
2300373	H/W	MSI, 게임·창작·비즈니스 사용자를 위한 노트북 신제품 3종 출시 (1)	사쿠라모리 카오리P		550	2024.04.17
2300372	ETC	"구글도 AI 슈퍼컴퓨터에 1000억달러 이상 투자할 것"	사쿠라모리 카오리P		307	2024.04.17
2300368	S/W	세계 첫 AI 미인대회 개최…"100% AI 생성 캐릭터만 참가" (4)	사쿠라모리 카오리P	8	6085	2024.04.17
2300361	H/W	인텔 ‘AI 에브리웨어 전략’, 엔비디아의 시장 독점 허물까 (1)	사쿠라모리 카오리P		741	2024.04.17
2300350	H/W	AMD, 기업용 AI PC 프로세서 라이젠 8000·8040 발표 (18)	춘리허벅지		2297	2024.04.17
2300349	S/W	DF) DLSS 3.7 vs XeSS 1.3 vs FSR 2 (51)	김샌디	6	6331	2024.04.17
2300343	S/W	딥마인드 CEO "향후 AI 기술 개발에 140조 이상 투입할 것"	사쿠라모리 카오리P	2	506	2024.04.17
2300340	S/W	“멀티 부팅 vs. 가상 PC vs. 라이브 DVD” (8)	사쿠라모리 카오리P		1447	2024.04.17
2300339	S/W	모방은 창조의 어머니?...생성형 AI 세계의 불편한 진실 (2)	사쿠라모리 카오리P	2	855	2024.04.17
2300337	H/W	AI 칩 시장 추론 수요 확산...인텔·AMD·삼성전자, 엔비디아에 도전	사쿠라모리 카오리P		484	2024.04.17
2300336	ETC	“AI 선도” 데이터센터 슈퍼사이클 온다	사쿠라모리 카오리P		242	2024.04.17
2300301	VR	메타 “올해 말 교육용 퀘스트 출시··· VR로 학습 만족도 높일 수 있... (5)	사쿠라모리 카오리P	1	809	2024.04.16
2300300	ETC	오픈AI, 1년 만에 직원수 2배 증가..."올말에는 1500명 넘을 것...	사쿠라모리 카오리P	3	763	2024.04.16
2300299	S/W	아티스트 스타일 모방 방지 ‘글레이즈 2’ 출시…”비디오까지 확장 적용” (1)	사쿠라모리 카오리P	1	921	2024.04.16
2300298	H/W	인터넷 속도 176만배 빠르게 하는 기술 개발 (37)	흑둥이	21	12154	2024.04.16
2300297	S/W	쿼라, 단일 창에서 다수 챗봇 호출 가능한 멀티봇 도입.챗봇 포털 시도	사쿠라모리 카오리P		282	2024.04.16
2300296	S/W	"챗GPT로 게임 레드 데드 리뎀션 2 클리어...AI 에이전트 가능성 ... (3)	사쿠라모리 카오리P		2149	2024.04.16
2300295	S/W	어도비, 동영상 편집기 '프리미어'에 '소라' 등 결합 예정..."획기적... (5)	사쿠라모리 카오리P	11	4318	2024.04.16
2300292	S/W	자마린 폼 지원 종료 이후 해야 할 일 "업데이트가 전부다"	사쿠라모리 카오리P	1	758	2024.04.16
2300283	ETC	G메일, '구독 메일' 정리 쉬워진다…계정 관리 기능 추가 예정	사쿠라모리 카오리P	3	1079	2024.04.16
2300282	VR	해킹 허점 노출한 메타 VR 헤드셋	불꽃남자 쟈기만	3	1629	2024.04.16
2300281	ETC	나이키, 에어포스1 로우 404 Error 발표 (18)	스텔D	6	6655	2024.04.16
2300279	H/W	인텔은 CPU 불안정 문제를 조사하고 있습니다. (31)	춘리허벅지	13	10606	2024.04.16
2300278	ETC	쿠팡 멤버십 인상에 '시끌‘…노 젓는 네이버·신세계 (43)	사쿠라모리 카오리P	15	16237	2024.04.16
2300277	S/W	인공지능 활용한 게임 내 그래픽 가속, 현재와 미래 (4)	포이즌눈나	3	2293	2024.04.16

글쓰기 총 55187개의 글이 있습니다.

인증글 베스트 목록

1 2 3 4 5 6 7 8 9 10

오목기사 (4809489) (IP보기클릭)223.38.*.*	알파제로와 무제로의 차이점이 이해가 안가네유 등록	19.12.10 16:43
로키라 (4890110) (IP보기클릭)112.163.*.*	BEST 오목기사 알파제로는 규칙을 알려주고 게임을 플레이하게 했습니다. 그래서 알고 있는 규칙을 가지고 게임을 하면서 스스로 데이터를 쌓았죠. 그런데 이번 인공지능은 규칙도 알려주지않고 게임을 할 수 있게 한다는 것 같네요. 즉 여러가지 시도를 해보면서 규칙을 유추해내는 것 같습니다. 이점이 알파제로보다 더 발전된 부분인듯 하네요. 그리고 좀 더 인간이 학습하는 방법과 닮은 것 같기도 하구요. 우리도 어떤 새로운 게임을 할때 이것저것 만져보면서 아~이건 이렇구나. 저건 저렇구나를 터득하잖아요. 이번 인공지능도 그렇다고 하네요. \| 19.12.10 17:08 \| \| \| 등록
오목기사 (4809489) (IP보기클릭)223.38.*.*	로키라 그 규칙의 범위가 어느 정도를 의미 하는건지 이해가 안돼요 예를 들어 체스의 경우 체크 메이트를 만들면 이기게 규칙이잖아요. 이 규칙도 없이 만들었다는 건가요? \| 19.12.10 17:18 \| \| \| 등록
알라굳짭 (3629872) (IP보기클릭)175.223.*.*	오목기사 규칙은 있는데. Ai가 알지 못하는거에요 설명서 안읽고 보드게임 한다고 생각하면될듯 \| 19.12.10 17:57 \| \| \| 등록
오목기사 (4809489) (IP보기클릭)223.38.*.*	알라굳짭 그런거라면 알파고도 동일한걸로 알고 있는데 잘못 알고 있었던건가 ㄷㄷ \| 19.12.10 18:16 \| \| \| 등록
알라굳짭 (3629872) (IP보기클릭)175.223.*.*	오목기사 알파고는 간단한 설명서라도 줬엇어요 \| 19.12.10 18:18 \| \| \| 등록
김꼴통 (1022223) (IP보기클릭)118.235.*.*	BEST 요즘 디아하다보면 드는 생각 ai 한테 솔플로 대균열 150단을 최대한 빨리 정복하라고 하면 기상천외한 빌드를 계속 실험할까 아니면 정복자렙부터 죽어라고 올릴까 ㅎㅎ 등록	19.12.10 16:45
란즈크네츠 (250135) (IP보기클릭)210.103.*.*	BEST 김꼴통 인간이 하기에 지루해서 그렇지 정복자렙이 짱이죠.... 제아무리 알파고라도 템빨ㅈ망겜은 어찌할 수 없기도 하고 \| 19.12.10 16:57 \| \| \| 등록
Elroy (4743178) (IP보기클릭)58.150.*.*	AI에게 리니지를 정복해보라고 하고 싶군요... 등록	19.12.10 16:50
방탕아재단 (4783175) (IP보기클릭)223.38.*.*	Elroy ㅈ 망겜은 아무리 AI 라고해도 현질을 이길수 없음 \| 19.12.10 18:02 \| \| \| 등록

본문

PS4 / PS5

XBO / XBSX

SWITCH

PSP / VITA

NDS / 3DS

판매순위

콘솔

PC

모바일

해외 버튜버

취미

예판/핫딜

종합게시판

봇게시판

RULICON

도쿄게임쇼

지스타

E3 expo

PlayX4

게임스컴

콘솔 스샷

PC온라인 스샷

PC패키지 스샷

모바일 스샷

(구)스샷/영상

콘솔 영상

PC온라인 영상

PC패키지 영상

모바일 영상

PC 정보

[S/W] 구글 딥마인드, 규칙을 모르고 시작하는 새로운 인공지능 MuZero 공개 [10]