다양한 비디오 게임 환경에서 자연어 지시에 따라 작업을 수행할 수 있는 확장 가능한 교육 가능한 멀티월드 에이전트(SIMA)에 대한 새로운 연구를 소개합니다.
비디오 게임은 인공지능(AI) 시스템을 위한 주요 시험대입니다. 실제 세계와 마찬가지로 게임은 반응적이고 실시간으로 설정되며 목표가 계속 변하는 풍부한 학습 환경을 제공합니다.
아타리 게임과 함께 한 초기 작업부터 스타크래프트 II를 인간 그랜드마스터 수준에서 플레이하는 AlphaStar 시스템에 이르기까지, Google DeepMind는 AI와 게임 분야에서 오랜 역사를 가지고 있습니다.
오늘 우리는 개별 게임에 초점을 맞추는 것에서 범용, 교육 가능한 게임 플레이 AI 에이전트로의 중요한 전환점을 발표하고자 합니다.
새로운 기술 보고서에서 우리는 SIMA, 즉 확장 가능한 교육 가능한 멀티월드 에이전트를 소개합니다. 이는 3D 가상 설정을 위한 범용 AI 에이전트입니다. 우리는 다양한 비디오 게임에서 SIMA를 훈련시키기 위해 게임 개발자들과 협력했습니다. 이 연구는 에이전트가 넓은 범위의 게임 월드를 이해하고, 그 안에서 자연어 지시에 따라 작업을 수행할 수 있음을 처음으로 보여주었습니다.
이 연구의 목표는 높은 게임 점수를 달성하는 것이 아닙니다. 하나의 비디오 게임을 플레이하는 방법을 학습하는 것만으로도 AI 시스템에게는 기술적인 업적이지만, 다양한 게임 설정에서 지시에 따라 학습할 수 있는 능력은 어떤 환경에서도 유용한 AI 에이전트를 제공할 수 있습니다. 우리의 연구는 어떻게 고급 AI 모델의 능력을 언어 인터페이스를 통해 유용한 실제 행동으로 전환할 수 있는지 보여줍니다. 우리는 SIMA와 다른 에이전트 연구가 비디오 게임을 실험실로 사용하여 AI 시스템이 어떻게 더 유용해질 수 있는지 더 잘 이해할 수 있기를 바랍니다.
비디오 게임에서의 학습
우리는 9가지 다른 비디오 게임에서 SIMA를 훈련시키고 테스트하기 위해 8개의 게임 스튜디오와 협력했습니다.
SIMA를 다양한 환경에 노출시키기 위해, 우리는 연구를 위해 게임 개발자들과 여러 파트너십을 구축했습니다. 우리는 헬로게임즈의 노맨즈스카이와 Tuxedo Labs의 티어다운과 같은 9가지 다른 비디오 게임에서 SIMA를 훈련시키고 테스트하기 위해 8개의 게임 스튜디오와 협력했습니다. SIMA의 포트폴리오에 포함된 각 게임은 단순한 탐색 및 메뉴 사용부터 자원 채굴, 함선 조종, 헬멧 제작에 이르기까지 배워야 할 새로운 기술 범위를 포함하는 새로운 상호 작용 세계를 열어줍니다.
우리는 또한 대리인이 블록으로 조각을 만들어야 하는 우리가 Unity와 함께 구축한 새로운 환경인 Construction Lab을 포함한 네 가지 연구 환경을 사용했습니다. 이는 그들의 물체 조작과 물리적 세계에 대한 직관적 이해를 시험합니다.
다양한 게임 세계에서 학습함으로써, SIMA는 언어가 게임 플레이 행동과 어떻게 연결되는지 포착합니다. 우리의 첫 번째 접근 방식은 포트폴리오에 있는 게임들을 통해 한 플레이어가 다른 플레이어를 지켜보며 지시하는 인간 플레이어 쌍을 기록하는 것이었습니다. 우리는 또한 플레이어들이 자유롭게 플레이한 다음, 그들이 한 일을 다시 보고 그들의 게임 행동에 이르렀을 지시를 기록했습니다.
SIMA는 사전 훈련된 시각 모델과 키보드 및 마우스 작업을 출력하는 메모리를 포함하는 주 모델로 구성됩니다.
SIMA: 다재다능한 AI 에이전트
SIMA는 다양한 환경을 인식하고 이해할 수 있는 AI 에이전트이며, 지시된 목표를 달성하기 위해 행동을 취할 수 있습니다. 이는 정밀한 이미지-언어 매핑을 위해 설계된 모델과 화면에서 다음에 무엇이 일어날지 예측하는 비디오 모델을 포함합니다. 우리는 이 모델들을 SIMA 포트폴리오의 3D 설정에 특화된 훈련 데이터에서 미세 조정했습니다.
우리의 AI 에이전트는 게임의 소스 코드나 맞춤형 API에 대한 접근이 필요하지 않습니다. 그것은 단지 두 가지 입력만 필요합니다: 화면상의 이미지와 사용자가 제공하는 간단한 자연어 지시. SIMA는 이러한 지시를 수행하기 위해 게임의 중앙 캐릭터를 제어하는 키보드와 마우스 출력을 사용합니다. 이 간단한 인터페이스는 인간이 사용하는 것이므로 SIMA는 잠재적으로 어떤 가상 환경과도 상호 작용할 수 있습니다.
SIMA의 현재 버전은 "왼쪽으로 돌기", "사다리 오르기", "지도 열기"와 같은 내비게이션, 물체 상호 작용, 메뉴 사용에 걸쳐 600가지 기본 기술을 평가받았습니다. 우리는 SIMA를 약 10초 내에 완료할 수 있는 간단한 작업을 수행하도록 훈련시켰습니다.
SIMA는 내비게이션, 물체 상호 작용, 메뉴 사용을 포함한 600가지 기본 기술을 평가받았습니다.
우리는 "자원 찾기 및 캠프 건설"과 같이 고급 전략 계획과 여러 하위 작업을 완료해야 하는 작업을 처리할 수 있는 미래의 에이전트를 원합니다. 이것은 일반적으로 AI에게 중요한 목표입니다. 왜냐하면 대규모 언어 모델이 세계에 대한 지식을 포착하고 계획을 생성할 수 있는 강력한 시스템을 야기했지만, 현재 우리를 대신하여 행동을 취할 수 있는 능력이 부족하기 때문입니다.
게임 및 기타 분야에서의 일반화
우리는 많은 게임에서 훈련받은 에이전트가 단 한 가지 게임을 플레이하는 방법을 배운 에이전트보다 더 나은 성능을 보인다는 것을 보여줍니다. 평가에서, 우리 포트폴리오의 9가지 3D 게임 세트에서 훈련받은 SIMA 에이전트는 각각의 개별 게임에서만 훈련받은 모든 전문 에이전트를 크게 능가했습니다. 게다가, 하나의 게임을 제외한 모든 게임에서 훈련된 에이전트는 평균적으로 그 미지의 게임에서 특정 게임에 대해 훈련된 에이전트만큼 거의 잘 수행했습니다. 중요하게도, 이 새로운 환경에서의 기능은 SIMA가 그것의 훈련을 넘어 일반화할 수 있는 능력을 강조합니다. 이것은 유망한 초기 결과이지만, SIMA가 본격적인 게임과 본격적인 게임에서 인간 수준의 성능을 발휘하려면 더 많은 연구가 필요합니다.
우리의 결과는 또한 SIMA의 성능이 언어에 의존한다는 것을 보여줍니다. 어떠한 언어 교육이나 지시도 주어지지 않은 제어 테스트에서, 에이전트는 적절하지만 목적 없이 행동합니다. 예를 들어, 에이전트는 자주 발생하는 행동인 자원을 수집할 수 있지만, 지시된 곳으로 걷지는 않습니다.
우리는 SIMA의 지시에 따른 거의 1500개의 고유한 게임 내 작업을 완료하는 능력을 평가했으며, 이는 부분적으로 인간 판사를 사용하여 평가했습니다. 우리의 기준 비교로서, 우리는 단일 환경 내에서 지시에 따라 훈련되고 평가된 환경 전문 SIMA 에이전트의 성능을 사용합니다. 우리는 이 성능을 여러 환경에서 훈련된 세 가지 유형의 범용 SIMA 에이전트와 비교합니다.
AI 에이전트 연구의 발전
SIMA의 결과는 언어 기반의 범용 AI 에이전트의 새로운 물결을 개발할 수 있는 잠재력을 보여줍니다. 이것은 초기 단계 연구이며, 더 많은 훈련 환경에서 SIMA를 추가로 구축하고 더 능력 있는 모델을 통합할 수 있기를 기대합니다.
SIMA를 더 많은 훈련 세계에 노출시킬수록, 우리는 그것이 더 일반화되고 다재다능해질 것으로 기대합니다. 더 진보된 모델을 통해, 우리는 SIMA가 더 복잡한 목표를 달성하기 위해 고급 언어 지시를 이해하고 행동할 수 있는 능력을 향상시키기를 희망합니다.
결국, 우리의 연구는 사람들에게 온라인과 실제 세계에서 유용한 방식으로 다양한 작업을 이해하고 안전하게 수행할 수 있는 더 일반적인 AI 시스템과 에이전트를 구축하고 있습니다.
본문
[S/W] 3D 가상 환경을 위한 범용 AI 에이전트
추천 0 조회 848 댓글수 0
ID | 구분 | 제목 | 글쓴이 | 추천 | 조회 | 날짜 |
---|---|---|---|---|---|---|
118 | 전체공지 | 업데이트 내역 / 버튜버 방송 일정 | 8[RULIWEB] | 2023.08.08 | ||
352195 | 공지 | 국내외 언론 및 웹진 불펌 금지. (2) | 관리자 | 6 | 180123 | 2010.06.22 |
2300143 | S/W | 사쿠라모리 카오리P | 1407 | 2024.04.13 | ||
2300142 | ETC | 사쿠라모리 카오리P | 1584 | 2024.04.13 | ||
2300141 | ETC | 사쿠라모리 카오리P | 735 | 2024.04.13 | ||
2300140 | H/W | 불꽃남자 쟈기만 | 1208 | 2024.04.13 | ||
2300122 | S/W | 사쿠라모리 카오리P | 2 | 1655 | 2024.04.12 | |
2300121 | S/W | 사쿠라모리 카오리P | 674 | 2024.04.12 | ||
2300120 | S/W | 사쿠라모리 카오리P | 785 | 2024.04.12 | ||
2300119 | S/W | 사쿠라모리 카오리P | 2 | 1413 | 2024.04.12 | |
2300113 | S/W | 사쿠라모리 카오리P | 648 | 2024.04.12 | ||
2300112 | S/W | 사쿠라모리 카오리P | 629 | 2024.04.12 | ||
2300102 | ETC | 헤드샷21 | 3 | 6850 | 2024.04.12 | |
2300099 | S/W | 사쿠라모리 카오리P | 1038 | 2024.04.12 | ||
2300091 | H/W | 불꽃남자 쟈기만 | 8 | 3535 | 2024.04.12 | |
2300090 | S/W | 불꽃남자 쟈기만 | 7 | 7075 | 2024.04.12 | |
2300089 | ETC | 롭스 | 1 | 1847 | 2024.04.12 | |
2300084 | ETC | 사쿠라모리 카오리P | 12 | 13701 | 2024.04.12 | |
2300073 | H/W | 사쿠라모리 카오리P | 999 | 2024.04.12 | ||
2300072 | S/W | 사쿠라모리 카오리P | 2 | 1607 | 2024.04.12 | |
2300071 | ETC | 사쿠라모리 카오리P | 600 | 2024.04.12 | ||
2300070 | ETC | 사쿠라모리 카오리P | 513 | 2024.04.12 | ||
2300069 | H/W | 사쿠라모리 카오리P | 643 | 2024.04.12 | ||
2300068 | S/W | 사쿠라모리 카오리P | 605 | 2024.04.12 | ||
2300067 | H/W | 사쿠라모리 카오리P | 2129 | 2024.04.12 | ||
2300066 | S/W | 사쿠라모리 카오리P | 1257 | 2024.04.12 | ||
2300041 | H/W | 류오동 | 15 | 5564 | 2024.04.12 | |
2300031 | S/W | RizeWave | 38 | 6088 | 2024.04.11 | |
2300030 | 참고 | 원히트원더-미국춤™ | 996 | 2024.04.11 | ||
2300029 | ETC | 사쿠라모리 카오리P | 519 | 2024.04.11 |