본문 바로가기
NLP/논문리뷰

[논문 Review] 27. SIMA 2: A Generalist Embodied Agent forVirtual Worlds

by ㅣlㅣl 2026. 2. 2.
더욱 발전된 SIMA


Abstract

단순한 언어 명령 수행에 국한되었던 이전 SIMA 1 연구와 달리, 대화형 파트너로서의 범용 체화 에이전트 (generalist embodied agent) 역할을 수행한다.

이 에이전트는 고차원적 목표에 대해 추론하고, 사용자와 대화하며, 언어와 이미지를 통해 전달되는 복잡한 지시 사항을 처리할 수 있는 능력을 갖추고 있다.

다양한 게임 포트폴리오 전반에 걸쳐 SIMA 2는 인간의 성능과의 격차를 상당히 좁혔으며, 기본 모델의 핵심 추론 능력을 유지하면서도 이전에 본 적 없는 새로운 환경에 대해 강력한 일반화 능력을 입증했다.

나아가 SIMA2에서는 open-ended self-improvement 역량을 제시한다. SIMA 2는 Gemini를 활용해 스스로 과제를 생성하고 보상을 제공함으로써 새로운 환경에서도 기술을 자율적으로 학습이 가능하다.

 

1. Introduction

최근 몇 년 동안 파운데이션 모델은 놀라운 성공을 거두었으며 , 복잡한 추론 능력과 세상에 대한 이해를 보여주었다.

그러나 이는 체화되지 않은 (disembodied) 지능이기에, 체스 두기나 법률 요약과 같은 고도의 인지 과제는 달성하기 쉬운 것으로 증명된 반면, 저녁 식탁을 치우거나 어질러진 방을 탐색하는 데 필요한 저수준의 감각 운동 기술은 오히려 달성하기 더 어렵다.

인공지능의 다음 거대한 개척지는 수동적인 이해를 넘어 능동적인 참여로 나아가는 것이다. 즉, 에이전트가 환경을 단순히 인식하는 것을 넘어, 환경의 상태를 변화시키기 위해 의미 있는 행동을 취하고 그 결과로부터 학습하는 능력을 가져야 한다는 것을 의미한다.

현존하는 LLM 혹은 VLM은 행동을 수행하거나 행동의 결과를 이해하도록 훈련되지 않았기 때문에 본질적으로 모델들에게 어려운 과제이다. 이를 해결하기 위해 이전 연구인 SIMA 1을 수행했다. 여기서는 다양한 3D 가상 게임 전반에 걸쳐 수백 개의 기본적인 자연어 지시(예: "캠프파이어로 가라")를 따르도록 SIMA1을 훈련시켰으며, 이는 여러 다른 세계 전반에 걸쳐 운영되고 언어 지시를 따를 수 있는 범용 에이전트를 만드는 것이 가능하다는 것을 보여주었다.

그러나 SIMA 1은 짧고 직접적인 지시로 제한되었고, 언어로 응답하거나 자신의 행동에 대해 추론할 수 없었으며, 새로운 상황이나 지시에 일반화하는 데 있어 종종 취약함을 보였다.
이를 개선하기 위해 코어 시스템 백본 모델에 Gemini를 통합함으로써, 

SIMA 1이 단계별로 무엇을 해야 할지 지시받아야 했던 것과 달리, SIMA 2는 고차원적 목표에 대해 추론하고, 사용자의 의도를 이해하며, 다단계 계획을 수립하고, 자신의 전략에 대해 대화할 수 있다.

 

2. Background & Related Works

  • VLA 모델 (Vision - Language - Action)
  • Open-Ended Self-Improvement : 오픈월드에서 파운데이션 모델을 '과제 설정자(Task setter)', '에이전트', '보상 모델'로 사용하여 새로운 환경에서 자율적으로 기술을 습득하는 자기 개선 프로세스를 구축

 

3. Methods

3.1. Environments

연구용 환경

  • Construction Lab
  • Playhouse
  • WorldLab

 

상용 비디오 게임

  • Goat Simulator 3
  • Hydroneer
  • No Man's Sky
  • Satisfactory
  • Space Engineers (SIMA2에서 새롭게 추가) : 플레이어가 우주비행사가 되어 도구를 사용해 자원을 채굴하고 복셀 기반의 건물과 이동 수단을 건설하는 샌드박스 게임
  • Valheim
  • Wobbly Life

 

 

3.1.1 Held-Out Environments

새로운 상황에 직면했을 때의 성능 (=일반화 성능)을 평가하기 위해 다음과 같은 환경을 이용

 

  • ASKA: 플레이어가 마을을 건설하고 주민을 모아 자원 수집, 농사, 방어 등의 과제를 부여하는 바이킹 생존 게임
    • 비주얼과 메커니즘은 다르지만, 자원 채집, 메뉴 사용, 도구 사용, 제작, 건설, 전투 등 다른 환경에서 볼 수 있는 많은 고수준 기술을 포함
    • 특히 ASKA는 최신 게임(2024년 6월 얼리 액세스 시작)이므로, SIMA 2와 Gemini를 완전히 새로운 환경에서 평가할 수 있는 기회를 제공
  • Minecraft (MineDojo): MineDojo는 Malmo 플랫폼을 기반으로 구축된 Minecraft 내 언어 조건부 과제 벤치마크
    • SIMA 2의 경우, 전투, 수확, 기술 트리 과제 카테고리에서 추출된 50개의 프로그램 과제 하위 집합을 사용하며, 각각 15개의 랜덤 시드(환경 구성)를 가짐
    • Minecraft 콘텐츠의 보편성을 고려할 때, MineDojo는 SIMA 2가 Minecraft의 비주얼과 용어에 대한 Gemini의 사전 이해에 의존하여 새로운 체화된 과제를 완료할 수 있는 정도를 평가 가능
  • The Gunk : 플레이어가 막 새로운 행성에 도착한 스캐빈저(폐품 수집가)가 되어 진행하는 액션 어드벤처 플랫폼 게임
    • 오픈 월드라기보다는 스토리 중심적이며 시각적 외형이 상당히 어둡다
  • Genie 3 : 생성형 월드 모델로, 키보드와 마우스 조작을 통해 끝없이 생성되는 새로운 환경과 실시간 상호작용을 가능하게 함

 

3.2. Agent-Environment Interface

인터페이스는 인간 플레이어와 동일하게 시각적 입력, 키보드 & 마우스 동작만 인지하고 행동한다.

즉 기본 state 같은 어떠한 특별 정보도 받지 않는다.

  • 입력 (Input): 에이전트에 대한 입력은 720p 해상도의 RGB 비디오 프레임 스트림으로 구성
    • 에이전트는 주기적으로 환경으로부터 최신 프레임을 받아 자신의 히스토리(History)에 추가
    • 이전의 자연어 입력뿐만 아니라 에이전트가 생성한 내부 추론 및 응답도 포함
       
  • 출력 (Output): 에이전트는 환경에 적용되는 액션 청크(Chunks of actions)를 출력
  • 액션 공간 (Action Space): 액션 공간은 96개의 표준 키보드 키, 마우스 클릭, 그리고 상대적인 (x, y) 위치 변화를 나타내는 이산화된 마우스 움직임을 포함하여 표준적인 인간-컴퓨터 인터페이스(HCI)를 모사
  • 훈련 방식: 미리 정의된 세트에서 이산적인 액션 토큰을 예측하는 대신, 에이전트는 SFT을 통해 구조화된 텍스트 출력을 생성하도록 훈련
    • 예시) Reasoning: 패티를 찾았다. Action: MouseDown=5, ClickLeft
    • 에이전트가 생성한 텍스트에서 KeyW라는 문자열이 발견되면, 시스템은 이를 확률적으로 해석하지 않고 즉시 **"키보드 W키를 눌러라"**라는 저수준(low-level) 신호로 1:1 변환

 

3.3. Data, Agent & Training

Gemini Flash-Lite 모델을 기반으로, 게임 플레이 데이터와 Gemini 프리트레이닝(비게임 플레이) 데이터를 혼합하여 훈련하였다.

 이는 시각 이해, 대화, 추론 및 프롬프트 이행 능력과 같은 베이스 모델의 원래 능력을 유지하기 위함이다.

프리트레이닝된 Gemini Flash-Lite 체크포인트에서 시작하여, 이미지 프레임과 지시 사항이 주어졌을 때 키보드 및 마우스 액션 응답을 생성하도록 이 혼합 데이터셋을 사용해 SFT를 수행한다.

 

게임 플레이 데이터는 아래와 같이 두 가지 유형의 데이터가 포함되어 있다.

3.1.1 Human Data

사후 처리된 인간 수집 데이터 Trajectories 로, 전체 훈련 데이터의 대부분을 차지

  • 게임 플레이 중의 RGB 비디오 프레임, 이에 대응하는 키보드 및 마우스 액션, 그리고 다양한 텍스트 지시사항으로 구성
  • 에이전트에게 3D 환경에서의 저수준 행동 및 운동 제어를 가르치는 데 중요
  • Gemini로 추가 합성 진행

[Gameplay Demonstration Data]

  • Single-person, post-hoc annotation: 참가자가 자유롭게 플레이한 후, 녹화된 영상을 보며 자신의 행동을 자연어로 설명
    • 다양하고 자연스러운 행동 수집 가능
    • 주석이 사후에 작성되므로 플레이어의 의도와 인과적으로 완벽히 일치하지 않음
  • Two-person gameplay annotation (“Setter-Solver”) : 한 명(Setter)은 게임 영상을 보며 실시간 지시를 내리고, 다른 한 명(Solver)은 아바타를 조종
    • 언어 지시가 항상 액션보다 앞서기 때문에 인과적으로 더 정확한 형태의 주석이 생성

 

[ Task-Specific & Evaluative Data]

개방형 이외 미리 정의된 작업과 평가를 위한 데이터

  • Episodic, task-specific scenarios (“Game-Tasks”): 특정 기술에 대한 데이터와 사례를 수집하기 위해 'game-tasks' 프레임워크를 구축
    • 플레이어는 미리 정의된 게임 상태에서 시작하여 특정 지시(예: "석재 도끼 제작")를 받음
    • 이 에피소드는 사전에 지정된 시간 제한에 도달하거나, 플레이어가 해당 작업을 성공했다고 판단하여 스스로 종료할 때 끝남
  • Human ratings and comparisons: 에이전트의 성능을 평가하고 보상 모델을 보정하기 위해, 수집된 게임 궤적(주로 'game-task' 프레임워크에서 수집됨)에 대해 플레이어가 지시 사항을 성공적으로 수행했는지 판단하는 인간의 평가를 수집
    • 작업에 대한 성공여부 이진 평가
    • 두 개의 Trajectories 놓고 어떤 쪽이 지시를 더 성공적으로 완수했는지 결정하는 Side-by-Side 비교

 

[ Quality Assessment, Pre-processing, and Filtering ] :

  • 데이터 수집 전, 인간 참가자들에게 일반적인 게임 조작법과 메커니즘, 데이터 수집용 UI 조작법, 언어 레이블링 및 지시 제공 방법에 대한 가이드 튜토리얼을 제공
  • 모델 훈련 전에는 전처리 다음과 같이 진행
    • 이미지 프레임의 모양과 크기를 모델 입력 규격에 맞게 조정
    • 다양한 휴리스틱과 점수 지표를 사용하여 저품질 데이터를 필터링
    • 기술 학습 최적화를 위해 서로 다른 환경과 데이터셋의 데이터를 리믹스하고 가중치를 부여
    • 대부분의 데이터에 대해 게임 플레이 trajectory를 spans로 변환
      • 궤적을 단일 작업 지시가 포함된 짧은 하위 시퀀스로 분할
      • 하나의 스팬은 하나의 작업 지시와 그동안 수행된 일련의 비디오 프레임 및 액션으로 구성
    • 언어 및 추론 텍스트를 보강하기 위해 Gemini 모델을 활용한 합성 라벨링(Synthetic labeling)도 적용

 

 

3.3.2 Bridge Data

대화 및 추론과 같이 사용자와 에이전트 간의 추가적인 고수준 상호작용 데이터를 포함

  • Gemini Pro 모델을 사용하여 에이전트의 1인칭 시점 및 행동과 인과적으로 일치하는 내부 추론 및 대화 주석 합성 생성
  • 에이전트가 사용자의 고수준 지시 및 대화를 내부 추론 및 저수준 액션과 연결하는 방법을 가르칠 때 사용
    • 오류 수정 행동, 명시적 지시 따르기, 지시 체이닝(연속된 지시 수행), 시각적 질의응답(VQA) 등의 능력을 학습
  • 행동과 언어 모달리티를 연결하기 때문에 "브릿지(Bridge)" 데이터라고 호칭

 

 

3.3.3. Reinforcement Learning

초기 지도학습 단계 이후, 에이전트는 검증 가능한 보상을 통해 강화 학습(RL)으로 추가 훈련을 받게 된다. 이를 위해 초기 게임 상태, 텍스트 지시, 그리고 검증 함수(Verification function)로 구성된 검증 가능한 작업 세트를 큐레이션했다.

 

  • 보상 체계: 정책(Policy) 개선을 위해 에이전트 궤적을 생성하며, 작업을 성공적으로 완료하거나 환경에 기반한 질문에 정확히 답변할 때 보상을 제공
  • 작업 수집 및 필터링: 참가자들은 무작위 게임 상태에서 주변을 탐색하며 완료 가능한 여러 작업을 제안
    • 이 작업 세트는 모든 인간 궤적에 검증 함수를 적용하여 목표 완료 지점을 식별하고 인근 게임 상태와 연결함으로써 확장됨
  • 최적화: 과도하게 어려운 작업을 제외하기 위해 사람이 제한 시간 내에 완료할 수 있는 작업들로 필터링
  • 제한 사항: 이 강화 학습 단계는 오직 훈련 환경에만 적용되며, ASKA 및 MineDojo와 같은 미학습(Held-out) 환경은 제외됨

 

3.4. Evaluations

평가 방식은 다음과 같이 3개의 방식으로 이뤄짐

 

  • 그라운드 트루스 평가 (Ground-Truth Evaluation): 이 평가는 환경으로부터 얻은 Ground-truth 상태 정보를 사용하여 작업 성공 여부를 평가
    • 예를 들어, 성공 여부는 물체의 절대적 또는 상대적 위치("큐브 들어 올리기"), 물체나 자원의 획득("나무 모으기"), 또는 다른 게임 메커니즘의 트리거링("식물에 물 주기")에 달려 있을 수 있다.
    • 상용 비디오 게임은 일반적으로 이러한 상태 정보를 접근 가능한 방식으로 노출하지 않으므로, 이 평가는 연구 환경으로 제한됨
    • 적용 환경 : Construction Lab, MineDojo, Playhouse, WorldLab
  • 프로그래밍 방식 평가 (Programmatic Evaluation): 상용 비디오 게임의 경우, 게임 화면과 에이전트의 키보드 및 마우스 액션을 기반으로 프로그래밍 방식 평가를 정의
    • 비디오 게임은 종종 팝업이나 메뉴 형태의 화면상 텍스트를 포함한다
    • 이전 연구인 SIMA1과 마찬가지로, 광학 문자 인식(OCR)을 사용하여 이러한 화면상 텍스트를 감지하고 작업 성공 여부를 결정
    • 그러나 이러한 작업은 시각적 입력에 대한 휴리스틱이나 에이전트의 액션을 통해 감지할 수 있는 결과로 제한됨
    • 적용 환경 : ASKA, Goat Simulator 3, Hydroneer, No Man’s Sky, Satisfactory, Space Engineers, Valheim, Wobbly Life
  • 인간 평가 (Human Evaluation): 이전 평가 방식을 적용하기 어려운 경우 인간 평가자에게 의존
    • 정밀도를 높이기 위해 비디오당 5개의 독립적인 평가
    • 적용 환경: Goat Simulator 3, Hydroneer, No Man’s Sky, Satisfactory, Valheim, Wobbly Life

 

 

기존 SIMA 에 있던 것보다 개선 사항 존재

 

  • 첫 번째 텍스트 감지 직후에 성공을 트리거하는 대신, 해당되는 작업에 대해서는 텍스트가 몇 초 동안 유지되는지 확인
    • 일정 수준의 지속성을 요구함으로써, 에이전트가 작업을 완료했다고 판단할 때 멈추는 것과 같은 더 의도적인 행동을 선택하도록 함
  • 더 엄격한 제약을 위해, 작업 세트의 일부에서는 작업 완료 후 허용되는 액션 수에 임계값을 둠
    • 에이전트가 가만히 있는지를 측정함으로써 에이전트가 작업 완료를 인식하는지, 그리고 배포 중에 작업을 쉽게 체이닝(연결)할 수 있는지 가늠
  • 이전 작업이 완료되면 각 지시사항이 한 번씩 제공되는 '순차적 프로그래밍 방식 평가 작업' 세트를 대폭 확장
    • 이는 대화형 세션에서 기대되는 행동을 더 밀접하게 반영
    • 이러한 작업에서 성공하려면 순차적 체인에 있는 모든 하위 작업을 성공적으로 완료해야 함

 

 

4. Results

4.1 New Capabilities

SIMA 1은 광범위한 단기 체화 작업을 수행할 수 있었으나 여러 측면에서 제한적이었다. SIMA 1의 시각 인코더는 사전 훈련되었으나 언어 인코딩은 처음부터 훈련되었기에, 지시 수행 능력이 훈련 데이터의 어휘로 국한되었다. 또한 텍스트 지시와 현재 이미지를 액션으로 매핑하는 것 외에 내부 추론이나 대화 같은 텍스트 출력, 스케치와 같은 멀티모달 프롬프트를 처리할 수 없었다.

SIMA 2는 Gemini를 탑재함으로써 이러한 한계를 극복했는데, 대화 및 멀티모달 프롬프팅과 같은 새로운 상호작용이 가능해졌다.

  • Embodied Dialogue: SIMA 2는 사용자와 대화를 나누며 세계 지식과 시각적 질의응답 기능을 활용할 수 있음
    • 특히 3D 세계에 위치한 에이전트로서 사용자의 요청을 확인하거나 작업 완료를 알리고, 모호한 요청에 질문을 던지는 '체화된 대화'가 가능
  • Basic Reasoning: 에이전트는 내부 추론을 통해 행동을 수정 가능
    • 예를 들어 "잘 익은 토마토 색깔의 집으로 가라"는 지시에 대해 "잘 익은 토마토는 빨간색이므로 오른쪽의 빨간 집을 목표로 한다"는 추론을 거쳐 올바르게 이동
  • Complex Instructions: 베이스 모델의 다국어 기능을 상속받아 프랑스어, 독일어, 중국어 등의 지시를 수행할 수 있으며, 이모티콘 지시도 해석 가능
    • 또한 "2층으로 가서 왼쪽 방의 촉수를 확인하고..."와 같은 다단계 지시도 순차적으로 보고하며 수행
  • Multi-modal Prompting: Gemini의 멀티모달 특성 덕분에 이미지나 스케치를 통한 지시가 가능
    • 게임 화면에 스케치된 나무를 보고 "이와 같은 물체를 찾아 상호작용하라"는 지시를 받으면, 에이전트는 이를 나무로 식별하고 베어내는 작업을 수행

 

 

4.2. Embodied Task Performance

4.2.1 훈련 환경에서의 성능

훈련된 환경에서 SIMA 2는 SIMA 1 대비 성공률을 효과적으로 두 배로 높였으며, 자동 및 인간 평가 모두에서 인간 수준의 성능에 근접

 

4.2.2 미학습 환경 (Held-out) 에서의 성능

 

 

4.3. 베이스라인 Gemini 모델과의 비교

일반 베이스라인 Gemini 모델은 동일한 작업에서 Flash-Lite 3.2%, Pro 7.0%의 낮은 성공률을 보였다. 이는 숙련된 체화 능력이 대규모 사전 훈련만으로 자연스럽게 만들어지는 것이 아니며, 명시적인 훈련이 필수적임을 나타낸다.

또한 SIMA 데이터로 미세 조정한 후에도 모델의 일반적인 코딩, 수학, STEM 추론 벤치마크 점수는 베이스라인 대비 완만하게 감소했다. 이는 일반 지능을 희생하지 않고도 고도의 체화 능력을 갖춘 에이전트를 생성할 수 있음을 증명한다.

 

 

4.4 Gemini Instructing SIMA 2

상위 계층의 Gemini Pro 모델이 SIMA 2에게 자연어 지시를 내리는 계층적 구조를 통해 더욱 고도화된 행동이 가능해짐

 

4.5. Self-Improvement

Gemini를 작업 설정자(Task Setter) 및 보상 모델(Reward Model)로 활용하여 인간의 시연 없이도 에이전트가 스스로 학습하고 적응하는 능력을 확인

 

  • ASKA: 자가 개선 반복에 따라 에이전트의 평균 점수가 꾸준히 향상되어 인간의 점수를 상회하기도 했으며, 초기에는 불가능했던 새로운 기술을 스스로 습득
  • 게임 진행: 자가 개선을 거친 에이전트는 기술 트리에서 훨씬 더 멀리 나아가 1시간 이내에 쉘터를 건설하는 등의 성과를 보임
  • Genie 3: 도시 환경에서 학습된 자가 개선 결과가 미학습된 자연 환경에서도 더 나은 성능으로 이어지는 것을 확인

 

 

 


참고 문헌