요약생성
바쁠 때는 리얼라이즈가 내용을 요약해 드려요.
파운데이션 모델은 컴퓨터 비전 및 자연어 처리 분야에 혁명을 일으켰습니다. 이제 한 연구 그룹은 동일한 원칙을 적용하여 물리적 세계에서 개방형 의사 결정 작업을 수행할 수 있는 AI 시스템인 파운데이션 에이전트를 만들 수 있다고 생각합니다.
중국 과학원 연구진은 새로운 포지션 페이퍼에서 파운데이션 에이전트를 “물리적 및 가상 세계에 걸쳐 일반적으로 유능한 에이전트”로 설명하며, 이는 “언어 및 지식 기반 작업을 해결하기 위한 범용 언어 모델로서 [대규모 언어 모델] LLM과 유사하게 의사 결정을 위한 패러다임 전환”이 될 것이라고 합니다.
파운데이션 에이전트는 현실 세계를 위한 다재다능한 AI 시스템을 보다 쉽게 만들 수 있도록 하며, 불안정하고 작업별 AI 시스템에 의존하는 분야에 큰 영향을 미칠 수 있습니다.
AI 의사 결정의 과제
기존의 AI 의사 결정 방식에는 몇 가지 단점이 있습니다. 전문가 시스템은 형식화된 인간 지식과 수동으로 작성된 규칙에 크게 의존합니다. 최근 몇 년 동안 더욱 대중화된 강화 학습 시스템(RL)은 새로운 작업마다 처음부터 학습해야 하므로 샘플 효율성이 떨어지고 새로운 환경에 대한 일반화 능력이 제한됩니다. AI가 인간의 시연에서 의사 결정을 학습하는 모방 학습(IL) 또한 학습 예제와 행동 시퀀스를 작성하기 위해 광범위한 인간의 노력이 필요합니다.
반면에 LLM과 비전 언어 모델(VLM)은 최소한의 미세 조정이나 프롬프트를 통해 다양한 작업에 빠르게 적응할 수 있습니다. 연구진은 약간의 조정을 통해 동일한 접근 방식을 사용하여 물리적 및 가상 세계에서 개방형 의사 결정 작업을 처리할 수 있는 파운데이션 에이전트를 만들 수 있다고 생각합니다.
파운데이션 모델의 핵심 특징 중 일부는 현실 세계를 위한 파운데이션 에이전트를 만드는 데 도움이 될 수 있습니다. 첫째, LLM은 인터넷에서 가져온 레이블이 지정되지 않은 대규모 데이터 세트에 대해 사전 학습되어 방대한 양의 지식을 얻을 수 있습니다. 둘째, 모델은 이 지식을 사용하여 인간의 선호도 및 특정 작업에 빠르게 맞출 수 있습니다.
파운데이션 에이전트의 특징
연구진은 파운데이션 에이전트의 세 가지 기본 특징을 다음과 같이 제시합니다.
-
환경 상태, 에이전트 행동 및 피드백 신호의 통합 표현.
-
로봇 공학 및 게임 플레이에서 헬스케어 등에 이르기까지 다양한 작업과 도메인에 적용할 수 있는 통합 정책 인터페이스.
-
세계 지식, 환경 및 기타 에이전트에 대한 추론을 기반으로 하는 의사 결정 프로세스.
연구진은 “이러한 특징은 파운데이션 에이전트의 고유성과 과제를 구성하며, 다중 모드 인식, 다중 작업 및 교차 도메인 적응은 물론 퓨샷 또는 제로샷 일반화를 가능하게 한다”고 말합니다.
파운데이션 에이전트 로드맵
파운데이션 에이전트 프레임워크(출처: arxiv)
연구진은 세 가지 핵심 구성 요소를 포함하는 파운데이션 에이전트 개발 로드맵을 제안합니다.
첫째, 인터넷 및 물리적 환경에서 대규모 대화형 데이터를 수집해야 합니다. 현실 세계의 대화형 데이터가 부족하거나 얻기 위험한 환경에서는 Sora와 같은 시뮬레이터 및 생성 모델을 사용할 수 있습니다.
둘째, 파운데이션 에이전트는 레이블이 지정되지 않은 데이터에 대해 사전 학습됩니다. 이 단계를 통해 에이전트는 특정 작업에 맞게 모델을 사용자 지정할 때 유용해지는 의사 결정 관련 지식 표현을 학습할 수 있습니다. 예를 들어, 보상이나 결과를 사용할 수 있는 소규모 데이터 세트에서 모델을 미세 조정하거나 프롬프트 엔지니어링을 통해 사용자 지정할 수 있습니다. 사전 학습 단계에서 얻은 지식을 통해 모델은 이 사용자 지정 단계에서 훨씬 적은 수의 예제로 새로운 작업에 적응할 수 있습니다.
연구진은 “의사 결정을 위한 자기 지도(비지도) 사전 학습을 통해 파운데이션 에이전트는 보상 신호 없이 학습할 수 있으며, 에이전트가 최적이 아닌 오프라인 데이터 세트에서 학습하도록 장려한다”고 말합니다. “이는 레이블이 지정되지 않은 대규모 데이터를 인터넷이나 실제 시뮬레이터에서 쉽게 수집할 수 있는 경우 특히 유용합니다.”
셋째, 파운데이션 에이전트는 세계 지식과 인간의 가치를 통합하기 위해 대규모 언어 모델과 일치해야 합니다.
파운데이션 에이전트의 과제와 기회
파운데이션 에이전트를 개발하는 것은 언어 및 비전 모델에 비해 몇 가지 과제에 직면해 있습니다. 물리적 세계의 정보는 고급 추상화가 아닌 저수준 세부 정보로 구성됩니다. 이로 인해 의사 결정 프로세스와 관련된 변수에 대한 통합 표현을 만드는 것이 더 어려워집니다.
또한 서로 다른 의사 결정 시나리오 간에 큰 도메인 격차가 있어 파운데이션 에이전트를 위한 통합 정책 인터페이스를 개발하기가 어렵습니다. 예를 들어, 모든 모드, 환경 및 가능한 작업을 고려하는 통합 파운데이션 모델을 만드는 것이 한 가지 해결책이 될 수 있습니다. 그러나 모델이 점점 더 복잡해지고 해석하기 어려워질 수 있습니다.
언어 및 비전 모델은 콘텐츠를 이해하고 생성하는 데 중점을 두는 반면, 파운데이션 에이전트는 복잡한 환경 정보를 기반으로 최적의 작업을 선택하는 동적 프로세스에 관여해야 합니다.
저자는 현재의 파운데이션 모델과 개방형 작업을 수행하고 예측 불가능한 환경과 새로운 상황에 적응할 수 있는 파운데이션 에이전트 간의 격차를 해소하는 데 도움이 될 수 있는 몇 가지 연구 방향을 제시합니다.
이미 제어 시스템과 파운데이션 모델의 원칙을 결합하여 학습 데이터에 포함되지 않은 상황과 작업에 보다 다재다능하고 잘 일반화되는 시스템을 만드는 로봇 공학 분야의 흥미로운 발전이 있었습니다. 이러한 모델은 LLM 및 VLM의 방대한 상식 지식을 사용하여 세상에 대해 추론하고 이전에 보지 못했던 상황에서 올바른 행동을 선택합니다.
또 다른 중요한 영역은 자율 주행 자동차로, 연구진은 대규모 언어 모델을 사용하여 상식 지식과 인간의 인지 능력을 자율 주행 시스템에 통합하는 방법을 모색하고 있습니다. 연구진은 파운데이션 에이전트가 인간 전문가와 함께 작업을 수행할 수 있는 헬스케어 및 과학과 같은 다른 영역을 제안합니다.
연구진은 “파운데이션 에이전트는 언어 및 비전 분야에서 파운데이션 모델의 혁명적인 영향과 마찬가지로 의사 결정을 위한 에이전트 학습 환경을 바꿀 가능성이 있다”고 말합니다. “향상된 인식, 적응 및 추론 능력을 갖춘 에이전트는 기존 RL의 한계를 해결할 뿐만 아니라 실제 의사 결정에서 파운데이션 에이전트의 잠재력을 최대한 발휘할 수 있는 열쇠를 쥐고 있습니다.