요약생성
바쁠 때는 리얼라이즈가 내용을 요약해 드려요.
개발자와 연구자들은 텍스트 기반 애플리케이션을 넘어 대규모 언어 모델(LLM)의 기능을 확장할 수 있는 방법을 찾고 있습니다. 주목받는 흥미로운 분야 중 하나는 비디오 게임입니다. LLM에 게임을 플레이하기 위한 지침을 제공하고 목표를 달성하고 점수를 극대화할 수 있는 방법을 찾도록 합니다.
Amazon Web Services(AWS)의 수석 개발자 애드보킷인 Banjo Obayomi는 최근 다양한 최첨단 LLM을 스트리트 파이터 III에서 서로 겨루게 하는 프로젝트를 만들었습니다.
LLM이 게임을 플레이하는 모습을 보는 것은 재미있지만, 그 결과는 실시간 응답 및 역동적인 의사 결정이 필요한 실제 애플리케이션에 중요한 의미를 가질 수 있습니다.
“빌더이자 게이머로서 저는 항상 비디오 게임을 하는 AI 에이전트에 매료되었습니다.”라고 Obayomi는 TechTalks에 말했습니다.
게임 플레이 AI 시스템을 만드는 고전적인 기술은 강화 학습(RL)을 사용하는 것입니다. 이러한 설정에서 RL 에이전트는 게임 환경에서 보상을 극대화할 수 있는 정책을 배우기 위해 수백만 라운드를 플레이해야 합니다. RL 기반 시스템은 지난 10년 동안 큰 발전을 이루었습니다. 그러나 강화 학습 에이전트를 훈련하는 것은 매우 복잡하며 많은 시간과 값비싼 컴퓨팅 리소스가 필요합니다.
“LLM을 사용하면 모델은 이미 사전 훈련 단계를 거쳤으며 프롬프트를 사용하기만 하면 바로 사용할 수 있습니다.”라고 Obayomi는 말했습니다.
Obayomi는 OpenAI 및 Mistral 모델을 스트리트 파이터 III에서 서로 겨루게 하는 오픈 소스 프로젝트인 LLM Colosseum에서 영감을 받았습니다. 이 프로젝트는 다양한 게임을 하는 AI 에이전트를 만드는 에뮬레이터인 Diambra를 사용합니다.
각 모델에는 게임에 대한 설명, 현재 상태, 이전 이동 및 상대방의 이동이 제공됩니다. 정보에 따라 다음 이동을 선택해야 합니다. 그런 다음 작업이 에뮬레이터로 전송되고 결과가 모델로 다시 전송되어 다음 이동을 선택합니다. 이 접근 방식의 흥미로운 점은 모델이 이전 게임 데이터에 대해 훈련되지 않고 순수한 문맥 내 학습을 사용하여 동작을 선택한다는 것입니다.
Obayomi는 Anthropic, AI21 Labs, Cohere 및 Mistral(OpenAI 제외)의 모델을 포함하여 광범위한 LLM에 대한 서버리스 액세스를 제공하는 Amazon의 Bedrock 플랫폼을 사용했습니다.
Obayomi는 14개 모델로 314경기를 치렀습니다. 흥미롭게도 가장 높은 Elo 순위는 Anthropic의 Claude 3 모델의 가장 작고 빠른 버전인 Haiku에 속했습니다. Obayomi는 블로그 게시물에서 “더 작은 모델이 경기장에서 더 큰 모델보다 성능이 뛰어났는데, 이는 더 짧은 대기 시간으로 인해 더 빠른 반응 시간과 경기당 더 많은 이동이 가능했기 때문일 가능성이 높습니다.”라고 적었습니다.
Quivr CEO인 Stan Girard가 만든 원래 LLM Colosseum은 ChatGPT-3.5 Turbo에 가장 높은 Elo 등급을 부여했는데, 이는 매우 빠른 추론 속도 때문일 수도 있습니다.
이 실험은 또한 현재 LLM의 몇 가지 한계를 강조했습니다. 예를 들어, 어떤 경우에는 모델이 환각으로 인해 게임 내에 존재하지 않는 움직임을 시도했습니다. 또 다른 경우 Claude 2.1은 폭력을 조장하지 않기 위해 게임을 하기를 거부했습니다. 반면에 Claude 3는 요청의 맥락이 게임이라는 것을 감지하고 프롬프트를 준수할 수 있었습니다(탈옥에 대한 설정으로 밝혀질 수 있을지 궁금합니다).
스트리트 파이터 III를 플레이하는 LLM의 Elo 등급(Amazon Bedrock 기반)
실시간 게임을 흥미로운 연구 분야로 만드는 몇 가지 요소가 있습니다. 첫째, 속도와 정확성 사이의 적절한 균형이 필요합니다. 둘째, 상황 정보에 대한 뛰어난 적응력이 필요합니다. 셋째, 에이전트는 에피소드의 길이를 통해 학습할 수 있는 충분한 메모리를 확보해야 합니다. 이러한 요구 사항을 충족하는 다양한 실제 애플리케이션이 있습니다.
“대부분의 사람들은 비실시간 환경에서 챗봇 유형 세션에서 LLM과 상호 작용했습니다.”라고 Obayomi는 말했습니다. “이 실험은 LLM이 무엇을 말해야 할지 도와주는 이어피스의 LLM과 같은 대화 탐색이나 LLM이 스포츠 게임이나 비디오 게임 스트림에서 해설하는 라이브 방송과 같이 실시간 작업을 수행하도록 LLM을 도입할 수 있음을 보여줍니다.”
스트리트 파이터 III 라운드는 짧지만 LLM 에이전트를 더 긴 기간 동안 지속되는 더 복잡한 게임에 어떻게 적용할 수 있을지 지켜보는 것은 흥미로울 것입니다. Obayomi는 앞으로 다른 게임도 테스트할 예정입니다. 그는 자신의 프로젝트에 대한 코드를 GitHub에 공개했으며 직접 사용해 볼 수 있습니다.
프로젝트를 개선하기 위한 몇 가지 방법이 떠오릅니다. 예를 들어, 한 가지 수정 사항은 LLM이 게임을 플레이한 후 자신의 행동을 반성하여 게임 플레이를 개선하는 데 도움이 되는 피드백 루프를 만드는 것입니다. 게임이 끝나면 모델(또는 더 강력한 모델)에 전체 게임 기록을 제공하고 이동을 분석하고 어떤 종류의 행동이 더 성공적인지 판단하도록 지시할 수 있습니다. 그런 다음 이러한 성찰을 전술적 지침으로 바꾸어 다음 라운드에 사용되는 시스템 프롬프트에 추가할 수 있습니다. 이러한 방식으로 모델은 각 라운드 후에 스스로 개선하는 방법을 배울 수 있습니다. 이는 미세 조정 없이 문맥 내 학습을 사용하여 LLM의 동작을 변경하는 방법의 예입니다. DeepMind의 OPRO는 이러한 자체 최적화를 위한 흥미로운 프레임워크를 제공합니다.
또 다른 가능한 개선 사항은 속도가 제한되지 않는 제어된 환경에서 강력한 모델 게임을 플레이하는 것입니다. 이를 통해 모델은 시간 제약에 제한되지 않고 전체 정확도를 사용할 수 있습니다. 그런 다음 출력을 사용하여 해당 특정 작업에 대해 작고 빠른 모델을 미세 조정할 수 있습니다. 이것은 증류의 한 예가 될 것입니다. 이 실험에서 어떤 새로운 경험을 얻을 수 있을지 지켜보는 것은 흥미로울 것입니다.