사고의 연결 프롬프팅은 어디까지 신뢰할 수 있을까?

새로운 연구에 따르면 사고의 연결(CoT) 프롬프팅은 매우 좁은 범위의 계획 작업에서만 대규모 언어 모델(LLM)을 향상시키고 광범위하게 일반화되지는 않습니다.

2024년 5월 13일 오후 1:04- 4달 전BDTECHTALKS.COM- Ben Dickson

사고의 연결 프롬프팅은 어디까지 신뢰할 수 있을까?

요약생성

바쁠 때는 리얼라이즈가 내용을 요약해 드려요.

이 기사는 AI 연구의 최신 내용을 다룹니다.

대규모 언어 모델(LLM)은 종종 새로운 작업을 즉석에서 수행하도록 구성할 수 있는 일반적인 문제 해결사로 선전됩니다. 그리고 어떤 경우에는 사실입니다. 한 가지 인기 있는 예는 LLM의 계획 및 추론 작업 성능을 향상시키는 인기 있는 프롬프팅 기술인 '사고의 연결'(CoT)입니다.

그러나 모델이 CoT를 통해 정확히 무엇을 배우고 어디까지 신뢰할 수 있는지는 여전히 의문입니다. 애리조나 주립 대학교의 새로운 논문은 계획 작업에서 사고의 연결 프롬프팅의 한계에 대한 조명을 비춥니다. '사고의 무심함'이라는 제목의 이 연구 결과에 따르면 CoT 프롬프팅으로 인한 개선 사항은 LLM이 알고리즘적 절차를 학습했기 때문이 아닙니다.

사고의 연결 프롬프팅은 LLM 애플리케이션을 위한 중요한 도구로 남아 있습니다. 그러나 그 한계를 알면 함정을 피하는 데 도움이 될 것입니다.

사고의 연결 프롬프팅

CoT는 LLM의 '맥락 내 학습'(ICL) 기능을 활용하는 광범위한 기술의 일부입니다. 기본적으로 ICL은 모델에 새로운 작업을 가르치거나 특정 기술에 집중하도록 프롬프트에 문제-솔루션 쌍 목록을 추가하는 것을 포함합니다.

사고의 연결 프롬프팅에서 각 예제에는 문제에서 솔루션에 도달하는 방법을 보여주는 중간 추론 단계가 주석으로 추가됩니다. CoT 예제를 받은 후 LLM은 새 답변 이전에 유사한 일련의 추론 단계를 출력할 것으로 예상됩니다.

CoT는 Google Research의 논문에서 처음 제안되었으며, 이 기술은 LLM에서 '추론 능력이 자연스럽게 나타나도록' 한다고 제안했습니다. 이후 논문에서는 프롬프트에 '단계별로 생각해 보겠습니다'라는 문구를 추가하여 LLM에서 추론 능력을 활성화하는 프롬프팅 기술인 '제로샷 추론'을 제시했습니다.

사고의 연결 프롬프팅

사고의 연결 프롬프팅(출처: arxiv)

LLM의 행동을 의인화하기 쉽고 CoT의 인상적인 결과는 매우 설득력이 있습니다. 여러 연구와 실험에 따르면 CoT는 복잡한 추론 작업에서 LLM 성능을 크게 향상시킵니다.

이상적으로는 적절하게 구성된 프롬프트는 LLM이 기본 알고리즘적 절차를 광범위한 문제에 일반화하도록 가르쳐야 합니다. 이것은 적당한 양의 인간 교육 노력을 상당한 능력 향상으로 전환하는 데 도움이 될 것입니다. 그러나 LLM은 인간 지능과 매우 다르기 때문에 모델이 CoT 프롬프트에서 무엇을 배우는지 명확하지 않습니다.

애리조나 주립 대학교의 연구에서는 CoT 프롬프팅의 일반화 가능성에 대한 체계적인 조사를 수행합니다. CoT 예제가 대상 문제와 얼마나 유사해야 하는지에 대한 질문에 답하려고 합니다. 보다 기술적으로는 사고의 연결 프롬프팅의 '도메인 외 일반화'와 그 실질적인 의미를 평가합니다.

연구원들은 '우리는 사고의 연결 프롬프트 엔지니어링을 통한 성능 향상 가능성과 올바른 추론 추적을 통해 예제를 생성하는 데 필요한 인적 노동량 간의 상충 관계에 관심이 있습니다.'라고 말합니다.

CoT 평가의 과제

사고의 연결 추론에 대한 연구에서는 일반적으로 논리적 추론 및 상식적 추론 기술이 필요한 질문 답변 문제 데이터 세트인 GSM8KCommonSense QA와 같은 테스트 벤치마크를 사용합니다. 그러나 이러한 벤치마크에는 두 가지 주요 문제가 있습니다.

첫째, 인스턴스를 확장하는 체계적인 방법이 없습니다. 이는 LLM이 CoT 논리를 동일한 유형의 더 큰 인스턴스로 확장할 수 있는지 여부를 평가하는 데 필수적입니다. 둘째, 웹에서 잘 표현되어 LLM의 학습 데이터에 포함되었을 가능성이 높아집니다. 이로 인해 모델이 CoT를 통해 추론하는 법을 배우는지 아니면 메모리 내 지식에 집중할 방법을 찾는 것인지 이해하기 어려울 수 있습니다.

연구원들은 CoT의 한계를 평가하기 위해 일련의 블록을 초기 배열에서 목표 구성으로 배열해야 하는 상식적 문제 영역인 블록 월드에 중점을 둡니다. 블록 월드의 장점은 수동 검토가 필요한 것과 달리 알고리즘적으로 확인할 수 있는 명확하게 정의된 기본 진실이 있다는 것입니다. 또한 블록 월드 문제는 측정 가능한 난이도 수준과 규모로 공식화할 수 있으므로 다양한 특이성 수준에서 CoT 프롬프트의 효과를 평가할 수 있습니다.

블록 월드 문제

블록 월드 문제

CoT의 일반적인 가정은 제공된 지식이 광범위하고 일반적일수록 적용할 수 있는 문제가 많고 필요한 인간 프롬프트 제작이 줄어든다는 것입니다. 반면에 프롬프트가 구체적일수록 좁은 작업 집합에서 더 높은 성능을 발휘해야 합니다.

연구원들은 '이전 연구에서는 이 기술의 효과를 크게 선전했지만, 우리는 프롬프트 세분성과 추론 단계 수의 두 가지 축에서 이러한 상충 관계를 조사하는 데 관심이 있습니다.'라고 말합니다.

블록 월드의 CoT

연구원들은 다양한 종류의 블록 월드 문제와 다양한 세분성과 특이성의 CoT 프롬프트에서 GPT-4 및 Claude 3 Opus의 성능을 테스트했습니다.

사고의 연결 프롬프트는 매우 일반적인 제로샷 명령어부터 블록 월드 스태킹 문제의 하위 집합에 특정된 프롬프트까지 다양합니다. 가장 일반적인 프롬프트는 모든 문제에 적용할 수 있는 반면, 가장 적은 프롬프트는 스태킹 문제의 쉬운 버전에 특정됩니다.

그들의 발견에는 두 가지 주요 관찰 사항이 포함됩니다. 첫째, 목표 스택의 크기가 증가함에 따라 사고의 연결 프롬프트의 특이성에 관계없이 모델의 정확도가 크게 떨어집니다. 따라서 모델에 알파벳 순서로 4개의 블록을 쌓는 예를 제공하고 20개의 블록이 있는 문제를 제공하면 모델은 실패할 가능성이 높습니다. 이는 몇 가지 예에서 논리적 규칙을 추론하는 데 매우 능숙한 인간과 대조적입니다.

블록 월드의 사고의 연결(CoT)

블록 월드 문제에 대한 사고의 연결(CoT) 성능

둘째, 프롬프트의 일반성이 증가함에 따라 작은 스택에서도 모델의 성능이 저하되며 때로는 제로샷 프롬프트보다 성능이 떨어집니다. 반대로 인간은 학습된 기술을 여러 도메인에 걸쳐 효율적으로 전이합니다.

이러한 결과는 문제 클래스가 매우 좁고 주어진 예가 해당 클래스에 특정된 경우 CoT 프롬프트가 문제 클래스 내에서만 일관되게 작동할 수 있음을 보여줍니다.

연구원들은 '우리의 결과는 LLM이 일반적으로 간단한 계획 문제를 해결할 수 없으며 사고의 연결 접근 방식은 손으로 주석이 달린 예제와 쿼리가 충분히 유사한 경우에만 성능을 향상시킨다는 것을 재확인합니다.'라고 말합니다.

CoT의 실제 적용에 대한 의미

연구원들은 '사고의 연결이 인간의 사고나 학습을 복제하기 위한 것이라면 가장 직접적인 패턴 일치를 넘어 일반화되어 매우 유사한 문제에서 보다 강력한 추론을 허용해야 합니다.'라고 말합니다.

적어도 이것은 CoT 프롬프팅의 결과를 경계해야 함을 의미합니다. LLM은 복잡한 작업에서 인간과 유사한 성능을 보일 수 있지만, 내부 작동 방식이 인간의 뇌와 매우 다르기 때문에 비호환성 및 예측할 수 없는 오류가 발생할 수 있음을 인정해야 합니다. 출력에서 추론 단계를 생성한다고 해서 모델의 내부 추론 프로세스에 영향을 미친다는 증거는 없습니다. 최근 연구에 따르면 사고의 연결 프로세스를 의미 없는 토큰으로 대체하더라도 여전히 좋은 결과를 얻을 수 있습니다.

이는 또한 응용 분야에서 CoT를 실제로 적용하는 데 중요한 의미를 갖습니다. 대상 문제와 유사한 주석이 달린 풍부한 예제 집합이 없는 한 CoT는 신뢰할 수 있는 결과를 제공하지 못할 수 있습니다. 그렇지 않으면 CoT 예제를 만드는 데 필요한 수동 노력이 결과에 대한 가치가 있는지 평가해야 합니다.

그럼에도 불구하고 이것이 CoT가 유용하지 않다는 것을 의미하지는 않습니다. LLM은 방대한 세상 지식을 가지고 있으며 일부 추론 작업, 특히 결과를 확인할 수 있는 메커니즘이 있는 경우 매우 유용할 수 있습니다. 예를 들어 펜실베이니아 대학교와 Nvidia에서 개발한 시스템인 DrEureka는 GPT-4를 사용하여 로봇 작업에 대해 추론하고 보상 함수에 대한 여러 후보를 만듭니다. 보상 함수는 강화 학습 정책을 학습하는 데 사용됩니다. 그런 다음 모델은 결과를 반영하고 함수를 개선하라는 지시를 받습니다. 모델의 기본 추론 능력과 여러 인스턴스를 병렬로 실행할 수 있는 기능 덕분에 결과는 수작업으로 만든 결과보다 우수합니다.

애리조나 주립 대학교의 연구는 또한 미래 모델과 CoT 기술을 평가하기 위한 좋은 기준을 제공합니다. '사고의 연결 접근 방식이 단순한 패턴 일치 이상의 결과를 가져오고 언어 모델이 일반화 가능하고 구성적인 추론을 수행하도록 실제로 가르칠 수 있다면 블록 월드와 같은 간단한 상식 벤치마크 세트에서 강력하고 유지 관리 가능한 개선 사항에 반영될 것으로 예상해야 합니다.'