요약생성
바쁠 때는 리얼라이즈가 내용을 요약해 드려요.
AI 모델은 할 수 있는 것뿐만 아니라 할 수 없는 것과 그 이유에서도 우리를 항상 놀라게 합니다. 흥미로운 새로운 행동은 표면적이면서도 이러한 시스템에 대해 밝혀줍니다. 즉, 마치 인간처럼 무작위로 숫자를 선택한다는 것입니다. 즉, 잘못 선택한다는 것입니다.
하지만 먼저, 그게 무슨 뜻일까요? 사람은 무작위로 숫자를 선택할 수 없나요? 그리고 누군가가 성공적으로 무작위로 선택하고 있는지 어떻게 알 수 있을까요? 이것은 사실 인간이 가진 매우 오래되고 잘 알려진 한계입니다. 우리는 무작위성을 과도하게 생각하고 잘못 이해합니다.
사람에게 동전 던지기 100번을 예측해 보라고 하고, 실제 동전 던지기 100번과 비교해 보세요. 거의 항상 구분할 수 있습니다. 왜냐하면 직관에 반하게 실제 동전 던지기가 덜 무작위처럼 보이기 때문입니다. 예를 들어, 연속으로 6~7번의 앞면이나 뒷면이 나오는 경우가 있는데, 이는 거의 모든 사람이 100번의 예측에 포함하지 않는 것입니다.
0에서 100 사이의 숫자를 선택하라고 요청할 때도 마찬가지입니다. 사람들은 거의 1이나 100을 선택하지 않습니다. 5의 배수도 드물고, 66이나 99처럼 숫자가 반복되는 숫자도 드뭅니다. 이러한 숫자는 우리에게 “무작위” 선택처럼 보이지 않습니다. 왜냐하면 이러한 숫자는 작거나 크거나 독특한 특성을 지니고 있기 때문입니다. 대신 우리는 종종 7로 끝나는 숫자를 선택하고, 일반적으로 중간쯤에서 선택합니다.
이러한 종류의 예측 가능성에 대한 예는 심리학에서 무수히 많습니다. 하지만 AI가 똑같은 일을 한다고 해서 이상하지 않은 것은 아닙니다.
네, Gramener의 호기심 많은 엔지니어들은 비공식적이지만 매혹적인 실험을 수행했습니다. 그들은 여러 주요 LLM 챗봇에게 0에서 100 사이의 무작위 숫자를 선택하라고 요청했습니다.
독자 여러분, 결과는 _무작위_가 아니었습니다.
이미지 출처: Gramener
테스트된 세 가지 모델 모두 가장 결정적인 모드로 설정했을 때 항상 답변이 되는 “좋아하는” 숫자가 있었고, 모델이 종종 가지고 있는 설정인 “온도”가 높을수록 더 자주 나타났습니다. 온도는 모델 결과의 변동성을 높이는 설정입니다.
OpenAI의 GPT-3.5 Turbo는 47을 정말 좋아합니다. 이전에는 42를 좋아했습니다. 물론 더글러스 애덤스의 “은하수를 여행하는 히치하이커를 위한 안내서”에서 우주와 모든 것에 대한 답으로 유명해진 숫자입니다.
Anthropic의 Claude 3 Haiku는 42를 선택했습니다. 그리고 Gemini는 72를 좋아합니다.
더 흥미로운 점은 세 가지 모델 모두 높은 온도에서도 다른 숫자를 선택할 때 인간과 같은 편향을 보였다는 것입니다.
모두 낮은 숫자와 높은 숫자를 피하는 경향이 있었습니다. Claude는 87보다 높거나 27보다 낮은 숫자를 선택하지 않았고, 이러한 숫자조차도 이상치였습니다. 두 자릿수는 철저히 피했습니다. 33, 55, 66은 없었지만 77은 나타났습니다(7로 끝남). 거의 둥근 숫자가 없었습니다. 다만 Gemini는 한 번 가장 높은 온도에서 0을 선택하는 대담함을 보였습니다.
왜 그럴까요? AI는 인간이 아니잖아요! 왜 “무작위”인지 신경 쓸까요? 마침내 의식을 얻었고 이렇게 표현하는 걸까요?!
아닙니다. 이러한 것들에서 항상 그렇듯이 답은 우리가 너무 앞서 나가서 의인화하고 있다는 것입니다. 이러한 모델은 무엇이 무작위이고 무엇이 무작위가 아닌지 신경 쓰지 않습니다. “무작위성”이 무엇인지 모릅니다! 이들은 다른 모든 질문에 답하는 것과 같은 방식으로 이 질문에 답합니다. 즉, 훈련 데이터를 보고 “무작위 숫자를 선택하세요”와 비슷한 질문 뒤에 가장 자주 쓰인 것을 반복합니다. 더 자주 나타날수록 모델은 더 자주 반복합니다.
거의 아무도 그렇게 답하지 않기 때문에 훈련 데이터에서 100이라는 숫자가 어디에 있을까요? AI 모델이 알기로는 100은 그 질문에 대한 적절한 답변이 아닙니다. 실제 추론 능력이 없고 숫자를 전혀 이해하지 못하는 모델은 확률적인 앵무새처럼 답변할 수밖에 없습니다. (마찬가지로, 이러한 모델은 몇 개의 숫자를 곱하는 것과 같은 간단한 산술 문제를 풀지 못하는 경향이 있습니다. 왜냐하면 훈련 데이터에 “112 * 894 * 32 = 3,204,096”라는 문구가 나타날 가능성이 얼마나 되겠습니까? 하지만 새로운 모델은 수학 문제가 있다는 것을 인식하고 서브루틴으로 넘겨줍니다.)
이는 대규모 언어 모델(LLM)의 습관과 이들이 보여줄 수 있는 인간성에 대한 교훈입니다. 이러한 시스템과 상호 작용할 때마다 이들이 의도하지 않았더라도 사람처럼 행동하도록 훈련되었다는 것을 명심해야 합니다. 그래서 의사인간화를 피하거나 방지하기가 매우 어렵습니다.
저는 제목에서 이러한 모델이 “사람이라고 생각한다”고 썼지만, 이는 약간 오해의 소지가 있습니다. 종종 지적하듯이 이들은 전혀 생각하지 않습니다. 하지만 그들의 답변은 항상 사람을 모방합니다. 알거나 생각할 필요 없이 말입니다. 칙피 샐러드 레시피, 투자 조언, 무작위 숫자를 요청하든 과정은 동일합니다. 결과가 인간처럼 느껴지는 이유는 인간이 만들어낸 콘텐츠에서 직접 가져와 리믹스되었기 때문입니다. 물론 사용자의 편의를 위해, 그리고 큰 AI의 최종 목표를 위해 말입니다.