백도어 차단: 프롬프트 인젝션 이해 및 위험 최소화

프롬프트 인젝션의 핵심은 심각하게 받아들이고 위험을 최소화하되, 이로 인해 발전이 저해되어서는 안 된다는 것입니다.

2024년 5월 26일 오후 7:05- 4달 전VENTUREBEAT.COM- Cai GoGwilt, Ironclad

백도어 차단: 프롬프트 인젝션 이해 및 위험 최소화

요약생성

바쁠 때는 리얼라이즈가 내용을 요약해 드려요.

새로운 기술은 새로운 기회를 의미하지만, 동시에 새로운 위협을 수반합니다. 특히 생성형 AI처럼 복잡하고 생소한 기술의 경우, 기회와 위협을 구분하기가 쉽지 않습니다.

초기에 많은 사람들은 AI의 환각 현상을 항상 원치 않고 잠재적으로 해로운 동작으로 여겨 완전히 근절해야 할 대상으로 생각했습니다. 그러나 이후 환각 현상이 가치 있을 수 있다는 의견이 제기되면서 논의가 전환되었습니다.

OpenAI의 Isa Fulford는 이를 잘 표현했습니다. 그녀는 “모델이 창의적인 생각을 할 수 있다는 점에서 환각을 일으키지 않는 모델을 원하지 않을 수도 있습니다.”라고 지적하며, “다만 적절한 맥락에서 환각을 일으키는 모델을 원하는 것입니다. 창의적인 글쓰기나 문제 해결을 위한 새로운 창의적 방법을 요청하는 경우처럼 환각이 허용되는 맥락도 있지만, 그렇지 않은 경우도 있습니다.”라고 덧붙였습니다.

이러한 관점은 현재 환각 현상에 대한 지배적인 견해입니다. 그리고 이제 ‘프롬프트 인젝션'이라는 새로운 개념이 부상하면서 많은 우려를 낳고 있습니다. 이는 일반적으로 사용자가 의도적으로 AI 솔루션을 악용하여 원치 않는 결과를 생성하는 것을 말합니다. AI의 잠재적 위험에 대한 대부분의 논의가 사용자에게 미칠 수 있는 부정적인 결과에 초점을 맞추는 것과 달리, 프롬프트 인젝션은 AI 제공자에게 가해지는 위험을 강조합니다.

프롬프트 인젝션에 대한 과장된 과대망상이 많다고 생각하는 이유를 공유하겠지만, 그렇다고 해서 실질적인 위험이 없는 것은 아닙니다. 프롬프트 인젝션은 AI와 관련하여 위험이 양면성을 지닌다는 것을 상기시켜줍니다. 사용자, 비즈니스 및 평판을 안전하게 보호하는 LLM을 구축하려면 프롬프트 인젝션이 무엇이며 이를 어떻게 완화할 수 있는지 이해해야 합니다.

프롬프트 인젝션의 작동 방식

이는 생성형 AI의 놀랍고 획기적인 개방성과 유연성의 단점으로 볼 수 있습니다. AI 에이전트가 잘 설계되고 실행되면 실제로 무엇이든 할 수 있는 것처럼 느껴집니다. 마치 마법과 같습니다. 원하는 것을 말하기만 하면 AI가 알아서 해줍니다!

물론 문제는 책임감 있는 기업이라면 실제로 “무엇이든 하는” AI를 세상에 내놓고 싶어 하지 않는다는 것입니다. 엄격한 사용자 인터페이스를 갖는 경향이 있는 기존 소프트웨어 솔루션과 달리, 대규모 언어 모델(LLM)은 기회주의적이고 악의적인 의도를 가진 사용자에게 한계를 테스트할 수 있는 많은 여지를 제공합니다.

AI 에이전트를 악용하기 위해 전문 해커가 될 필요는 없습니다. 그저 다양한 프롬프트를 시도하고 시스템이 어떻게 반응하는지 확인하면 됩니다. 가장 간단한 형태의 프롬프트 인젝션은 사용자가 AI가 콘텐츠 제한을 우회하거나 제어를 무시하도록 유도하는 것입니다. 이를 “탈옥”이라고 합니다. 가장 유명한 사례 중 하나는 2016년 Microsoft가 트위터 봇 프로토타입을 출시했을 때인데, 이 봇은 인종차별적이고 성차별적인 발언을 하는 법을 빠르게 “학습”했습니다. 최근에는 Microsoft Bing(현재 “Microsoft Co-Pilot”)이 프롬프트 인젝션 공격을 통해 구축과 관련된 기밀 데이터를 유출하도록 조작되었습니다.

다른 위협으로는 사용자가 AI를 속여 기밀 정보를 누설하도록 유도하는 데이터 추출이 있습니다. 민감한 고객 금융 정보를 제공하도록 설득된 AI 뱅킹 지원 에이전트나 직원 급여 데이터를 공유하는 HR 봇을 상상해 보세요.

AI가 고객 서비스 및 영업 기능에서 점점 더 큰 역할을 수행하도록 요구됨에 따라 또 다른 과제가 대두되고 있습니다. 사용자가 AI를 설득하여 엄청난 할인이나 부적절한 환불을 받아낼 수 있습니다. 최근 한 자동차 판매점 봇은 창의적이고 집요한 한 사용자에게 2024년형 Chevrolet Tahoe를 1달러에 “판매”했습니다.

조직을 보호하는 방법

오늘날에는 사람들이 AI의 안전 장치를 우회하는 방법에 대한 팁을 공유하는 포럼이 많이 있습니다. 일종의 군비 경쟁과 같습니다. 취약점이 드러나 온라인에서 공유되면 일반적으로 공개 LLM에서 빠르게 차단됩니다. 다른 봇 소유자와 운영자는 이를 따라잡는 데 어려움을 겪습니다.

AI 악용으로 인한 모든 위험을 피할 수 있는 방법은 없습니다. 프롬프트 인젝션은 사용자 프롬프트를 허용하는 모든 AI 시스템에 내장된 백도어와 같다고 생각하세요. 문을 완전히 잠글 수는 없지만, 열기 어렵게 만들 수는 있습니다. 나쁜 결과가 발생할 가능성을 최소화하기 위해 지금 당장 해야 할 일은 다음과 같습니다.

자신을 보호하기 위해 올바른 이용 약관 설정

법적 조건만으로는 안전을 보장할 수 없지만, 법적 조건을 마련하는 것은 여전히 중요합니다. 이용 약관은 명확하고 포괄적이며 솔루션의 특정 특성과 관련이 있어야 합니다. 이를 건너뛰지 마세요! 사용자가 반드시 동의하도록 하세요.

사용자가 사용할 수 있는 데이터 및 작업 제한

위험을 최소화하는 가장 확실한 해결책은 필요한 것만 액세스할 수 있도록 제한하는 것입니다. 에이전트가 데이터나 도구에 액세스할 수 있다면, 사용자가 시스템을 속여 이를 사용할 수 있도록 하는 방법을 찾을 가능성이 있습니다. 이것이 바로 최소 권한의 원칙입니다. 항상 좋은 설계 원칙이었지만, AI에서는 절대적으로 중요합니다.

평가 프레임워크 활용

LLM 시스템이 다양한 입력에 어떻게 반응하는지 테스트할 수 있는 프레임워크와 솔루션이 있습니다. 에이전트를 사용할 수 있도록 하기 전에 이 작업을 수행하는 것이 중요하지만, 지속적으로 추적하는 것도 중요합니다.

이를 통해 특정 취약점을 테스트할 수 있습니다. 기본적으로 프롬프트 인젝션 동작을 시뮬레이션하여 취약점을 이해하고 차단할 수 있습니다. 목표는 위협을 차단하거나 최소한 모니터링하는 것입니다.

새로운 맥락에서의 친숙한 위협

자신을 보호하는 방법에 대한 이러한 제안이 친숙하게 느껴질 수 있습니다. 기술적 배경 지식이 있는 많은 사람들에게 프롬프트 인젝션으로 인한 위험은 브라우저에서 앱을 실행할 때의 위험과 유사합니다. 맥락과 몇 가지 세부 사항은 AI 고유의 것이지만, 악용을 방지하고 코드 및 데이터 추출을 차단해야 하는 과제는 유사합니다.

LLM은 새롭고 다소 생소하지만, 이러한 유형의 위협을 예방하기 위한 기술과 관행이 있습니다. 새로운 맥락에서 이를 적절히 적용하기만 하면 됩니다.

기억하세요. 이는 단순히 마스터 해커를 차단하는 것에 관한 것이 아닙니다. 때로는 명확한 문제(많은 “악용”은 단순히 사용자가 같은 것을 반복해서 요청하는 것입니다!)를 차단하는 것에 관한 것입니다.

또한 예상치 못한 원치 않는 LLM 동작에 대해 프롬프트 인젝션을 비난하는 함정에 빠지지 않는 것이 중요합니다. 항상 사용자의 잘못은 아닙니다. LLM은 추론 및 문제 해결 능력을 보여주고 창의성을 발휘할 수 있습니다. 따라서 사용자가 LLM에 무언가를 수행하도록 요청하면 솔루션은 요청을 이행하기 위해 사용 가능한 모든 것(데이터 및 도구)을 살펴봅니다. 결과가 놀랍거나 문제가 될 수 있지만, 자체 시스템에서 비롯되었을 가능성도 있습니다.

프롬프트 인젝션의 핵심은 다음과 같습니다. 심각하게 받아들이고 위험을 최소화하되, 이로 인해 발전이 저해되어서는 안 됩니다.

Cai GoGwilt는 Ironclad의 공동 창립자이자 최고 설계자입니다.