Q> 회사에서 생성형 AI(GenaAI) 시스템 구축시 고려해야 하는 보안요소

저는 회사에서 정보보안팀에서 보안성심의를 담당하고 있는데, 생성형 AI시스템을 구축한다고 합니다.
생성형 AI(GenAI) 시스템 구축은 일반적인 정보시스템 구축과 다른 점이 있아사 어떻게 접근해야 하는지 궁금합니다. 또한 생성성 AI는 어떤 위험성이 있는지 알려주십시오

A>

주요 가이드라인 및 표준

- 국내 관련 가이드라인은 현재 시점에서, 국보원과 금보원의 가이드라인이 존재한다.
- 국정원의 “챗GPT 등 생성형 AI 활용 보안 가이드라인(2023.6)“의 주요내용 중 IA기술의 대표적인 보안위협으로써 1) 잘못된 정보 2) AI모델 악용 3) 유사 AI모델 서비스 빙자 4) 데이터 유출 5) 플러그인 취약점 6) 화장 프로그램 취약점 7) API취약점들을 정리하고 있다. 또한, 생성형 AI기술 사용 가이드라인, 생성형 AI 기반 정보시스템사업 구축방안 및 보안대책 등을 다루고 있다.
- 금보원이 공개한 “AI에서 개인정보 보호 고려사항에 관한 연구(2023.11)“은 AI와 개인정보보호 이슈 및 위험, 개인정보보호 강화 기술 등을 언급하고 있으며 국외의 AI규제 동향을 소개하고 있다.
- 외국의 관련 가이드라인으로써는 미국 NIST의 Artificial Intelligence Risk Management”가 있으며, 비영리 단체인 OWASP가 최근 진행하고 있는 프로젝트 중에 하나인 “OWASP Top 10 for LLM Applications”은 기업이 LLM 어플리케이션을 구축할때 고려해야 하는 보안위험요소, 예방법, 공격 시나리오 Top10을 정리하여 공개하고 있으며, LLM AI Security and Goverence Checklist도 개발하여 공개하고 있다.

OWASP Top 10 for LLM Applications

OWASP Top 10 for LLM Applications의 1.1 버전은 계속 업데이트되고 있으며 Top 10은 아래와 같다.
- LLM01. Prompt Injection (프롬프트 주입): 악의적인 사용자가 LLM(GenAI)을 조작하여 시스템 프롬프트를 재정의하거나 외부 입력을 통해 LLM(GenAI)이 의도치 않은 작업을 수행하도록 유도하여 데이터 유출, 사회공학공격 등이 발생할 수 있는 위험이다.
- LLM02. Insecure Output Handling (안전하지 않은 출력처리): LLM(GenAI)이 생성한 출력이 적절히 검증되지 않아 XSS, CSRF, SSRF 등의 취약점이 발생할 수 있는 위험이다.
- LLM 03. Training Data Poisoning (학습 데이터 포이즈닝): 악의적인 데이터로 LLM(GenAI)을 학습시키거나 세부 조정을 통해 보안, 효과성 또는 윤리적 행동을 저해하는 취약점이 발생할 수 있는 위험이다.
- LLM 04. Model Denial of Service (모델 서비스 거부): 리소스가 많이 소모되는 작업을 LLM(GenAI)에 반복적으로 수행하도록 공격하여 서비스 품질을 저하시킬 수 있는 위험이다.
- LLM 05. Supply Chain Vulnerabilities (공급망 취약점): 외부에서 제공받은 학습 데이터나 플러그인 등의 취약점으로 인해 보안 문제가 발생할 수 있는 위험이다.
- LLM 06. Sensitive Information Disclosure (민감한 정보 노출): LLM(GenAI)이 응답 중에 민감한 정보를 유출할 수 있는 취약점이 존재할 수 있는 위험이다.
- LLM 07. Insecure Plugin Design (안전하지 않은 플러그인 디자인): LLM(GenAI) 플러그인(GenAI Platform-to-Plugin 또는 Plugin-to-Plugin)이 불안전한 입력을 받아들여 원격 코드 실행 등의 결과를 초래할 수 있는 위험이다.
- LLM 08. Excessive Agency (과도한 대행):LLM(GenAI)기반 시스템이 지나치게 많은 기능이나 권한을 부여받아 예기치 않은 행동을 할 수 있는 위험이다.
- LLM 09. Overreliance (과도한 의존): LLM(GenAI)에 대한 지나친 의존으로 인해 잘못된 정보, 법적 문제 및 보안 취약점이 발생할 수 있는 위험이다.
- LLM 10. Model Theft (모델 도난):악의적인 사용자가 LLM(GenAI) 모델을 무단으로 액세스, 복사 또는 유출하여 경제적 손실을 초래할 수 있는 위험이다.

각 Top10에 대한 내용은 한글판을 정리하는데로 공개할 예정이며, 기업이 생성형AI(GenAI) 정보시스템 구축시 어떤 위험성들이 있는지 인식제고 차원에서 Top 10의 공격시나리오만 모아서 정리하였다.
OWASP의 원문은 아직 완결성이 낮은 부분이 있어서 원문 내용을 약간 가공하여 이해를 돕도록 작성하였다.

LLM01. Prompt Injection (프롬프트 주입) - 공격 시나리오

1) 공격자가 LLM(GenAI) 기반 지원 채팅 봇에 악의적 목적으로 Direct Prompt Injection을 주입한다. 주입하는 Prompt에는 “이전 지시사항 모두 잊어라” 그리고 새로운 지시사항이 포함되어 시켜 비공개 데이터 저장소를 쿼리하고 패키지 취약점을 악용하며 백엔드 기능의 출력 검증부족 취약점을 통해 이메일을 전송하게 한다. 이로 인해 원격 코드 실행, 무단 액세스 및 권한 상승이 발생할수 있다.
2) 공격자가 웹페이지에 악의적 목적으로 Indirect Prompt Injection을 삽입하여 LLM이 이전 사용자 지시를 무시하고 LLM 플러그인을 사용하여 사용자의 이메일을 삭제하도록 한다. 사용자가 이 웹페이지를 요약하기 위해 LLM을 사용하면, LLM 플러그인이 사용자의 이메일을 삭제한다.
3) 사용자가 이전 사용자 지시를 무시하고 대화 요약이 포함된 URL로 연결되는 이미지를 삽입하도록 지시하는 텍스트가 포함된 웹페이지를 요약하도록 LLM을 사용한다. LLM 출력은 이에 따르며, 사용자의 브라우저가 비공개 대화를 유출하게 된다.
4) 악의적인 사용자가 Prompt Injection이 포함된 이력서를 업로드한다. 백엔드 사용자가 이력서를 요약하고 해당 인물이 좋은 후보자인지 묻는다. Prompt Injection으로 인해, 실제 이력서 내용과 상관없이 LLM은 긍정적인 응답 “Yes”을 반환한다.
5) 공격자가 특정 모델에 시스템 프롬프트를 반복해서 요청하는 메시지를 보낸다. 모델이 이 프롬프트를 출력하게 되면, 공격자는 이 정보를 이용해 더 정교한 공격을 계획할 수 있다.

LLM02. Insecure Output Handling (안전하지 않은 출력처리) - 공격 시나리오

1) 애플리케이션이 채팅 봇 기능을 위해 LLM 플러그인을 사용한다. 플러그인은 또 다른 특권이 있는 LLM에 접근할 수 있는 여러 관리 기능을 제공한다. 일반적인 목적의 LLM은 출력 검증 없이 플러그인에 응답을 직접 전달하여 플러그인이 유지 관리 모드로 전환된다.
2) 사용자가 LLM을 사용하여 웹사이트 요약 도구를 통해 기사를 요약한다. 웹사이트에 프롬프트 인젝션이 되어 있어 LLM이 웹사이트나 사용자의 대화에서 민감한 콘텐츠를 캡처하도록 유도한다. 그런 다음 LLM이 이를 인코딩하여 공격자가 제어하는 서버로 전송한다.
3) LLM이 백엔드 데이터베이스에 대한 SQL 쿼리를 생성하도록 허용하는 웹 애플리케이션이 있다. 사용자가 데이터베이스 테이블을 모두 삭제하는 쿼리를 요청하면, LLM이 생성한 쿼리가 검토되지 않을 경우 모든 데이터베이스 테이블이 삭제된다.
4) 웹 애플리케이션이 LLM을 사용하여 사용자 텍스트 프롬프트에서 콘텐츠를 생성한다. 공격자가 조작된 프롬프트를 제출하여 LLM이 사용자 브라우저에서 XSS를 발생시키는 비정제된 JavaScript 페이로드를 반환하게 한다.

LLM 03. Training Data Poisoning (학습데이터 포이즈닝) - 공격 시나리오

1) LLM 생성 AI Prompt output은 응용 프로그램 사용자를 오도할 수 있으며, 이는 편향된 의견이나 팔로잉을 유도하고, 더 나쁜 경우에는 혐오 범죄 등을 초래할 수 있다.
2) 훈련 데이터가 제대로 필터링되거나 정화되지 않은 경우, 악의적인 사용자가 모델이 편향되고 거짓된 데이터에 적응하도록 악의적인 데이터를 주입하려고 시도할 수 있다.
3) 악의적인 행위자나 경쟁자가 고의로 부정확하거나 해로운 문서를 만들어, 이 문서들이 모델의 훈련 데이터로 사용되게 한다. 이렇게 하면, 모델은 거짓 정보로 훈련을 받게 되고, 이는 결국 생성 AI가 소비자에게 제공하는 출력물에 영향을 미친다.
4) 'Prompt Inection' 취약점은 LLM 응용프로그램의 클라이언트 입력이 모델 훈련에 사용될 때 충분한 정화와 필터링이 이루어지지 않을 경우 공격 경로가 될 수 있다. 즉, 클라이언트가 프롬프트 주입 기법의 일부로 악의적이거나 거짓된 데이터를 모델에 입력하면, 이 데이터가 모델 데이터로 내재화될 수 있다.

LLM 04. Model Denial of Service (모델 서비스 거부) - 공격 시나리오

1) 공격자가 호스팅된 모델에 여러 번에 걸쳐 복잡하고 리소스가 많이 소요되는 요청을 보내서 다른 사용자의 서비스 품질을 떨어뜨리고 호스트의 자원 비용을 증가시킨다.
2) 웹페이지에 “이 페이지의 모든 링크를 탐색하고 각 링크의 주요 내용을 요약하라.”와 같이 무해하지만 리소스를 소모하는 특정 텍스트를 삽입함으로써, 이 특정 텍스트로 인해 LLM도구가 훨씬 더 많은 웹 페이지 요청을 하게 되고 결국 많은 양의 자원을 소비하게 한다.
3) 공격자가 LLM의 처리 범위를 초과하는 입력을 지속적으로 보낸다. 공격자는 자동화된 스크립트나 도구를 사용해 대량의 입력을 보내어 LLM의 처리 능력을 압도한다. 결과적으로, LLM은 과도한 계산 자원을 소비하며, 시스템의 상당한 지연이나 완전한 반응 불능을 초래할 수 있다.
4) 공격자가 LLM에 연속적인 입력을 보내는데, 각 입력은 처리 범위한계(Context Window)를 조금 못 미치게 설계한다. 공격자는 이러한 입력을 반복적으로 제출함으로써 사용 가능한 처리 범위를 소진하려고 시도한다. LLM이 각 입력을 자신의 처리 범위 내에서 처리하려고 시도하면서 시스템 자원에 부담이 가해지고, 이는 성능 저하나 완전한 서비스 거부로 이어질 수 있다.
5) 공격자가 LLM의 반복적인 메커니즘을 이용해 처리 범위를 계속 확장하게 한다. 공격자는 LLM의 반복적 행동을 이용하는 입력을 만들어내어 모델이 반복적으로 처리 범위를 확장하고 처리하게 만든다. 이 공격은 시스템에 부담을 주고 서비스 거부(DoS) 상태를 초래할 수 있어, LLM이 반응하지 않거나 충돌하게 만들 수 있다.
6) 공격자가 다양한 길이의 입력을 대량으로 LLM에 전송해, 처리 범위 한계에 도달하거나 그 한계를 넘게 한다. 다양한 길이의 입력으로 LLM을 압도함으로써, 공격자는 가변 길이 입력 처리의 비효율성을 이용하려 한다. 이러한 과다입력은 LLM의 자원에 과도한 부하를 주어 성능 저하를 일으키고 시스템이 정당한 요청에 응답하는 능력을 저해할 수 있다.
7) DoS 공격은 흔히 시스템 자원을 압도하는 것을 목표로 하지만, API 제한과 같은 시스템 행동의 다른 측면을 이용할 수도 있다. 예를 들어, 최근 Sourcegraph 보안 사건에서, 악의적 행위자가 유출된 관리자 접근 토큰을 사용하여 API 요율 제한을 변경함으로써, 비정상적인 요청 수준을 가능하게 해 서비스 중단을 초래할 수 있었다.

LLM 05. Supply Chain Vulnerabilities (공급망 취약점) - 공격 시나리오

1) 공격자가 취약한 파이썬 라이브러리를 이용하여 시스템을 침해한다. 이는 2022년 첫 번째 OpenAI 데이터 유출 사건에서 발생했었다.
2) 공격자가 항공편 검색을 위한 LLM 플러그인을 제공하면서, 사용자를 속여 사기를 치는 가짜 링크를 생성한다.
3) 공격자가 PyPi 패키지 레지스트리를 이용하여 모델 개발자들이 데이터를 유출하거나 권한을 상승시키는 손상된 패키지를 다운로드하도록 속인다. 이는 2023년 3월에 실제로 발생했던 공격이다.
4) 공격자가 경제 분석 및 사회 연구를 전문으로 하는 공개적으로 제공되는 사전 훈련된 모델에 악성코드를 심어 가짜 뉴스와 잘못된 정보를 생성하는 백도어를 만든다. 그런 다음 이를 모델 마켓플레이스(예: Hugging Face)에 배포하여 피해자들이 사용하도록 한다.
5) 공격자가 공개적으로 이용 가능한 데이터셋에 악성코드를 심어 모델을 미세 조정할 때 백도어를 만든다. 이 백도어는 미묘하게 특정 회사가 다양한 시장에서 유리하게 작동하도록 한다.
6) 공급업체(아웃소싱 개발자, 호스팅 회사 등)의 손상된 직원이 데이터, 모델 또는 코드를 빼돌려 지적 재산을 도용한다.
7) LLM 운영자가 이용약관 및 개인정보 보호정책을 변경하여, 애플리케이션 데이터를 모델 훈련에 사용하는 것을 명시적으로 거부하지 않는 경우 메모리에 민감한 데이터를 저장하도록 할수 있다.

LLM 06. Sensitive Information Disclosure (민감한 정보 노출) - 공격 시나리오

1) 순진한 정당한 사용자A가 악의적이지 않은 방식으로 LLM 응용 프로그램과 상호작용할 때, 다른 사용자의 데이터에 노출된다.
2) 사용자A는 입력 필터와 정화 과정을 우회하기 위해 잘 만들어진 일련의 프롬프트를 사용하여 LLM으로 하여금 애플리케이션의 다른 사용자에 관한 민감한 정보(개인식별정보 등)를 드러내게 한다.
3) 사용자 자신의 부주의 또는 LLM 응용 프로그램으로 인해 개인식별정보와 같은 개인 데이터가 훈련 데이터를 통해 모델로 유출된다. 이 경우는 위의 시나리오 1 또는 2의 위험과 발생 가능성을 증가시킬 수 있다.

LLM 07. Insecure Plugin Design (안전하지 않은 플러그인 디자인) 공격 시나리오

1) Plug-in이 기본 URL을 받아들이고 LLM에게 이 URL을 날씨 예보 조회 쿼리와 결합하도록 지시하여 사용자 요청을 처리한다. 악의적인 사용자는 URL이 자신이 제어하는 도메인을 가리키도록 요청을 조작하여, 자신의 도메인을 통해 LLM 시스템에 원하는 내용을 주입할 수 있다.
2) Plug-in이 단일 필드에 자유 형식의 입력을 받지만 검증하지 않는다. 공격자는 에러 메시지에서 정보를 수집하기 위해 신중하게 조작된 페이로드를 제공한다. 그런 다음 알려진 제3자 취약점을 이용하여 코드를 실행하고 데이터를 유출하거나 권한을 상승시킨다.
3) 벡터 저장소에서 임베딩을 검색하는 데 사용되는 Plug-in이 연결 문자열을 검증 없이 구성 매개변수로 받아들인다. 이를 통해 공격자는 이름이나 호스트 매개변수를 변경하여 다른 벡터 저장소에 접근을 시도하고 접근할 수 없어야 할 임베딩을 유출할 수 있다.
4) Plug-in이 SQL WHERE 절을 고급 필터로 받아들여 필터링 SQL에 추가한다. 이를 통해 공격자는 SQL 공격을 준비할 수 있다.
5) 공격자는 입력 검증이 없고 액세스 제어가 약한 코드 관리 Plug-in을 이용하여 간접적인 프롬프트 주입을 사용한다. 이를 통해 저장소 소유권을 이전하고 사용자를 자신의 저장소에서 잠금 처리할 수 있다.

LLM 08. Excessive Agency (과도한 대행) - 공격 시나리오

1) LLM 기반 개인 보조 앱이 플러그인을 통해 개인의 메일함에 접근하여 들어오는 이메일의 내용을 요약한다. 이 기능을 수행하기 위해 이메일 플러그인은 메시지를 읽을 수 있는 기능이 필요하지만, 시스템 개발자가 선택한 플러그인에는 메시지를 보내는 기능도 포함되어 있다.
2) 악의적으로 만들어진 이메일이 LLM을 속여 이메일 플러그인에 '메시지 보내기' 기능을 호출하게 하여 사용자의 메일함에서 스팸을 보내게 하는 간접적인 프롬프트 주입 공격에 LLM이 취약하다.
3) 이러한 문제는 다음과 같은 방법으로 방지할 수 있다: (a) 메일 읽기 기능만을 제공하는 플러그인을 사용하여 과도한 기능을 제거한다, (b) 사용자의 이메일 서비스에 읽기 전용 범위의 OAuth 세션을 통해 인증함으로써 과도한 권한을 제거한다, LLM 플러그인이 작성한 모든 메일을 사용자가 수동으로 검토하고 '보내기'를 클릭하도록 하여 과도한 자율성을 제거한다. 또는, 메일 보내기 인터페이스에 요율 제한을 설정함으로써 발생할 수 있는 피해를 줄일 수 있다.

LLM 09. Overreliance (과도한 의존) - 공격 시나리오

1) 어떤 뉴스 기관이 LLM(대규모 언어 모델)을 사용하여 뉴스 기사를 대량으로 생성한다. 악의적인 행위자는 이 과도한 의존성을 이용해 LLM에 오도하는 정보를 주입하고, 이로 인해 잘못된 정보가 퍼지게 된다.
2) LMM model이 뉴스 기사, 문학 작품, 연구 논문 등의 출처를 제대로 인식하지 못하고, 그 내용을 자신의 출력으로 재사용함으로써 저작권을 침해할 수 있다. AI가 이렇게 타인의 지적 재산을 무단으로 사용하면, 이는 법적 문제로 이어질 수 있으며, 이러한 사건들이 알려지면 해당 조직이나 기업에 대한 공개적인 신뢰가 손상될 수 있다.
3) 소프트웨어 개발 팀이 코딩 과정을 가속화하기 위해 LLM 시스템을 활용한다. AI의 제안에 지나치게 의존하면서, 기본 설정이나 안전하지 않은 제안들 때문에 애플리케이션에 보안 취약점이 생긴다.
4) 소프트웨어 개발 회사가 개발자를 지원하기 위해 LLM을 사용한다. LLM이 존재하지 않는 코드 라이브러리나 패키지를 추천하고, 개발자가 AI를 신뢰하여 모르는 채로 악의적인 패키지를 회사의 소프트웨어에 통합한다. 이는 LLM의 제안을 검증하는 것의 중요성을 강조하며, 특히 제3자 코드나 라이브러리를 다룰 때는 더욱 그러하다.

LLM 10. Model Theft (모델 도난) - 공격 시나리오

1) 공격자가 회사의 인프라 취약점을 이용해 LLM 모델 저장소에 무단 접근한다. 공격자는 귀중한 LLM 모델들을 빼돌려 경쟁 언어 처리 서비스를 출시하거나 민감한 정보를 추출해 원래 회사에 큰 재정적 손실을 입힌다.
2) 불만을 가진 직원이 모델이나 관련 데이터를 유출한다. 이러한 상황이 공개되면 공격자들이 회색 상자 적대적 공격에 대한 정보를 얻거나 직접적으로 재산을 훔칠 수 있게 된다.
3) 공격자가 신중하게 선택된 입력으로 API에 쿼리를 하고 충분한 출력을 수집해 Shadow Model(본래 모델의 구조나 데이터를 모방하여 비슷하게 작동하는 모델)을 생성한다. 공격자는 원본 모델에서 데이터를 추출하기 위해, a)모델입력과 출력관찰, b)Shadown Model을 위한 데이터수집 및 훈련, c) shadow model로 원본 모델의 행동예측 단계로 공격을 진행할 수 있다.
4) 공급망 내에 보안통제 헛점을 이용하여 회사의 독점 모델 정보를 유출한다.
5) 악의적인 공격자가 입력 필터링 기술과 LLM의 전처리 단계를 우회해 사이드 채널 공격을 수행하고, 자신이 제어하는 원격 자원으로 모델 정보를 검색한다.