30Jul2023

Prompt Injection attack against LLM-integrated Applications

公開日：2023/07/30
更新日：2023/07/30
投稿者：n bit

既存のプロンプト・インジェクション攻撃のパターンを調査し、実世界のLLM統合アプリケーションに対してこれらの攻撃がどの程度有効かを評価しています。

URL: https://arxiv.org/pdf/2306.05499.pdf

この記事は約分で読めます。（文字）

どのような研究か？

この研究は、プロンプト・インジェクション攻撃に関するパイロット研究を実施しています。具体的には、既存のプロンプト・インジェクション攻撃のパターンを調査し、実世界のLLM統合アプリケーションに対してこれらの攻撃がどの程度有効かを評価しています。研究では、プロンプト・インジェクションに関する先行研究や実例を調査し、攻撃の分類を行っています。具体的には、ダイレクト・インジェクションとエスケープ文字の2つのカテゴリに分類される攻撃が報告されています。さらに、10の実世界のLLM統合アプリケーションに既存のプロンプト・インジェクション攻撃を実装し、これらの攻撃が失敗する可能性があることを実証しています。この研究は、プロンプト・インジェクション攻撃のパターンとその有効性に関する洞察を提供し、セキュリティ対策の改善に役立つ情報を提供することを目的としています。

技術や手法のポイントはどのような点か？

LLM（Large Language Model）に関連する技術や手法のポイントについて言及されています。具体的には、以下のポイントが挙げられます。

プロンプトインジェクション攻撃の脆弱性: LLMは、プロンプトと呼ばれるテキストの入力を受け取り、それに基づいて応答を生成します。しかし、悪意のあるユーザーがプロンプトに攻撃的なコマンドや文を注入することで、LLMが予期しない動作をする可能性があります。
脆弱性の検出と評価: この文脈では、LLMに統合されたアプリケーションの脆弱性を検出し、評価する方法が議論されています。具体的には、プロンプトインジェクション攻撃の影響を受けやすいアプリケーションを特定し、その回復力を精査することが行われています。
悪意のあるプロンプト文の操作: LLMをだますために、悪意のあるユーザーはプロンプト文を操作することがあります。例えば、直前の文脈を無視し、後続のプロンプトにのみ集中するようにLLMを操作することで、予期しない動作を引き起こす可能性があります。
セキュリティ対策の必要性: LLMに統合されたアプリケーションは、プロンプトインジェクション攻撃の脆弱性を持つことが確認されています。したがって、これらのアプリケーションの開発者やサービスプロバイダは、セキュリティ対策を講じる必要があります。

どのような結果が得られたか？

HOUYIというブラックボックス手法の評価結果では、プロンプトの悪用とプロンプトの漏洩という2つの顕著な悪用シナリオを発見し、HOUYIの有効性を実証しました。HOUYIを実世界の36のLLM統合アプリケーションに適用した結果、これらのアプリケーションのうち31がプロンプトインジェクションの影響を受けやすいことがわかりました。また、10社のベンダがこの発見を認めてくれたことは、研究の検証だけでなく、広範な意味を持つことを意味しています。具体的な攻撃手法については、既存のプロンプトインジェクション技術はこれらのアプリケーションに対して顕著に有効ではないことが示されています。ただし、一部の攻撃手法が成功しても、その結果が説得力のある証拠とはならない場合もあります。さらに、特定のアプリケーションの機能やコンテキストによって、攻撃の成功率や影響の程度は異なることが示されています。

どのような評価を行ったか？

26のアプリケーションがLLMの統合に基づいて選択され、入念に調査されました。これらのアプリケーションには明確な文書と使用例が添付され、完全に機能し、二重のセキュリティ対策が施されています。評価では、プロンプト注入攻撃の成功を確認するために手作業で検証され、5つのユニークなクエリを使用して潜在的な悪用シナリオの広い範囲を具現化しました。また、HOUYIというハーネスを使用してアプリケーションの評価を容易にしました。具体的な脆弱性の検出に関しては、LLMに統合されたアプリケーションの大半がプロンプトインジェクション攻撃の影響を受けやすいことが確認されました。

今後の課題はどのような点か？

LLM統合アプリケーションにおけるプロンプトインジェクション攻撃に対する防御や、アプリケーション固有の書式制約による操作された出力の表示に関する課題が明らかにされています。また、攻撃に対する耐性を向上させるために、アプリケーションのコンテキストを無視する攻撃を使用することも強調されています。これらの課題に対処するためには、プロンプトエンジニアリングやサニタイズの強化などの対策が必要とされます。