スイスのチューリッヒ工科大学の2人の研究者は、最も人気のある大規模言語モデル(LLM)を含む、人間のフィードバックに依存する人工知能(AI)モデルを理論的にジェイルブレイクできる可能性がある方法を開発した。ジェイルブレイクとは、デバイスまたはシステムの意図されたセキュリティ保護をバイパスすることを意味する俗語です。これは、スマートフォンやストリーミング デバイスなどのデバイスに対する消費者の制限を回避するエクスプロイトやハッカーを指すのに最も一般的に使用されます。生成 AI と大規模言語モデルの世界に特に適用される場合、脱獄とは、モデルが有害、不要、または無用な出力を生成するのを防ぐ、ハードコードされた目に見えない命令である、いわゆる「ガードレール」をバイパスして、モデルの無制限の応答にアクセスすることを意味します。 。研究者らは、RLHF を悪用して AI モデル (この場合は LLama-2) のガードレールを回避し、敵対的なプロンプトを必要とせずに潜在的に有害な出力を生成できるようにすることに成功しました。
全てのコメント