作者: インゴンヤマ
人工知能の進歩は驚くべきものです。基本的なアルゴリズムから ChatGPT や Copilot などの言語学習モデル (LLM) に至るまで、人工知能は技術進化の最前線にあります。これらのモデルがユーザーと対話し、大量のデータやキューを処理するため、データ プライバシーの問題が特に重要になります。中でも、Amazon や Apple などの大企業は、AI の相互作用によるデータ漏洩の可能性を防ぐために、ChatGPT などのパブリック API への従業員のアクセスを制限しています。さらに、一定レベルのユーザーのプライバシー保護を義務付ける関連規制が間もなく導入されると予測するのが妥当です。
これらのモデルと対話したり、モデルについて質問したり、モデルと共有したりするデータが非公開であることをどのようにして確保するのでしょうか?
完全準同型暗号化 (FHE) の概要
暗号化の分野では、完全準同型暗号化は画期的な概念です。その魅力はそのユニークな機能にあります。データを復号化することなく、暗号化されたデータに対して直接計算を実行できるため、機密情報に関するプライベートな推論が可能になります。
この機能を利用すると、処理中にデータが安全に保たれることと、モデルの知的財産 (IP) が完全に保護されることという 2 つの重要なことが保証されます。
プライバシー推論と知的財産保護
現在、「プライバシー」と「ユーザー エクスペリエンス」は魚と熊の関係のようであり、両方を兼ね備えることはできません。ユーザーエクスペリエンスを向上させるために、人々は多くの場合、自分の情報を処理するサードパーティを信頼します。これらのサードパーティ企業は、よりプライベートではあるが機能が不足しているネイティブ ソリューションか、機能豊富なサービスのためにプライバシーを犠牲にするかの選択をすることなく、ユーザーのプライバシーと質の高いユーザー サービスの間のバランスを見つけることができると私たちは信じています。
完全準同型暗号化により、モデルの知的財産を完全に保護しながら、プライベート推論が可能になります。暗号化されたデータに対して計算を実行することで、大規模な言語モデルの知的財産を保護しながら、プロンプトの単語の完全な機密性が保証されます。
従来の暗号化方式 VS FHE
従来の暗号化スキームでは、暗号化された形式のデータに対して意味のある操作を実行したい場合は、まずデータを復号化する必要があります。しかし、復号化するとデータの平文が公開されるため、たとえ一瞬だけ復号化されたとしても、データは脆弱になり、攻撃に対して脆弱になります。
対照的に、完全準同型暗号化は暗号文を直接操作できるため、操作全体を通じて機密情報が「不可視」のままであることが保証されます。
FHE が重要な理由
完全準同型暗号化の重要性は理論を超えています。データを復号化せずにデータ処理を実行したり、患者の機密情報にアクセスせずに医療データベースを分析したりできるクラウド コンピューティング サービスを想像してみてください。完全準同型暗号化の潜在的な用途は、安全な投票システムや暗号化されたデータベースのプライベート検索など、広大かつ多様です。
FHE の数学的基礎
完全準同型暗号化の重要性は理論を超えています。データを復号化せずにデータ処理を実行したり、患者の機密情報にアクセスせずに医療データベースを分析したりできるクラウド コンピューティング サービスを想像してみてください。完全準同型暗号化の潜在的な用途は、安全な投票システムや暗号化されたデータベースのプライベート検索など、広大かつ多様です。
FHE の数学的基礎
完全準同型暗号化は、量子耐性のある格子暗号技術である学習耐性 (LWE) 問題に基づいています。 LWE では、ランダム ノイズを使用して、キーを所有しない限りデータを読み取ることができなくなります。暗号化されたデータに対して算術演算を実行することは可能ですが、これにより通常はノイズ レベルが増加します。あまりにも多くの操作が連続して実行されると、キーを保持している人を含む誰もデータを読み取ることができなくなります。これは部分準同型暗号化 (SHE) です。
部分準同型暗号化を完全準同型暗号化に変換するには、ノイズ レベルを低減する操作が必要です。この操作は「ブートストラップ」と呼ばれ、多くの完全準同型暗号化スキームはブートストラップを使用します。この記事では、数学的トーラスの代数構造を使用して完全準同型暗号化を実現する、トーラス上の完全準同型暗号化スキーム (トーラス FHE) に焦点を当てます。
TFHEの利点
完全準同型暗号化方式にはそれぞれ独自の長所と短所がありますが、実際のシナリオでは、現時点では TFHE の方が効率的に実装されています。 TFHE のもう 1 つの重要な利点は、プログラマブル ブートストラップ (PBS) です。これは、通常のブートストラップ操作を拡張して、機械学習の分野で重要な活性化関数などの単一変数関数の計算を含めます。
TFHE の欠点の 1 つは、計算で実行される各算術演算に PBS 演算が必要であるのに対し、他の方式ではブートストラップ演算の間に一部の演算をバッチ処理できることです。
仮定と近似
完全準同型暗号化を使用した大規模言語モデル (LLM) 推論に必要な時間を見積もるために、評価するためのいくつかの仮定を立てます。
- トークンごとに必要な算術演算の数は、モデル内のパラメーターの数の約 1 ~ 2 倍です。これは下限であり、各トークンはモデル全体を使用するため、この下限は実際の需要に十分近いと想定します。
- 大規模言語モデルの各算術演算は、TFHE の算術演算にマップできます。これは基本的に、両方のシナリオにおける変数型のサイズを示したものです。 INT4 変数は大規模な言語モデルには十分であり、TFHE にも実行可能であると想定しています。
- 大規模言語モデルのすべての算術演算は、完全準同型暗号化の算術演算にマップする必要があります。これは、暗号化なしではモデルの一部を実行できないことを意味します。 Zama による最近のブログ投稿では、モデルの大部分が暗号化なしでユーザーによってローカルに実行され、モデルの企業サーバー上で同じように使用されるのはごく一部 (例: 1 つのアテンション ヘッド) である、この仮定なしで FHE 推論を検討しています。最先端の暗号化操作。私たちは、このアプローチは実際にはモデルの知的財産を保護しないと考えています。この場合、ユーザーは、ここに示すように、精度をわずかに損なうだけで不足しているヘッドを実行するか、不足している部品に対して相対的な実行を実行することができるからです。元のモデルと同等の結果を達成するためのトレーニング。
- TFHE の各算術演算には PBS (Programmable Bootstrap) が必要です。 PBS は TFHE 計算の主なボトルネックです。
- 現在、最も先進的な TFHE 実装は FPT です。これは、35 マイクロ秒ごとに PBS を計算する FPGA 実装です。
LLM と FHE の課題
最近の技術の進歩により、完全準同型暗号化の現在の最良の実装では、算術演算をわずか 35 マイクロ秒で実行できます。ただし、GPT2 のような複雑なモデルを考慮すると、1 つのトークンに 15 億回という驚異的な操作が必要になります。これは、トークンあたりの処理時間が約 52,000 秒であることを意味します。
より深く理解するには、言語モデルの場合、トークンは文字や完全な単語などを表すことができます。応答に 1 ~ 2 週間かかる言語モデルを操作することを想像してみてください。これは容認できず、このような遅延はリアルタイム通信やモデルの実際の応用では明らかに実現不可能です。
これは、現在の完全準同型暗号化テクノロジの下では、大規模な言語モデルのリアルタイム推論を達成することが依然として大きな課題であることを示しています。完全準同型暗号化はデータ保護において非常に重要ですが、そのパフォーマンスの制限により、高い計算強度を必要とするタスクにおける現実のシナリオに適用することが困難になる可能性があります。リアルタイムのインタラクションと迅速な応答の要件については、他のセキュア コンピューティングおよびプライバシー保護ソリューションを検討する必要がある場合があります。
潜在的な解決策
完全準同型暗号化を大規模な言語モデルに適用できるようにするために、考えられるロードマップは次のとおりです。
複数のマシンを使用して並列処理を実装します。
潜在的な解決策
完全準同型暗号化を大規模な言語モデルに適用できるようにするために、考えられるロードマップは次のとおりです。
複数のマシンを使用して並列処理を実装します。
- 52,000 秒/トークンから始まります。
- 10,000 台の並列マシンを導入することで、時間を 5 秒/トークンに短縮しました。実際、大規模な言語モデルは高度に並列化される可能性があり、現在の推論は通常、数千以上の GPU コアで並行して実行されることに注意してください。
高度なハードウェアへの移行:
- 改良版より -- 5 秒/トークンから開始
- GPU または ASIC に切り替えると、トークンあたり 0.1 秒の処理時間を達成できます。 GPU は速度をより直接的に向上させることができますが、ASIC は、前のブログで説明した ZPU のように、速度と消費電力の両方でより高い向上を実現できます。
図に示すように、大規模な言語モデルのプライベート推論は、既存のデータ アクセラレーション技術を使用した完全準同型暗号化によって実現できます。これは、十分な規模のデータセンターへの多額ではあるが実現可能な初期投資によってサポートされます。ただし、この可能性は依然として非常に低く、Copilot (120 億パラメータ) や GPT3 (1,750 億パラメータ) などのより大規模な言語モデルの場合、まだ埋めるべきギャップが存在します。
Copilot の場合、一般に人間の言語よりも簡潔なコード出力が生成されるため、より小さなトークン スループットで十分です。スループット要件を 8 分の 1 に削減すれば、Copilot は実現可能な目標も達成できます。
この最後のギャップは、大規模な並列化、より適切な実装、および完全準同型暗号化でブートストラップされたより効率的なアルゴリズムを組み合わせることによって埋めることができます。 Ingonyama では、アルゴリズムがこのギャップを埋める重要な部分であると考えており、私たちのチームは現在、関連するアルゴリズムの研究開発に重点を置いています。
要約する
完全準同型暗号化のセキュリティと大規模言語モデルの計算能力を組み合わせることで、人工知能の対話を再定義し、効率とプライバシーの両方を確保できます。いくつかの課題はありますが、継続的な研究とイノベーションを通じて、ChatGPT のような AI モデルとの対話が即時性とプライベート性の両方を備えた未来を実現することができます。これにより、ユーザーはより効率的で安全なエクスペリエンスを提供し、さまざまな分野での人工知能技術の広範な応用が促進されます。
全てのコメント