Cointime

Download App
iOS & Android

完全準同型暗号化が LLM のプライバシー問題をどのように解決するか

Validated Project

作者: インゴンヤマ

人工知能の進歩は驚くべきものです。基本的なアルゴリズムから ChatGPT や Copilot などの言語学習モデル (LLM) に至るまで、人工知能は技術進化の最前線にあります。これらのモデルがユーザーと対話し、大量のデータやキューを処理するため、データ プライバシーの問題が特に重要になります。中でも、Amazon や Apple などの大企業は、AI の相互作用によるデータ漏洩の可能性を防ぐために、ChatGPT などのパブリック API への従業員のアクセスを制限しています。さらに、一定レベルのユーザーのプライバシー保護を義務付ける関連規制が間もなく導入されると予測するのが妥当です。

これらのモデルと対話したり、モデルについて質問したり、モデルと共有したりするデータが非公開であることをどのようにして確保するのでしょうか?

完全準同型暗号化 (FHE) の概要

暗号化の分野では、完全準同型暗号化は画期的な概念です。その魅力はそのユニークな機能にあります。データを復号化することなく、暗号化されたデータに対して直接計算を実行できるため、機密情報に関するプライベートな推論が可能になります。

この機能を利用すると、処理中にデータが安全に保たれることと、モデルの知的財産 (IP) が完全に保護されることという 2 つの重要なことが保証されます。

‍プライバシー推論と知的財産保護‍

現在、「プライバシー」と「ユーザー エクスペリエンス」は魚と熊の関係のようであり、両方を兼ね備えることはできません。ユーザーエクスペリエンスを向上させるために、人々は多くの場合、自分の情報を処理するサードパーティを信頼します。これらのサードパーティ企業は、よりプライベートではあるが機能が不足しているネイティブ ソリューションか、機能豊富なサービスのためにプライバシーを犠牲にするかの選択をすることなく、ユーザーのプライバシーと質の高いユーザー サービスの間のバランスを見つけることができると私たちは信じています。

完全準同型暗号化により、モデルの知的財産を完全に保護しながら、プライベート推論が可能になります。暗号化されたデータに対して計算を実行することで、大規模な言語モデルの知的財産を保護しながら、プロンプトの単語の完全な機密性が保証されます。

従来の暗号化方式 VS FHE

従来の暗号化スキームでは、暗号化された形式のデータに対して意味のある操作を実行したい場合は、まずデータを復号化する必要があります。しかし、復号化するとデータの平文が公開されるため、たとえ一瞬だけ復号化されたとしても、データは脆弱になり、攻撃に対して脆弱になります。

対照的に、完全準同型暗号化は暗号文を直接操作できるため、操作全体を通じて機密情報が「不可視」のままであることが保証されます。

FHE が重要な理由

完全準同型暗号化の重要性は理論を超えています。データを復号化せずにデータ処理を実行したり、患者の機密情報にアクセスせずに医療データベースを分析したりできるクラウド コンピューティング サービスを想像してみてください。完全準同型暗号化の潜在的な用途は、安全な投票システムや暗号化されたデータベースのプライベート検索など、広大かつ多様です。

FHE の数学的基礎

完全準同型暗号化の重要性は理論を超えています。データを復号化せずにデータ処理を実行したり、患者の機密情報にアクセスせずに医療データベースを分析したりできるクラウド コンピューティング サービスを想像してみてください。完全準同型暗号化の潜在的な用途は、安全な投票システムや暗号化されたデータベースのプライベート検索など、広大かつ多様です。

FHE の数学的基礎

完全準同型暗号化は、量子耐性のある格子暗号技術である学習耐性 (LWE) 問題に基づいています。 LWE では、ランダム ノイズを使用して、キーを所有しない限りデータを読み取ることができなくなります。暗号化されたデータに対して算術演算を実行することは可能ですが、これにより通常はノイズ レベルが増加します。あまりにも多くの操作が連続して実行されると、キーを保持している人を含む誰もデータを読み取ることができなくなります。これは部分準同型暗号化 (SHE) です。

部分準同型暗号化を完全準同型暗号化に変換するには、ノイズ レベルを低減する操作が必要です。この操作は「ブートストラップ」と呼ばれ、多くの完全準同型暗号化スキームはブートストラップを使用します。この記事では、数学的トーラスの代数構造を使用して完全準同型暗号化を実現する、トーラス上の完全準同型暗号化スキーム (トーラス FHE) に焦点を当てます。

TFHEの利点

完全準同型暗号化方式にはそれぞれ独自の長所と短所がありますが、実際のシナリオでは、現時点では TFHE の方が効率的に実装されています。 TFHE のもう 1 つの重要な利点は、プログラマブル ブートストラップ (PBS) です。これは、通常のブートストラップ操作を拡張して、機械学習の分野で重要な活性化関数などの単一変数関数の計算を含めます。

TFHE の欠点の 1 つは、計算で実行される各算術演算に PBS 演算が必要であるのに対し、他の方式ではブートストラップ演算の間に一部の演算をバッチ処理できることです。

仮定と近似

完全準同型暗号化を使用した大規模言語モデル (LLM) 推論に必要な時間を見積もるために、評価するためのいくつかの仮定を立てます。

  • トークンごとに必要な算術演算の数は、モデル内のパラメーターの数の約 1 ~ 2 倍です。これは下限であり、各トークンはモデル全体を使用するため、この下限は実際の需要に十分近いと想定します。
  • 大規模言語モデルの各算術演算は、TFHE の算術演算にマップできます。これは基本的に、両方のシナリオにおける変数型のサイズを示したものです。 INT4 変数は大規模な言語モデルには十分であり、TFHE にも実行可能であると想定しています。
  • 大規模言語モデルのすべての算術演算は、完全準同型暗号化の算術演算にマップする必要があります。これは、暗号化なしではモデルの一部を実行できないことを意味します。 Zama による最近のブログ投稿では、モデルの大部分が暗号化なしでユーザーによってローカルに実行され、モデルの企業サーバー上で同じように使用されるのはごく一部 (例: 1 つのアテンション ヘッド) である、この仮定なしで FHE 推論を検討しています。最先端の暗号化操作。私たちは、このアプローチは実際にはモデルの知的財産を保護しないと考えています。この場合、ユーザーは、ここに示すように、精度をわずかに損なうだけで不足しているヘッドを実行するか、不足している部品に対して相対的な実行を実行することができるからです。元のモデルと同等の結果を達成するためのトレーニング。
  • TFHE の各算術演算には PBS (Programmable Bootstrap) が必要です。 PBS は TFHE 計算の主なボトルネックです。
  • 現在、最も先進的な TFHE 実装は FPT です。これは、35 マイクロ秒ごとに PBS を計算する FPGA 実装です。

LLM と FHE の課題

最近の技術の進歩により、完全準同型暗号化の現在の最良の実装では、算術演算をわずか 35 マイクロ秒で実行できます。ただし、GPT2 のような複雑なモデルを考慮すると、1 つのトークンに 15 億回という驚異的な操作が必要になります。これは、トークンあたりの処理時間が約 52,000 秒であることを意味します。

より深く理解するには、言語モデルの場合、トークンは文字や完全な単語などを表すことができます。応答に 1 ~ 2 週間かかる言語モデルを操作することを想像してみてください。これは容認できず、このような遅延はリアルタイム通信やモデルの実際の応用では明らかに実現不可能です。

これは、現在の完全準同型暗号化テクノロジの下では、大規模な言語モデルのリアルタイム推論を達成することが依然として大きな課題であることを示しています。完全準同型暗号化はデータ保護において非常に重要ですが、そのパフォーマンスの制限により、高い計算強度を必要とするタスクにおける現実のシナリオに適用することが困難になる可能性があります。リアルタイムのインタラクションと迅速な応答の要件については、他のセキュア コンピューティングおよびプライバシー保護ソリューションを検討する必要がある場合があります。

潜在的な解決策

完全準同型暗号化を大規模な言語モデルに適用できるようにするために、考えられるロードマップは次のとおりです。

複数のマシンを使用して並列処理を実装します。

潜在的な解決策

完全準同型暗号化を大規模な言語モデルに適用できるようにするために、考えられるロードマップは次のとおりです。

複数のマシンを使用して並列処理を実装します。

  • 52,000 秒/トークンから始まります。
  • 10,000 台の並列マシンを導入することで、時間を 5 秒/トークンに短縮しました。実際、大規模な言語モデルは高度に並列化される可能性があり、現在の推論は通常、数千以上の GPU コアで並行して実行されることに注意してください。

高度なハードウェアへの移行:

  • 改良版より -- 5 秒/トークンから開始
  • GPU または ASIC に切り替えると、トークンあたり 0.1 秒の処理時間を達成できます。 GPU は速度をより直接的に向上させることができますが、ASIC は、前のブログで説明した ZPU のように、速度と消費電力の両方でより高い向上を実現できます。

図に示すように、大規模な言語モデルのプライベート推論は、既存のデータ アクセラレーション技術を使用した完全準同型暗号化によって実現できます。これは、十分な規模のデータセンターへの多額ではあるが実現可能な初期投資によってサポートされます。ただし、この可能性は依然として非常に低く、Copilot (120 億パラメータ) や GPT3 (1,750 億パラメータ) などのより大規模な言語モデルの場合、まだ埋めるべきギャップが存在します。

Copilot の場合、一般に人間の言語よりも簡潔なコード出力が生成されるため、より小さなトークン スループットで十分です。スループット要件を 8 分の 1 に削減すれば、Copilot は実現可能な目標も達成できます。

この最後のギャップは、大規模な並列化、より適切な実装、および完全準同型暗号化でブートストラップされたより効率的なアルゴリズムを組み合わせることによって埋めることができます。 Ingonyama では、アルゴリズムがこのギャップを埋める重要な部分であると考えており、私たちのチームは現在、関連するアルゴリズムの研究開発に重点を置いています。

要約する

完全準同型暗号化のセキュリティと大規模言語モデルの計算能力を組み合わせることで、人工知能の対話を再定義し、効率とプライバシーの両方を確保できます。いくつかの課題はありますが、継続的な研究とイノベーションを通じて、ChatGPT のような AI モデルとの対話が即時性とプライベート性の両方を備えた未来を実現することができます。これにより、ユーザーはより効率的で安全なエクスペリエンスを提供し、さまざまな分野での人工知能技術の広範な応用が促進されます。

コメント

全てのコメント

Recommended for you

  • 米上院銀行委員会の委員長は、ステーブルコインの利回りに関する新たな草案が早ければ今週中にも公表される可能性があると述べた。

    Cointimeの報道によると、上院銀行委員会の委員長を務めるティム・スコット上院議員は、ワシントンD.C.で開催されたブロックチェーンサミットで、議員らは早ければ今週中にも、少なくともステーブルコイン関連の条項を含む新たな法案草案を目にする可能性があると述べた。スコット議員は、法案の中で最も注目を集めているのはステーブルコインの利回り問題だが、議員らは引き続きこの問題に取り組んでいると指摘した。 スコット議員は、「今週中に最初の提案が提出されるだろう。もしそれが週末までに実現すれば、少なくとも法案の枠組みが形になりつつあるかどうかが分かるだろう。そうなれば、我々はより良​​い状況に立てると思う」と述べた。また、ステーブルコインの利回り問題に関して、民主党のアンジェラ・アルソブルックス上院議員、共和党のトム・ティリス上院議員、そしてホワイトハウス高官のパトリック・ウィット氏の尽力も、この進展に貢献していると述べた。 スコット氏は、過去1か月間の交渉で、ドナルド・トランプ大統領とその家族の暗号資産プロジェクトに対する議員の懸念、主要な規制機関における超党派代表の欠如、顧客確認(KYC)規制など、その他の未解決問題も取り上げられたと述べた。 スコット氏はまた、「倫理問題と定足数については、合意に非常に近づいていると思います。これは相手側にとっても重要な問題だと認識しているので、こちらも対応しています。また、いくつかの人事についても進展が見られており、これは良いニュースです。DeFiに関しては、マーク・ワーナー上院議員が注力している分野であり、マネーロンダリング対策(AML)は非常に重要な要素です。これらの問題についても前進していると思います」と述べた。

  • ゴールデンモーニングブリーフィング|3月18日の主要な夜間動向

    21:00~7:00 キーワード:ファントムウォレット、ストライプウォレット、オートノマスウォレット、イラン 1. イランは、米国とイスラエルが自国領土を使用することを容認する国に対して、合法的に攻撃できると主張している。 2. 米国CFTC(商品先物取引委員会)は、ファントムウォレットはブローカーとしての登録を必要としないと発表。 3. アリゾナ州司法長官は、予測マーケティング担当者のカルシ氏を刑事告発。 4. 米国国務省は、世界中のすべての在外公館に対し、「直ちに」安全保障評価を実施するよう命じた。 5. ロビンフッド・ベンチャーキャピタルは、ストライプウォレットとイレブンラボに約3500万ドルを投資。 6. GSRは、オートノマスウォレットとアーキテックを買収するために5700万ドルを投資し、暗号資産ファンド管理プラットフォームを構築。 7. 米国証券取引委員会(SEC)とCFTCは、ほとんどのデジタル資産は証券ではないとする新たな暗号資産ガイダンスを発表。

  • 米国証券取引委員会(SEC)と商品先物取引委員会(CFTC)は、仮想通貨に関する新たな見解を発表し、ほとんどのデジタル資産は証券の範疇には含まれないとした。

    Cointimeは3月18日、米国証券取引委員会(SEC)と商品先物取引委員会(CFTC)が暗号資産に関する68ページのガイダンス文書を公表し、ほとんどのデジタル資産は証券ではないと明記したと報じた。この新たな説明では、ステーブルコイン、デジタル商品、および「デジタル商品」トークンの分類が詳細に説明されており、これらはすべて証券ではないと両機関は述べている。また、「非証券暗号資産」がどのようにして証券になり得るのかを説明し、マイニング、プロトコルステーキング、エアドロップに連邦証券法がどのように適用されるのかを明確にしている。 SECはさらに、非証券デジタル資産が投資契約の対象となる仕組みについても説明している。SECの説明によると、「非証券暗号資産は、発行者が投資家に対し共同事業への投資を促し、必要な経営業務を行うという約束または表明を行い、かつ購入者がそこから利益を得ると期待する理由がある場合に、投資契約の対象となる」。

  • マスターカードは、ステーブルコイン企業であるBVNKを最大18億ドルで買収する計画だ。

    Cointimeの報道によると、Mastercardはステーブルコインインフラのスタートアップ企業であるBVNKを、条件付き買収額3億ドルを含め最大18億ドルで買収する計画だ。この買収は、BVNKとCoinbaseの約20億ドル規模の合併交渉が決裂してからわずか4ヶ月後のことである。両社は火曜日に発表した共同声明で、この取引を確認した。

  • ビットコインは8日間連続で上昇し、76,000ドルに達した。混乱の中で金価格を上回るパフォーマンスを見せている背景には、どのような論理があるのだろうか?

    戦争が沈静化し、原油価格が下落し、米国株が回復する中、ビットコインは今回、どのような方向へ向かうのだろうか?

  • トークンが売れない?それは、仮想通貨プロジェクトの90%が投資家向け広報を怠っているからだ。

    この1年間、私たちは暗号資産分野の主要プロジェクトのほぼすべてと協力して投資家向け広報システムを構築し、すでに20以上のプロジェクトにサービスを提供してきました。この記事は、すぐに活用できる投資家コミュニケーションの実践的なガイドです。

  • Meta社は従業員の20%を解雇し続けている。これはAI時代の「効率化革命」なのか、それともコスト不安の表れなのか?

    Metaは、表向きはコスト削減のため従業員の20%を削減する計画だが、これはAIの効率化が進んでいる兆候かもしれない。ウォール街は、同社が「AIファースト」を目指した組織再編を加速させており、競合他社との差がさらに広がる可能性があると見ている。

  • 大統領にあなたの投稿を支持してもらうには、ミームコインがいくら必要?マイリー:500万。

    北京時間3月17日、アルゼンチンの地元メディアEl Destapeは独占スクープを報じた。捜査当局がアルゼンチンの仮想通貨ロビイストの携帯電話からデータを回収し、アルゼンチンのミリー大統領が1年前にLIBRAについてツイートしたのは500万ドルの賄賂を受け取ったためであり、その扇動者は以前から推測されていた通りヘイデン・デイビスだったことを明らかにした。

  • カルシ氏は10億ドル相当の無料宝くじを配布しました。忘れずに削ってください!

    朗報です。ジャックポットは実在します。残念なことに、当選確率は1兆2000億分の1です…。

  • ウォール街の「トロイの木馬」:ICEによるOKXへの投資の背景にある権力構造の再編とインフラ統合の分析

    これは単なる金融取引ではなく、旧来の金融システムが資本レバレッジとコンプライアンス構造を利用して、新興の暗号通貨市場における権力構造を上から下へと再構築しようとする試みである。