著者: Cynic 茂、CGV Research
アルゴリズム、コンピューティング能力、データの力を活用する AI テクノロジーの進歩により、データ処理とインテリジェントな意思決定の境界が再定義されています。同時に、DePIN は集中型インフラストラクチャから分散型のブロックチェーン ベースのネットワークへのパラダイム シフトを表しています。
世界がデジタルトランスフォーメーションに向けて加速し続ける中、AI と DePIN (分散型物理インフラストラクチャ) はあらゆる分野で変化を推進する基礎テクノロジーとなっています。 AI と DePIN の統合は、テクノロジーの迅速な反復と広範な適用を促進するだけでなく、より安全で透明性の高い効率的なサービス モデルを切り開き、世界経済に広範な変化をもたらします。
DePIN: 分散化は仮想から現実へ移行し、デジタル経済の柱となる
DePIN は Decentralized Physical Infrastructure の略称です。狭義では、DePINは主に、電力ネットワーク、通信ネットワーク、測位ネットワークなど、分散台帳技術によってサポートされる従来の物理インフラストラクチャの分散ネットワークを指します。大まかに言えば、ストレージ ネットワークやコンピューティング ネットワークなど、物理デバイスによってサポートされるすべての分散ネットワークを DePIN と呼ぶことができます。
from: メッサーリ
暗号通貨が金融レベルで分散型の変化をもたらしたとすれば、DePINは実体経済における分散型ソリューションとなります。 PoWマイニングマシンは一種のDePINであると言えます。 DePIN は当初から Web3 の中核でした。
AIの3つの要素であるアルゴリズム、計算能力、データのうち、DePINは2番目の要素を独占的に保有しています。
人工知能の開発は一般に、アルゴリズム、計算能力、データという 3 つの重要な要素に依存していると考えられています。アルゴリズムは AI システムを駆動する数学的モデルとプログラム ロジックを指し、コンピューティング能力はこれらのアルゴリズムを実行するために必要なコンピューティング リソースを指し、データは AI モデルのトレーニングと最適化の基礎となります。
3 つの要素のうち、最も重要なものはどれですか? chatGPT が登場する前は、ChatGPT をアルゴリズムとして考えるのが一般的でした。そうでなければ、学会や雑誌論文にアルゴリズムの微調整が次々と書かれることはありませんでした。しかし、chatGPT とそのインテリジェンスをサポートする大規模言語モデル LLM が発表されると、人々は後者の 2 つの重要性に気づき始めました。モデル誕生には大規模なコンピューティング能力が必須です。堅牢で効率的な AI システムを構築するにはデータの品質と多様性が不可欠です。対照的に、アルゴリズムの要件は以前ほど洗練されていません。
大型モデルの時代に入り、AI は細心の注意を払った職人技から、勢いよく飛ぶレンガへと変化し、コンピューティング パワーとデータに対する需要は日々増大しており、DePIN はそれを提供できます。トークンのインセンティブはロングテール市場を活用しており、大規模な消費者グレードのコンピューティング能力とストレージが大規模モデルにとって最良の栄養源となるでしょう。
AI の分散化はオプションではありませんが、必須です
大型モデルの時代に入り、AI は細心の注意を払った職人技から、勢いよく飛ぶレンガへと変化し、コンピューティング パワーとデータに対する需要は日々増大しており、DePIN はそれを提供できます。トークンのインセンティブはロングテール市場を活用しており、大規模な消費者グレードのコンピューティング能力とストレージが大規模モデルにとって最良の栄養源となるでしょう。
AI の分散化はオプションではありませんが、必須です
もちろん、コンピューティング能力とデータは AWS コンピューター ルームで利用可能であり、安定性とユーザー エクスペリエンスの点で DePIN よりも優れているため、なぜ集中型サービスではなく DePIN を選択する必要があるのかと疑問に思う人もいるでしょう。
この発言は当然のことです。結局のところ、現在の状況を見ると、ほとんどすべての大型モデルは、直接的または間接的に大手インターネット企業によって開発されています。Microsoft は chatGPT の背後にあり、Google は Gemini の背後にあります。中国のほぼすべての主要なインターネット企業がそれを持っています。大型モデル。なぜ?なぜなら、強力な資金力に支えられた十分な高品質のデータとコンピューティング能力を持っているのは、大規模なインターネット企業だけだからです。しかし、これは間違いで、人々はもはやインターネットの巨人に支配されることを望んでいません。
一方で、集中型 AI はデータのプライバシーとセキュリティのリスクを伴い、検閲や管理の対象となる可能性がありますが、他方で、インターネット大手が生み出す AI は人々の依存をさらに強化し、市場の集中をもたらし、イノベーションへの障壁を高めることになります。
から: https://www.gensyn.ai/
AI時代に人類はもはやマルティン・ルターを必要とせず、人々は神と直接対話する権利を持つべきです。
ビジネスの観点から見た DePIN: コスト削減と効率向上が鍵
分散化と集中化の間の価値の議論を脇に置いても、ビジネスの観点から見ると、AI に DePIN を使用することには依然としてメリットがあります。
まず第一に、インターネット大手企業は大量のハイエンド グラフィックス カード リソースを手にしていますが、民間部門に点在する消費者向けグラフィックス カードの組み合わせによっても、非常に大きなコンピューティング パワー ネットワークを形成できることを明確に認識する必要があります。 、これはコンピューティング能力のロングテール効果です。このタイプの消費者向けグラフィックス カードのアイドル率は実際には非常に高いです。 DePIN によって提供されるインセンティブが電気料金を超えることができる限り、ユーザーはネットワークにコンピューティング能力を提供するインセンティブを得ることができます。同時に、すべての物理的設備はユーザー自身によって管理され、DePIN ネットワークは集中サプライヤーによる避けられない運用コストを負担する必要がなく、プロトコル設計自体に集中するだけで済みます。
データの場合、DePIN ネットワークは潜在的なデータの可用性を解放し、エッジ コンピューティングやその他の方法を通じて送信コストを削減できます。同時に、ほとんどの分散ストレージ ネットワークには自動重複排除機能があり、AI トレーニング データのクリーニングの作業が軽減されます。
最後に、DePIN によってもたらされる暗号経済学により、システムの耐障害性が強化され、プロバイダー、消費者、プラットフォームにとって Win-Win の状況が達成されることが期待されています。
出身: カリフォルニア大学ロサンゼルス校
信じられないかもしれませんが、UCLA の最新の調査によると、分散コンピューティングを使用すると、同じコストで従来の GPU クラスターよりも 2.75 倍優れたパフォーマンスが達成され、具体的には 1.22 倍速く、4.83 倍安くなります。
前途多難な道: AIxDePIN はどのような課題に直面するでしょうか?
信じられないかもしれませんが、UCLA の最新の調査によると、分散コンピューティングを使用すると、同じコストで従来の GPU クラスターよりも 2.75 倍優れたパフォーマンスが達成され、具体的には 1.22 倍速く、4.83 倍安くなります。
前途多難な道: AIxDePIN はどのような課題に直面するでしょうか?
私たちがこの10年間に月に行き、他のことをすることを選択したのは、それが簡単だからではなく、難しいからです。
——ジョン・フィッツジェラルド・ケネディ
DePIN の分散ストレージと分散コンピューティングを使用して、信頼なしで人工知能モデルを構築するには、まだ多くの課題があります。
動作確認
本質的に、ディープラーニングモデルの計算とPoWマイニングはどちらも一般的な計算であり、最下層はゲート回路間の信号の変化です。マクロの観点から見ると、PoW マイニングは、無数の乱数生成とハッシュ関数の計算を経て、n 個のゼロが先頭に付けられたハッシュ値を取得しようとする「無駄な計算」ですが、ディープラーニングの計算は、無数の乱数生成とハッシュ関数の計算を経て「役に立つ計算」です。ハッシュ関数計算深層学習における各層のパラメータ値を前方導出および後方導出により計算し、効率的なAIモデルを構築します。
実はPoWマイニングなどの「無駄な計算」にはハッシュ関数が使われているのですが、元の画像から画像を計算するのは簡単ですが、画像から元の画像を計算するのは難しいため、誰でも簡単かつ迅速に妥当性を検証できます。深層学習モデルの計算では、階層構造により各層の出力が次の層の入力として使用されるため、計算の妥当性を検証するにはこれまでの作業をすべて実行する必要があり、検証することはできません。簡単かつ効果的に検証できます。
提供元: AWS
作業検証は非常に重要です。そうでないと、計算の提供者は計算をまったく実行できず、ランダムに生成された結果を送信できなくなります。
1 つのアイデアは、異なるサーバーに同じコンピューティング タスクを実行させ、実行を繰り返して同じかどうかを確認することで作業の有効性を検証することです。ただし、モデル計算の大部分は非決定的であり、まったく同じコンピューティング環境下であっても同じ結果を再現することはできず、統計的な意味でのみ類似する可能性があります。さらに、二重カウントはコストの急激な増加につながり、コストの削減と効率の向上という DePIN の主要な目標と矛盾します。
もう 1 つのタイプの考え方は、最初は結果が効果的に計算されたと楽観的に信じ、同時に誰でも計算結果を確認できるようにし、誤りが見つかった場合には不正証拠を提出できるようにする「楽観的メカニズム」です。詐欺師を罰して通報すれば報酬が得られます。
並列化
前述したように、DePIN は主にロングテールの消費者向けコンピューティング能力市場を活用しています。これは、単一のデバイスが提供できるコンピューティング能力が比較的限られていることを意味します。大規模な AI モデルの場合、単一デバイスでのトレーニングには非常に長い時間がかかるため、トレーニング時間を短縮するには並列化を使用する必要があります。
深層学習トレーニングの並列化における主な問題は、前のタスクと後続のタスク間の依存関係にあり、それが並列化の達成を困難にしています。
現在、深層学習トレーニングの並列化は主にデータ並列処理とモデル並列処理に分けられます。
データ並列処理とは、複数のマシンにデータを分散することを指します。各マシンはモデルのすべてのパラメーターを保存し、トレーニングにローカル データを使用し、最後に各マシンのパラメーターを集約します。データの並列処理は、データ量が多い場合にうまく機能しますが、パラメータを集約するために同期通信が必要です。
モデルの並列性とは、モデルのサイズが大きすぎて 1 台のマシンに収まらない場合に、モデルを複数のマシンに分割し、各マシンがモデルのパラメータの一部を保存できることを意味します。順方向および逆方向の伝播には、異なるマシン間の通信が必要です。モデルの並列処理はモデルが大きい場合に利点がありますが、順方向および逆方向の伝播中の通信オーバーヘッドが大きくなります。
異なるレイヤ間の勾配情報は、同期更新と非同期更新に分類できます。同期更新はシンプルかつ直接的ですが、待ち時間が長くなります。非同期更新アルゴリズムは待ち時間が短いですが、安定性の問題が発生します。
出典: スタンフォード大学、並列分散ディープラーニング
プライバシー
個人のプライバシーを保護する世界的な傾向が高まっており、世界中の政府が個人データのプライバシー セキュリティの保護を強化しています。 AI は公開データ セットを広範囲に利用しますが、さまざまな AI モデルを真に区別するのは、各企業が所有するユーザー データです。
プライバシーを暴露せずにトレーニング中に独自データの利点を得るにはどうすればよいでしょうか?構築したAIモデルのパラメータが漏洩しないようにするにはどうすればよいでしょうか?
これらはプライバシーの 2 つの側面、データ プライバシーとモデル プライバシーです。データ プライバシーはユーザーを保護し、モデル プライバシーはモデルを構築する組織を保護します。現在のシナリオでは、データのプライバシーはモデルのプライバシーよりもはるかに重要です。
プライバシーの問題に対処するために、さまざまな解決策が試みられています。フェデレーテッド ラーニングは、データのソースでトレーニングし、データをローカルに保持し、モデル パラメーターを送信することでデータのプライバシーを確保し、ゼロ知識証明が新星になる可能性があります。
事例分析: 市場にはどのような高品質のプロジェクトがありますか?
ゲンシン
Gensyn は、AI モデルのトレーニングに使用される分散コンピューティング ネットワークです。このネットワークは、Polkadot に基づくブロックチェーンの層を使用して、深層学習タスクが正しく実行されたことを検証し、コマンド経由で支払いをトリガーします。 2020年に設立され、2023年6月にa16z主導による4,300万米ドルのシリーズA資金調達を明らかにした。
Gensyn は、勾配ベースの最適化プロセスのメタデータを使用して、実行された作業の証明書を作成します。これは、複数粒度のグラフベースの精度プロトコルとクロスエバリュエーターによって一貫して実行され、検証ジョブを再実行して一貫性を比較できるようにします。そして最終的には、計算の妥当性を確認するために自分自身で確認してください。作業検証の信頼性をさらに強化するために、Gensyn はインセンティブを生み出すためにステーキングを導入しています。
システムには、送信者、解決者、検証者、報告者の 4 種類の参加者がいます。
- 送信者は、計算対象のタスクを提供するシステムのエンド ユーザーであり、完了した作業単位に対して報酬を受け取ります。
- ソルバーはシステムの主要な作業者であり、モデルのトレーニングを実行し、検証者による検査のためのプルーフを生成します。
- バリデータは、非決定論的なトレーニング プロセスを決定論的な線形計算にリンクし、部分的なソルバー証明を複製し、予想されるしきい値との距離を比較するための鍵となります。
- 内部告発者は最後の防衛線であり、検証者の作業をチェックし、異議を提起し、異議申し立てが通過した後に報酬を与えられます。
解決者は誓約を行う必要があり、内部告発者は解決者の仕事をテストします。悪事を発見した場合、異議を申し立てます。異議申し立てが合格すると、解決者が誓約したトークンに罰金が科せられ、内部告発者には報奨金が与えられます。
Gensyn の予測によれば、このソリューションによりトレーニング コストが集中型プロバイダーの 1/5 に削減されることが期待されています。
解決者は誓約を行う必要があり、内部告発者は解決者の仕事をテストします。悪事を発見した場合、異議を申し立てます。異議申し立てが合格すると、解決者が誓約したトークンに罰金が科せられ、内部告発者には報奨金が与えられます。
Gensyn の予測によれば、このソリューションによりトレーニング コストが集中型プロバイダーの 1/5 に削減されることが期待されています。
from: ゲンシン
FedML
FedML は、場所や規模を問わず、分散型協調型 AI のための分散型協調型機械学習プラットフォームです。より具体的には、FedML は、プライバシーを保護しながら結合されたデータ、モデル、コンピューティング リソースでコラボレーションしながら、機械学習モデルをトレーニング、デプロイ、監視し、継続的に改善するための MLOps エコシステムを提供します。 2022年に設立されたFedMLは、2023年3月に600万ドルのシードラウンドを明らかにした。
FedML は、FedML-API と FedML-core という 2 つの主要コンポーネントで構成されており、それぞれ高レベル API と低レベル API を表します。
FedML コアには、分散通信とモデル トレーニングという 2 つの独立したモジュールが含まれています。通信モジュールは、さまざまなワーカー/クライアント間の基礎となる通信を担当し、MPI に基づいており、モデル トレーニング モジュールは PyTorch に基づいています。
FedML-API は FedML-core に基づいて構築されています。 FedML コアを使用すると、クライアント指向のプログラミング インターフェイスを採用することで、新しい分散アルゴリズムを簡単に実装できます。
FedML チームの最新の研究では、FedML Nexus AI を使用してコンシューマ GPU RTX 4090 で AI モデル推論を実行すると、A100 よりも 20 倍安く、1.88 倍高速であることが証明されました。
出典: FedML
将来の展望: DePIN が AI の民主化をもたらす
いつかAIがAGIへとさらに発展し、コンピューティングパワーが事実上の世界通貨となる日が来ると思いますが、DePINはそのプロセスを事前に実現します。
AI と DePIN の統合により、新たな技術成長点が開かれ、人工知能の開発に大きな機会が提供されました。 DePIN は AI に大規模な分散コンピューティング能力とデータを提供し、大規模なモデルのトレーニングとより強力なインテリジェンスの実現を支援します。同時に、DePIN により、AI がよりオープンで安全、信頼性の高い方向に開発できるようになり、単一の集中インフラへの依存が軽減されます。
将来に向けて、AI と DePIN は協力して発展し続けます。分散ネットワークは、非常に大規模なモデルをトレーニングするための強力な基盤を提供し、これらのモデルは DePIN の適用において重要な役割を果たします。 AI はプライバシーとセキュリティを保護しながら、DePIN ネットワーク プロトコルとアルゴリズムの最適化にも役立ちます。私たちは、AI と DePIN がより効率的で、より公平で、より信頼できるデジタル世界をもたらすことを期待しています。
全てのコメント