著者: Biteye の主要寄稿者、Jesse
編集者: Biteye コア寄稿者 Viee
1か月前、YZi LabsはVanaへの投資を発表し、Binanceの創設者CZがアドバイザーとして参加し、AIデータ分野におけるVanaの主導的地位を確立しました。 4日後、VanaとのAMAで、CZはデータがAIの核となる燃料であると述べました。公開データは枯渇しているが、非公開データはまだ開発されていない。彼は、Vana の製品市場適合性 (PMF) とユーザー数の増加について楽観的です。
YZi Labs、Coinbase Venture、Paradigm が Vana に投資したのはなぜですか? CZ が Vana の開発に楽観的なのはなぜですか?
このレポートでは、AI データのジレンマ、Vana のコアバリュープロポジション、実際のアプリケーションシナリオ、将来の成長軌道を体系的に分析し、Vana が AI エコシステムの重要なインフラストラクチャになる方法を明らかにします。
Pitchbookのデータによると、米国のAI業界は2025年第1四半期に約200億ドルの投資を集めました。2024年までに、AIスタートアップは世界のベンチャーキャピタルの3分の1を占め、総額1,315億ドルとなり、新興起業家のほぼ4分の1がAI分野に注力することになります。 Statistaのデータもこの爆発的な成長軌道を裏付けており、AIおよび機械学習分野へのベンチャーキャピタルの資金調達は、2011年の6億7,000万米ドルから2020年には360億米ドルに急増し、50倍以上増加しました。この現象は、AI がスマートキャピタルやトップ起業家の共通の選択肢になったことを明確に示しています。
しかし、AI の基本的なアーキテクチャである「データ + モデル + コンピューティング能力」は、構造的なボトルネックに直面しています。 AI モデルのパフォーマンスを左右する主な要因は、コンピューティング能力の優位性やアルゴリズムのブレークスルーではなく、トレーニング データ セットの品質と規模です。現在の大規模言語モデルは、トレーニング データが枯渇するという臨界点に達しています。 Meta の Llama 3 は、約 15 兆個のトークンでトレーニングされており、これはパブリック インターネット全体で利用可能なすべての高品質データ リソースをほぼ使い果たしたデータ量です。公開されているインターネット データの量は膨大ですが、それは氷山の一角にすぎません。市場で一般的に無視されている重要な事実は、高価値データのほとんどが、承認されたアクセスを必要とする独自のシステムにロックされているということです。公開インターネット データは、全データの 0.1% 未満を占めます。しかし、この問題はAI業界自身の解決能力を超えています。ブロックチェーン技術を活用してデータ生産関係を再構築し、新たなインセンティブメカニズムを確立し、高品質なデータの大規模な出現を促進する必要があります。
一方、今日では、データの大部分は Web2 テクノロジー企業のクローズドエコシステム内に保管されています。人工知能の開発はデータの壁という課題に直面していますが、この壁はまさに企業がデータの莫大な価値を十分に認識しているからこそ存在するのです。高品質の AI モデルは極めて高い経済的利益をもたらします。たとえば、OpenAI の年間収益は約 34 億ドルに達しています。優れた AI モデルを構築するには、大量のデータのサポートが必要であり、データの取得には多くの場合、高額なコストがかかります。たとえば、Reddit はデータの販売で年間約 2 億ドルを稼ぎ、PhotoBucket の画像データは 1 枚あたり 1 ドルから 2 ドルで販売され、Apple のニュースデータ取引は 5,000 万ドルに達しています。データの所有権は、単なるプライバシーの好みから大きな経済問題へと変化しました。 AI モデルが経済の大部分を牽引する世界では、データの所有権は将来の AI モデルの株式を保有することと同等です。
データの商業化が進むにつれて、データへのアクセスはますます困難になります。多くのプラットフォームは、外部開発者のアクセス権を制限するために、利用規約や API ポリシーを調整し始めています。たとえば、Reddit や Stack Overflow は、データの取得を困難にするために API ルールを次々と変更してきました。この傾向は拡大しており、重要なデータを保有するプラットフォームは徐々に閉鎖的になりつつあります。
ただし、このデータに自由にアクセスできるグループがまだ 1 つあります。それは、ユーザー自身です。多くの人は、法的には自分のデータの完全な所有権が自分にあることに気づいていません。車を駐車場に駐車する場合と同様に、駐車場側には車を任意に処分する権利はありません。ユーザーがソーシャル プラットフォームに保存したデータは、依然としてユーザーの所有物です。登録時に、ユーザーは通常、「プラットフォームが自分のデータを使用することを許可する」オプションをチェックします。これは、プラットフォームに特定の権限を与え、データをサービス運営に使用できるようにするだけであり、ユーザーがデータの所有権を失うことを意味するものではありません。
実際、ユーザーはいつでもデータのエクスポートを申請できます。プラットフォームが開発者の API アクセスを厳しく制限している場合でも、個々のユーザーは自分のデータを合法的に取得できます。たとえば、Instagram では、投稿した写真やコメントだけでなく、AI によって生成されたマーケティング タグも含まれるアカウント データをエクスポートできます。 23andMe プラットフォームでは、ユーザーは遺伝子データのエクスポートを申請できますが、プラットフォーム側から積極的に通知されることはなく、プロセスも直感的ではない可能性があります。
世界中で、ユーザーがデータを正常に取得できるようにするために、関連する規制が継続的に改善されています。データの価値がますます高まるにつれ、ユーザーは自分の個人データの所有権を十分に理解し、この権利を積極的に行使する必要があります。
テクノロジー企業は、クローズドシステムを構築することで貴重なデータ資産を保護しています。 VANA の中心的な使命は、閉じたエコシステム内のデータを解放し、ユーザーに返してデータの自律性を実現することです。
つまり、各ユーザーはさまざまなプラットフォームから独自のデータを抽出し、既存のプラットフォームよりも優れた、よりパーソナライズされたデータセットを再構築できます。
VANA フレームワークは、次の 2 つの基本概念に基づいて構築されています。
2.1 非管理データ このコンセプトは、ユーザーが個人の資金を管理するのと同じように、自分のデータへのアクセスを制御できることを意味します。デジタルウォレットを使用して暗号資産を管理するのと同様に、VANA エコシステムでは、ユーザーはウォレットを使用してデータの使用方法を制御することもできます。トランザクションに署名することで、ユーザーはアプリケーションがデータにアクセスすることを承認し、データの具体的な使用方法を決定できるため、データの自律性とセキュリティを確保できます。
2.2 貢献の証明 単一のデータ ポイントの価値は限られていますが、大量のユーザー データが集約されると、全体的な価値は指数関数的に増大します。貢献証明メカニズムは、データ プールの高品質基準を確保しながら、データ プロバイダーに価値を返すチャネルを作成するように設計されています。
開発者がデータにアクセスするために料金を支払うと、データ提供者は貢献度に応じてガバナンス トークンを受け取ります。この仕組みにより、データ提供者はデータ活用から継続的に経済的利益を得ることができるだけでなく、実質的なガバナンス権も付与され、データ利用ルールの策定や意思決定に直接参加できるようになります。
このメカニズムは、高品質なデータの貢献を奨励することで、データ市場の価格モデルと運用効率を再構築し、分散型データ経済の基盤を築きます。
3.1 データDAO
DataDAO は、ユーザーがデータを投稿、トークン化、適用できる、VANA エコシステム内の分散型データ マーケットプレイスです。ユーザーは、データの種類 (フィットネス データ、研究データなど) に基づいて、提供に適したデータ プールを選択できます。提供されたデータの品質と価値は、Vana の貢献証明メカニズムを通じて検証され、提供者が公正な報酬を受け取ることが保証されます。
検証後、データはデジタル資産にトークン化され、取引や AI トレーニングに使用できますが、貢献者はその使用を制御し続けます。データが使用されるたびに、貢献者にはトークンとガバナンス権が報酬として与えられ、経済的な利益を得るとともに、データプールの方向性に影響を与えることができます。 DataDAO は複数の関係者からデータを収集することで流動的なデータ市場を創出し、Vana エコシステム内でのデータの安全かつ効率的な循環を可能にします。
DataDAO の中心となるのは、トークンに結び付けられた検証済みのデータセットであるデータ流動性プール (DLP) です。 DLP は DataDAO メンバーによって管理および統制されます。各 DLP は、データ構造と貢献基準を明確に定義します。たとえば、睡眠データ DAO である Sleep.com は、すべてのオンチェーン データが構造化され、利用可能であることを保証するために、明確なデータ モデルを確立しました。データの価値は、その規模だけでなく、その構造と可用性にもあります。
DataDAO はデータの信頼性と有効性を非常に重視しています。現在、ほとんどの DataDAO は信頼できる実行環境 (TEE) を使用して Python コードを実行し、データを検証し、プライバシーを確保しながら品質を確保しています。たとえば、Amazon DataDAO はブラウザ拡張機能を使用してデータ品質証明書を生成します。すべての DataDAO は貢献証明書を公開しており、ユーザーはデータ品質保証の程度を明確に理解できます。
VANA エコシステムの上位 16 の DLP には追加のインセンティブが提供され、ユーザーは高品質のデータを提供することで収益を得ることができます。報酬は、データ アクセス、品質、コスト削減などの指標に基づいて割り当てられます。現在、Reddit DataDAO が最大規模で、約 140,000 人のユーザーを獲得し、ユーザー共有 AI モデルのトレーニングに成功しています。 DLPLabs が立ち上げた DataDAO により、ドライバーは DIMO_Network アカウントに接続し、データを共有することで報酬を獲得し、自動車関連の AI イノベーションを促進できるようになります。 23andWE は、遺伝子データの販売を防ぐために 23andMe を買収することに尽力しています。
DataDAO はデータ管理の新しい方法であり、個々のユーザーが自分のデータを制御して、トークン化メカニズムを通じてメリットを実現できるようにします。このエコシステムは急速に発展しており、データ ガバナンスと AI トレーニングにさらにオープンで民主的な可能性をもたらします。
3.2 データファイ
DataDAO はデータ管理の新しい方法であり、個々のユーザーが自分のデータを制御して、トークン化メカニズムを通じてメリットを実現できるようにします。このエコシステムは急速に発展しており、データ ガバナンスと AI トレーニングにさらにオープンで民主的な可能性をもたらします。
3.2 データファイ
データ流動性プールに基づいて、DeFi はデータ トークンの分野に徐々に適用されつつあります。データ流動性プールはエコシステム全体の基本レイヤーに相当し、その上にデータトークンに基づいてさまざまな DeFi アプリケーションを構築できます。
現在、データ DeFi エコシステムではいくつかの初期アプリケーションが登場しています。たとえば、分散型取引所@VanaDataDexと@flur_protocolでは、ユーザーがデータトークンを交換し、特定のデータトークンの市場動向を追跡できます。これらのプラットフォームの出現により、データ資産の自由な流れが促進され、データ市場がより活発になりました。
現在の DLP 報酬メカニズムのほとんどは、データトークンを直接バーンしたり、その需要と供給に影響を与えたりすることなく、主に報酬を DLP の財務に預けていることに注目する価値があります。ただし、VRC-13 アップデートのリリースにより、このメカニズムは変更されました。新しいモデルでは、より市場志向のアプローチが導入されています。つまり、VANA に報酬を与えることでデータのトークン化を促進し、それが DEX プールに注入されてデータ トークンの取引が促進され、DeFi エコシステムがさらに活性化されます。
今後DeFi分野で実現できるレンディング、ステーキング、流動性マイニング、さらには保険などの機能がデータトークン市場に導入され、新たな応用シナリオが生まれることも予想されます。
従来の Web2 業界の観点から見ると、企業が価格変動を避けるために原油先物を購入するのと同様に、データ市場ではデータ先物が開発され、ユーザーはデータセットの将来の価格を事前に固定し、取得コストの不確実性を軽減できるようになります。
すでに一部の取引会社では、データを新たな資産クラスとして捉え、具体的なデータトークンの評価、販売利用確率、ライフサイクルなどの市場評価手法を検討しているところもある。これらの要因はデータトークンの価格と市場の流動性に直接影響を及ぼし、革新の余地はまだ大きく残されています。
3.3 より便利なデータアクセス
現在、メイン ネットワーク上のデータ セットへのアクセスは、依然として比較的面倒です。ユーザーは、ニーズ、支払い金額、プラン コードを記載した詳細なリクエストを送信する必要があり、承認が完了した後にのみアクセス権を取得できます。透明性と標準化は確保されますが、運用上の摩擦が増加します。
効率性を向上させるために、Vana は自動 API アクセスを実現し、複数の DataDAO にわたってデータを直接取得するための、より効率的なデータ アクセス方法を開発しています。たとえば、将来的には、ユーザーは睡眠データを Coinbase や Binance の取引データと組み合わせて、特定のプロジェクト保有者の睡眠状態を分析し、新たな市場の洞察を発見できるようになります。
さらに、Vana は、データ アクセスと引き換えに、データトークンと VANA を標準の 80-20 比率でバーンするという新しい提案を進めています。
Vana は、データ アクセス プロセスを大幅に簡素化する新しいデータ クエリ インターフェイスも開発しました。ユーザーはウォレットを通じてログインし、デジタル署名を生成してアクセス権を証明することで、自分自身を認証できます。データ流動性プールはデータ形式を記録するため、ユーザーはデータ構造を明確に理解し、SQL クエリを使用して必要な情報を取得できます。このプロセス中に、ユーザーはまずテスト用の合成データを取得し、クエリの正確性を確認する場合があります。実際のデータに関しては、データのセキュリティを確保するために、すべてのコンピューティング操作は TEE で実行されます。この仕組みにより、「データの両面問題」(ユーザーがデータを購入後に許可なく転売することを防ぐ)を効果的に防止し、データの経済的価値を保護し、データ市場の持続的な発展を確保することができます。
デジタル時代において、データは急速に中核的な資産になりつつあります。データの収集と保存の技術はかなり成熟していますが、本当の課題は、データの品質を効果的に評価し、価値を最大化し、プライバシーとセキュリティを確保する方法にあります。 Vana は革新的なインセンティブ メカニズムを通じてこの問題を巧みに解決します。ユーザーは Vana トークンをステーキングすることで価値の高い DataDAO をサポートし、同時に対応する報酬を獲得できるため、好循環が形成されます。
4.1 「データの壁」の限界を突破する
AIの開発は「データの壁」にぶつかり、高品質の公開データリソースが枯渇しつつあります。将来の AI のブレークスルーは、個人の健康記録、スマート デバイスの使用データ、テスラの運転ビデオ、その他の潜在的なトレーニング リソースなど、高品質の個人データを効果的に取得して活用する方法に必然的に依存することになります。
データの価値には矛盾があります。データはプライバシーが保護されているため価値が維持されることが多いのですが、広く利用可能になると商品化され、価値が下がってしまいます。 AI モデルがコモディティ化されるのと同様に、長期的な競争上の優位性は、モデルが特定の分野で優れた成果を上げることを可能にする独自のデータセットを習得することから生まれます。データが公開されると、すぐに価格競争が始まり、価値が急激に下がります。
データの価値には矛盾があります。データはプライバシーが保護されているため価値が維持されることが多いのですが、広く利用可能になると商品化され、価値が下がってしまいます。 AI モデルがコモディティ化されるのと同様に、長期的な競争上の優位性は、モデルが特定の分野で優れた成果を上げることを可能にする独自のデータセットを習得することから生まれます。データが公開されると、すぐに価格競争が始まり、価値が急激に下がります。
Vana の DataDAO は TEE を使用して、情報のプライバシーを確保しながら高品質のプライベート データの価値転送を実現します。この画期的な進歩により、貴重なデータ資産の範囲が限られた公開データからより広範なプライベートデータの分野にまで拡大され、AI 開発の新たな可能性が開かれます。
4.2 データ値のユニークな曲線
データの価値は特別な曲線特性を示します。単一のデータ ポイントの価値はほとんど無視できますが、データの量が臨界量に達するとその価値は指数関数的に増加します。この特性は、データの金融化に大きな課題をもたらします。つまり、集合的なデータが形成されて初めて、すべての参加者に大きな利益をもたらすことができるのです。
Vana の DataDAO メカニズムは、このジレンマを解決する革新的な方法を提供します。 DataDAO は類似のデータを集約することで、貢献者のための団体交渉力を生み出します。テスラのオーナーを例にとると、すべてのオーナーが DataDAO を通じて運転データを一元的に収集し共有すれば、需要側に対して強力な価格決定力を持つことになります。対照的に、各自動車所有者が独自にデータを公開し、料金を請求すると、必然的に価格競争につながり、購入者は最低価格を受け入れる少数の販売者から十分なサンプルを入手するだけで済みます。
検証済みの Tesla 運転データなど、構造化され、検証された高品質のデータ セットは市場で非常に価値があり、Vana はこの価値を完全に実現するための組織フレームワークを提供します。
4.3 クロスプラットフォームデータ集約のブレークスルー
DataDAO の最も強力な点は、クロスプラットフォームのデータ集約を可能にすることです。これは、今日のクローズドエコシステムではほとんど実現不可能なことです。研究者が同じユーザーの Facebook メッセージ、iMessage 記録、Google ドキュメントの内容にアクセスする必要がある場合、従来の方法では Facebook、Apple、Google がすべて協力して共有する必要があります。しかし、これらのプラットフォームにはユーザーデータを統合するインセンティブが欠けており(これによりデータ障壁が弱まる可能性がある)、それを妨げる規制上の障壁に直面しています。
DataDAO は、ユーザー主導のデータ統合モデルを通じてこの障害を巧みに回避し、クロスプラットフォーム データの価値を解き放ち、AI のトレーニングと研究に前例のない可能性を生み出します。
4.4 新たな経済参加モデル
ヴァナのビジョンは、純粋な技術革新をはるかに超えており、経済参加の新しいモデルを開拓しています。このモデルでは、ユーザーはデジタル経済に参加するために従来の資本を必要とせず、最も価値のあるリソースである個人データをすでに所有しています。ユーザーは資金を持ち込む必要はなく、データを共有するだけで済みます。これはユーザーの資本です。 DataDAO は、Web3 ユーザーに独自の個人データに基づいた受動的な収入源を提供し、デジタル経済への参入障壁を下げます。
4.5 AIの利益分配の再構築
このモデルは、AI の進歩による利益の分配を根本的に再構築する可能性があります。 Vana は、価値が主に大手テクノロジー企業に流れるのではなく、データの所有権とガバナンスのメカニズムを通じて AI 経済への幅広い参加を可能にします。初期の兆候としては、このアプローチが大きな反響を呼んでおり、すでに 300 を超える DataDAO がテストネット上で開発中です。
今後 3 ~ 5 年を見据えると、1 億人のユーザーから提供されたデータに基づく、完全にユーザー自律型の AI モデルの誕生を目撃することになるかもしれません。そのパフォーマンスは、今日の主要な集中型 AI モデルを上回る可能性があります。このモデルは完全にユーザーが所有し、ユーザーの参加意識がより強く、ユーザーとのより密接なつながりを確立することができます。データ主権により、ユーザーは倫理的なモデルを選択的にサポートし、非倫理的な企業がデータを使用することを拒否できるようになります。
分散型 AI はより民主的なフレームワークを提供し、少数の企業によって支配されるのではなく、AI が何を学習し、何を信じるべきかを社会全体で決定できるようにします。データのユーザー所有権は、経済的権利を意味するだけでなく、モデルの検閲などの重要な問題を解決する能力など、AI モデルの動作に対する実際の制御も含まれます。
ビジネスレベルでは、Vana は、データ集約、AI モデルのトレーニングからデータ販売までの全プロセスをカバーする完全なデータ バリュー チェーンの構築に取り組んでいます。現在のデータ市場は、少数のプラットフォームとデータブローカーによって独占されています。 Vana は、この市場の非効率性を解決し、より公平なデータ取引エコシステムを構築することを目指しています。
Vana は単なる新しいプラットフォームではありません。データの所有権と AI の開発方法に根本的な変化をもたらします。 Vana は、ユーザーが集団的な価値創造に参加しながら、自身のデータに対する主権を維持できるようにすることで、より公平で革新的な AI の未来の基盤を築いています。
現在の AI 市場はコンセプトの誇大宣伝で溢れていますが、Vana は業界の核心的な問題点に直接取り組む革新的なメカニズムにより、AI の将来の発展を形作る重要な力となることが期待されています。
全てのコメント