Cointime

Download App
iOS & Android

データは資産:DataFiが新たなブルーオーシャンを切り開く

Validated Individual Expert

概要: DataFi の機会と発展、そして現在人気の DataFi プロジェクトに参加する方法について説明します。著者: Biteye コアコントリビューター @anci_hu49074

「私たちは今、最高の基本モデルを構築するための世界的な競争の時代にあります。計算能力とモデルアーキテクチャは重要ですが、真の防壁はトレーニングデータです。」

—ストーリーの最高AI責任者、サンディープ・チンチャリ

今月のAI界隈で最大の話題は、Metaがその資金力を見せつけたことだ。ザッカーバーグは各地から人材を集め、主に中国の科学研究人材で構成された豪華なMeta AIチームを結成した。チームリーダーは、Scale AIの創業者で若干28歳のアレクサンダー・ワン氏。Scale AIの創業者であり、現在その評価額は290億ドルに達する。サービス対象には、米軍をはじめ、OpenAI、Anthropic、Metaなどの競合AI大手企業が含まれており、いずれもScale AIが提供するデータサービスに依存している。Scale AIのコアビジネスは、大量の高精度ラベル付きデータを提供することである。

その理由は、AI業界におけるデータの重要性を早くから認識していたからだ。

AIモデルの3つの柱は、計算能力、モデル、そしてデータです。大きなモデルを人に例えると、モデルは人体、計算能力は食料、そしてデータは知識・情報です。

LLMの台頭以来、業界の発展の焦点はモデルからコンピューティングパワーへと移行しました。現在、ほとんどのモデルはトランスフォーマーをモデルフレームワークとして確立しており、MoEやMoReといった革新的な技術が時折登場しています。大手企業は、独自のスーパークラスターを構築してコンピューティングパワーの万里の長城を完成させるか、AWSなどの強力なクラウドサービスと長期契約を締結しています。基本的なコンピューティングパワーが満たされると、データの重要性が徐々に高まっています。

Palantirのような二次市場で高い評価を得ている従来のToBビッグデータ企業とは異なり、Scale AIはその名の通り、AIモデルのための強固なデータ基盤の構築に注力しています。既存データのマイニングにとどまらず、長期的なデータ生成事業にも注力しています。また、様々な分野の人工知能(AI)専門家からなるAIトレーナーチームを結成し、AIモデルのトレーニングに高品質なトレーニングデータを提供することを目指しています。

モデルのトレーニングは、事前トレーニングと微調整の 2 つの部分に分かれています。

事前学習の部分は、人間の赤ちゃんが徐々に話し方を学ぶ過程に似ています。通常必要なのは、オンラインクローラーから取得した大量のテキスト、コード、その他の情報をAIモデルに入力することです。モデルはこれらのコンテンツを自ら学習し、人間の言語(学術的には自然言語と呼ばれます)を話すことを学習し、基本的なコミュニケーションスキルを身につけます。

微調整の部分は学校に通うのと似ています。学校では通常、正解と不正解、答えと指示が明確に示されています。学校では、生徒のポジショニングに基づいて、異なる才能を育むための訓練を行います。また、事前に処理され、ターゲットを絞ったデータセットを使用して、モデルが期待する能力を発揮できるように訓練します。

微調整の部分は学校に通うのと似ています。学校では通常、正解と不正解、答えと指示が明確に示されています。学校では、生徒のポジショニングに基づいて、異なる才能を育むための訓練を行います。また、事前に処理され、ターゲットを絞ったデータセットを使用して、モデルが期待する能力を発揮できるように訓練します。

この時点で、必要なデータも 2 つの部分に分かれていることがおわかりになったかと思います。

  • 一部のデータは、あまり処理する必要がなく、十分な量で十分です。通常、Reddit、Twitter、Github、公開文献データベース、企業のプライベートデータベースなどの大規模な UGC プラットフォームのクローラーデータから取得されます。
  • もう一方の部分は、専門書と同様に、モデル特有の優れた特性を確実に発揮できるよう、慎重な設計とスクリーニングが必要です。そのためには、データのクリーニング、スクリーニング、ラベル付け、手動フィードバックといった必要な作業を実行する必要があります。

これら2つのデータセットは、AIデータトラックの主要部分を構成しています。一見ローテクに見えるこれらのデータセットを過小評価しないでください。現在の主流の見解は、スケーリング則におけるコンピューティングパワーの優位性が徐々に無効になるにつれて、データは様々な大型モデルメーカーが競争優位性を維持するための最も重要な柱となるだろうというものです。

モデル能力の向上に伴い、より高度で専門的な学習データがモデル能力に影響を与える重要な変数となるでしょう。さらに、モデルの学習を武術の達人の育成に例えると、高品質なデータセットこそが武術の秘訣と言えるでしょう(この比喩を完成させるために、計算能力は万能薬であり、モデルは資質そのものであるとも言えます)。

垂直的な視点から見ると、AIデータもまた、雪だるま式に成長する可能性のある長期的な軌道です。過去の成果の蓄積により、データ資産も複利効果を発揮し、時間の経過とともに人気が高まるでしょう。

フィリピン、ベネズエラなどの数十万人からなるScale AIの遠隔手動ラベリングチームと比較すると、Web3はAIデータ分野で自然な優位性を持っており、「DataFi」という新しい用語が生まれました。

理想的には、Web3 DataFi の利点は次のとおりです。

1. スマートコントラクトによって保証されるデータ主権、セキュリティ、プライバシー

既存の公開データが開発され、枯渇しつつある段階において、未公開データ、さらには個人データをいかに掘り起こすかは、データソースの取得と拡大に向けた重要な方向性です。これは、重要な信頼の選択問題に直面しています。中央集権的な大企業の契約買収システムを選択し、データを売却するのか、それともブロックチェーン方式を選択し、データの知的財産権を保有し続け、スマートコントラクトを通じて、誰が、いつ、どのような目的でデータを使用するのかを明確に把握するのか、という問題です。

同時に、機密情報については、zk、TEE などの方法を使用して、プライベートなデータが口を閉ざしたマシンによってのみ処理され、漏洩されないことを保証できます。

2. 自然な地理的裁定優位性:自由な分散型アーキテクチャは最も適した労働力を引き付ける

もしかしたら、伝統的な労働生産関係に挑戦する時が来ているのかもしれません。Scale AIのように世界中から安価な労働力を探すのではなく、ブロックチェーンの分散特性を活用し、スマートコントラクトによって保証されたオープンで透明なインセンティブを通じて、世界中に散在する労働力がデータ貢献に参加できるようにする方が賢明です。

データのラベル付けやモデル評価などの労働集約的なタスクの場合、データファクトリーを確立する集中型のアプローチよりも、Web3 DataFi を使用する方が参加者の多様性につながり、データの偏りを回避する上で長期的な意義も得られます。

3. ブロックチェーンの明確なインセンティブと決済上の利点

「江南皮革工場」の悲劇をどう回避するか?当然、スマートコントラクトの明確な価格設定のインセンティブシステムを活用して、人間の本性の闇を補う必要がある。

避けられない脱グローバル化の文脈において、低コストで地理的裁定取引を継続するにはどうすればよいでしょうか?世界中に企業を設立するのは明らかに困難です。だからこそ、旧世界の障壁を回避し、オンチェーン決済方式を採用してみてはいかがでしょうか?

4. より効率的でオープンな「ワンストップ」データ市場の構築に貢献する

「価格差で利益を上げる仲介業者」は、供給側と需要側の両方にとって永遠の悩みです。中央集権的なデータ企業に仲介を任せるのではなく、タオバオのようなオープンマーケットを通じてチェーン上にプラットフォームを構築し、データの供給側と需要側をより透明かつ効率的に繋げる方が賢明です。

オンチェーンAIエコシステムの発展に伴い、オンチェーンデータへの需要はより活発化し、細分化・多様化していくでしょう。こうした需要を効率的に消化し、エコシステムの繁栄へと転換できるのは、分散型市場だけです。

オンチェーンAIエコシステムの発展に伴い、オンチェーンデータへの需要はより活発化し、細分化・多様化していくでしょう。こうした需要を効率的に消化し、エコシステムの繁栄へと転換できるのは、分散型市場だけです。

お金の流れが方向を決める。Web2の世界では、Scale AIがMetaから143億ドルの投資を受け、Palantirの株価が1年で5倍以上に急騰したことに加え、DataFiもWeb3の資金調達で非常に好調な成果を上げています。ここでは、これらのプロジェクトについて簡単にご紹介します。

Sahara AI、@SaharaLabsAI が 4,900 万ドルを調達

Sahara AIの最終目標は、分散型AIスーパーインフラと取引市場の構築です。最初のテスト対象分野はAIデータです。DSP(データサービスプラットフォーム)のパブリックベータ版は7月22日にリリースされます。ユーザーは、データの提供、データラベリングなどのタスクへの参加を通じてトークン報酬を獲得できます。リンク:app.saharaai.com

Yupp(@yupp_ai)は3,300万ドルを調達しました。Yuppは、モデル出力に関するユーザーフィードバックを収集するAIモデルフィードバックプラットフォームです。現在、主なタスクは、ユーザーが同じプロンプトに対して異なるモデルの出力を比較し、より良いと思うものを選択することです。タスクを完了するとYuppポイントを獲得でき、USDCなどの法定ステーブルコインと交換できます。リンク: https://yupp.ai/

Vana @vana は 2,300 万ドルを調達しました

Vanaは、ユーザーの個人データ(ソーシャルメディアの活動、閲覧履歴など)を収益化可能なデジタル資産に変換することに重点を置いています。ユーザーは、DataDAO内の対応するデータ流動性プール(DLP)に個人データをアップロードすることを承認できます。これらのデータは収集され、AIモデルのトレーニングなどのタスクに参加するために使用され、ユーザーは対応するトークン報酬を受け取ります。リンク: https://www.vana.org/collectives

Chainbase (@ChainbaseHQ) が 1,650 万ドルを調達

Chainbaseの事業はオンチェーンデータに特化しており、現在200以上のブロックチェーンをカバーしています。オンチェーンアクティビティを構造化、検証可能、かつ収益化可能なデータ資産に変換し、dApp開発に役立てています。Chainbaseの事業は主にマルチチェーンインデックスなどの手法で取得され、データはManuscriptシステムとTheia AIモデルを通じて処理されています。現在、一般ユーザーはあまり関与していません。

Sapien(@JoinSapien)は1550万ドルを調達した

Sapienは、人間の知識を大規模に高品質なAI学習データに変換することを目指しています。プラットフォーム上で誰でもデータアノテーションを行うことができ、ピア検証を通じてデータの品質を確保できます。同時に、ユーザーは長期的な評判を築いたり、ステーキングを通じてコミットメントすることでより多くの報酬を獲得することが奨励されます。

リンク: https://earn.sapien.io/#hiw

Prisma X (@PrismaXai)は1,100万ドルを調達しました。Prisma Xは、物理的なデータ収集が鍵となるロボットのためのオープンなコーディネーションレイヤーを目指しています。このプロジェクトは現在初期段階にあります。最近公開されたホワイトペーパーによると、参加にはデータ収集用ロボットへの投資、ロボットデータの遠隔操作などが含まれる可能性があります。現在、ホワイトペーパーに基づいたクイズが公開されており、参加してポイントを獲得できます。リンク: https://app.prismax.ai/whitepaper

マサ @getmasafi が 890 万ドルを調達

MasaはBittensorエコシステムにおける主要なサブネットプロジェクトの一つであり、現在データサブネット42番とエージェントサブネット59番を運営しています。データサブネットは、データへのリアルタイムアクセスを提供することに注力しています。現在、マイナーは主にTEEハードウェアを介してX/Twitter上のリアルタイムデータをクロールしています。一般ユーザーにとって、参加の難易度とコストは比較的高くなっています。

Irys (@irys_xyz) は 870 万ドルを調達しました

Irysはプログラマブルなデータストレージとコンピューティングに注力し、AI、分散型アプリケーション(dApps)、その他のデータ集約型アプリケーション向けに、効率的で低コストなソリューションを提供することを目指しています。データ貢献という点では、一般ユーザーは現時点ではあまり参加できませんが、現在のテストネット段階では参加できるアクティビティが複数あります。

リンク: https://bitomokx.irys.xyz/

ORO、@getoro_xyz、600万ドルを調達

OROの目標は、一般の人々がAIへの貢献に参加できるようにすることです。サポート方法は次のとおりです。1. 個人アカウントをリンクして、ソーシャルアカウント、健康データ、eコマース、金融アカウントなどの個人データを提供する。2. データタスクを完了する。テストネットワークは現在オンラインになっており、ご参加いただけます。

リンク: app.getoro.xyz

Gata(@Gata_xyz)は400万ドルを調達した

分散型データレイヤーとして位置付けられるGataは、現在、次の3つの主要製品に取り組んでいます。1. データエージェント: ユーザーがウェブページを開いている限り、自動的に実行されデータを処理できる一連のAIエージェント。2. AII-in-one Chat: Yuppのモデル評価に似たメカニズムで報酬を獲得。3. GPT-to-Earn: ChatGPTでユーザーの会話データを収集するブラウザプラグイン。

リンク: https://app.gata.xyz/dataAgent

https://chromewebstore.google.com/detail/hhibbomloleicghkgmldapmghagagfao?utm_source=item-share-cb

現時点では、これらのプロジェクトの参入障壁は概して高くありませんが、ユーザー数とエコシステムの粘着性が蓄積されれば、プラットフォームの優位性は急速に蓄積されることを認識する必要があります。したがって、初期段階では、インセンティブとユーザーエクスペリエンスに重点を置く必要があります。十分なユーザー数を獲得して初めて、ビッグデータビジネスは成功します。

しかし、これらのデータプラットフォームは労働集約型プロジェクトであるため、労働力を確保しつつ、労働力をどのように管理し、データ出力の品質を確保するかという点も考慮する必要があります。多くのWeb3プロジェクトに共通する問題は、プラットフォーム上のユーザーのほとんどが冷酷な暴利主義者であるということです。彼らは短期的な利益のために品質を犠牲にすることがよくあります。彼らをプラットフォームの主要ユーザーにしてしまうと、悪貨が良貨を駆逐し、最終的にはデータの品質を保証できなくなり、買い手も惹きつけることができなくなります。現在、SaharaやSapienなどのプロジェクトはデータ品質を重視し、プラットフォーム上の労働者との長期的で健全な協力関係の構築に努めています。

さらに、透明性の欠如は、現在のオンチェーンプロジェクトが抱えるもう一つの問題です。実際、ブロックチェーンの不可能三角形は、多くのプロジェクトをスタートアップ段階で「集中化が分散化を駆動する」という道を歩ませてきました。しかし、現在ではますます多くのオンチェーンプロジェクトが「Web3の皮を被った古いWeb2プロジェクト」といった印象を与えています。チェーン上で追跡可能な公開データはごくわずかで、ロードマップを見ても長期的なオープン性と透明性の方向性が見えにくいのです。これはWeb3 DataFiの長期的な健全な発展にとって間違いなく有害であり、私たちはより多くのプロジェクトが初心を忘れず、オープン性と透明性の実現を加速していくことを願っています。

最後に、DataFiの普及経路も2つの部分に分けられるべきでしょう。1つは、十分な数のtoC参加者をネットワークに引き込み、データ収集・生成エンジニアリングとAIエコノミーの消費者の新たな勢力を形成し、エコロジカルなクローズドループを形成することです。もう1つは、現在の主流からB企業への認知度を高めることです。結局のところ、短期的には、彼らは豊富な資金力を持つ大規模なデータ注文の主な供給源です。この点では、Sahara AIやVanaなどが順調な進歩を遂げていることも確認されています。

もっと運命論的に言えば、DataFi は、人間の知能を使って長期的に機械知能を育成すると同時に、スマート コントラクトを契約として使用して、人間の知能労働が収益性が高く、最終的には機械知能からのフィードバックを享受できるようにすることを目的としています。

AI時代の不確実性に不安を感じており、暗号通貨の世界の浮き沈みの中でもブロックチェーンの理想を抱いているのであれば、大手資本グループの足跡をたどり、DataFiに参加することはトレンドに乗るための良い選択です。

コメント

全てのコメント

Recommended for you

  • 米FDICは、決済用ステーブルコインの発行を希望する規制対象機関向けの申請プロセスを確立する予定だ。

    連邦預金保険公社(FDIC)は、決済用ステーブルコインの発行を希望し、FDICの規制対象となる機関のための申請プロセスを定める規則案を承認したと発表した。60日間のパブリックコメント期間が開始された。これは、「米国ステーブルコインイノベーション法」とも呼ばれるGENIUS法の成立後、初の正式な規則案と報じられている。

  • BTCが8万8000ドルを突破

    市場データによると、BTCは88,000ドルを突破し、現在88,002.21ドルで取引されており、24時間で1.34%上昇しています。市場は大きなボラティリティを経験しているため、リスク管理にはご注意ください。

  • Bitwise は、2026 年は暗号通貨にとって強気市場になると信じており、10 の予測を発表しました。

    Bitwiseは、2026年は仮想通貨にとって強気相場の年になると考えています。機関投資家による導入から規制の進展まで、仮想通貨の現在の好調なトレンドは強力であり、長くは続かないでしょう。Bitwiseによる来年のトップ10の予測は以下のとおりです。予測1:ビットコインは4年サイクルを突破し、史上最高値を更新する。予測2:ビットコインのボラティリティはNVIDIAよりも低くなる。予測3:機関投資家の需要が加速するにつれ、ETFはビットコイン、イーサリアム、ソラナの新規供給量の100%以上を購入する。予測4:仮想通貨関連銘柄はハイテク株を上回る。予測5:ポリマーケットの建玉は史上最高値を更新し、2024年の選挙時の水準を上回る。予測6:ステーブルコインは新興国通貨の安定性を損なうとして非難される。予測7:オンチェーン金庫(「ETF 2.0」とも呼ばれる)の運用資産は倍増する。予測8:イーサリアムとソラナは史上最高値を更新する(CLARITY法案が可決された場合)。予測9:アイビーリーグの大学の基金の半数が暗号通貨に投資される。予測10:米国は100以上の暗号通貨関連ETFを立ち上げる。追加予測:ビットコインと株式の相関関係は低下する。

  • 中国地産投資は、BNBを戦略的準備資産として購入し保有する計画だ。

    中国地産投資(00736)は、資産配分の多様化とデジタル経済発展の機会獲得という同社の戦略を推進するため、関連法令の遵守とリスク管理を条件として、自己資金を用いてBNB(バイナンスコイン)をはじめとする適切なデジタル資産をオープン市場で戦略的準備資産として購入・保有することを決議したと発表した。同社はデジタル資産業界の長期的な発展見通しに楽観的であり、BNBの運営主体、その技術研究開発、エコシステム構築、そして業界競争力に全幅の信頼を寄せており、ブロックチェーン分野におけるBNBの長期的な発展ポテンシャルと価値成長の余地を認識している。この計画に充当される資金はすべて同社の既存の自己資金から調達され、資金配分は同社の財務管理基準および全体事業計画に準拠しており、日常業務の正常な運営に影響を与えることはない。取締役会は、市場状況に応じて、承認された限度額内で一括して購入を実施する。

  • ホワイトハウス国家経済会議のハセット委員長:「供給サイドのプラスショックを考慮すると、金利引き下げの余地はまだ大きい」

    ホワイトハウス国家経済会議のハセット委員長:「供給サイドのプラスショックを考慮すると、金利引き下げの余地はまだ大きい」

  • ステーブルコイン決済会社RedotPayが1億700万ドルのシリーズB資金調達ラウンドを完了。

    ステーブルコイン決済に特化した香港のフィンテック企業RedotPayは、Goodwater Capitalが主導し、Pantera Capital、Blockchain Capital、Circle Ventures、既存投資家のHSG(旧Sequoia Capital China)が参加した1億700万ドルのシリーズB資金調達ラウンドの完了を発表した。

  • Binance Alpha は 22:00 に Theoriq (THQ) を上場します。

    Binance AlphaにTheoriq(THQ)が上場され、Alphaの取引は2025年12月16日22時(UTC+8)に開始されます。220 Binance Alphaポイント以上を保有するユーザーは、トークンのエアドロップを請求できます。Alphaイベントページから400 THQトークンを請求してください。このイベントは「ポイント減少型」モデルを採用しており、最初の1分以内にエアドロップを請求すると、30 Binance Alphaポイントが消費されます。イベントが継続する場合、必要なポイントはその後1分ごとに1ポイントずつ減少し、最低10ポイントになります。

  • 米国政府の雇用は10月に15万7000人減少した。

    米国労働統計局は、11月の非農業部門雇用者数報告と10月の非農業部門雇用者数データの一部を発表しました。データによると、11月の米国の非農業部門雇用者数は6万4000人増加しました。業種別では、医療・社会福祉部門で6万4000人の増加が最も大きく、一方、運輸・倉庫部門で1万7700人の減少が最も大きかった。10月は非農業部門雇用者数が10万5000人急減し、中でも政府部門の減少が最も大きく、15万7000人減少しました。これは2ヶ月連続の雇用減少となりました。一方、医療・社会福祉部門で6万4600人の増加が最も大きかったことが分かりました。

  • 米国の雇用は10月に2020年末以来最大の落ち込みを記録した。

    米国労働統計局が火曜日に発表したデータによると、11月の非農業部門雇用者数は6万4000人増加し、10月の10万5000人減少から減少した。先月の失業率は4.6%で、9月の4.4%から上昇し、2021年以来の高水準となった。労働統計局は、政府閉鎖後の遡及的なデータ収集ができなかったため、10月の失業率の発表を見送った。10月の雇用者数の減少は、トランプ政権の買収退職プログラムに参加した職員が正式に雇用リストから外れ、連邦政府職員が16万2000人減少したことから、2020年末以来最大の落ち込みとなった。

  • 11月の米国失業率の予想外の上昇は連邦準備制度理事会の注意を引くかもしれないが、労働力参加率の回復はいくらかの懸念を和らげると予想される。

    アナリストのアンスティ氏による米国非農業部門雇用統計の速報では、11月の非農業部門雇用統計が予想をわずかに上回り、6万4000人の新規雇用を記録したと指摘されています。11月の失業率は予想外に4.6%に上昇し、FRB(連邦準備制度理事会)の注目を集める可能性があります。しかし、労働力参加率は上昇しているため、失業率の上昇は必ずしも悪い兆候ではないかもしれません。具体的なデータは、引き続き詳細に検討する必要があります。米国株価指数先物は上昇し、2年物米国債利回りは低下しました。ここ数ヶ月の非農業部門雇用統計の低調な動きを受けて、FRBによる追加金融緩和への期待が高まっています。なお、8月と9月の統計も合わせて3万3000人下方修正されたことにも注目すべきです。