Cointime

Download App
iOS & Android

Sora 誕生 2024 年は AI+Web3 革命元年になるかも?

序文

2 月 16 日、OpenAI は最新のテキスト制御ビデオ生成普及モデル「Sora」を発表しました。これは、広範囲のビジュアル データ タイプをカバーする複数の高品質生成ビデオを通じて、生成 AI の新たなマイルストーンの瞬間を実証しました。依然として複数の画像から数秒のビデオを生成している Pika のような AI ビデオ生成ツールとは異なり、Sora は、ビデオと画像の圧縮された潜在空間でトレーニングし、それらを時空間位置パッチに分解することで、スケーラブルなビデオ生成を実現します。さらに、モデルには物理世界とデジタル世界をシミュレートする機能も反映されており、最終的に披露された60秒のデモは「物理世界のユニバーサルシミュレーター」と言っても過言ではありません。

Sora は構築方法に関して、以前の GPT モデルの「ソースデータ - トランスフォーマー - 拡散 - 創発」という技術的な道筋を引き継いでいます。つまり、その成熟した開発にはエンジンとしての計算能力も必要であり、必要なデータ量が増加するためです。ビデオ トレーニングはテキストのトレーニングよりもはるかに大きくなります。トレーニング データの量が増えると、コンピューティング パワーの需要がさらに増加し​​ます。ただし、AI 時代におけるコンピューティング能力の重要性については、以前の記事「潜在的な軌道のプレビュー: 分散型コンピューティング能力市場」ですでに説明しました。最近の AI の人気の高まりにより、すでに多数のコンピューティング能力が登場しています。のコンピューティングパワープロジェクトが市場に登場し始め、受動的に恩恵を受けた他の Depin プロジェクト (ストレージ、コンピューティングパワーなど) も急増しました。では、Depin に加えて、Web3 と AI の交差点では他にどのような火花が生まれるのでしょうか?このトラックには他にどのような機会が含まれていますか?この記事の主な目的は、過去の記事を更新して完成させることと、AI時代のWeb3の可能性について考えることです。

AI 開発の歴史における 3 つの主要な方向性

人工知能 (Artificial Intelligence) は、人間の知能をシミュレート、拡張、強化するように設計された新興の科学技術です。人工知能は 1950 年代から 1960 年代に誕生して以来、半世紀以上の発展を経て、現在では社会生活やあらゆる階層の変化を促進する重要なテクノロジーとなっています。この過程において、象徴主義、コネクショニズム、行動主義という 3 つの主要な研究方向の絡み合った発展が、今日の AI の急速な発展の基礎となっています。

象徴性

論理主義または規則主義としても知られ、記号を処理することで人間の知能をシミュレートできるという考えです。この手法は、問題領域におけるオブジェクト、概念、それらの相互関係を記号で表現・操作し、論理的推論を用いて問題を解決する手法であり、特にエキスパートシステムや知識表現において顕著な成果を上げている。象徴主義の核となる考え方は、シンボルの操作と論理的推論を通じて知的な行動が達成できるというものであり、シンボルは現実世界からの高度な抽象化を表します。

コネクショニズム

ニューラルネットワーク法とも呼ばれ、人間の脳の構造と機能を模倣することで知能を実現することを目的としています。この方法では、多数の単純な処理ユニット (ニューロンに似た) のネットワークを構築し、これらのユニット間の接続の強度を調整する (シナプスに似た) ことで学習を実現します。コネクショニズムは、データから学習して一般化する能力を特に重視しており、パターン認識、分類、および連続入出力マッピング問題に特に適しています。コネクショニズムの発展としてのディープラーニングは、画像認識、音声認識、自然言語処理などの分野で画期的な進歩をもたらしました。

行動主義

行動主義はバイオニックロボット工学や自律型インテリジェントシステムの研究と密接に関連しており、インテリジェントエージェントが環境との相互作用を通じて学習できることが強調されています。最初の 2 つとは異なり、行動主義は内部表現や思考プロセスをシミュレートすることに焦点を当てているのではなく、むしろ知覚と行動のサイクルを通じて適応的な行動を達成することに焦点を当てています。行動主義では、知能は環境との動的な相互作用と学習を通じて発揮されると考えられており、この手法は、複雑で予測不可能な環境で動作する必要がある移動ロボットや適応制御システムに適用すると特に効果的です。

行動主義はバイオニックロボット工学や自律型インテリジェントシステムの研究と密接に関連しており、インテリジェントエージェントが環境との相互作用を通じて学習できることが強調されています。最初の 2 つとは異なり、行動主義は内部表現や思考プロセスをシミュレートすることに焦点を当てているのではなく、むしろ知覚と行動のサイクルを通じて適応的な行動を達成することに焦点を当てています。行動主義では、知能は環境との動的な相互作用と学習を通じて発揮されると考えられており、この手法は、複雑で予測不可能な環境で動作する必要がある移動ロボットや適応制御システムに適用すると特に効果的です。

これら 3 つの研究方向には本質的な違いがありますが、実際の AI 研究と応用では、相互作用し統合して AI 分野の発展を共同で推進することもできます。

AIGC 原則の概要

現在爆発的な発展を遂げている AIGC (Artificial Intelligence Generated Content) は、コネクショニズムを進化・応用したもので、人間の創造性を模倣して斬新なコンテンツを生成することができます。これらのモデルは、大規模なデータセットと深層学習アルゴリズムを使用してトレーニングされ、データ内に存在する基礎的な構造、関係、パターンを学習します。画像、ビデオ、コード、音楽、デザイン、翻訳、質問の回答、テキストなどのユーザー入力プロンプトに基づいて、斬新でユニークな出力を生成します。現在の AIGC は基本的に、ディープラーニング (DL)、ビッグデータ、大規模コンピューティング能力の 3 つの要素で構成されています。

ディープラーニング

ディープ ラーニングは機械学習 (ML) のサブ分野であり、ディープ ラーニング アルゴリズムは人間の脳をモデルにしたニューラル ネットワークです。たとえば、人間の脳には相互接続された何百万ものニューロンが含まれており、それらが連携して情報を学習し、処理します。同様に、深層学習ニューラル ネットワーク (または人工ニューラル ネットワーク) は、コンピューター内で連携して動作する複数の人工ニューロン層で構成されます。人工ニューロンは、数学的計算を使用してデータを処理するノードと呼ばれるソフトウェア モジュールです。人工ニューラル ネットワークは、これらのノードを使用して複雑な問題を解決する深層学習アルゴリズムです。

ニューラルネットワークは階層的に入力層、隠れ層、出力層に分けることができ、パラメータは異なる層間で接続されます。

● 入力層: 入力層はニューラル ネットワークの最初の層であり、外部入力データの受信を担当します。入力層の各ニューロンは、入力データの特徴に対応します。たとえば、画像データを処理する場合、各ニューロンは画像内のピクセル値に対応する場合があります。

● 隠れ層: 入力層はデータを処理し、ニューラル ネットワーク内のさらなる層にデータを渡します。これらの隠れ層はさまざまなレベルで情報を処理し、新しい情報を受け取るとその動作を調整します。深層学習ネットワークには何百もの隠れ層があり、さまざまな観点から問題を分析するために使用できます。たとえば、分類する必要がある未知の動物の画像が与えられた場合、それをすでに知っている動物と比較できます。たとえば、耳の形、足の数、瞳孔の大きさによって、それが何の動物であるかがわかります。ディープ ニューラル ネットワークの隠れ層も同様に機能します。深層学習アルゴリズムが動物の画像を分類しようとしている場合、その隠れ層のそれぞれが動物の異なる特徴を処理し、正確に分類しようとします。

● 出力層: 出力層はニューラル ネットワークの最後の層であり、ネットワークの出力の生成を担当します。出力層の各ニューロンは、可能な出力カテゴリまたは値を表します。たとえば、分類問題では、各出力層のニューロンがカテゴリに対応する場合がありますが、回帰問題では、出力層には、値が予測結果を表すニューロンが 1 つだけ含まれる場合があります。

● パラメータ: ニューラル ネットワークでは、異なる層間の接続は重み (Weights) パラメータとバイアス (Biases) パラメータによって表されます。これらのパラメータは、ネットワークがデータ内のパターンを正確に識別して予測できるように、トレーニング プロセス中に最適化されます。パラメーターの増加により、ニューラル ネットワークのモデル能力、つまりデータ内の複雑なパターンを学習して表現するモデルの能力が向上します。しかし、それに応じてパラメータが増加すると、計算能力の需要も増加します。

ビッグデータ

ニューラル ネットワークを効果的にトレーニングするには、通常、複数のソースからの大量の多様で高品質のデータが必要です。これは、機械学習モデルのトレーニングと検証の基礎です。ビッグデータを分析することで、機械学習モデルはデータ内のパターンと関係を学習して、予測や分類を行うことができます。

大規模なコンピューティング能力

ビッグデータ

ニューラル ネットワークを効果的にトレーニングするには、通常、複数のソースからの大量の多様で高品質のデータが必要です。これは、機械学習モデルのトレーニングと検証の基礎です。ビッグデータを分析することで、機械学習モデルはデータ内のパターンと関係を学習して、予測や分類を行うことができます。

大規模なコンピューティング能力

ニューラル ネットワークの多層の複雑な構造、多数のパラメーター、ビッグ データ処理要件、反復トレーニング方法 (トレーニング段階ではモデルを繰り返し反復する必要があり、トレーニング プロセスでは順伝播と逆伝播が必要です)伝播は各層の計算 (活性化関数計算、損失関数計算、勾配計算、重み更新を含む)、高精度計算要件、並列コンピューティング機能、最適化および正則化技術、モデルの評価および検証プロセスを組み合わせることで必要になります。高いコンピューティング能力が求められます。

ソラ

OpenAI によってリリースされた最新のビデオ生成 AI モデルとして、Sora は、多様なビジュアル データを処理および理解する人工知能の能力における大きな進歩を表しています。 Sora はビデオ圧縮ネットワークと時空間パッチ技術を使用することで、世界中のさまざまなデバイスでキャプチャされた大量のビジュアル データを統一された表現に変換することができ、それによって複雑なビジュアル コンテンツの効率的な処理と理解を実現します。 Sora はテキスト条件付き拡散モデルに依存し、テキスト プロンプトに基づいて非常に一致するビデオや画像を生成することができ、非常に高い創造性と適応性を示します。

しかし、Sora はビデオ生成と現実世界のインタラクションのシミュレーションにおける画期的な進歩にも関わらず、物理世界シミュレーションの精度、長いビデオ生成の一貫性、複雑なテキスト命令の理解、トレーニングと生成の効率など、依然としていくつかの制限に直面しています。そしてSoraは本質的にOpenAIの独占レベルのコンピューティングパワーと先行者利益を通じて暴力的な美学を実現し、「ビッグデータ→トランスフォーマー→拡散→出現」という古いテクノロジーの道を継続しているが、他のAI企業が依然として技術的な迂回路を抱えている一方で、それを追い抜く可能性がある。

Sora はブロックチェーンとはあまり関係がありませんが、個人的には今後 1 ~ 2 年でさらに普及すると考えています。 Sora の影響により、他の高品質な AI 生成ツールの出現と急速な発展が強制され、GameFi、ソーシャル ネットワーキング、作成プラットフォーム、Web3 の Depin などの多くのトラックに放射されるため、一般的な将来、AI が Web3 とどのように効果的に組み合わされるかは、私たちが考える必要がある重要なポイントかもしれません。

AI×Web3の大きく4つの道筋

前述したように、生成型AIに必要な基盤は、実はアルゴリズム、データ、計算能力の3点だけであることがわかりますが、一方でAIは汎用性や生成型の観点から生産方式を覆すツールでもあります。効果。ブロックチェーンの最大の役割は 2 つあります。それは、生産関係の再構築と分散化です。したがって、この 2 つの衝突によって生成される経路は次の 4 つであると個人的には考えています。

分散型コンピューティング能力

関連記事は過去に書かれているため、この段落の主な目的は、コンピューティング パワー トラックの現在の状況を更新することです。 AI に関して言えば、コンピューティング能力は常に避けられない要素です。 AI の計算能力に対する要求は非常に大きく、Sora の誕生後は想像もできませんでした。最近、スイスのダボスで開催された2024年世界経済フォーラムで、OpenAI CEOのサム・アルトマン氏は、現段階ではコンピューティングパワーとエネルギーが最大の障害であり、将来的にはそれらの重要性は通貨と同等になるだろうと率直に述べた。 2月10日、サム・アルトマン氏はTwitterで7兆ドル(2023年の中国国家GDPの40%に相当)を調達し、現在の世界的な半導体産業のパターンを書き換えてチップ帝国を築くという極めて驚くべき計画を発表した。コンピューティングパワーに関連する記事を書いているとき、私の想像力はまだ国家封鎖と巨大独占に限られていましたが、今では、一企業が世界の半導体産業を支配しようとしているのは本当にクレイジーです。

したがって、分散型コンピューティング能力の重要性は自明であり、ブロックチェーンの特性により、コンピューティング能力の極端な独占と専用 GPU の高価な購入という現在の問題を実際に解決することができます。 AI 要件の観点から見ると、コンピューティング能力の使用は、推論とトレーニングの 2 つの方向に分けることができます。現在、分散ネットワークの必要性からニューラル ネットワーク設計との組み合わせに至るまで、トレーニングに焦点を当てたプロジェクトはわずかしかありません。ウルトラハードウェアの必要性 高い需要は、非常に敷居が高く、実装が非常に困難な方向となることが運命づけられています。理由は比較的単純で、分散型ネットワーク設計は複雑ではなく、ハードウェアと帯域幅の要件も低いため、現在は比較的主流の方向と考えられています。

集中型コンピューティングパワー市場の想像力の空間は巨大であり、「兆レベル」というキーワードと結び付けられることが多く、AI時代で最も頻繁に宣伝されるトピックでもあります。しかし、最近登場した多数のプロジェクトから判断すると、そのほとんどは依然として人気を集めるために店頭に殺到しています。常に分散化の正しい旗を高く掲げていますが、分散化ネットワークの非効率性については沈黙を保っています。また、設計には高度な均質性があり、多くのプロジェクトが非常に類似しているため (ワンクリック L2 とマイニング設計)、最終的には従来の AI トラックのシェアを獲得することが困難な状況につながる可能性があります。

アルゴリズムとモデルの連携システム

機械学習アルゴリズムとは、データからルールとパターンを学習し、それらに基づいて予測や意思決定を行うことができるアルゴリズムを指します。アルゴリズムの設計と最適化には深い専門知識と技術革新が必要なため、アルゴリズムは技術集約的です。アルゴリズムは AI モデルのトレーニングの中核であり、データを有用な洞察や意思決定に変換する方法を定義します。 Generative Adversarial Network (GAN)、variational Autoencoder (VAE)、Transformer などのより一般的な生成 AI アルゴリズムは、それぞれ特定の分野 (絵画、言語認識、翻訳、ビデオ生成など) 向けに設計されているか、目的のために生まれています。 、アルゴリズムを通じて専用の AI モデルをトレーニングします。

非常に多くのアルゴリズムとモデルがあり、それぞれに独自の利点がありますが、それらを民間と軍事の両方に使用できるモデルに統合することはできるでしょうか?最近非常に人気になっている Bittensor は、この分野のリーダーであり、マイニング インセンティブを利用して、さまざまな AI モデルとアルゴリズムが相互に連携して学習できるようにし、それによってより効率的で汎用性の高い AI モデルを作成します。 Commune AI(コード連携)などもこの方向に力を入れていますが、現在のAI企業にとってアルゴリズムやモデルは自社の魔法の武器であり、勝手に借りられるものではありません。

したがって、AI 協調エコシステムの物語は非常に斬新で興味深いものであり、協調エコシステムはブロックチェーンを利用して AI アルゴリズム アイランドの欠点を統合しますが、それに見合った価値を生み出すことができるかどうかはまだ不明です。結局のところ、大手 AI 企業のクローズドソースのアルゴリズムとモデルは、更新、反復、統合する非常に強力な能力を備えています。たとえば、OpenAI は、2 年足らずの開発で、初期のテキスト生成モデルから複数の分野で生成されたモデルまで反復しました。 Bittensor などのプロジェクトは、モデルとアルゴリズムにおいて大きな進歩を遂げましたが、対象となる領域には新しいアプローチが必要になる可能性があります。

分散型ビッグデータ

単純な観点から見ると、プライベートデータをAIにフィードしたり、データにラベルを付けたりすることは、ブロックチェーンと非常に整合性のある方向性であり、ジャンクデータや悪事を防ぐ方法に注意するだけでよく、データストレージにはFILやARも使用できます。 Depin プロジェクトに利益をもたらすために。複雑な観点から見ると、ブロックチェーン データのアクセシビリティを解決するために機械学習 (ML) にブロックチェーン データを使用することも興味深い方向性です (ギザの探求方向の 1 つ)。

理論上、ブロックチェーン データはいつでもアクセスでき、ブロックチェーン全体のステータスを反映します。しかし、ブロックチェーンエコシステムの外にいる人にとって、これらの大量のデータにアクセスするのは簡単ではありません。ブロックチェーン全体を保存するには、広範な専門知識と大量の専用ハードウェア リソースが必要です。ブロックチェーン データにアクセスする際の課題を克服するために、業界ではいくつかのソリューションが登場しています。たとえば、RPC プロバイダーは API を介してノードへのアクセスを提供し、インデックス サービスは SQL と GraphQL を介してデータ抽出を可能にし、どちらも問題を解決する上で重要な役割を果たします。ただし、これらの方法には制限があります。 RPC サービスは、大量のデータ クエリを必要とする高密度の使用シナリオには適しておらず、多くの場合、需要を満たせません。同時に、インデックス サービスはデータを取得するためのより構造化された方法を提供しますが、Web3 プロトコルの複雑さにより効率的なクエリを構築することが非常に困難になり、場合によっては数百行、さらには数千行の複雑なコードの記述が必要になります。この複雑さは、データの専門家や、Web3 の詳細を理解していない人にとっては大きな障害となります。これらの制限の累積的な影響は、現場での幅広い採用と革新を促進できる、ブロックチェーン データを取得して利用するより簡単な方法の必要性を浮き彫りにしています。

次に、ZKML (ゼロ知識証明機械学習、チェーン上の機械学習の負担を軽減する) と高品質のブロックチェーン データを組み合わせることで、ブロックチェーンのアクセシビリティの問題を解決するデータセットを作成できる可能性があり、AI は大幅な改善を実現します。ブロックチェーンのコストを削減し、データへのアクセシビリティを向上させることで、開発者、研究者、ML 愛好家は、時間の経過とともに、効果的で革新的なソリューションを構築するために、より高品質で関連性の高いデータセットにアクセスできるようになります。

AI を活用した Dapp

2023 年に ChatGPT3 が普及して以来、AI を活用した Dapp は非常に一般的な方向性になりました。非常に汎用性の高い生成 AI には API を通じてアクセスし、データ プラットフォーム、取引ロボット、ブロックチェーン百科事典、その他のアプリケーションを簡素化してインテリジェントに分析できます。一方で、チャットボット (Myshell など) や AI コンパニオン (Sleepless AI) として機能したり、生成 AI を通じてチェーン ゲームで NPC を作成したりすることもできます。ただし、技術的な障壁が非常に低いため、APIにアクセスして微調整することがほとんどで、プロジェクト自体との統合も完全ではないため、言及されることはほとんどありません。

しかし、Sora の登場後、私は個人的に、GameFi (メタバースを含む) とクリエイティブ プラットフォームを強化する AI の方向性が次の焦点になると考えています。 Web3 分野はボトムアップの性質を持っているため、従来のゲームやクリエイティブ企業と競合する製品を生み出すことは間違いなく困難であり、Sora の登場によりこのジレンマは (おそらくわずか 2 ~ 3 年以内に) 打破される可能性があります。 Sora のデモから判断すると、すでにマイクロショート ドラマ会社と競争できる可能性を秘めています。Web3 の活発なコミュニティ文化は、多くの興味深いアイデアを生み出す可能性もあります。制限が想像力だけである場合、ボトムアップ業界とトップ-伝統的な産業間の障壁は取り払われます。

結論

生成AIツールが進化し続けるにつれ、今後私たちはさらに画期的な「iPhoneの瞬間」を経験することになるでしょう。 AIとWeb3の組み合わせを冷笑する人も多いですが、実際には現状の方向性でほとんど問題はなく、解決すべき課題は必要性、効率性、適合性の3つだけだと考えています。両者の統合は模索段階にあるが、この路線が次の強気相場の主流になることを妨げるものではない。

新しいものに対する十分な好奇心と受容を常に維持することは、私たちにとって必須の精神です. 歴史的に、馬車に代わる自動車の変革は、瞬時に当然の結論になりました. 過去の碑文やNFTと同様に、そこにもあります偏見が多いとチャンスを逃すだけです。

コメント

全てのコメント

Recommended for you