TL;DR: Pinax のデータセットは、Parquet ファイルと S3 を使用してブロックチェーン データ アクセスを簡素化します。この組み合わせにより、効率的なストレージ、高速化されたクエリ パフォーマンス、およびさまざまな分析ツールとのシームレスな統合が実現します。生のブロックチェーン データは SQL スキーマを使用して構造化されているため、分析が簡単です。私たちのデータセットは、複数の複雑なブロックチェーン情報にアクセスして分析するためのユーザーフレンドリーなソリューションを提供します。
前回のブログ投稿では、Pinpoint のデータセットと、それがブロックチェーン データへのアクセスを簡素化する方法について紹介しました。この記事では、Parquet ファイルや SQL スキーマなど、データセットを強力にするツールと構造について詳しく説明します。 Pinax が効率的なデータ ストレージのために Parquet ファイルをどのように使用しているか、またオリジナルのブロックチェーン データセットを支える包括的な SQL アーキテクチャについて説明します。データ アナリストに使いやすい最先端のテクノロジーを提供する計画をご覧ください。
Pinax データセットにより、ブロックチェーン データに簡単にアクセスできるようになり、ブロックチェーン情報を分析したいが専門的なツールやインフラストラクチャを持っていない人にとって障壁が取り除かれます。 S3 でホストされている Parquet ファイルを活用して、マクロ分析から AI チャットボット、財務分析まで、さまざまな分野の専門家がデータ ラングリングではなく分析に集中できるようにします。
データセットは既存の分析ツールと互換性があるように設計されており、分析者が現在の設定を簡単にプラグアンドプレイできるようにしています。これは、Amazon S3 を外部テーブルとして使用して、データセットを既存のワークフローにシームレスに統合できることを意味します。外部テーブルはさまざまなデータベースで広くサポートされているため、大規模なセットアップやカスタム インフラストラクチャを必要とせずに S3 から直接データをクエリでき、データ管理が簡素化されます。
Ethereum データセットをお試しください: Snowflake で 30 日間無料でお試しください。
ブロックチェーン データへのアクセス、処理、分析は、特にテクノロジーが業界全体で進化し続け、データ量と複雑さが増加しているため、困難になる可能性があります。 Pinax は、アクセスを簡素化し、技術ユーザーと非技術ユーザーの両方を念頭に置いて設計された使いやすいデータセットを提供します。私たちの簡略化されたアプローチの中心となるのは、特に大規模なデータ セットの効率とスケーラビリティを向上させる強力な列指向ストレージ形式である Parquet ファイルです。
しかし、Parquet ファイルとは正確には何ですか?また、ブロックチェーン データにアクセスする上でなぜそれほど重要なのでしょうか?
Parquet は、その効率的な圧縮とパフォーマンスにより、データ処理に広く使用されている列指向のストレージ ファイル形式です。データを順番に保存する行ベースのストレージ形式とは異なり、Parquet はデータを列に編成することでストレージとクエリのパフォーマンスを最適化し、特に分析に効果的です。
---この図は、行レイアウト (各行が順番に格納される) と列レイアウト (各列が完全に格納される (ソース)) を比較しています。
Parquet ファイルの列形式は、ブロックチェーン内の複雑で大量のデータ セットの管理に最適です。選択的な列クエリを有効にすることで、Parquet はクエリ速度を向上させ、ストレージ コストを削減し、テラバイト規模のブロックチェーン データを処理するための実用的なソリューションを提供します。
主な利点は次のとおりです。
Parquet ファイルの列形式は、ブロックチェーン内の複雑で大量のデータ セットの管理に最適です。選択的な列クエリを有効にすることで、Parquet はクエリ速度を向上させ、ストレージ コストを削減し、テラバイト規模のブロックチェーン データを処理するための実用的なソリューションを提供します。
主な利点は次のとおりです。
- 効率的なストレージ: Parquet は、品質を損なうことなくデータを圧縮することでストレージ コストを削減します。これは、大規模なブロックチェーン データセットに特に有益です。
- クエリの高速化: 列ベースのストレージにより、アナリストは必要なデータのみにアクセスできるため、Messari などのツールのパフォーマンスが向上します。
- 幅広い互換性: Parquet はさまざまな分析ツールとシームレスに統合し、SQL、Python、R などにわたるワークフローをサポートします。
Pinax は、ブロックチェーン データを使いやすい形式で提供します。
- シームレスな統合: 生のブロックチェーン データを Parquet 形式で提供し、ユーザーがデータを既存のパイプラインにスムーズに統合できるようにします。
- 最新の洞察: データセットは毎日更新されるため、ユーザーは最新のブロックチェーン データに確実にアクセスできます。
- 使いやすさの向上: Parquet の使い慣れた形式により分析プロセスが簡素化され、アナリストはインフラストラクチャではなく分析に集中できるようになります。
データセットのパイロット プログラムは順調に進んでおり、データ アクセスとパフォーマンスの向上を目指して新たな進歩を遂げています。セットアップに関する最新情報は次のとおりです。
- データの分離とアクセスのオプション: S3 外部テーブルの設定により、アナリストはデータ アクセスを独立して管理できます。オプションには、S3 データのカスタム テーブルへのコピー、S3 外部テーブルへの直接接続、または事前構成された Snowflake ビューの使用が含まれます。さらに、データをローカル ディスク処理にダウンロードできるため、データ処理が柔軟になります。
- カスタマイズ要件への関与を最小限に抑える: この設定により、Pinex の役割は軽くなり、主にデータの整合性と正確なスキーマ定義を確保することに重点が置かれ、一方、アナリストは特定のデータのニーズを制御できます。
- データの同期とフォーマット: 自動 S3 同期アップロードによりデータフォーマットの可読性が確保され、データセット上にカスタム ビューを作成して分析ニーズをより適切に満たすことができます。
- パフォーマンスの最適化: 速度を向上させるためのパーティションの再編成など、大規模なデータ セットでのクエリ パフォーマンスを向上させるための構成のテストを継続します。
Pinax データセットは、さまざまなアプリケーションに役立つ可能性があります。
- マクロ分析: Messari や Snowflake などのプラットフォームは、ブロックチェーンの洞察をより広範な市場分析にシームレスに統合することで、当社のデータセットの恩恵を受けています。
- 会計: ブロックチェーン記録は透明性と不変の台帳を提供するため、会計および監査の目的で価値があります。
- ブロックチェーンフォレンジック: データセットは、フォレンジック調査員がトランザクションを追跡し、詐欺を検出し、ブロックチェーン上の不審なアクティビティを監視するのに役立ちます。
- AI チャットボットと LLM: 構造化ブロックチェーン データへのアクセスは、AI モデル、特にブロックチェーン関連のクエリを理解したり分析を実行するために設計された大規模言語モデル (LLM) の高品質トレーニング データとして機能します。
- 財務分析: DeFi アプリケーションは Pinax データを統合して過去の取引統計を表示し、より賢明な財務上の意思決定のための洞察を提供できます。
ブロックチェーン データは生の形式で表示され、ネットワーク上のすべての重要なトランザクションとインタラクションをキャプチャします。 Pinax は、ブロック、トランザクション、拡張追跡、ログなどの拡張ベース Ethereum データ テーブルへのアクセスを提供します。当社のデータセットは、個々のトランザクションの追跡からブロック全体の傾向の理解まで、きめ細かい分析を可能にし、さまざまな分野のアプリケーションに最適です。
---ブロック、トランザクション、ログ、および詳細な分析のための拡張追跡をカバーする包括的な EVM ブロックチェーン データ。
効率的なアクセスを実現するために、Pinax は SQL アーキテクチャを使用してブロックチェーン データを構造化します。このスキーマは Parquet ファイル内のデータの構造を定義し、さまざまなアプリケーションにわたるデータ アクセスと分析を簡素化します。 EVM SQL スキーマは、ブロック、トランザクション、ログ、状態変化などの EVM データを追跡するための詳細なテーブルを提供します。各テーブルは詳細な分析のための詳細なデータを取得し、ユーザーがブロックチェーンの相互作用を効率的に探索できるようにします。
Ethereum データを構築するための SQL スキーマを調べるには、GitHub で Pinpoint の EVM SQL スキーマを確認してください。
Ethereum データを構築するための SQL スキーマを調べるには、GitHub で Pinpoint の EVM SQL スキーマを確認してください。
この SQL スキーマを実際の分析にどのように適用できるかを説明するために、ブロックチェーン データから特定のデータを取得する方法を示すサンプル クエリをいくつか示します。
-- This query calculates the number of unique active users per minute on a specific date.
SELECT
date_trunc('minute', block_time) AS minute,
count(distinct "from") AS user
FROM ethereum.transactions
WHERE block_date = '2024-10-01'
GROUP BY minute
ORDER BY minute ASC;
-- This query retrieves the top 10 contracts with the most transactions on a specific date, ordered by transaction count.
SELECT
"to" AS contract,
count(*) AS transactions
FROM ethereum.transactions
WHERE block_date = '2024-10-01'
GROUP BY contract
ORDER BY transactions DESC
LIMIT 10;
-- This query counts the total number of successful ERC-20 token transfers (using Transfer and TransferFrom functions) per day within a specified date range.
SELECT
block_date,
count(*) as total
FROM ethereum.traces
WHERE
tx_success = true AND
SUBSTR(input, 1, 10) IN ('0xa9059cbb', '0x23b872dd') -- Transfer and TransferFrom
AND block_date >= '2024-09-01' AND block_date <= '2024-09-07'
GROUP BY block_date
ORDER BY block_date;
Pinax データ コレクションは Snowflake 上で使用できます。Snowflake は、その使いやすさと大きな成功の実現により、ブロック データを収集するためのクラウド ベースのデータ プラットフォームです。
Snowflake Marketplace は、より広範囲のデータ コレクションを提供し、より大規模なデータのアクセス可能性を促進します。
セクショナリデータは一般にアクセスや分析に適さないと考えられていますが、Pinax データコレクションはこの考えを変えるものであり、セクショナリデータをユーザーの好みに合わせて分析から AI までさまざまな用途に使用できるようにします。モデルの議論が行われます。
リクエストの実行により、ゾーン データ アクセスがどのように変更されるのかを知ることができます。
お客様のニーズに基づいてブロックチェーン データ アクセスを簡素化する方法を検討することに興味がある場合は、当社の Web サイトにアクセスするか、詳細についてお問い合わせください。デモをリクエストして、ブロックチェーン データの洞察をどのように変換できるかを確認してください。
私たちの ETH データセットは、Snowflake で 30 日間無料で利用できることを忘れないでください。
(関連する専門用語、コメント、コード ライブラリ、ハイパーリンクなどについては、ブログを参照してください)
💡 この記事は次の質問に答えます。
- Pinax は使いやすさと最適なパフォーマンスを実現するブロックチェーン データセットをどのように構築していますか?
- Pinax のデータセットはどのような種類の業界やユースケースにメリットをもたらしますか?
- 寄木細工ファイルとは何ですか?
- Parquet ファイルがブロックチェーン データに適しているのはなぜですか?
- 生のブロックチェーンデータには何がキャプチャされますか?
- ブロックチェーン データの構造化における SQL スキーマの役割は何ですか?
- Pinax データセットを無料で試すにはどうすればよいですか?
#ブロックチェーンデータ分析#データセット#Web3データ#ブロックチェーン開発
全てのコメント