Cointime

Download App
iOS & Android

データラベリング業界と法的リスクの防止

Validated Individual Expert

データは AI ビッグ モデルの基盤です。大量かつ高品質のデータを継続的にトレーニングおよび調整することで、大規模モデルの精度と効率を向上させることができます。大規模なモデルのトレーニングでは、データ マイニング、Web クローラー、データ共有、データのオープン性、法的取引などの方法を通じてデータを取得し、データ クリーニング、重複排除、フォーマット、手動ラベル付けを通じてデータを処理する必要があります。一般に、トレーニング データの作成プロセスには、主にトレーニング データ セットの構造設計、原材料データの収集と取得、データの処理とラベル付け、データ品質検査、その他のリンクが含まれると考えられています。

近年、私の国のデータラベリング市場は急速に発展しています。華京産業研究院の統計によると、2021年の我が国の人工知能データラベリング市場では、コンピュータービジョン、インテリジェント音声、NLP(自然言語処理、略称NLP、自然言語処理)の需要が45.3%、40.5%を占めた。それぞれ14.2%、2021年に我が国のデータラベリング産業の市場規模は43.3億元に達し、前年比約19.2%増加し、市場規模は20.43元に達すると予想されています。 2029年までに10億元。

1. データのラベル付け

一般に、データのラベル付けは、未処理の音声、画像、テキスト、ビデオ、その他のデータを処理して、機械が認識できる情報に変換するプロセスであると考えられています。データ注釈の種類には、画像注釈、音声注釈、テキスト注釈、ビデオ注釈などが含まれます。たとえば、テキストの単語分割、品詞タグ付けとエンティティ認識、画像のオブジェクト検出と分割などです。データラベリングを通じて機械が認識し区別する必要があるデータにラベルを付け、コンピューターにこれらのデータの特徴を継続的に学習させ、最終的にコンピューター自体を識別する能力を実現します。

データ アノテーションは大規模な人工知能モデルにとって非常に重要であり、大規模な人工知能モデルを効果的に運用するための重要なリンクの 1 つであると言えます。具体的には、データのラベリングには以下のような意味が考えられます。

1 つは機械学習アルゴリズムの精度を向上させることであり、データにラベルを付けることで、機械学習アルゴリズムがより正確に学習し、予測できるようになります。画像分類タスクの場合、注釈付き画像によりアルゴリズムが画像内のオブジェクトやシーンをより適切に認識できるようになり、精度が向上します。

2 つ目は、アルゴリズムのトレーニング プロセスを高速化することです。データにラベルを付けると、機械学習アルゴリズムの学習とトレーニングが高速化され、アルゴリズムのトレーニング時間とコストが削減されます。ラベル付きデータの幅広い用途により、機械学習テクノロジーの開発が促進されています。

3つ目は、機械学習技術の応用力の向上です。ラベル付きデータを使用すると、機械学習技術をより適切に使用して、自然言語処理、コンピューター ビジョン、レコメンデーション システムなどの実際的な問題を解決できるようになります。つまり、データ アノテーションは機械学習の分野において非常に重要なリンクです。

2. データのラベル付けとデータ ガバナンス

データ管理能力成熟度評価モデル (GB/T 36073-2018) によれば、データ ガバナンスはデータの処理、フォーマット、標準化のプロセスです。データ ガバナンスは、データとデータ システムの管理に不可欠な要素です。データ ガバナンスには、静的データ、動的データ、不完全データ、トランザクションデータなど、データのライフサイクル全体の管理が含まれます。

データ アノテーションとデータ ガバナンスは 2 つの異なる概念です。データ ガバナンスとは、データの品質、セキュリティ、信頼性、標準化を確保するために、データの収集、処理、分析、保管などのデータ活動を統合的に管理することを指します。データ ガバナンスの目標は、データの秩序ある効率的かつコンプライアンスに準拠した使用を促進し、それによってビジネス上の意思決定とビジネス開発を促進することです。データ アノテーションは、機械学習または人工知能モデルのトレーニング素材として生データを分類、ラベル付け、およびアノテーションを付けるプロセスです。データ アノテーションの目的は、機械学習モデルの精度と一般化能力を向上させ、モデルが実際のビジネス シナリオによりよく適応できるようにすることです。

データのラベル付けとデータ ガバナンスは相互に関連しています。データ ガバナンスにより、データの品質と信頼性が保証され、データのラベル付けに高品質の生データが提供されます。同時に、データ アノテーションの結果は、データ ガバナンスに対するより良いフィードバックとガイダンスも提供し、データ ガバナンスをより正確かつ効果的にすることができます。

3. データのラベル付けとデータ標準

データ管理能力成熟度評価モデル (GB/T 36073-2018) によると、データ標準 (Data Standard) は、データの命名、定義、構造、および値のルールを指します。データのラベル付けは、データ標準の策定と実装における重要なリンクです。データ標準は、データの定義と使用の一貫性、正確性、完全性を保証するための規範的な制約です。企業にとって、データ標準は、内部および外部でのデータの使用および交換の一貫性と正確性を保証する規範的な制約です。

データ標準には、データ構造、データ コンテンツ ソース、技術ビジネスなどに関する標準が含まれる場合があります。データ標準の策定とリリースは、さまざまな管理活動を通じて実際のビジネス ニーズと組み合わせて、データの標準化された管理を促進し、データの完全性、一貫性、標準化を確保する必要があります。データ標準管理の目標は、健全なデータ標準管理システムと組み合わせた統一データ標準の策定とリリースを通じてデータの標準化された管理を実現し、その後のデータ管理の標準基盤を提供することです。

データのラベル付けは、機械学習の基本素材としてデータを分類、フレーム化、ラベル付け、および注釈付けするプロセスです。データ アノテーションの品質はマシンのインテリジェンスに直接関係しているため、データ アノテーションは厳格な品質基準に従って実行する必要があります。データラベル付けプロセスには、データ収集、データクリーニング、データラベル付け、データ品質検査、その他のリンクが含まれます。その中で、データの収集とクリーニングは準備段階であり、データのラベル付けは中核的なリンクであり、データ品質検査はラベル付けされたデータの検査と評価です。特定の観点から見ると、データ標準は、データの収集、表示、交換、分析、および管理を処理するために定義、解釈、使用、および改訂された一連の標準化されたテクノロジとプロセスです。

したがって、データ ラベルとデータ標準は相互に関連しており、データ ラベルはデータ標準化の具体的な実装プロセスであり、データ標準はデータ ラベルの基準および基礎です。データのラベル付けとデータの標準化を組み合わせることで、機械学習および人工知能アプリケーションの有効性と信頼性をさらに向上させることができます。

4. データラベリングに関する仕様

データのラベル付けは、「中華人民共和国ネットワークセキュリティ法」、「中華人民共和国データセキュリティ法」、「中華人民共和国個人情報保護法」などのデータ情報に関連する基本的な法令を遵守する必要があります。中国の」。

国家サイバースペース局、国家発展改革委員会、教育省、科学技術省、工業情報化省、公安省が発行する生成型人工知能サービス管理に関する暫定措置、および国家ラジオ映画テレビ総局は、2023 年 8 月 15 日に発効します。第 8 条はデータのラベル付けを具体的に規定しており、生成人工知能技術の研究開発の過程でデータのラベル付けを義務付けており、プロバイダーは明確に策定する必要があります。 、これらの措置の要件を満たす、具体的で運用可能なラベル表示ルールの作成、データラベルの品質評価、サンプリングの実施、ラベル内容の正確性の検証、ラベル表示担当者に必要なトレーニングの提供、法令順守の意識の向上、ラベル表示の監督と指導担当者が標準化された方法でラベル貼り付け作業を実行できるようにする。

国家人力資源・社会保障部の2015年版「中華人民共和国職業分類規程」に基づく改訂版「中華人民共和国職業分類規程(2022年版)」による。市場規制と国家統計局により、人工知能トレーナーが正式に新しい職業となり、国家職業分類カタログに記載されます。人工知能トレーナーの主なタスクには、画像、テキスト、音声などのビジネスの生データのラベル付けと処理、専門分野の特性の分析と洗練、アルゴリズム、人工知能製品の機能と性能のトレーニングと評価、インタラクションプロセスの設計が含まれます。およびアプリケーションソリューション、人工知能製品アプリケーションデータの監視、分析、管理、人工知能製品のパラメータと構成の調整と最適化など。

人工知能における機械学習のためのデータラベル付け手順 (GB/T 42755-2023) は、2023 年 12 月 1 日に施行される推奨国家標準です。これは、人工知能における機械学習のためのデータラベル付け手順に関する一連のガイドラインです。データラベル付けプロセスの標準化、データラベル付け操作プロセスの指定、ラベル付けタスク、ラベル付け担当者、ラベル付け環境、プロセス管理、品質保証、管理メカニズム、内部品質検査、データ配信、ポストメンテナンスなどに関する推奨事項を作成するためのルールとルールデータ アノテーションの一貫性と正確性を確保し、機械学習アルゴリズムに高品質のトレーニング データを提供するための規定。

いくつかの地域の基準も参照および参照に値します。 2022 年 6 月、山西省市場監督管理局は、「人工知能データ ラベリングの全体的な枠組み」、「人工知能データ ラベリングの一般技術要件」、「人工知能データ ラベリングの一般技術要件」を含む、人工知能データ ラベリングの分野における 3 つの省および地方の基準を発行しました。および「人工知能データのラベル付けの一般的な作業手順」。

いくつかの地域の基準も参照および参照に値します。 2022 年 6 月、山西省市場監督管理局は、「人工知能データ ラベリングの全体的な枠組み」、「人工知能データ ラベリングの一般技術要件」、「人工知能データ ラベリングの一般技術要件」を含む、人工知能データ ラベリングの分野における 3 つの省および地方の基準を発行しました。および「人工知能データのラベル付けの一般的な作業手順」。

「人工知能データラベリングの一般的なフレームワーク」は、人工知能機械学習におけるデータラベリング生産の生産プロセスと生産内容に関する提案を提供し、データラベリングの現状と産業概念を明確にします。 「人工知能データラベリングの一般的な作業手順」では、原則、プロセス、計画など、人工知能機械学習におけるデータラベリング作成の一般的な作業要件が規定されています。 「人工知能データラベリングの一般技術要件」では、人工知能機械学習におけるデータラベリングの一般技術要件の用語と定義、一般技術分類、一般技術要件を規定しています。

2023年6月、中国情報通信技術院主導で、チャイナユニコム、データタン、ハイチ瑞生、Testin Cloud Measurement、Integer Intelligence、Hikvision、Midea Groupなどの関連業界の主要企業20社以上が参加。テクノロジー企業と大手業界企業が共同で「人工知能データラベリングプラットフォームの技術要件と試験方法」規格を取りまとめ、3大国際標準化団体の一つである国際電気通信連合(ITU-T)でも同時に制定されました。 . 原稿について話し合います。この標準では、データ ラベリング プラットフォームの主要なリンクごとに規範的な制約と参考となる提案が提供されており、現在、標準グループ入札が最終決定されています。

さらに、データのラベル付けに関連する一連の国家基準があります。 「情報技術ビッグ データ データ リソース プランニング」(GB/T 42450-2023) など、データ リソース プランニング (データ リソース プランニング、DRP と呼ばれる) は、組織がデータ リソースを効果的に管理してビジネス ニーズを満たし、データ セキュリティとプライバシー保護を確保します。

「データ品質パート 8: 情報とデータ品質: 概念と測定」(GB/T 42381.8-2023) は、情報とデータ品質の概念と測定方法を指定する国家規格です。この規格は TC159 (国家オートメーション システムおよび統合標準化技術委員会)、TC159SC4 (国家オートメーション システムおよび統合標準化技術委員会産業データ部門) の管轄下にあり、管轄当局は中国機械工業連合会です。

「データ品質パート 61: データ品質管理プロセス参照モデル」(GB/T 42381.61-2023) データ品質管理のプロセス参照モデルは、組織がデータ品質管理を実装する方法をガイドするために ISO 8000 によって指定された標準です。

5. データラベル業界における法的リスク

異なる事業部門や異なる生態環境間でのデータ共有と適用のプロセスにおいて、データラベリング業界は将来的に長期にわたって継続的な需要を持つ可能性があります。

実際、データラベル付けには、データ品質の低下につながり、その後のデータ処理や使用に影響を与える可能性がある不規則なデータラベル付けなどの不一致要因がいくつかあります。間違ったまたは不正確なデータラベル付けは、その後のデータ処理や適用に影響を及ぼします。データラベル付けが虚偽であり、不正なデータが生成され、その後のデータ処理や適用に影響を与える可能性があり、データのラベル付けプロセスは法律や規制に違反し、データの使用が禁止されたり処罰されたりする可能性があります。

具体的には、データラベリング業界には法律上、次のようなリスクがある可能性があります。

1つは個人情報保護法令に違反するリスクです。データのラベル付けには、名前、ID 番号、通信連絡先情報、住所、アカウントのパスワード、財産の状態、居場所などの大量の個人情報の処理が必要になる場合があります。データラベリング業界が関連法令の要件に従って個人情報を処理しない場合、個人情報の漏洩や悪用などのセキュリティ上の問題が発生し、個人情報保護に関する法令に違反する可能性があります。

2つ目は、データセキュリティに関する法律や規制に違反するリスクです。データラベル業界では、財務データ、医療データなどの大量の機密データを処理する必要がある場合があります。データラベリング業界がデータの暗号化やアクセス制御などの必要なセキュリティ対策を講じないと、データの漏洩や改ざんなどのセキュリティ問題が発生し、データセキュリティ法規制に違反する可能性があります。

3つ目は、知的財産法規制に違反するリスクです。データラベル業界は、知的財産を含む可能性のある大量のデータを扱う必要があります。データラベリング業界が関連する知的財産権の認可またはライセンスを取得できず、その結果違法な使用や契約違反が発生した場合、知的財産権侵害の問題が発生する可能性があります。

4つ目は、競争法違反のリスクです。データラベリング業界では熾烈な競争が行われており、一部の企業は不正な手段で競合他社のデータを取得したり、市場における優越的地位を乱用したりして、競争法や規制に違反し、関連する正当な権利や利益を侵害している可能性があります。

こうした法的リスクを防ぐために、データラベリング業界は、個人情報保護、データセキュリティ、知的財産権、競争の観点から法的意識とリスク管理を強化する必要があります。同時に、政府および各界は、データラベリング業界の法的かつコンプライアンスに準拠した運営を確保するために、その監督と管理を強化する必要もあります。

6. データラベリング業界における法的リスクの防止

データラベリング業界が安定して広範​​囲に及ぶためには、データラベリングに関連する法律、規制、基準を遵守し、標準化された正確かつ効率的な方法でデータラベリングを実行する必要があります。データラベル会社は、次の方法で法的リスクを防ぐことができます。

1 つ目は、データラベルのルールと規制を確立および改善することです。企業は、データのラベル付けのコンプライアンスとセキュリティを確保するために、データの収集、保管、処理、分析、保護に関する規制を含む、データのラベル付けに関連する規則と規制を確立および改善する必要があります。法令・規制の要件を満たす明確かつ具体的かつ運用可能なデータラベリングルールを策定し、データラベリングの品質評価を実施し、ラベリング内容の正確性をサンプリング検証します。データコンテンツのセキュリティ保証メカニズムは、社会主義の核心的価値観の遵守を保証し、あらゆる種類の差別に反対し、個人情報および関連する法的権利と利益の保護メカニズムを改善し、他人の肖像権、名誉権、名誉権を侵害してはならない、プライバシーの権利、および個人情報の権利; セキュリティ対策、データラベル付け会社は、関連する法律および規制を遵守し、データセキュリティ基準およびポリシーの指導の下、データアクセスの承認、分類と分類の制御、およびデータセキュリティを管理する必要があります。データ セキュリティ要件を満たすための監視データへのアクセス セキュリティ ビジネス ニーズと規制要件を満たし、組織内のデータ ライフ サイクルのデータ セキュリティ管理を実現します。データの機密性、完全性、可用性を確保するため。

2つ目は、企業のコンプライアンス経営の強化です。データラベルを作成する企業は、関連する法律や規制を遵守し、業務運営を標準化し、正当な権利と利益を尊重し、独占や不当な競争を行わないようにする必要があります。競合他社からデータを取得するために不正な手段を使用しないこと、市場の優位性を乱用して他者の法的知的財産権や営業秘密を侵害しないこと、契約管理を強化し、パートナーと契約を締結する際には業務の要件を明確に示すこと、データ使用の範囲、機密保持条項、およびその他の内容を規定し、パートナーが関連する法律や規制を理解して遵守し、契約違反のリスクを軽減できるようにします。

4つ目は、職員の研修・教育の強化です。企業は従業員の法的意識とリスク意識の研修を強化し、データラベリング業務、個人情報保護、データセキュリティ、知的財産権などに関する研修と教育を強化し、従業員がデータラベリング関連の法律や規制、企業の規則や規制を理解できるようにする必要がある。従業員のコンプライアンス意識とリスク予防能力を向上させます。

5つ目は、リスク管理チームの設置です。企業は、ラベル付きデータをリアルタイムで監視し、準拠していないデータを適時に発見して対処し、データ品質の問題によって引き起こされる法的リスクを回避するためのデータ監視メカニズムを確立する必要があります。企業は、データラベル付けプロセス中に発生する可能性のある法的リスクを予測および評価し、対応するリスク防止の提案と対策を提案する専門のリスク管理チームを設立することが推奨されます。

著者: Zhang Feng、V&T法律事務所パートナー、VTQデジタル法務委員会ディレクター、上海功績専門家協会知的財産委員会副事務局長、シンクタンク専門家/上海ブロックチェーン技術協会専門家、常設委員中国移動通信連合会メタバース産業作業委員会の委員、および未来産業メタバース 50 メンバー フォーラムの副会長。

コメント

全てのコメント

Recommended for you

  • Fundstratのデジタル資産戦略責任者:現在のキムチプレミアムは約0%であり、BTCにはまだ上昇の余地があることを示している可能性がある

    ショーン氏、Fundstra デジタル資産戦略責任者ファレル氏は最新の顧客ノートで、「友人や家族」が再び仮想通貨について尋ね始めており、定量化可能な市場指標に基づくと、現在の状況は3月の上昇相場や2021年後半の景気循環のピークのようなバブルではないようだと述べた。現在の韓国市場のキムチプレミアム指標データは約0%であり、通常、市場がピークに達するとキムチプレミアムは10%以上に急騰し、韓国のトレーダーの間で過度の興奮がなくなっていることを示しています。過去 1 週間を単に性的繁栄とみなすべきではないが、ビットコインにはまだ上昇の余地があるかもしれない。

  • ソラナ・リアンチュアン氏はソラナは常にZKより速いと発言、Matter Labs CEOは反論

    Solana の共同創設者 toly 氏は Responded でネチズンへの返信で「ZK は常に Solana よりも優れています」と述べた。バリデーターではなく数学によって保護されるため高速です。つまり、(冗長性のため) 1 つまたは少数のバリデーターで十分であり、数千のノード間の合意を待つ必要がありません。」

  • マイク・フラッド米国下院議員:次期SEC議長と協力して反仮想通貨銀行政策SAB 121を撤回することを楽しみにしている

    米国下院のマイク・フラッド議員は最近、「広範な反対にもかかわらず、SAB 121は通常の行政手続法の手続きを経ていないにもかかわらず、法律として効果的に機能し続けている。フラッド議員と協力することを楽しみにしている」と述べた。ゲーリー・ゲンスラー委員長が自ら辞任するか、あるいはトランプ大統領が約束(ゲンスラー解任)を実行するかにかかわらず、新政権にはSAB 121の取り消しに向けて次期SEC委員長に協力する絶好の機会がある。ゲンスラー氏は退任する。」さらに、「今年初めに超党派で下院を通過したデジタル資産規制の枠組みに、民主党の指導者が上院が拒否したにもかかわらず、民主党議員71人が下院共和党に加わって反対したことは驚くべきことではない。それは受け入れられるが、これは仮想通貨にとって画期的な瞬間を表しており、来年1月に始まる次の議会の統一共和党政権の取り組みに影響を与える可能性がある。」

  • インドの億万長者アダニ氏、贈収賄事件での立場を説明するため米国証券取引委員会に呼び出される

    インドの億万長者ゴータム・アダニ氏とその甥のサーガル・アダニ氏は、太陽光発電契約を獲得するために2億5000万ドル以上の賄賂を支払った疑いで、米証券取引委員会(SEC)から召喚状を出され、説明を求められた。インド・プレス・トラスト(PTI)によると、インド西部の都市アーメダバードにあるアダニ一家の住居に召喚状が送達され、21日以内に返答するよう求められた。 PTIは、11月21日にニューヨーク東部地方裁判所を通じて出された通知文を引用し、アダニ一家が期限までに応答しなかった場合、彼らに対して不履行判決が下されると述べた。

  • 米国SEC: 2024会計年度には合計583件の執行措置が取られ、82億米ドルという史上最高額の財政救済が得られました。

    米国SECは最近、2024会計年度の執行努力が過去最高に達したと発表し、市場の健全性と投資家保護を維持するための取り組みを強調した。同庁は、「2024年度には合計583件の執行訴訟が提起され、82億ドルの金融救済が得られたが、これは2023年と比較してSEC史上最高額である14件の増加となった」と明らかにした。 %。 SEC のゲーリー・ゲンスラー委員長は、法執行機関の役割に感謝の意を表し、「法執行機関は事実と法に従い、どこへ行っても法違反者の責任を追及する断固とした警察組織である。今年の結果が示すように、同省は国家安全保障委員会の誠実性の促進に貢献している」と述べた。私たちの資本市場は投資家と発行者の両方に利益をもたらします。」

  • PANews ·

    トランプ新政権メンバーの「仮想通貨マップ」: 主要な意思決定者の仮想通貨保有と政策スタンスを一目で見る

    この記事では、トランプ新政権の8人のメンバーの仮想通貨保有と政策スタンスを概観する。これらの中核的な意思決定者の中には、仮想通貨資産に直接投資している者もいる一方、政策や声明を通じて仮想通貨業界への支持を伝えている者もいる。 。

  • 100,000 のテスト: ビットコインはいつ突破に成功しますか?

    市場アナリストのムスタッシュ氏は、ビットコインが10万ドルに達するのはほんの時間の問題だと考えているが、利益確定を求める多くのアナリストとは異なり、FOMOの反発によりビットコインが12万ドルにまで上昇する可能性があると考えている。

  • 裁判所は、Lido DAO はパートナーシップであると判決: Web3 分散型ガバナンスの法的課題とコンプライアンスへの道

    カリフォルニア北部地区連邦裁判所の判決は、Web3 の分散型自律組織 (DAO) に対して法的な警鐘を鳴らしました。裁判所は、Lido DAO はゼネラル・パートナーシップとみなされるべきであるとの判決を下した。

  • ミーム通貨市場構造の包括的分析: なぜミーム通貨市場は驚くべき発展を遂げたのか

    数週間、Discord でぶらぶらしたり、Telegram グループに参加したり、Twitter を閲覧したり、この分野のリサーチアナリストやトレーダーに連絡を取ったりした後、私はミームコインについて皆が何を考えているかについての包括的なアイデアを掴みました。妻の兄弟のトレーダー)。

  • 米下院:ヘスター・パースSEC委員長が新たなSEC委員長代理に就任する可能性がある

    米国のフレンチ・ヒル下院議員は北米ブロックチェーンサミット(NABS)で、共和党のヘスター・パースSEC委員が米国証券取引委員会(SEC)の新しい委員長代理に「なる可能性が高い」と明らかにした。同氏は、ゲイリー・ゲンスラー現委員長が2025年1月20日に辞任した後、共和党がSECを引き継ぎ、パース氏がその地位を引き継ぐと予想されていると指摘した。