データは AI ビッグ モデルの基盤です。大量かつ高品質のデータを継続的にトレーニングおよび調整することで、大規模モデルの精度と効率を向上させることができます。大規模なモデルのトレーニングでは、データ マイニング、Web クローラー、データ共有、データのオープン性、法的取引などの方法を通じてデータを取得し、データ クリーニング、重複排除、フォーマット、手動ラベル付けを通じてデータを処理する必要があります。一般に、トレーニング データの作成プロセスには、主にトレーニング データ セットの構造設計、原材料データの収集と取得、データの処理とラベル付け、データ品質検査、その他のリンクが含まれると考えられています。
近年、私の国のデータラベリング市場は急速に発展しています。華京産業研究院の統計によると、2021年の我が国の人工知能データラベリング市場では、コンピュータービジョン、インテリジェント音声、NLP(自然言語処理、略称NLP、自然言語処理)の需要が45.3%、40.5%を占めた。それぞれ14.2%、2021年に我が国のデータラベリング産業の市場規模は43.3億元に達し、前年比約19.2%増加し、市場規模は20.43元に達すると予想されています。 2029年までに10億元。
1. データのラベル付け
一般に、データのラベル付けは、未処理の音声、画像、テキスト、ビデオ、その他のデータを処理して、機械が認識できる情報に変換するプロセスであると考えられています。データ注釈の種類には、画像注釈、音声注釈、テキスト注釈、ビデオ注釈などが含まれます。たとえば、テキストの単語分割、品詞タグ付けとエンティティ認識、画像のオブジェクト検出と分割などです。データラベリングを通じて機械が認識し区別する必要があるデータにラベルを付け、コンピューターにこれらのデータの特徴を継続的に学習させ、最終的にコンピューター自体を識別する能力を実現します。
データ アノテーションは大規模な人工知能モデルにとって非常に重要であり、大規模な人工知能モデルを効果的に運用するための重要なリンクの 1 つであると言えます。具体的には、データのラベリングには以下のような意味が考えられます。
1 つは機械学習アルゴリズムの精度を向上させることであり、データにラベルを付けることで、機械学習アルゴリズムがより正確に学習し、予測できるようになります。画像分類タスクの場合、注釈付き画像によりアルゴリズムが画像内のオブジェクトやシーンをより適切に認識できるようになり、精度が向上します。
2 つ目は、アルゴリズムのトレーニング プロセスを高速化することです。データにラベルを付けると、機械学習アルゴリズムの学習とトレーニングが高速化され、アルゴリズムのトレーニング時間とコストが削減されます。ラベル付きデータの幅広い用途により、機械学習テクノロジーの開発が促進されています。
3つ目は、機械学習技術の応用力の向上です。ラベル付きデータを使用すると、機械学習技術をより適切に使用して、自然言語処理、コンピューター ビジョン、レコメンデーション システムなどの実際的な問題を解決できるようになります。つまり、データ アノテーションは機械学習の分野において非常に重要なリンクです。
2. データのラベル付けとデータ ガバナンス
データ管理能力成熟度評価モデル (GB/T 36073-2018) によれば、データ ガバナンスはデータの処理、フォーマット、標準化のプロセスです。データ ガバナンスは、データとデータ システムの管理に不可欠な要素です。データ ガバナンスには、静的データ、動的データ、不完全データ、トランザクションデータなど、データのライフサイクル全体の管理が含まれます。
データ アノテーションとデータ ガバナンスは 2 つの異なる概念です。データ ガバナンスとは、データの品質、セキュリティ、信頼性、標準化を確保するために、データの収集、処理、分析、保管などのデータ活動を統合的に管理することを指します。データ ガバナンスの目標は、データの秩序ある効率的かつコンプライアンスに準拠した使用を促進し、それによってビジネス上の意思決定とビジネス開発を促進することです。データ アノテーションは、機械学習または人工知能モデルのトレーニング素材として生データを分類、ラベル付け、およびアノテーションを付けるプロセスです。データ アノテーションの目的は、機械学習モデルの精度と一般化能力を向上させ、モデルが実際のビジネス シナリオによりよく適応できるようにすることです。
データのラベル付けとデータ ガバナンスは相互に関連しています。データ ガバナンスにより、データの品質と信頼性が保証され、データのラベル付けに高品質の生データが提供されます。同時に、データ アノテーションの結果は、データ ガバナンスに対するより良いフィードバックとガイダンスも提供し、データ ガバナンスをより正確かつ効果的にすることができます。
3. データのラベル付けとデータ標準
データ管理能力成熟度評価モデル (GB/T 36073-2018) によると、データ標準 (Data Standard) は、データの命名、定義、構造、および値のルールを指します。データのラベル付けは、データ標準の策定と実装における重要なリンクです。データ標準は、データの定義と使用の一貫性、正確性、完全性を保証するための規範的な制約です。企業にとって、データ標準は、内部および外部でのデータの使用および交換の一貫性と正確性を保証する規範的な制約です。
データ標準には、データ構造、データ コンテンツ ソース、技術ビジネスなどに関する標準が含まれる場合があります。データ標準の策定とリリースは、さまざまな管理活動を通じて実際のビジネス ニーズと組み合わせて、データの標準化された管理を促進し、データの完全性、一貫性、標準化を確保する必要があります。データ標準管理の目標は、健全なデータ標準管理システムと組み合わせた統一データ標準の策定とリリースを通じてデータの標準化された管理を実現し、その後のデータ管理の標準基盤を提供することです。
データのラベル付けは、機械学習の基本素材としてデータを分類、フレーム化、ラベル付け、および注釈付けするプロセスです。データ アノテーションの品質はマシンのインテリジェンスに直接関係しているため、データ アノテーションは厳格な品質基準に従って実行する必要があります。データラベル付けプロセスには、データ収集、データクリーニング、データラベル付け、データ品質検査、その他のリンクが含まれます。その中で、データの収集とクリーニングは準備段階であり、データのラベル付けは中核的なリンクであり、データ品質検査はラベル付けされたデータの検査と評価です。特定の観点から見ると、データ標準は、データの収集、表示、交換、分析、および管理を処理するために定義、解釈、使用、および改訂された一連の標準化されたテクノロジとプロセスです。
したがって、データ ラベルとデータ標準は相互に関連しており、データ ラベルはデータ標準化の具体的な実装プロセスであり、データ標準はデータ ラベルの基準および基礎です。データのラベル付けとデータの標準化を組み合わせることで、機械学習および人工知能アプリケーションの有効性と信頼性をさらに向上させることができます。
4. データラベリングに関する仕様
データのラベル付けは、「中華人民共和国ネットワークセキュリティ法」、「中華人民共和国データセキュリティ法」、「中華人民共和国個人情報保護法」などのデータ情報に関連する基本的な法令を遵守する必要があります。中国の」。
国家サイバースペース局、国家発展改革委員会、教育省、科学技術省、工業情報化省、公安省が発行する生成型人工知能サービス管理に関する暫定措置、および国家ラジオ映画テレビ総局は、2023 年 8 月 15 日に発効します。第 8 条はデータのラベル付けを具体的に規定しており、生成人工知能技術の研究開発の過程でデータのラベル付けを義務付けており、プロバイダーは明確に策定する必要があります。 、これらの措置の要件を満たす、具体的で運用可能なラベル表示ルールの作成、データラベルの品質評価、サンプリングの実施、ラベル内容の正確性の検証、ラベル表示担当者に必要なトレーニングの提供、法令順守の意識の向上、ラベル表示の監督と指導担当者が標準化された方法でラベル貼り付け作業を実行できるようにする。
国家人力資源・社会保障部の2015年版「中華人民共和国職業分類規程」に基づく改訂版「中華人民共和国職業分類規程(2022年版)」による。市場規制と国家統計局により、人工知能トレーナーが正式に新しい職業となり、国家職業分類カタログに記載されます。人工知能トレーナーの主なタスクには、画像、テキスト、音声などのビジネスの生データのラベル付けと処理、専門分野の特性の分析と洗練、アルゴリズム、人工知能製品の機能と性能のトレーニングと評価、インタラクションプロセスの設計が含まれます。およびアプリケーションソリューション、人工知能製品アプリケーションデータの監視、分析、管理、人工知能製品のパラメータと構成の調整と最適化など。
人工知能における機械学習のためのデータラベル付け手順 (GB/T 42755-2023) は、2023 年 12 月 1 日に施行される推奨国家標準です。これは、人工知能における機械学習のためのデータラベル付け手順に関する一連のガイドラインです。データラベル付けプロセスの標準化、データラベル付け操作プロセスの指定、ラベル付けタスク、ラベル付け担当者、ラベル付け環境、プロセス管理、品質保証、管理メカニズム、内部品質検査、データ配信、ポストメンテナンスなどに関する推奨事項を作成するためのルールとルールデータ アノテーションの一貫性と正確性を確保し、機械学習アルゴリズムに高品質のトレーニング データを提供するための規定。
いくつかの地域の基準も参照および参照に値します。 2022 年 6 月、山西省市場監督管理局は、「人工知能データ ラベリングの全体的な枠組み」、「人工知能データ ラベリングの一般技術要件」、「人工知能データ ラベリングの一般技術要件」を含む、人工知能データ ラベリングの分野における 3 つの省および地方の基準を発行しました。および「人工知能データのラベル付けの一般的な作業手順」。
いくつかの地域の基準も参照および参照に値します。 2022 年 6 月、山西省市場監督管理局は、「人工知能データ ラベリングの全体的な枠組み」、「人工知能データ ラベリングの一般技術要件」、「人工知能データ ラベリングの一般技術要件」を含む、人工知能データ ラベリングの分野における 3 つの省および地方の基準を発行しました。および「人工知能データのラベル付けの一般的な作業手順」。
「人工知能データラベリングの一般的なフレームワーク」は、人工知能機械学習におけるデータラベリング生産の生産プロセスと生産内容に関する提案を提供し、データラベリングの現状と産業概念を明確にします。 「人工知能データラベリングの一般的な作業手順」では、原則、プロセス、計画など、人工知能機械学習におけるデータラベリング作成の一般的な作業要件が規定されています。 「人工知能データラベリングの一般技術要件」では、人工知能機械学習におけるデータラベリングの一般技術要件の用語と定義、一般技術分類、一般技術要件を規定しています。
2023年6月、中国情報通信技術院主導で、チャイナユニコム、データタン、ハイチ瑞生、Testin Cloud Measurement、Integer Intelligence、Hikvision、Midea Groupなどの関連業界の主要企業20社以上が参加。テクノロジー企業と大手業界企業が共同で「人工知能データラベリングプラットフォームの技術要件と試験方法」規格を取りまとめ、3大国際標準化団体の一つである国際電気通信連合(ITU-T)でも同時に制定されました。 . 原稿について話し合います。この標準では、データ ラベリング プラットフォームの主要なリンクごとに規範的な制約と参考となる提案が提供されており、現在、標準グループ入札が最終決定されています。
さらに、データのラベル付けに関連する一連の国家基準があります。 「情報技術ビッグ データ データ リソース プランニング」(GB/T 42450-2023) など、データ リソース プランニング (データ リソース プランニング、DRP と呼ばれる) は、組織がデータ リソースを効果的に管理してビジネス ニーズを満たし、データ セキュリティとプライバシー保護を確保します。
「データ品質パート 8: 情報とデータ品質: 概念と測定」(GB/T 42381.8-2023) は、情報とデータ品質の概念と測定方法を指定する国家規格です。この規格は TC159 (国家オートメーション システムおよび統合標準化技術委員会)、TC159SC4 (国家オートメーション システムおよび統合標準化技術委員会産業データ部門) の管轄下にあり、管轄当局は中国機械工業連合会です。
「データ品質パート 61: データ品質管理プロセス参照モデル」(GB/T 42381.61-2023) データ品質管理のプロセス参照モデルは、組織がデータ品質管理を実装する方法をガイドするために ISO 8000 によって指定された標準です。
5. データラベル業界における法的リスク
異なる事業部門や異なる生態環境間でのデータ共有と適用のプロセスにおいて、データラベリング業界は将来的に長期にわたって継続的な需要を持つ可能性があります。
実際、データラベル付けには、データ品質の低下につながり、その後のデータ処理や使用に影響を与える可能性がある不規則なデータラベル付けなどの不一致要因がいくつかあります。間違ったまたは不正確なデータラベル付けは、その後のデータ処理や適用に影響を及ぼします。データラベル付けが虚偽であり、不正なデータが生成され、その後のデータ処理や適用に影響を与える可能性があり、データのラベル付けプロセスは法律や規制に違反し、データの使用が禁止されたり処罰されたりする可能性があります。
具体的には、データラベリング業界には法律上、次のようなリスクがある可能性があります。
1つは個人情報保護法令に違反するリスクです。データのラベル付けには、名前、ID 番号、通信連絡先情報、住所、アカウントのパスワード、財産の状態、居場所などの大量の個人情報の処理が必要になる場合があります。データラベリング業界が関連法令の要件に従って個人情報を処理しない場合、個人情報の漏洩や悪用などのセキュリティ上の問題が発生し、個人情報保護に関する法令に違反する可能性があります。
2つ目は、データセキュリティに関する法律や規制に違反するリスクです。データラベル業界では、財務データ、医療データなどの大量の機密データを処理する必要がある場合があります。データラベリング業界がデータの暗号化やアクセス制御などの必要なセキュリティ対策を講じないと、データの漏洩や改ざんなどのセキュリティ問題が発生し、データセキュリティ法規制に違反する可能性があります。
3つ目は、知的財産法規制に違反するリスクです。データラベル業界は、知的財産を含む可能性のある大量のデータを扱う必要があります。データラベリング業界が関連する知的財産権の認可またはライセンスを取得できず、その結果違法な使用や契約違反が発生した場合、知的財産権侵害の問題が発生する可能性があります。
4つ目は、競争法違反のリスクです。データラベリング業界では熾烈な競争が行われており、一部の企業は不正な手段で競合他社のデータを取得したり、市場における優越的地位を乱用したりして、競争法や規制に違反し、関連する正当な権利や利益を侵害している可能性があります。
こうした法的リスクを防ぐために、データラベリング業界は、個人情報保護、データセキュリティ、知的財産権、競争の観点から法的意識とリスク管理を強化する必要があります。同時に、政府および各界は、データラベリング業界の法的かつコンプライアンスに準拠した運営を確保するために、その監督と管理を強化する必要もあります。
6. データラベリング業界における法的リスクの防止
データラベリング業界が安定して広範囲に及ぶためには、データラベリングに関連する法律、規制、基準を遵守し、標準化された正確かつ効率的な方法でデータラベリングを実行する必要があります。データラベル会社は、次の方法で法的リスクを防ぐことができます。
1 つ目は、データラベルのルールと規制を確立および改善することです。企業は、データのラベル付けのコンプライアンスとセキュリティを確保するために、データの収集、保管、処理、分析、保護に関する規制を含む、データのラベル付けに関連する規則と規制を確立および改善する必要があります。法令・規制の要件を満たす明確かつ具体的かつ運用可能なデータラベリングルールを策定し、データラベリングの品質評価を実施し、ラベリング内容の正確性をサンプリング検証します。データコンテンツのセキュリティ保証メカニズムは、社会主義の核心的価値観の遵守を保証し、あらゆる種類の差別に反対し、個人情報および関連する法的権利と利益の保護メカニズムを改善し、他人の肖像権、名誉権、名誉権を侵害してはならない、プライバシーの権利、および個人情報の権利; セキュリティ対策、データラベル付け会社は、関連する法律および規制を遵守し、データセキュリティ基準およびポリシーの指導の下、データアクセスの承認、分類と分類の制御、およびデータセキュリティを管理する必要があります。データ セキュリティ要件を満たすための監視データへのアクセス セキュリティ ビジネス ニーズと規制要件を満たし、組織内のデータ ライフ サイクルのデータ セキュリティ管理を実現します。データの機密性、完全性、可用性を確保するため。
2つ目は、企業のコンプライアンス経営の強化です。データラベルを作成する企業は、関連する法律や規制を遵守し、業務運営を標準化し、正当な権利と利益を尊重し、独占や不当な競争を行わないようにする必要があります。競合他社からデータを取得するために不正な手段を使用しないこと、市場の優位性を乱用して他者の法的知的財産権や営業秘密を侵害しないこと、契約管理を強化し、パートナーと契約を締結する際には業務の要件を明確に示すこと、データ使用の範囲、機密保持条項、およびその他の内容を規定し、パートナーが関連する法律や規制を理解して遵守し、契約違反のリスクを軽減できるようにします。
4つ目は、職員の研修・教育の強化です。企業は従業員の法的意識とリスク意識の研修を強化し、データラベリング業務、個人情報保護、データセキュリティ、知的財産権などに関する研修と教育を強化し、従業員がデータラベリング関連の法律や規制、企業の規則や規制を理解できるようにする必要がある。従業員のコンプライアンス意識とリスク予防能力を向上させます。
5つ目は、リスク管理チームの設置です。企業は、ラベル付きデータをリアルタイムで監視し、準拠していないデータを適時に発見して対処し、データ品質の問題によって引き起こされる法的リスクを回避するためのデータ監視メカニズムを確立する必要があります。企業は、データラベル付けプロセス中に発生する可能性のある法的リスクを予測および評価し、対応するリスク防止の提案と対策を提案する専門のリスク管理チームを設立することが推奨されます。
著者: Zhang Feng、V&T法律事務所パートナー、VTQデジタル法務委員会ディレクター、上海功績専門家協会知的財産委員会副事務局長、シンクタンク専門家/上海ブロックチェーン技術協会専門家、常設委員中国移動通信連合会メタバース産業作業委員会の委員、および未来産業メタバース 50 メンバー フォーラムの副会長。
全てのコメント