生成AIの発展に伴い、学習データの信頼性と安全性の重要性が高まっている。法的リスクを含むデータやライセンスが不明瞭なデータを不用意に用いると、商用化の阻害要因となるだけでなく、後工程の修正コストが膨らみかねない。データの再収集やアノテーションのやり直しが発生すると、開発全体の投資対効果(ROI)に悪影響を及ぼすため、初期段階から権利が明確なデータを選定することが重要だ。
生成AIの学習データを選定する際には、「著作権」「プライバシー」「バイアス」「契約」「規制」の5つの観点でチェックする必要がある。そこで本資料では、この5つのチェックポイントについて詳しく解説する。
学習データの選定や学習環境の整備を担うエンジニアやプロジェクトマネジャー、開発現場から「このデータは使用可能か」と判断を求められる法務・企画部門の担当者などにとって有益な内容となっている。資料では、AIの学習データ素材提供からアノテーションまでを包括的に対応するソリューションも紹介しているので、参考にしてほしい。