【AIシステム開発会社向け】AI学習データ提供契約書の作り方|著作権・個人情報・品質保証のトラブルを防ぐ5つのポイント

data-provision-agreement-for-ai-training
ユキマサくん

AIシステムの開発に必要なデータを外部から調達したいんだけど、契約書ってどうすればいいかな。
ChatGPTに聞いたら一応それっぽいものは作れたんだけど、これで本当に大丈夫か不安で。

純さん

それは心配ですね。
AI学習データの提供契約書は、一般的な業務委託契約書とは異なる特有のリスクがあるので、しっかり作り込む必要があります。

ユキマサくん

やっぱりそうか。具体的にどんなリスクがあるの?

純さん

わかりました。
今回はAIベンチャーの経営者の方向けに、AI学習データ提供契約書の作り方と注意点を解説します。

本記事の想定読者

AI学習用データを外部から調達したいAIベンチャーの経営者

目次

AI学習データ提供契約書が必要な理由

「とりあえず簡単な覚書でいいか」と考えている方も多いと思います。

しかし、AI学習データの調達では、覚書や口頭での合意では対応しきれないトラブルが実際に起きています。

例えばこんなケースです。

  • 提供してもらった画像データに他人の顔が写っており、個人情報保護法違反になりそうになった
  • データを使ってAIを開発したら、「そのデータの著作権はうちにある」とデータ提供者からクレームが来た
  • 提供されたデータの品質が低すぎて、AIの精度が全く上がらなかったのに返金してもらえなかった

これらのトラブルは、契約書にきちんと必要事項を盛り込んでおけば防げるものがほとんどです。

また、ChatGPTやジェミニで作った契約書では不十分な理由もここにあります。

AIはあくまで一般的な契約書の雛型を作ることはできますが、貴社のビジネスモデルや調達するデータの特性に合わせた契約書を作るのは難しいです。

特にAI学習データは、著作権・個人情報・品質保証など、複合的なリスクが絡み合っているため、専門家のチェックが欠かせません。

純さん

それでは、AI学習データ提供契約書で特に気をつけるべき重要ポイントを5つ解説していきます。

重要ポイント5つ

1.提供データの内容と範囲の明確化

どんなデータを提供してもらうのかを明確にする

【参考】第◯条(提供データの内容)

甲は乙に対し、以下のデータ(以下「本データ」という)を提供するものとする。
(1)データの種類:静止画像データ(JPEG形式)
(2)データの件数:◯◯件(±5%の範囲で変動可)
(3)データの内容:屋外で撮影された歩行者の画像
(4)データの品質基準:解像度1920×1080以上、ピンぼけ・過露出のないもの
(5)提供方法:クラウドストレージ経由でのダウンロード
(6)提供期限:契約締結後◯営業日以内

AI学習データの契約書で最初に決めるべきなのは、「どんなデータを」「どれくらい」「どんな形式で」提供してもらうかです。

ここが曖昧だと、後になって「思っていたデータと違う」「件数が足りない」といったトラブルになりやすいです。

例えば、単に「画像データ1万件」と記載するだけでは、

  • 画像の解像度はどれくらいか
  • ファイル形式はJPEGかPNGか
  • ピンぼけや暗すぎる画像も含まれるのか

といった点が不明確なままになってしまいます。

AIの学習精度はデータの品質に直結しますので、データの仕様をできる限り具体的に決めておくことが大切です。

データの使用目的と使用範囲を決めておく

【参考】第◯条(データの使用目的・使用範囲)

乙は、本データを以下の目的にのみ使用するものとし、それ以外の目的での使用を禁止する。
(1)乙が開発する歩行者検知AIシステムの学習・検証用途
(2)上記AIシステムの精度評価および改善のための分析
2. 乙は、甲の事前の書面による承諾なく、本データを第三者に提供・開示・販売してはならない。

データを提供する側にとって一番心配なのは、「自分のデータが想定外の用途に使われること」です。

使用目的と使用範囲を明確に決めておけば、データ提供者も安心して提供してくれますし、後からトラブルになるリスクも減らせます。

ユキマサくん

なるほど。
データの仕様を細かく決めておくことで、「思っていたのと違う」というすれ違いを防げるんだね。

純さん

そうです。
特にAI学習データは品質がそのままAIの精度に影響しますから、データの仕様は妥協せずに決めておきましょう。

2.データの著作権・知的財産権の帰属

著作権の帰属を明確にする

【参考】第◯条(著作権の帰属)

1. 本データに含まれる著作物の著作権は、甲または原著作者に帰属するものとする。
2. 甲は乙に対し、本契約の目的の範囲内において、本データを使用する非独占的なライセンスを付与する。
3. 乙は、本データを使用して開発したAIシステムおよびその学習済みモデルの著作権その他の知的財産権を保有するものとする。
4. ただし、本データ自体の著作権は、前項にかかわらず甲または原著作者に留保されるものとする。

AI学習データの契約書で、最もトラブルになりやすいのが著作権の帰属です。

「データを買ったんだから、著作権も自分のものになる」と思っている方も多いのですが、これは間違いです。

著作権はデータを作った人(著作者)に自動的に発生するもので、データを購入・取得しても著作権まで移転するわけではありません。

つまり、きちんと整理しておくべき権利は以下の2つです。

  • 本データの著作権:原則としてデータ提供者(甲)に帰属したまま
  • 開発したAIシステムの著作権:AIベンチャー(乙)に帰属する

この2つをきちんと分けて契約書に明記しておくことが大切です。

ライセンスの範囲を決めておく

【参考】第◯条(ライセンスの範囲)

1. 甲が乙に付与するライセンスの範囲は以下のとおりとする。
(1)使用目的:乙が開発するAIシステムの学習・検証・改善のみ
(2)使用期間:本契約の有効期間中
(3)使用地域:全世界
(4)サブライセンス:甲の事前承諾なく第三者へのサブライセンスを禁止する

著作権の帰属と合わせて決めておきたいのが、「どこまでデータを使っていいか」というライセンスの範囲です。

ライセンスの範囲が曖昧だと、例えばこんなトラブルになります。

  • 当初のAI開発が終わった後も、別のプロジェクトでデータを使い続けてしまった
  • 提携先の会社にデータをそのまま渡してしまった
  • 契約終了後もデータを削除せず保管し続けてしまった

特に「使用期間」と「サブライセンスの可否」は見落としやすいポイントですので、必ず明記しておきましょう。

既存データの著作権リスクに注意する

【参考】第◯条(権利の保証)

1. 甲は、本データが第三者の著作権、肖像権、個人情報その他の権利を侵害していないことを表明し、保証する。
2. 本データに関して第三者から権利侵害の申告があった場合、甲は自己の責任と費用においてこれを解決するものとする。

見落としがちなのが、提供してもらうデータそのものに著作権の問題が潜んでいるケースです。

例えばこんなケースが実際にあります。

  • 提供された画像データに、他社が著作権を持つイラストや写真が含まれていた
  • ネットからスクレイピングで集めたデータを提供されたが、元のデータに著作権があった
  • 提供者が「自分のデータ」と言っていたが、実は別の会社から取得したデータだった

このようなリスクを避けるため、「提供するデータは第三者の権利を侵害していない」という保証条項を必ず入れておきましょう。

万が一トラブルになった場合の責任の所在も、あわせて明確にしておくことが大切です。

AIが学習した結果の著作権はどうなる?

【参考】第◯条(学習済みモデルの帰属)

1. 乙が本データを使用して開発した学習済みモデルの著作権その他の知的財産権は、乙に帰属するものとする。
2. 甲は、学習済みモデルに対していかなる権利も主張しないものとする。
3. ただし、乙は学習済みモデルを第三者に提供する場合、本データが使用されていることを開示してはならない。

AIベンチャーとして特に気になるのが、「データを学習させて作ったAIモデルの著作権は誰のものか?」という点ではないでしょうか。

現時点での考え方を整理すると、以下のようになります。

権利の対象帰属先備考
提供した元データデータ提供者(甲)契約後も変わらない
学習済みAIモデルAIベンチャー(乙)契約書で明記が必要
AIが生成したアウトプット原則としてAIベンチャー(乙)法整備が進んでいない領域

特に「学習済みAIモデルの著作権はAIベンチャー側にある」という点は、契約書に明記しておかないとデータ提供者から権利を主張されるリスクがあります。

ユキマサくん

データを提供してもらっただけで、AIモデルの権利まで主張されることがあるんだね。それは怖いな。

純さん

そうなんです。
特にAI関連の著作権は法整備がまだ追いついていない部分もあるので、契約書でしっかり取り決めておくことが今の段階では一番の対策です。

3.個人情報・機密情報の取り扱い

個人情報が含まれるデータには特別な注意が必要

【参考】第◯条(個人情報の取り扱い)

1. 本データに個人情報(個人情報保護法第2条に定める個人情報をいう)が含まれる場合、乙は以下の事項を遵守するものとする。
(1)個人情報をAIシステムの学習・検証目的以外に使用しないこと
(2)個人情報保護法その他関連法令を遵守すること
(3)個人情報への不正アクセスを防止するための安全管理措置を講じること
(4)契約終了後、個人情報を含むデータを速やかに削除または返却すること
2. 乙は、個人情報の取り扱いに関する責任者を定め、甲の求めに応じてその氏名を開示するものとする。

AI学習データには、人の顔や声、行動パターンなど、個人情報が含まれるケースが非常に多いです。

例えばこんなデータには個人情報が含まれている可能性があります。

  • 人物が写っている画像・動画データ
  • 音声・会話データ
  • 購買履歴・行動履歴データ
  • 医療・健康データ

個人情報保護法では、個人情報を取り扱う際には本人の同意が必要です。

データ提供者がきちんと本人の同意を取っているかどうかも、契約書で確認しておく必要があります。

機密情報の取り扱いも明確にする

【参考】第◯条(機密情報の取り扱い)

1. 本契約において「機密情報」とは、本データおよび本契約の内容、並びに甲乙間で開示された技術上・営業上の情報をいう。
2. 甲および乙は、機密情報を厳重に管理し、相手方の事前の書面による承諾なく第三者に開示・漏洩してはならない。
3. 以下の情報は機密情報に該当しないものとする。
(1)開示を受けた時点ですでに公知であった情報
(2)開示を受けた後、自己の責によらず公知となった情報
(3)正当な権限を有する第三者から機密保持義務を負わずに取得した情報
4. 本条の義務は、本契約終了後◯年間存続するものとする。

AI学習データの取引では、データそのものだけでなく、取引の内容や技術情報も機密情報として保護する必要があります。

例えば、どんなデータを使ってどんなAIを開発しているかという情報は、競合他社に知られたくない重要な情報です。

機密情報の取り扱いで特に注意したいポイントは以下の3つです。

  • 機密情報の定義を明確にする:何が機密情報にあたるかをはっきりさせる
  • 契約終了後の義務存続期間を決める:契約が終わっても機密保持義務が続く期間を定める
  • 例外規定を設ける:すでに公知の情報など、機密情報に該当しないケースを明記する

データの管理体制も契約書に盛り込む

【参考】第◯条(データの管理)

1. 乙は、本データを以下の方法により適切に管理するものとする。
(1)アクセス権限を必要最小限の担当者に限定すること
(2)データの保管場所および利用状況を記録すること
(3)外部への持ち出しを禁止し、クラウドへのアップロードは甲の承諾を得ること
2. 乙は、本データの漏洩・滅失・毀損が発生した場合、直ちに甲に通知し、その原因究明および再発防止策を講じるものとする。
3. 契約終了時、乙は本データおよびそのすべての複製物を削除し、甲の求めに応じて削除証明を提出するものとする。

データの漏洩リスクを減らすためには、具体的なデータ管理体制を契約書に明記しておくことが大切です。

特に以下の点は見落としやすいので注意しましょう。

  • 契約終了後にデータを削除する義務と、削除証明の提出
  • クラウドストレージへのアップロードの可否
  • データにアクセスできる担当者の範囲
ユキマサくん

契約が終わったらデータを削除してもらわないといけないんだね。
それは盲点だったな。

純さん

契約終了後もデータを保持されていると、予期しない形で使われるリスクがあります。
削除義務と削除証明の提出は必ず盛り込んでおきましょう。

4.データの品質保証

品質基準を数字で決めておく

【参考】第◯条(品質基準)

1. 甲が提供する本データは、以下の品質基準を満たすものとする。
(1)解像度:1920×1080以上
(2)不良データの混入率:全体の5%以下
(3)ラベルの正確性:正解率95%以上
(4)重複データ:全体の3%以下
2. 乙は、本データの受領後◯営業日以内に品質検査を行い、前項の基準を満たさない場合は甲に通知するものとする。
3. 前項の通知を受けた甲は、◯営業日以内に不良データの差し替えまたは補充を行うものとする。

AIの精度はデータの品質で決まると言っても過言ではありません。

どれだけ優れたアルゴリズムを使っても、品質の低いデータを学習させてしまうと、AIの精度は上がりません。

にもかかわらず、品質基準を契約書に明記していないケースは非常に多いです。

品質基準は「なんとなく良いもの」ではなく、以下のように数字で具体的に決めておくことが大切です。

  • 画像データなら解像度や不良データの混入率
  • アノテーション済みデータならラベルの正確性
  • テキストデータなら重複率や欠損値の割合

数字で基準を決めておけば、「品質が低い」「いや十分だ」という水掛け論を防げます。

検収のルールを決めておく

【参考】第◯条(検収)

1. 乙は、本データの受領後◯営業日以内に検収を完了するものとする。
2. 検収合格の場合、乙は甲に対して書面または電磁的方法により合格通知を発行するものとする。
3. 検収不合格の場合、乙は不合格の理由を明示した通知を甲に送付し、甲は◯営業日以内に修正または差し替えを行うものとする。
4. 乙が前項の期間内に合否の通知を行わない場合、検収合格とみなすものとする。

品質基準を決めたら、合わせて検収のルールも契約書に明記しておきましょう。

検収とは、受け取ったデータが品質基準を満たしているかどうかを確認する作業のことです。

検収のルールが決まっていないと、こんなトラブルになります。

  • データを受け取ってから数ヶ月後に「品質が低い」とクレームを言っても、今更対応できないと断られた
  • どこまで修正してもらえるのか、何回まで差し替えを求められるのかが不明確だった
  • 検収期間が決まっていなかったため、いつまでも代金を支払ってもらえなかった

検収期間・合否通知の方法・不合格時の対応手順をセットで決めておくのがポイントです。

契約不適合責任を明確にする

【参考】第◯条(契約不適合責任)

1. 甲は、検収合格後◯ヶ月以内に本データが契約の内容に適合しないことが発見された場合、乙の請求に基づき、データの修正・差し替えを行うものとする。
2. 前項の契約不適合が甲の故意または重大な過失による場合、甲は乙に生じた損害を賠償するものとする。ただし、賠償額は本契約の対価の範囲内とする。
3. AIシステムの学習精度の低下のみを理由とする契約不適合責任の追及は、本条の対象外とする。

検収が完了した後に問題が見つかった場合の責任についても、あらかじめ決めておく必要があります。

契約不適合責任とは、提供されたデータが契約で決めた品質基準や内容を満たしていない場合に、データ提供者が負う責任のことです。

特にAI学習データで注意したいのが、「AIの精度が上がらなかった」という理由での責任追及です。

データの品質が基準を満たしていても、AIの精度が上がるかどうかはアルゴリズムや学習方法にも依存します。

そのため、「AIの精度が低かった」という理由だけでは契約不適合責任を追及できない旨を明記しておけば、不当なクレームを防げます。

5.対価と支払い条件

対価の決め方を明確にする

【参考】第◯条(対価)

1. 乙は甲に対し、本データの提供対価として以下の金額を支払うものとする。
(1)基本対価:金◯◯円(税込)
(2)追加データの単価:1件あたり◯円(税込)
2. 前項の対価には、本データの提供に要する費用(データ整理・加工・送付費用等)を含むものとする。

対価の決め方はシンプルに見えて、実はトラブルになりやすいポイントです。

AI学習データの対価の決め方には、大きく分けて以下のパターンがあります。

対価の方式特徴向いているケース
一括固定方式データ全体に対して定額で支払うデータ量と品質が事前に決まっている場合
件数単価方式データ1件あたりの単価で計算するデータ量が変動する可能性がある場合
ライセンス方式データの使用期間に応じて定期的に支払う継続的にデータを使用する場合
成果報酬方式AIの精度向上に応じて対価を支払うデータ品質の評価が難しい場合

どの方式が適しているかは、調達するデータの種類やビジネスモデルによって異なります。

特に注意したいのが、対価にどこまでの費用が含まれるかという点です。

データの整理・加工・送付にかかる費用が対価に含まれるのか、別途請求されるのかを明確にしておかないと、後から追加費用を請求されるトラブルになります。

支払い条件を明確にする

【参考】第◯条(支払い条件)

1. 乙は、検収合格後◯営業日以内に、甲の指定する銀行口座に対価を振り込む方法により支払うものとする。なお、振込手数料は乙の負担とする。
2. 乙が支払期日までに対価を支払わない場合、乙は支払期日の翌日から支払い完了日まで、年◯%の遅延損害金を甲に支払うものとする。

支払い条件で特に決めておきたいのは以下の4点です。

  • 支払いのタイミング:検収合格後◯営業日以内など、具体的な期限を設ける
  • 支払い方法:銀行振込の場合、振込手数料をどちらが負担するかを決める
  • 遅延損害金:支払いが遅れた場合のペナルティを設けておく
  • 消費税の取り扱い:対価に消費税が含まれるかどうかを明記する

契約解除時の対価の取り扱いも決めておく

【参考】第◯条(契約解除時の対価)

1. 甲の責に帰すべき事由により本契約が解除された場合、乙はすでに提供を受けたデータに相当する対価のみを支払うものとする。
2. 乙の責に帰すべき事由により本契約が解除された場合、乙はすでに提供を受けたデータの対価に加え、甲に生じた損害を賠償するものとする。
3. 前2項にかかわらず、乙はすでに提供を受けたデータを速やかに削除し、甲の求めに応じて削除証明を提出するものとする。

契約途中で解除になった場合の対価の取り扱いは、見落としがちなポイントです。

例えばこんなケースが考えられます。

  • データを半分しか受け取っていないのに、全額支払わないといけないのか
  • 契約解除後にすでに受け取ったデータはどうすればいいのか
  • データ提供者側の都合で解除された場合、損害賠償は請求できるのか

契約解除はできれば避けたいですが、万が一の場合に備えて対価の取り扱いを決めておけば、いざというときに慌てずに済みます。

ユキマサくん

対価の決め方ひとつとっても、こんなに決めておくことがあるんだね。特に契約解除のときのことまで考えていなかったよ。

純さん

対価と支払い条件は、お互いが気持ちよく取引するための基本です。
曖昧にしたままにしておくと、些細なことがトラブルに発展しやすいので、細かいところまでしっかり決めておきましょう。

まとめ

今回は、AIベンチャーの経営者向けに、AI学習データ提供契約書の作り方と注意点を解説しました。

最後に、押さえておくべき重要事項をまとめます。

  1. 提供データの内容と範囲を明確にする
    「どんなデータを」「どれくらい」「どんな形式で」提供してもらうかを具体的に決めましょう。データの使用目的と使用範囲もあわせて明記しておけば、後から「思っていたのと違う」というすれ違いを防げます。
  2. 著作権・知的財産権の帰属をきちんと整理する
    データの著作権はデータ提供者に残り、開発したAIモデルの著作権はAIベンチャー側に帰属することを明記しましょう。ライセンスの範囲や既存データの著作権リスクについても確認しておくことが大切です。
  3. 個人情報・機密情報の取り扱いを決める
    AI学習データには個人情報が含まれるケースが多いため、個人情報保護法を遵守した管理体制を整えましょう。契約終了後のデータ削除義務と削除証明の提出も忘れずに盛り込んでおきましょう。
  4. 品質基準と検収ルールを数字で決める
    品質基準は「なんとなく良いもの」ではなく、解像度や不良データの混入率など数字で決めましょう。検収期間・合否通知の方法・不合格時の対応手順をセットで決めておけば、品質トラブルをほとんど防げます。
  5. 対価と支払い条件を明確にする
    対価にどこまでの費用が含まれるかを明確にしましょう。支払いのタイミング・方法・遅延損害金・契約解除時の取り扱いまで決めておけば、お互い気持ちよく取引できます。

AI学習データの調達は、AIシステム開発の成否を左右する重要なプロセスです。

「とりあえずChatGPTで作った契約書でいいか」と思っていると、著作権トラブルや個人情報漏洩といった深刻な問題に発展することがあります。

特に法務担当者がいないAIベンチャーの場合、契約書まわりは専門家に任せてしまった方が、結果的に時間もコストも節約できます。

AI学習データ提供契約書の作成でお困りの方は、お気軽にご相談ください。

気に入ったらシェアしてください!
  • URLをコピーしました!
目次