「AI企業が合法的に取得した書籍でAIをトレーニングするのに著者の許可は必要ない」という判決が下される

AIチャットボット「Claude」を開発するAnthropicが3人のアメリカ人作家に著作権侵害で訴えられた件について、カリフォルニア州北部地区連邦地方裁判所は、「著者の許可がなくても、合法的に購入した書籍でAIをトレーニングすることはフェアユースに当たり、著作権侵害にはならない」という判決を下しました。
Authors v Anthropic ruling | DocumentCloud
https://www.documentcloud.org/documents/25982181-authors-v-anthropic-ruling/
Anthropic wins a major fair use victory for AI — but it’s still in trouble for stealing books | The Verge
https://www.theverge.com/news/692015/anthropic-wins-a-major-fair-use-victory-for-ai-but-its-still-in-trouble-for-stealing-books
Key fair use ruling clarifies when books can be used for AI training - Ars Technica
https://arstechnica.com/tech-policy/2025/06/key-fair-use-ruling-clarifies-when-books-can-be-used-for-ai-training/
ジャーナリストで作家のアンドレア・バーツ氏、チャールズ・グレーバー氏、カーク・ジョンソン氏が2024年8月にAnthropicを相手取り、LibGenやBooks3などの海賊版サイトのデータや物理書籍のスキャンデータをClaudeのトレーニングに使ったのは著作権侵害であると主張し、提訴しました。
Anthropicが著作権侵害で3人の作家に訴えられる、Claudeのトレーニングに著作権で保護された何十万冊もの本を使用したとの主張 - GIGAZINE

Anthropicは、Claudeを訓練するために海賊版サイトを使用したこと、また数百万冊の書籍を購入し、裁断・スキャンしてデジタル化したデータもトレーニングで使用したことを認めました。その上で、Anthropicはこれらが著作権法で認められる「フェアユース」に当たると主張しました。
カリフォルニア州北部地区連邦地方裁判所のウィリアム・アルサップ判事は、Anthropicの主張に対し、主に3つの判断を示しています。
1:物理書籍のスキャンデータを使ってAIをトレーニングしたこと
アルサップ判事は、AIが本の内容を学習するのは単に複製するためではなく、全く新しい文章を生成するための統計的関係を学ぶためだと指摘。AIの生成物が元の本のコピーや盗作をユーザーに提供しているわけではないとしました。
また、原告側の「AIをトレーニングすれば自分たちの作品と競合する作品が大量に生み出され、市場が損なわれる」という主張に対しては、「それは子どもたちに文章の書き方を教えれば将来の競合作家が増える、と文句を言うのと何ら変わりない。これは著作権法が懸念するような競争的あるいは創造的な置換ではない。著作権法は作者を競争から保護するものではなく、独創的な著作物の進歩を目的としているからである」とアルサップ判事は述べています。

2:購入した本をスキャンしてデジタル化したこと
そして、Anthropicが合法的に購入した物理書籍を裁断し、スキャンしてデジタルデータにした行為もフェアユースである、と判決で述べられました。これは、Anthropicの目的と性格が「変容的」であると判断されたためです。
アルサップ判事は「Anthropicはすでに書籍の所有権を持っており、スキャン後に元の物理書籍を破棄していた。デジタル化の目的は保管スペースを節約して検索を用意にするためであり、データはAnthropic内部の研究ライブラリに保管されていたことから、コピーを外部に配布したり販売したりするためのものではないことは明らか」と述べています。
アルサップ判事は、デジタルデータ化は書籍のフォーマット変更であり、著作権者の頒布権を侵害しておらず、二次的著作物作成権も侵害していないと論じました。

3:海賊版サイトを使ってAIをトレーニングしたこと
AnthropicはBooks3やLibGenなどの海賊版サイトから数百万点の書籍データをダウンロードしていることを認めており、Anthropic側は「この訴訟の立場において、海賊版サイトのデータを使ったことは悪意があったと認める」としながらも、その悪意はフェアユースであることを妨げないと主張していました。
しかし、裁判では、法的な問題からこうしたデータの利用を忌避する声がAnthropic社内で上がっていたことが指摘されました。アルサップ判事は「Anthropicが海賊版サイトから700万点以上の書籍をダウンロードして中央ライブラリを構築した行為は、フェアユースではない」と明確に判断。海賊版サイトのデータで構築したライブラリは「有料のコピーの代替」として機能しており、変容的ではないと述べています。
また、Anthropicは特定の書籍をトレーニングに使わない、あるいは二度と使用しないと判断しましたが、そのデータをライブラリに保持し続けていました。これはコピーの目的が訓練だけに限定されていなかったとアルサップ判事は指摘し、「将来的に一部のコピーがAIトレーニングに使われるからといって、最初の違法なコピー行為が正当化されるわけではない。研究目的があるからといって欲しい教科書を勝手に持ち去ることはできない。もしそうなら学術出版市場は破壊されるだろう」と論じました。

今回の裁判で、「合法的に収集した書籍であれば、AIのトレーニングに使う場合はフェアユースに当たり、著者の許可は必要ない」という判決が下されたのは、AnthropicをはじめとするAI企業にとっては大きな勝利といえます。
AnthropicはIT系ニュースサイトのThe Vergeに対して「裁判所が大規模言語モデルを訓練するために著作物を利用することを『変容的』と認めたことをうれしく思います。AnthropicのAIは先行する著作物を複製したり、それに取って代わったりするためではなく、創造性を可能にして科学の進歩を促進するという著作権の目的に沿って、新たな境地を開いて何か違うものを創造するために訓練されたのです」とコメントしました。
一方で、Anthropicが海賊版サイトのデータを使ったことについては完全に著作権侵害に当たるという判断から、アルサップ判事は「Anthropicが使用した海賊版コンテンツについては別途裁判を開き、損害賠償額を決定することになる」と述べています。ただし、Anthropicが海賊版データと同じ書籍を後から購入している場合は「窃盗の責任を免除するものではないが、法定損害賠償額の程度に影響を与える可能性がある」と述べています。
・関連記事
ディズニーとユニバーサルが画像生成AIのMidjourneyを「盗作の底なし沼」と痛烈に批判して訴える - GIGAZINE
イギリスの裁判所が「AIが偽の引用文を生成した場合は弁護士が厳しい罰則を受ける可能性がある」と警告 - GIGAZINE
Anthropicが裁判の提出資料でAIが生成した「幻覚」の論文をソースにした疑惑、Anthropic側弁護士は「単なる引用ミス」と弁解 - GIGAZINE
「歌詞の著作権を侵害した」としてAI企業のAnthropicが訴えられるも「回復不能な損害を被っていない」として差し止め命令が却下される - GIGAZINE
Metaが「著作権保護されたデータをダウンロードすること自体は著作権違反ではない」と主張 - GIGAZINE
Metaが海賊版コンテンツを含む81.7TB分のデータでAIをトレーニングしていたことが明らかに - GIGAZINE
・関連コンテンツ
in メモ, ソフトウェア, Posted by log1i_yk
You can read the machine translated English article The ruling states that 'AI companies do ….