:::

美國:訓練大型語言模型(Claude & Llama)構成著作合理使用首二例

一、美國加州北區聯邦地院在六月間,連續就模型開發商大量利用他人著作分別訓練Claude和Llama大型語言模型(large language model,LLM),是否構成著作侵權、以及合理使用抗辯是否成立之爭議加以裁判,介紹如後。

 

二、Andrea Bartz etl. v. Anthropic PBC 1

(一) 本案是由Andrea Bartz與另外兩位作家共同對Claude開發商Anthroipc公司提起著作侵權訴訟,後者對應根據美國著作權法107條提出合理使用抗辯,並聲請法院就此法律議題為即決判決。加州北區聯邦地院在2025年6月23為全美首件即決判決,採取分別審查的方式認定是否構成合理使用。

(二) 大型語言模型開發商對取得的文本進行預處理和訓練模型主要包括以下四階段,都可能涉及「重製」行為

1. 從公司的中央資料庫重製選定的文本(text)。

2. 清理過程:將重複或者低價值的部分(例如頁碼或註解)刪除,而成為乾淨的文本。

3. 對文本進行預處理和訓練:

(1) 清理後的文本被轉換成「標記化(tokenized)」的副本,這些標記可以是單詞、詞根或子詞單位。

(2) 再進行「詞幹提取(stemming)或詞形還原(lemmatization)」,例如把「studying」變成「study」,將詞彙簡化成基本形式,減少複雜度。

(3) 並根據Anthropic製作的字典將所有字元分組成短序列,並轉換成對應的數字序列,以便利電腦處理。

(4) 此後模型透過大量的數據反覆學習詞彙間的統計關係,從而掌握語言規律。

4. 大型語言模型在訓練完成後,對訓練資料的「記憶」或「壓縮保存」:

原告認為,模型在訓練過程中,並非僅學習語言規則,而是以某種方式「壓縮」並保存用以訓練的文本內容,本質上每個LLM對訓練文本中各詞彙之間的對應關係可以接近「記憶」的方式完整重現原作品。

(三) 在完成前述訓練之後,Claude並不會直接被終端消費者利用,而是會其他軟體搭配應用之後供應市場。在本案,兩造當事者都未討論模型再搭配其他軟體可能涉及的著作侵權情形,原告在本案僅主張在前述訓練模型階段涉及「輸入」原作構成的著作侵權行為,並未主張LLM的「輸出」內容構成侵權,法院特別指出,若原告主張輸出也構成侵權,其侵權分析將與以下不同。

(四) Alsup法官將訓練的資料分兩部分:

1. 合法購得部分構成「轉化性合理使用」:

(1) 此類資料是由Anthroipc先合法購得紙本書籍後,經過拆開裝訂、逐頁掃描成為可用數位化方式儲存及搜尋的數位資訊,並儲存在公司的中央資料庫,原稿此後即被棄置。

(2) 如第(二)點所述,訓練Claude的過程並非直接複製原作品,而是透過分析文句片段間的統計關係,讓模型學習如何生成全新、可能具有原創性的文句。訓練的過程類似於人類讀書學習,並進而寫作的行為,倘若讀者因為讀過某些優秀作品而記憶並模仿其風格,並不構成侵權。大型語言模型的訓練過程與此類似,都是從大量文本中萃取語法、風格和構思,進而產生新的內容。因此,被告合法購得紙本著作加以利用之目的不是為了複製或取代原作,而是用以訓練AI生成新的內容,構成轉化性合理使用(transformative fair use)

2. 非法取得的資訊無論是否用以訓練AI都構成著作侵權:

(1) 另有約700萬冊的書籍資料,是從未經授權之網站所下載且從未支付任何費用。以非法方式取得著作,即便只是單純儲存在被告的中央資訊部,尚未用以訓練AI也不構成合理使用。

(2) 此部分將轉由陪審團進一步認定被告應負的損害賠償責任。

 

三、Kadrey v. Meta 2

(一) 前述裁判公告兩天後,同一法院之Chhabria 法官也以即決判決認定Meta利用具有著作權的書籍訓練AI模型構成合理使用,但理由是該利用方式「並未影響原著作潛在市場」。

(二) 本案是 Sarah Silverman等13位知名作家共同起訴,控告Meta公司利用來自「影子圖書館」未經授權的書籍訓練其大型語言模型構成著作侵權,Meta則為合理使用抗辯,兩造都請求法院以即決判決駁回對方的主張。

(三) 雖然案件的基本架構與第一案相同,Chhabria法官亦認同利用書籍訓練LLM使其具有生成語言的功能,根據合理使用的第一個因素(使用的目的與性質)衡量,屬於具有「高度變革性的使用」,但Chhabria法官特別表達,其不贊同Alsup法官在前述案件將AI訓練比喻為「學童學寫作」的見解,因為傳統透過書籍教育學生養成寫作能力和生成式AI可在短時間內大量生成與原作競爭作品的市場效應大不相同,因此,合理使用的第四個衡量因素-「市場影響」,尤其是市場稀釋度(market dilution)才是決定本案是否構成合理使用的關鍵

(四) 原告在本案無法證明原作品的市場因Llama生成內容而受稀釋:

1. 原告雖提出,Meta未付費使用其作品會破壞一假設性的「訓練數據授權市場」,但法院認為這是一個循環論證,因為著作權法並不保證權利人可以從所有可能的下游使用中獲利。

2. 法院認為最有希望支持原告論點的是「市場稀釋」:即大型語言模型生成的作品可能在主題和類型上與原作相似,間接與原作競爭,造成市場損害。但原告未能提出證據證明Llama生成文字將會替代或稀釋原告書籍的銷售市場,測試結果甚至顯示,Llama在一般提示的情況下無法複製超過50個字元的原告文本;原告方的專家證人亦承認,即使利用刻意設計的輸入/提示方式以測試Llama模型(adversarial prompting),也仍無法複製超過50個字元的原告文本。

(五) Chhabria法官最終認定Meta未經授權使用原告著作訓練AI模型Llama,屬於合理使用。但仍強調「本判決並不代表Meta使用著作權作品訓練語言模型本身是當然合法的行為,僅表示本案原告提出了錯誤的論點,且未能建立支持正確論點的證據紀錄。」並仍保留對Meta涉嫌透過影子圖書館非法下載盜版書籍的另一項指控,將繼續審理。

 

四、以上兩案雖然都認為開發商利用著作物訓練大型語言模型構成合理使用,但採用的理由有別,預期原告方必然都會提起上訴,並將由聯邦第九巡迴上訴法院統一認定合理使用的界線。綜合觀察,目前獲得法院肯定的合理使用模式,是透過合法管道取得原作品,且模型生成結果無法替代原市場之情形

 

◎ 相關報導

 美國首件判決-駁回AI開發商的合理使用抗辯(Westlaw法訊摘要爭議案)

 通用AI模型開發商在美訴訟近況

 

1 Andrea Bartz, et al. v. Anthropic PBC, Case No. 24-CV-05417-WHA.

2 Richard Kadrey, et al. v. META Platforms, Inc., Case 3:23-cv-03417-VC.

3 「影子圖書館」是指以未經授權、侵害著作權的方式,將大量受著作權保護的學術文獻和小說以線上資料庫的形式免費開放給大眾下載使用,由於去中心化與匿名營運,而造成權利人難以追蹤。

 

<資料來源:聖島國際專利商標聯合事務所。https://www.saint-island.com.tw/Tw/News/News_Info.aspx?IT=News_1&CID=266&ID=133256>