科技大廠瘋搶 數據黃金正當紅
AI浪潮勢不可檔,在一個又一個的大模型發表的背後,代表的是要有足夠的數據教會AI生成類似人類創作的文本、圖像或是影音,最新研究報告顯示,科技公司可能在2026年前就用完網路上的高品質數據。因此,科技大廠紛紛重金購買各種網路留言、自拍照片、短影音,在這些影像、圖文數據資料身價水漲船高之際,科技大廠遊走法律灰色地帶的操作方式,也引發諸多版權爭議。
你的自拍和聊天紀錄 正在被矽谷大廠砸重金瘋搶
在AI快速發展的大潮下,有研究顯示,科技公司可能在2026年前就用完網路上的高品質數據,因為這些公司使用數據的速度比產生數據的速度快,情況已經非常緊急。為了應對這一問題,包括OpenAI、Google和Meta等科技巨頭在蒐集數據方面,已經無所不用其極。
如今,無論是陳舊的聊天記錄,還是被遺忘的社交媒體上褪色的舊照片,忽然都變成了價值連城的東西,各大科技公司急於尋找版權所有者的授權,畢竟,私人收藏的東西,是無法抓取的。
雖然許多公司對於這個不透明的AI市場規模表示緘默,但Business Research Insights等研究人員認為,目前市場規模約25億美元,並預測十年內可能會成長近300億美元。
像是圖像託管網站Photobucket的陳舊數據,本來已經多年無人問津,但如今,它們正在被各大互聯網公司瘋搶,用來訓練AI模型。
根據路透報導,2000年代,Photobucket處於巔峰期,擁有7,000萬用戶,而今天,這家網站的用戶已經驟降到了200萬人,但生成式AI為這家公司帶來了新生。
該公司CEO透露,目前已經有多家科技公司找上門來,願意重金買公司的130億份照片和影片,目的當然就是訓練AI,而且他們還想要更多。據傳,一位買家表示,自己想要超過10億個視頻,而這已經遠遠超出了Photobucket能提供的數量。粗略估計,Photobucket手中握著的數據,很可能價值數十億美元。
對科技公司來說,如果不能使用免費抓取的網頁資料檔案,例如Common Crawl,那成本會是一個很可怕的數字。
手快的公司,早就反應過來了。ChatGPT在2022年底亮相後的幾個月內,Meta、谷歌、亞馬遜和蘋果就已經迅速和圖片庫提供商Shutterstock達成協議,使用庫中的數億份圖像、視頻和音樂文件進行訓練。根據媒體報導的數據,這些交易從2,500萬美元到5,000萬美元不等。
對於上述情況,谷歌、Meta、微軟、蘋果、亞馬遜和OpenAI均拒絕置評。
AI訓練數據荒 科技巨頭各出奇招
OpenAI研究團隊多年來一直在收集、清理數據,並將其匯集成龐大的文字庫,用於訓練公司的語言模型。他們從GitHub這個計算機程式碼庫中提取信息,收集了國際象棋走法的資料庫,並利用Quizlet網站上關於高中考試和作業的數據。
不過,據《紐約時報》報導,OpenAI在2021年底就面臨了訓練數據短缺的難題,為了克服數據短缺的難題,OpenAI的研究人員開發出一款名為「Whisper」的語音辨識工具,將超過100萬小時的YouTube影片內容轉化為文字,用於訓練其先進的大型語言模型GPT-4,成為最新版本ChatGPT聊天機器人的基礎。
可是對於旗下的YouTube被OpenAI當作訓練工具,Google並未出面制止,原因似乎與Google自身也同樣藉由YouTube影片內容訓練其人工智慧模型有關。
Google也在利用YouTube影片來訓練自家的AI模型。2023年6月,Google的法律部門要求隱私團隊修改服務條款,以擴展公司對消費者資料的使用權限,也就是,為公司能夠利用使用者公開分享的內容開發一系列的AI產品。
谷歌發言人回應稱,公司不會在沒有用戶「明確許可」的情況下使用他們的谷歌文檔來訓練AI;這裏指的是自願參與的實驗性功能體驗計劃。
Meta也遇到數據不足的難題,儘管Meta掌管龐大的社群網路資源,但不僅用戶沒有保留貼文的習慣(很多人會刪除自己之前的發文),而且Facebook也不是一個大家習慣發高品質長文的地方。
Meta試圖找到解決方案,他們考慮了為獲取新書的完整版權支付每本10美元的可能性,並討論了收購出版了斯蒂芬·金等作者作品的Simon & Schuster的想法。
同時,他們也討論了未經允許就對網路上的書籍、論文等作品進行摘要的做法,並考慮進一步「吸收」更多內容,哪怕這可能招致法律訴訟。
據報導,Meta的高層決定借鏡2015年作家協會(Authors Guild)對Google的法庭判決。在那個案例中,谷歌被允許掃描、數位化並在線上資料庫中編目書籍,因為它僅在線上複製了作品的一小部分,並且改變了原作,這被認定為合理使用。
法律灰色地帶 版權爭議多
在生成式AI問世的過程中,除了造成全球轟動外,不少創作者與內容供應者都反對,因為許多AI公司在他們不知情的情況下,擅自將其作品用來訓練AI模型,為此也引發不少爭議。
根據外電報導,《紐約時報》曾於2023年底的時候控告OpenAI及其金主微軟侵權,指控兩者分文未付就擅自使用紐時的出版品,訓練生成式人工智慧(AI),形同「搭便車」。
《紐約時報》在呈交給紐約南區聯邦地方法院的訴狀中聲稱,OpenAI和微軟在未經授權的情況下,利用紐時「數以百萬篇」文章來訓練聊天機器人,如今又以相關內容回應尋找可信資訊的用戶,成為搶走媒體受眾的競爭對手。紐時認為,這並不適用「合理使用」原則,因為AI工具幾乎可以逐字提供紐時文章的大段內容。
針對《紐約時報》對OpenAI提出的訴訟,報導中也提到,如果屆時由《紐約時報》勝訴的話,OpenAI有可能因此欠下數十億美元的債務,而且除了使OpenAI被迫刪除掉透過《紐約時報》內容所產生的訓練資料外,也會讓OpenAI未來與其他內容產業合作時,增加更多複雜性。
正因爲這些操作,近些年來伴隨着人們對AI能力的驚歎,越來越多的版權方也開始意識到自己的數據被偷偷拿走訓練AI了。包括《紐約時報》、一些電影製作人和作家已經將這些科技公司告上法庭,美國著作權局也正在制定版權法在AI時代的適用指南。
問題在於,即便一些作家、製片人將科技公司的行爲稱爲「美國史上最大盜竊案」,科技公司用來發展下一代AI的數據依然還是不夠。
<資料來源:工商時報,記者:方明。https://www.ctee.com.tw/news/20240425701176-430704>