SBIR-智財新知：科技大廠瘋搶數據黃金正當紅

:::

科技大廠瘋搶數據黃金正當紅

AI浪潮勢不可檔，在一個又一個的大模型發表的背後，代表的是要有足夠的數據教會AI生成類似人類創作的文本、圖像或是影音，最新研究報告顯示，科技公司可能在2026年前就用完網路上的高品質數據。因此，科技大廠紛紛重金購買各種網路留言、自拍照片、短影音，在這些影像、圖文數據資料身價水漲船高之際，科技大廠遊走法律灰色地帶的操作方式，也引發諸多版權爭議。

你的自拍和聊天紀錄正在被矽谷大廠砸重金瘋搶

在AI快速發展的大潮下，有研究顯示，科技公司可能在2026年前就用完網路上的高品質數據，因為這些公司使用數據的速度比產生數據的速度快，情況已經非常緊急。為了應對這一問題，包括OpenAI、Google和Meta等科技巨頭在蒐集數據方面，已經無所不用其極。

雖然許多公司對於這個不透明的AI市場規模表示緘默，但Business Research Insights等研究人員認為，目前市場規模約25億美元，並預測十年內可能會成長近300億美元。

像是圖像託管網站Photobucket的陳舊數據，本來已經多年無人問津，但如今，它們正在被各大互聯網公司瘋搶，用來訓練AI模型。

根據路透報導，2000年代，Photobucket處於巔峰期，擁有7,000萬用戶，而今天，這家網站的用戶已經驟降到了200萬人，但生成式AI為這家公司帶來了新生。

該公司CEO透露，目前已經有多家科技公司找上門來，願意重金買公司的130億份照片和影片，目的當然就是訓練AI，而且他們還想要更多。據傳，一位買家表示，自己想要超過10億個視頻，而這已經遠遠超出了Photobucket能提供的數量。粗略估計，Photobucket手中握著的數據，很可能價值數十億美元。

對科技公司來說，如果不能使用免費抓取的網頁資料檔案，例如Common Crawl，那成本會是一個很可怕的數字。

手快的公司，早就反應過來了。ChatGPT在2022年底亮相後的幾個月內，Meta、谷歌、亞馬遜和蘋果就已經迅速和圖片庫提供商Shutterstock達成協議，使用庫中的數億份圖像、視頻和音樂文件進行訓練。根據媒體報導的數據，這些交易從2,500萬美元到5,000萬美元不等。

對於上述情況，谷歌、Meta、微軟、蘋果、亞馬遜和OpenAI均拒絕置評。

AI訓練數據荒科技巨頭各出奇招

OpenAI研究團隊多年來一直在收集、清理數據，並將其匯集成龐大的文字庫，用於訓練公司的語言模型。他們從GitHub這個計算機程式碼庫中提取信息，收集了國際象棋走法的資料庫，並利用Quizlet網站上關於高中考試和作業的數據。

不過，據《紐約時報》報導，OpenAI在2021年底就面臨了訓練數據短缺的難題，為了克服數據短缺的難題，OpenAI的研究人員開發出一款名為「Whisper」的語音辨識工具，將超過100萬小時的YouTube影片內容轉化為文字，用於訓練其先進的大型語言模型GPT-4，成為最新版本ChatGPT聊天機器人的基礎。

可是對於旗下的YouTube被OpenAI當作訓練工具，Google並未出面制止，原因似乎與Google自身也同樣藉由YouTube影片內容訓練其人工智慧模型有關。

Google也在利用YouTube影片來訓練自家的AI模型。2023年6月，Google的法律部門要求隱私團隊修改服務條款，以擴展公司對消費者資料的使用權限，也就是，為公司能夠利用使用者公開分享的內容開發一系列的AI產品。

谷歌發言人回應稱，公司不會在沒有用戶「明確許可」的情況下使用他們的谷歌文檔來訓練AI；這裏指的是自願參與的實驗性功能體驗計劃。

Meta也遇到數據不足的難題，儘管Meta掌管龐大的社群網路資源，但不僅用戶沒有保留貼文的習慣（很多人會刪除自己之前的發文），而且Facebook也不是一個大家習慣發高品質長文的地方。

Meta試圖找到解決方案，他們考慮了為獲取新書的完整版權支付每本10美元的可能性，並討論了收購出版了斯蒂芬·金等作者作品的Simon & Schuster的想法。

同時，他們也討論了未經允許就對網路上的書籍、論文等作品進行摘要的做法，並考慮進一步「吸收」更多內容，哪怕這可能招致法律訴訟。

據報導，Meta的高層決定借鏡2015年作家協會（Authors Guild）對Google的法庭判決。在那個案例中，谷歌被允許掃描、數位化並在線上資料庫中編目書籍，因為它僅在線上複製了作品的一小部分，並且改變了原作，這被認定為合理使用。

法律灰色地帶版權爭議多

在生成式AI問世的過程中，除了造成全球轟動外，不少創作者與內容供應者都反對，因為許多AI公司在他們不知情的情況下，擅自將其作品用來訓練AI模型，為此也引發不少爭議。

根據外電報導，《紐約時報》曾於2023年底的時候控告OpenAI及其金主微軟侵權，指控兩者分文未付就擅自使用紐時的出版品，訓練生成式人工智慧（AI），形同「搭便車」。

《紐約時報》在呈交給紐約南區聯邦地方法院的訴狀中聲稱，OpenAI和微軟在未經授權的情況下，利用紐時「數以百萬篇」文章來訓練聊天機器人，如今又以相關內容回應尋找可信資訊的用戶，成為搶走媒體受眾的競爭對手。紐時認為，這並不適用「合理使用」原則，因為AI工具幾乎可以逐字提供紐時文章的大段內容。

針對《紐約時報》對OpenAI提出的訴訟，報導中也提到，如果屆時由《紐約時報》勝訴的話，OpenAI有可能因此欠下數十億美元的債務，而且除了使OpenAI被迫刪除掉透過《紐約時報》內容所產生的訓練資料外，也會讓OpenAI未來與其他內容產業合作時，增加更多複雜性。

正因爲這些操作，近些年來伴隨着人們對AI能力的驚歎，越來越多的版權方也開始意識到自己的數據被偷偷拿走訓練AI了。包括《紐約時報》、一些電影製作人和作家已經將這些科技公司告上法庭，美國著作權局也正在制定版權法在AI時代的適用指南。

問題在於，即便一些作家、製片人將科技公司的行爲稱爲「美國史上最大盜竊案」，科技公司用來發展下一代AI的數據依然還是不夠。

<資料來源：工商時報，記者：方明。https://www.ctee.com.tw/news/20240425701176-430704>

科技大廠瘋搶 數據黃金正當紅

你的自拍和聊天紀錄 正在被矽谷大廠砸重金瘋搶

AI訓練數據荒 科技巨頭各出奇招

法律灰色地帶 版權爭議多

科技大廠瘋搶數據黃金正當紅

你的自拍和聊天紀錄正在被矽谷大廠砸重金瘋搶

AI訓練數據荒科技巨頭各出奇招

法律灰色地帶版權爭議多