近日,Ziff Davis公司公布了一項新研究,揭示了谷歌、OpenAI及meta等AI行業領軍企業在訓練大型語言模型時,對知名新聞源內容的高度依賴。
該研究深入探討了AI訓練數據集的構成,發現這些數據集主要由新聞和媒體網站的高質量內容組成。這表明,在人工智能技術的發展過程中,主流AI企業已將新聞內容視為訓練模型的關鍵要素。
據悉,Ziff Davis的首席AI律師George Wukoson和技術官Joey Fortuna主導了這項研究。他們詳細檢查了多個AI公司公開承認使用的數據集,包括Common Crawl、C4、OpenWebText及OpenWebText2。
這一發現不僅揭示了新聞媒體內容在AI訓練中的核心價值,同時也引發了關于內容版權和付費問題的討論。Ziff Davis指出,新聞媒體內容被AI公司無償使用,這可能導致出版商失去重要的許可收入。
此前,已有出版商對OpenAI提起訴訟,稱其未經許可使用內容訓練模型。盡管一聯邦法官駁回了Raw Story和AlterNet對OpenAI的訴訟,但《紐約時報》提起的相關案件仍在審理當中。同時,OpenAI也已與多家頂級媒體公司達成了許可協議。