【ITBEAR】近日,Ziff Davis公司公布了一項新研究,揭示了谷歌、OpenAI及meta等AI行業(yè)領(lǐng)軍企業(yè)在訓練大型語言模型時,對知名新聞源內(nèi)容的高度依賴。
該研究深入探討了AI訓練數(shù)據(jù)集的構(gòu)成,發(fā)現(xiàn)這些數(shù)據(jù)集主要由新聞和媒體網(wǎng)站的高質(zhì)量內(nèi)容組成。這表明,在人工智能技術(shù)的發(fā)展過程中,主流AI企業(yè)已將新聞內(nèi)容視為訓練模型的關(guān)鍵要素。
據(jù)悉,Ziff Davis的首席AI律師George Wukoson和技術(shù)官Joey Fortuna主導了這項研究。他們詳細檢查了多個AI公司公開承認使用的數(shù)據(jù)集,包括Common Crawl、C4、OpenWebText及OpenWebText2。
這一發(fā)現(xiàn)不僅揭示了新聞媒體內(nèi)容在AI訓練中的核心價值,同時也引發(fā)了關(guān)于內(nèi)容版權(quán)和付費問題的討論。Ziff Davis指出,新聞媒體內(nèi)容被AI公司無償使用,這可能導致出版商失去重要的許可收入。
此前,已有出版商對OpenAI提起訴訟,稱其未經(jīng)許可使用內(nèi)容訓練模型。盡管一聯(lián)邦法官駁回了Raw Story和AlterNet對OpenAI的訴訟,但《紐約時報》提起的相關(guān)案件仍在審理當中。同時,OpenAI也已與多家頂級媒體公司達成了許可協(xié)議。