ITBear旗下自媒體矩陣:

YouTube視頻成AI訓(xùn)練數(shù)據(jù)源?OpenAI與Meta面臨法律挑戰(zhàn)

   時(shí)間:2024-04-07 09:42:01 來(lái)源:ITBEAR編輯:瑞雪 發(fā)表評(píng)論無(wú)障礙通道

【ITBEAR科技資訊】4月7日消息,近日,有關(guān)AI公司在收集訓(xùn)練數(shù)據(jù)方面所面臨的挑戰(zhàn)引發(fā)了廣泛關(guān)注。據(jù)《華爾街日?qǐng)?bào)》本周早些時(shí)候的報(bào)道,AI企業(yè)正努力應(yīng)對(duì)高質(zhì)量訓(xùn)練數(shù)據(jù)收集的難題。而今日,《紐約時(shí)報(bào)》深入探討了這些企業(yè)為解決此問(wèn)題所采取的策略,其中一些做法牽涉到AI版權(quán)法的模糊地帶。

據(jù)報(bào)道,為了獲取訓(xùn)練數(shù)據(jù),領(lǐng)先的AI公司OpenAI開(kāi)發(fā)了一種名為Whisper的音頻轉(zhuǎn)錄模型。該公司利用這一模型轉(zhuǎn)錄了超過(guò)100萬(wàn)小時(shí)的YouTube視頻,以便訓(xùn)練其最新的大型語(yǔ)言模型GPT-4。OpenAI在2021年就已經(jīng)耗盡了可用的數(shù)據(jù)資源,并在探討利用YouTube視頻、播客和有聲讀物等資源的可行性后,決定采用這種方法。此外,OpenAI還整合了包括Github的計(jì)算機(jī)代碼、國(guó)際象棋走棋數(shù)據(jù)以及來(lái)自Quizlet的學(xué)習(xí)資料等多種數(shù)據(jù)源。

據(jù)ITBEAR科技資訊了解,盡管OpenAI意識(shí)到這種做法在法律上存在爭(zhēng)議,但他們認(rèn)為這屬于合理使用范圍?!短┪钍繄?bào)》披露,OpenAI的總裁Greg Brockman甚至親自參與了視頻的收集工作。OpenAI的發(fā)言人Lindsay Held向媒體表示,公司為每個(gè)模型都策劃了獨(dú)特的數(shù)據(jù)集,旨在幫助其更好地了解世界,并維持其在全球研究領(lǐng)域的競(jìng)爭(zhēng)力。Held還提到,公司使用了眾多數(shù)據(jù)來(lái)源,并正在考慮生成自家的合成數(shù)據(jù)。

然而,這一做法并未得到所有相關(guān)方的認(rèn)可。谷歌發(fā)言人Matt Bryant指出,他們注意到了有關(guān)OpenAI活動(dòng)的報(bào)告,并重申其robots.txt文件和服務(wù)條款都明確禁止未經(jīng)授權(quán)的YouTube內(nèi)容抓取或下載。YouTube首席執(zhí)行官Neal Mohan也在近日的采訪中表示,盡管沒(méi)有直接證據(jù)表明OpenAI使用YouTube視頻來(lái)訓(xùn)練其AI模型,但此類(lèi)行為確實(shí)違反了YouTube的服務(wù)條款。

同樣面臨數(shù)據(jù)可用性限制的還有meta公司。在《泰晤士報(bào)》披露的錄音中,meta的AI團(tuán)隊(duì)為了追趕OpenAI,討論了未經(jīng)許可使用版權(quán)作品的可能性。該團(tuán)隊(duì)在考慮了互聯(lián)網(wǎng)上幾乎所有可用的英語(yǔ)書(shū)籍、散文、詩(shī)歌和新聞文章后,提出了諸如支付圖書(shū)許可費(fèi),甚至收購(gòu)大型出版商等解決方案。

標(biāo)簽: OpenAI
舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類(lèi)資訊
全站最新
熱門(mén)內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報(bào)  |  開(kāi)放轉(zhuǎn)載  |  滾動(dòng)資訊  |  English Version