![](upload/2016-01/160115111127311.jpg)
北京時(shí)間1月15日上午消息,雅虎周四公布了關(guān)于用戶如何使用該公司服務(wù),例如雅虎新聞和雅虎財(cái)經(jīng)的大量數(shù)據(jù)。此舉是為了給學(xué)術(shù)界的機(jī)器學(xué)習(xí)研究者提供素材。
這并不是雅虎首次公布這樣的數(shù)據(jù)。在雅虎實(shí)驗(yàn)室的Webscope項(xiàng)目中,雅虎曾56次發(fā)布這樣的數(shù)據(jù),其中涉及廣告、圖片、社交媒體和評(píng)級(jí)等。此次公布的數(shù)據(jù)來(lái)自2015年的4個(gè)月時(shí)間,覆蓋了2000萬(wàn)人,其中包括用戶訪問(wèn)雅虎網(wǎng)站所使用的設(shè)備類型、文章的閱讀情況,以及文章的主題。其他數(shù)據(jù)還包括用戶的位置、年齡和性別,但這些數(shù)據(jù)都經(jīng)過(guò)了匿名化處理。
不過(guò)值得指出的是,雅虎此次提供的數(shù)據(jù)集規(guī)模龐大,多達(dá)13.5TB。而雅虎此前提供的數(shù)據(jù)集通常只有1TB。
加州大學(xué)圣迭戈分校電氣和計(jì)算機(jī)工程教授格特·蘭克利特(Gert Lanckriet)表示:“我對(duì)此感到興奮。這是因?yàn)椋瑢W(xué)術(shù)界和工業(yè)界的這類合作對(duì)于更強(qiáng)大人工智能和機(jī)器學(xué)習(xí)技術(shù)的研究、設(shè)計(jì)和開(kāi)發(fā),現(xiàn)實(shí)世界中的大數(shù)據(jù)處理至關(guān)重要。”
近期,雅虎正在采取措施吸引開(kāi)發(fā)者。例如,雅虎開(kāi)源了一些算法。這些算法用于對(duì)流數(shù)據(jù)的計(jì)算和網(wǎng)頁(yè)爬蟲,處理網(wǎng)站上的結(jié)構(gòu)化數(shù)據(jù)。雅虎此次公布的數(shù)據(jù)將幫助學(xué)術(shù)界進(jìn)一步了解用戶的閱讀習(xí)慣,進(jìn)而對(duì)自己的算法進(jìn)行優(yōu)化。
雅虎提供了100行的數(shù)據(jù)范例,其中包含多種類型的數(shù)據(jù),例如股票、學(xué)校、政治、體育和明星等。
雅虎實(shí)際上還有更多數(shù)據(jù)可以分享。雅虎實(shí)驗(yàn)室個(gè)性化科學(xué)研究總監(jiān)蘇吉·拉簡(jiǎn)(Suju Rajan)表示,她常常需要與PB(1PB=1000TB)級(jí)別的數(shù)據(jù)量打交道,而對(duì)雅虎這樣的互聯(lián)網(wǎng)公司來(lái)說(shuō)并不少見(jiàn)。不過(guò),PB級(jí)別的數(shù)據(jù)對(duì)單一研究者來(lái)說(shuō)很難處理,即使是13TB的數(shù)據(jù)都已顯得十分龐大。
雅虎實(shí)驗(yàn)室研究副總裁里卡多·貝扎-耶茨(Ricardo Baeza-Yates)表示:“許多人都沒(méi)有能力使用這一數(shù)據(jù),但我們認(rèn)為,通過(guò)這種方式我們可以推進(jìn)相關(guān)研究