1月15日,外媒報(bào)道稱,為了吸引人工智能領(lǐng)域的頂級(jí)人才,雅虎公布大量用戶的互網(wǎng)絡(luò)行為數(shù)據(jù)。
周四,雅虎宣布,公司將公布最大規(guī)模的互聯(lián)網(wǎng)行為數(shù)據(jù),數(shù)據(jù)涉及瀏覽雅虎體育、雅虎財(cái)經(jīng)、雅虎新聞、雅虎地產(chǎn)和其他版塊的2000萬匿名用戶。雅虎僅面向大學(xué)機(jī)構(gòu)公布數(shù)據(jù),這些數(shù)據(jù)將讓研究人員切實(shí)了解大量用戶的互聯(lián)網(wǎng)行為方式。
由于多年停滯不前,雅虎正面臨嚴(yán)重的人才流失難題。人工智能領(lǐng)域快速增長,而且競(jìng)爭(zhēng)異常激烈,雅虎希望吸引該領(lǐng)域的學(xué)術(shù)研究人員。
雅虎此舉正值科技公司爭(zhēng)相與學(xué)術(shù)界加強(qiáng)合作之時(shí),而科技公司尤為關(guān)注人工智能領(lǐng)域。人工智能涉及機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù),這類技術(shù)可訓(xùn)練機(jī)器挖掘海量數(shù)據(jù),旨在回答復(fù)雜問題或預(yù)測(cè)用戶行為。
Facebook和谷歌(微博)已經(jīng)招募頂級(jí)人工智能研究人員。例如,2013年燕樂存(Yann LeCun)加盟Facebook,他繼續(xù)運(yùn)營紐約大學(xué)數(shù)據(jù)科學(xué)中心。
卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)學(xué)院院長安德魯·穆爾(Andrew Moore)表示:“無論你擁有多少人才,管理者總是希望招募更多的人才。這些大型科技公司總覺得缺少某類研發(fā)人才。”
海量數(shù)據(jù)是機(jī)器學(xué)習(xí)的必備要素。利用這些數(shù)據(jù),電腦可分析復(fù)雜的模式,根據(jù)雅虎的情況給出科學(xué)的建議,例如哪種標(biāo)題或設(shè)計(jì)更加吸引紐約地區(qū)的年輕女孩。大型互聯(lián)網(wǎng)公司一般嚴(yán)格控制這類數(shù)據(jù),外部人士極難獲得。雅虎此次公布的數(shù)據(jù)體積為13.5 TB,相當(dāng)于美國國會(huì)圖書館數(shù)據(jù)體積的2/3。
穆爾表示,絕大多數(shù)學(xué)術(shù)計(jì)算機(jī)科學(xué)家未曾接觸如此龐大的用戶數(shù)據(jù),學(xué)者可能要把數(shù)據(jù)存儲(chǔ)到大學(xué)外部的服務(wù)器,他們可能選擇亞馬遜或谷歌的云計(jì)算中心。
去年,雅虎和卡內(nèi)基梅隆大學(xué)簽署一份為期5年的合作合同,雅虎將為卡內(nèi)基梅隆大學(xué)提供1000萬美元研究資金,目的是基于用戶數(shù)據(jù)開發(fā)個(gè)性化應(yīng)用。
加州大學(xué)圣地亞哥分校電子與計(jì)算機(jī)系教授格特·蘭克利(Gert Lanckriet)表示:“公司外部人士難以獲得數(shù)據(jù)。”
專家認(rèn)為,雅虎數(shù)據(jù)的規(guī)模使其極具價(jià)值。相較針對(duì)少量數(shù)據(jù)設(shè)計(jì)的算法,針對(duì)海量數(shù)據(jù)設(shè)計(jì)的算法具有本質(zhì)區(qū)別。雅虎的數(shù)據(jù)可以讓研究人員開發(fā)大型算法,這種算法尤其適合企業(yè)。
自2006年以來,雅虎已經(jīng)發(fā)布了50多個(gè)數(shù)據(jù)集,包括2014年的1億張F(tuán)lickr照片緩存。此前,雅虎公布的最大數(shù)據(jù)集為413 GB。谷歌和亞馬遜公布的數(shù)據(jù)集相對(duì)較小。
數(shù)據(jù)科學(xué)初創(chuàng)公司Fast Forward Labs創(chuàng)始人希拉里·梅森(Hilary Mason)表示,一方面,科技公司要吸引人才和催生新理念。另一方面,它們要保護(hù)用戶隱私和保持競(jìng)爭(zhēng)優(yōu)勢(shì)。這種矛盾正逐漸加大。
梅森稱,眾多大型科技公司正嘗試打造同樣的功能,例如無人駕駛汽車、圖像識(shí)別和個(gè)性化服務(wù)。公布用戶數(shù)據(jù)之后,雅虎承擔(dān)些許暴露商業(yè)秘密的危險(xiǎn),但雅虎認(rèn)為吸引人才能帶來更大回報(bào)。
盡管數(shù)家公司曾面向研究人員公布用戶數(shù)據(jù),但結(jié)果令人失望。2006年,AOL向研究人員公布用戶數(shù)據(jù),但意外泄露用戶的搜索記錄。2009年,Netflix公布大量用戶的電影推薦和日志,并提供100萬美元獎(jiǎng)金,以獎(jiǎng)勵(lì)改進(jìn)電影推薦算法的開發(fā)者。在兩個(gè)例子中,外部人員都利用數(shù)據(jù)推測(cè)用戶的身份,這種侵犯隱私的行為招致集體訴訟。Netflix被迫取消該獎(jiǎng)項(xiàng)。
2014年,F(xiàn)acebook和康乃爾大學(xué)共同研究和操縱用戶的情緒。研究過程中,F(xiàn)acebook調(diào)整用戶信息流的內(nèi)容,旨在研究用戶的情緒反應(yīng),此舉引發(fā)了巨大爭(zhēng)議。隨后,F(xiàn)acebook不得不限制用戶數(shù)據(jù)的使用范圍。
梅森表示:“自從2006年AOL遭遇隱私災(zāi)難,科技公司一直害怕公布數(shù)據(jù)。”
雅虎數(shù)據(jù)的敏感度似乎較低,其中僅包括城市、性別、年齡等基本人口統(tǒng)計(jì)信息,以及用戶與雅虎網(wǎng)站相關(guān)的交互信息。
雅虎實(shí)驗(yàn)室首席研究科學(xué)家貝澤·耶茨(Ricardo Baeza-Yates) 表示,這次公布的數(shù)據(jù)集能夠有效地防止個(gè)人追蹤用戶。例如,雅虎移除了來自人口稀少地區(qū)的用戶信息。