ITBear旗下自媒體矩陣:

知乎攜手 NLPCC 助力自然語言理解研究

   時間:2018-04-03 17:34:39 來源:互聯(lián)網(wǎng)編輯:星輝 發(fā)表評論無障礙通道

近日,知識分享平臺知乎宣布與NLPCC(自然語言處理與中文計算會議)合作,開放自身所匯集的問題標(biāo)簽預(yù)測數(shù)據(jù),并全部使用明文提供,供業(yè)界研究和討論。

據(jù)悉,此次開放的問題標(biāo)簽預(yù)測數(shù)據(jù)來源于2017年8月知乎與 IEEE 聯(lián)合舉辦的首屆“知乎 · 看山杯機(jī)器學(xué)習(xí)挑戰(zhàn)賽”,該比賽共吸引近千支來自全球各個院校以及工業(yè)界的算法挑戰(zhàn)隊伍參與。此次公布的數(shù)據(jù)內(nèi)容包含問題的Title、描述、話題的名字等,此外,知乎對其中的一些錯誤標(biāo)簽進(jìn)行了人工糾正,并對數(shù)據(jù)進(jìn)行了嚴(yán)格的脫敏及審查,確保數(shù)據(jù)內(nèi)容僅包含提問內(nèi)容及內(nèi)容標(biāo)簽,不涉及用戶的知乎帳號等信息,用戶的個人隱私和信息安全將享有高優(yōu)先級的保護(hù)。

知乎方面表示:歡迎學(xué)術(shù)界和工業(yè)界同仁下載并參與討論。也希望通過比賽和開放數(shù)據(jù),為自然語言理解(NLU)領(lǐng)域在國內(nèi)的發(fā)展提供助力。相比國外的ImageNet、Gigaword等高質(zhì)量數(shù)據(jù)集,中文互聯(lián)網(wǎng)相關(guān)的高質(zhì)量數(shù)據(jù)集相對缺乏。而作為中文互聯(lián)網(wǎng)最大的知識分享平臺,知乎累積了較多高質(zhì)量文本語料及數(shù)據(jù)。目前,知乎機(jī)器學(xué)習(xí)團(tuán)隊已經(jīng)搭建了一套基礎(chǔ)生態(tài)體系,通過算法實(shí)現(xiàn)了用戶畫像、內(nèi)容分析、內(nèi)容個性化推送等,其效率比過去的人工運(yùn)營方式提高了數(shù)十倍。

未來,知乎還希望通過機(jī)器學(xué)習(xí)和算法滿足用戶的閱讀興趣,進(jìn)一步滿足關(guān)乎用戶自我提升的優(yōu)質(zhì)信息獲取需求。作為一個擁有超過 3400 萬日活用戶,每天有數(shù)以十萬計的高質(zhì)量的 UGC 內(nèi)容產(chǎn)生的網(wǎng)站。機(jī)器學(xué)習(xí)技術(shù)可以幫知乎做到的不只是“分發(fā)”內(nèi)容,還能更深入地“理解”內(nèi)容,從而幫助用戶更好地獲取有價值信息。

而作為此次的合作的另一方,NLPCC在業(yè)內(nèi)也可謂“鼎鼎大名”。NLPCC全稱為CCF國際自然語言處理與中文計算會議,由中國計算機(jī)學(xué)會(CCF)主辦,CCF中文信息技術(shù)專業(yè)委員會(CCF TCCI)及高校(每年通過投票選舉)承辦。會議內(nèi)容主要圍繞自然語言處理(NLP)和中文計算(CC)兩方面來進(jìn)行。目前,NLPCC已成為國內(nèi)自然語言處理領(lǐng)域的年度盛會,同時也在逐漸走向國際化道路。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉(zhuǎn)載  |  滾動資訊  |  English Version