【ITBEAR】字節(jié)跳動(dòng),知名短視頻平臺(tái)TikTok的母公司,近日在生成式AI領(lǐng)域邁出了重要步伐。據(jù)外界報(bào)道,該公司已推出一款名為Bytespider的新型網(wǎng)頁(yè)抓取工具,該工具自4月面世以來(lái),活躍程度持續(xù)攀升,現(xiàn)已躋身最活躍的網(wǎng)頁(yè)抓取工具之列。
研究顯示,與業(yè)內(nèi)其他領(lǐng)先的抓取工具相比,如OpenAI的GPTbot和Anthropic的ClaudeBot,Bytespider在抓取網(wǎng)絡(luò)數(shù)據(jù)的速度上表現(xiàn)出顯著優(yōu)勢(shì)。具體而言,其速度比GPTbot快25倍,比ClaudeBot更是快達(dá)3,000倍。這一驚人的效率提升,顯示出字節(jié)跳動(dòng)在AI數(shù)據(jù)收集方面的雄心壯志。
然而,Bytespider的抓取行為也引發(fā)了業(yè)界的關(guān)注。據(jù)報(bào)道,該工具在抓取過(guò)程中并未遵守robots.txt文件的規(guī)定,這一文件原本用于指導(dǎo)抓取工具避免從特定網(wǎng)站獲取數(shù)據(jù)。盡管robots.txt文件并不具備法律強(qiáng)制力,但字節(jié)跳動(dòng)的這一做法仍引發(fā)了關(guān)于版權(quán)和數(shù)據(jù)使用倫理的廣泛討論。
在字節(jié)跳動(dòng)積極抓取數(shù)據(jù)的同時(shí),公司正面臨來(lái)自全球,尤其是美國(guó)的嚴(yán)格審查。美國(guó)總統(tǒng)拜登已簽署相關(guān)立法,要求字節(jié)跳動(dòng)出售或關(guān)閉TikTok,理由是出于國(guó)家安全考慮。盡管如此,字節(jié)跳動(dòng)在AI領(lǐng)域的投入和決心似乎并未受到影響。
分析人士認(rèn)為,字節(jié)跳動(dòng)的這一抓取狂潮可能預(yù)示著該公司正在開(kāi)發(fā)全新的大型語(yǔ)言模型。此前有報(bào)道指出,字節(jié)跳動(dòng)在生成式AI競(jìng)賽中曾一度落后,甚至依賴OpenAI的技術(shù)來(lái)構(gòu)建自身模型。然而,隨著B(niǎo)ytespider的推出和數(shù)據(jù)收集工作的加速,字節(jié)跳動(dòng)似乎正努力縮小與行業(yè)領(lǐng)先者的差距。
字節(jié)跳動(dòng)的新AI項(xiàng)目有望為TikTok帶來(lái)諸多改進(jìn),其中之一便是搜索功能的增強(qiáng)。近期,TikTok已對(duì)其搜索功能進(jìn)行了更新,更加注重廣告關(guān)鍵詞的實(shí)時(shí)定位。借助基于最新網(wǎng)絡(luò)數(shù)據(jù)訓(xùn)練的AI模型,TikTok有望進(jìn)一步提升搜索體驗(yàn),為廣告商創(chuàng)造一個(gè)更加具有競(jìng)爭(zhēng)力的環(huán)境。
總體來(lái)看,字節(jié)跳動(dòng)通過(guò)Bytespider展現(xiàn)出的快速數(shù)據(jù)收集能力和AI技術(shù)的進(jìn)步,不僅彰顯了其迎頭趕上的決心,更可能重塑整個(gè)搜索和AI行業(yè)的格局。特別是在TikTok龐大的用戶基礎(chǔ)支持下,這些努力有望為廣告商帶來(lái)更加精準(zhǔn)、數(shù)據(jù)驅(qū)動(dòng)的關(guān)鍵詞和趨勢(shì)定位機(jī)會(huì)。