【ITBEAR】字節(jié)跳動,知名短視頻平臺TikTok的母公司,近日在生成式AI領(lǐng)域邁出了重要步伐。據(jù)外界報道,該公司已推出一款名為Bytespider的新型網(wǎng)頁抓取工具,該工具自4月面世以來,活躍程度持續(xù)攀升,現(xiàn)已躋身最活躍的網(wǎng)頁抓取工具之列。
研究顯示,與業(yè)內(nèi)其他領(lǐng)先的抓取工具相比,如OpenAI的GPTbot和Anthropic的ClaudeBot,Bytespider在抓取網(wǎng)絡(luò)數(shù)據(jù)的速度上表現(xiàn)出顯著優(yōu)勢。具體而言,其速度比GPTbot快25倍,比ClaudeBot更是快達3,000倍。這一驚人的效率提升,顯示出字節(jié)跳動在AI數(shù)據(jù)收集方面的雄心壯志。
然而,Bytespider的抓取行為也引發(fā)了業(yè)界的關(guān)注。據(jù)報道,該工具在抓取過程中并未遵守robots.txt文件的規(guī)定,這一文件原本用于指導(dǎo)抓取工具避免從特定網(wǎng)站獲取數(shù)據(jù)。盡管robots.txt文件并不具備法律強制力,但字節(jié)跳動的這一做法仍引發(fā)了關(guān)于版權(quán)和數(shù)據(jù)使用倫理的廣泛討論。
在字節(jié)跳動積極抓取數(shù)據(jù)的同時,公司正面臨來自全球,尤其是美國的嚴(yán)格審查。美國總統(tǒng)拜登已簽署相關(guān)立法,要求字節(jié)跳動出售或關(guān)閉TikTok,理由是出于國家安全考慮。盡管如此,字節(jié)跳動在AI領(lǐng)域的投入和決心似乎并未受到影響。
分析人士認為,字節(jié)跳動的這一抓取狂潮可能預(yù)示著該公司正在開發(fā)全新的大型語言模型。此前有報道指出,字節(jié)跳動在生成式AI競賽中曾一度落后,甚至依賴OpenAI的技術(shù)來構(gòu)建自身模型。然而,隨著Bytespider的推出和數(shù)據(jù)收集工作的加速,字節(jié)跳動似乎正努力縮小與行業(yè)領(lǐng)先者的差距。
字節(jié)跳動的新AI項目有望為TikTok帶來諸多改進,其中之一便是搜索功能的增強。近期,TikTok已對其搜索功能進行了更新,更加注重廣告關(guān)鍵詞的實時定位。借助基于最新網(wǎng)絡(luò)數(shù)據(jù)訓(xùn)練的AI模型,TikTok有望進一步提升搜索體驗,為廣告商創(chuàng)造一個更加具有競爭力的環(huán)境。
總體來看,字節(jié)跳動通過Bytespider展現(xiàn)出的快速數(shù)據(jù)收集能力和AI技術(shù)的進步,不僅彰顯了其迎頭趕上的決心,更可能重塑整個搜索和AI行業(yè)的格局。特別是在TikTok龐大的用戶基礎(chǔ)支持下,這些努力有望為廣告商帶來更加精準(zhǔn)、數(shù)據(jù)驅(qū)動的關(guān)鍵詞和趨勢定位機會。