【ITBEAR】在人工智能技術(shù)的浪潮中,數(shù)據(jù)標(biāo)注作為推動(dòng)AI發(fā)展的重要“燃料”,其效率和質(zhì)量直接關(guān)乎AI應(yīng)用的成果。近日,一項(xiàng)名為“基于大小模型協(xié)同的低資源標(biāo)注技術(shù)”的研究成果在2024中國(guó)計(jì)算機(jī)大會(huì)上亮相,引起了廣泛關(guān)注。
該技術(shù)由浙江大學(xué)軟件學(xué)院的王皓波老師帶領(lǐng)團(tuán)隊(duì)研發(fā),并得到了CCF-網(wǎng)易雷火聯(lián)合基金的大力支持。通過(guò)整合大模型與小模型的優(yōu)勢(shì),這一技術(shù)為解決數(shù)據(jù)標(biāo)注中的低資源問(wèn)題提供了創(chuàng)新思路。
在研究過(guò)程中,王皓波團(tuán)隊(duì)首先聚焦于魯棒噪聲標(biāo)簽學(xué)習(xí),針對(duì)機(jī)器學(xué)習(xí)中普遍存在的噪聲標(biāo)簽問(wèn)題,提出了ProMix算法。該算法通過(guò)創(chuàng)新的樣本選擇方式,有效提升了模型在噪聲標(biāo)簽環(huán)境下的學(xué)習(xí)性能,并在首屆IJCAI-噪聲標(biāo)簽學(xué)習(xí)挑戰(zhàn)賽中取得了卓越成績(jī)。
隨著大模型時(shí)代的來(lái)臨,團(tuán)隊(duì)進(jìn)一步探索了大模型與小模型的協(xié)同應(yīng)用。他們提出了FreeAL框架,旨在實(shí)現(xiàn)無(wú)人工主動(dòng)學(xué)習(xí)。在該框架下,大模型利用其豐富的知識(shí)儲(chǔ)備進(jìn)行初始標(biāo)注,而小模型則負(fù)責(zé)進(jìn)行魯棒蒸餾,通過(guò)協(xié)同訓(xùn)練不斷優(yōu)化標(biāo)注結(jié)果。
實(shí)驗(yàn)結(jié)果顯示,F(xiàn)reeAL框架在多個(gè)任務(wù)上均取得了優(yōu)異表現(xiàn),甚至在部分?jǐn)?shù)據(jù)集上超越了傳統(tǒng)的主動(dòng)學(xué)習(xí)方法。這一成果不僅驗(yàn)證了大小模型協(xié)同標(biāo)注的有效性,也為數(shù)據(jù)標(biāo)注領(lǐng)域帶來(lái)了新的可能性。
為了進(jìn)一步提升數(shù)據(jù)標(biāo)注的實(shí)用性和效率,王皓波團(tuán)隊(duì)還研發(fā)了CORAL框架。這一協(xié)作式自動(dòng)標(biāo)注系統(tǒng)結(jié)合了大小模型的協(xié)同工作和人機(jī)協(xié)同的標(biāo)注范式,旨在減少人工參與并確保高質(zhì)量的數(shù)據(jù)標(biāo)注。通過(guò)引入手動(dòng)精煉模塊和迭代過(guò)程控制器,CORAL框架實(shí)現(xiàn)了初步的自動(dòng)化標(biāo)注流程,并以低成本提供了可靠的標(biāo)簽數(shù)據(jù)。
目前,該團(tuán)隊(duì)正致力于將這一技術(shù)與網(wǎng)易有靈平臺(tái)的AOP體系進(jìn)行深度集成,以構(gòu)建一個(gè)更加高效、智能的人機(jī)協(xié)同Agent調(diào)度體系。這將有助于提高數(shù)據(jù)標(biāo)注的準(zhǔn)確性和可靠性,并推動(dòng)數(shù)據(jù)標(biāo)注技術(shù)在更廣泛領(lǐng)域的應(yīng)用。
王皓波團(tuán)隊(duì)的這一系列研究成果充分展示了大小模型協(xié)同在低資源數(shù)據(jù)標(biāo)注技術(shù)領(lǐng)域的巨大潛力,有望為人工智能技術(shù)的發(fā)展注入新的活力。