【ITBEAR】近日,國家知識產(chǎn)權(quán)局公布了一項由科大訊飛股份有限公司提交的專利申請,該專利名為“文本分類方法裝置設(shè)備和存儲介質(zhì)”,公開號為CN 118779446 A,申請時間為2024年6月。據(jù)專利摘要介紹,此發(fā)明提出了一種創(chuàng)新的文本分類方法,該方法涵蓋了文本獲取、token確定、分類結(jié)果生成等多個環(huán)節(jié)。其核心在于,利用樣本token和樣本前綴信息訓(xùn)練初始分類模型,進(jìn)而得到能夠反映類別間及樣本與類別間相關(guān)關(guān)系的分類模型和前綴信息,以此提升文本分類的準(zhǔn)確性。
具體來說,該方法首先獲取待分類的文本,隨后確定該文本對應(yīng)的至少兩個token。接著,結(jié)合這些token、至少一個前綴信息以及分類模型,得出文本的分類結(jié)果。分類模型和各前綴信息是通過將樣本文本對應(yīng)的樣本token和樣本前綴信息對應(yīng)的類別token輸入初始分類模型,并利用初始分類模型基于類別token之間的相關(guān)關(guān)系,以及樣本token和類別token之間的相關(guān)關(guān)系訓(xùn)練得到的。各前綴信息在此過程中起到了建模各類別語義的作用。