ITBear旗下自媒體矩陣:

天翼云數(shù)據(jù)庫新突破!創(chuàng)新性Taste框架,研究界矚目!

   時(shí)間:2024-10-16 13:12:45 來源:ITBEAR作者:鐘景軒編輯:瑞雪 發(fā)表評論無障礙通道

【ITBEAR】近日,一篇題為《Taste: Towards Practical Deep Learning-based Approaches for Semantic Type Detection in the Cloud》的論文在國際知名數(shù)據(jù)庫會議EDBT上獲得長文收錄,該論文由天翼云數(shù)據(jù)庫團(tuán)隊(duì)、中國電信云計(jì)算研究院與深圳北理莫斯科大學(xué)聯(lián)合完成。EDBT作為數(shù)據(jù)庫領(lǐng)域的頂級學(xué)術(shù)會議,已連續(xù)舉辦27屆,其近五年平均錄取率僅為20.8%。此次收錄標(biāo)志著天翼云的科技創(chuàng)新實(shí)力再次獲得業(yè)界與學(xué)術(shù)界的雙重認(rèn)可。

該論文聚焦于數(shù)據(jù)管理系統(tǒng)中的語義類型檢測問題,并在此領(lǐng)域?qū)崿F(xiàn)了檢測性能和安全性方面的突破。語義類型,如人名、地址、身份證號等,對于人類理解數(shù)據(jù)和輔助數(shù)據(jù)管理系統(tǒng)提供關(guān)鍵服務(wù)具有重要作用。然而,現(xiàn)有技術(shù)每次檢測均需掃描數(shù)據(jù)列內(nèi)容,導(dǎo)致I/O和網(wǎng)絡(luò)開銷大、檢測效率低,且可能對云用戶業(yè)務(wù)產(chǎn)生不利影響。

針對這些不足,論文創(chuàng)新性地提出了兩階段語義類型檢測框架(Taste)。該框架首先利用數(shù)據(jù)源的元數(shù)據(jù)進(jìn)行初步快速的語義類型檢測,減少對數(shù)據(jù)源的掃描;第二階段則按需進(jìn)行,結(jié)合列內(nèi)容與元數(shù)據(jù)完成更精確的檢測。這一創(chuàng)新不僅提升了檢測效率,還增強(qiáng)了系統(tǒng)的魯棒性,同時(shí)提供了更高的數(shù)據(jù)隱私保護(hù)。

論文還設(shè)計(jì)了一種新穎的非對稱雙塔檢測模型(ADTD),通過多任務(wù)學(xué)習(xí)支持Taste的兩階段檢測。該模型分為metadata塔和Content塔,前者編碼元數(shù)據(jù)特征,后者結(jié)合元數(shù)據(jù)信息編碼列內(nèi)容特征。在訓(xùn)練過程中,兩個(gè)階段的輸出結(jié)合進(jìn)行多任務(wù)學(xué)習(xí),使模型一次訓(xùn)練即可應(yīng)用于兩階段推理。

實(shí)驗(yàn)表明,Taste框架在執(zhí)行效率、準(zhǔn)確性、降低數(shù)據(jù)列掃描侵入性等方面表現(xiàn)優(yōu)異,并展現(xiàn)出云端大規(guī)模部署的潛力。目前,Taste框架已在天翼云數(shù)據(jù)管理服務(wù)(DMS)中落地,助力客戶進(jìn)行高效、靈活的語義類型檢測,實(shí)現(xiàn)更加快捷且智能化的敏感數(shù)據(jù)識別,顯著提升云端數(shù)據(jù)管理的安全性和穩(wěn)定性。

天翼云作為云服務(wù)國家隊(duì),始終堅(jiān)持核心技術(shù)自主攻關(guān),以科技創(chuàng)新引領(lǐng)產(chǎn)業(yè)發(fā)展。未來,天翼云將繼續(xù)推進(jìn)數(shù)據(jù)庫等云計(jì)算技術(shù)攻關(guān),筑牢國云智算底座,為企業(yè)充分釋放數(shù)據(jù)價(jià)值提供有力支撐。

舉報(bào) 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容