ITBear旗下自媒體矩陣:

星環(huán)科技分布式向量數(shù)據(jù)庫Transwarp Hippo正式發(fā)布,拓展大語言模型時(shí)間和空間維度

   時(shí)間:2023-06-16 11:33:57 來源:互聯(lián)網(wǎng)編輯:茹茹 發(fā)表評(píng)論無障礙通道

隨著企業(yè)、機(jī)構(gòu)中非結(jié)構(gòu)化數(shù)據(jù)應(yīng)用的日益增多以及AI的爆發(fā)式增長(zhǎng)所帶來的大量生成式數(shù)據(jù),所涉及的數(shù)據(jù)呈現(xiàn)了體量大、格式和存儲(chǔ)方式多樣、處理速度要求高、潛在價(jià)值大等特點(diǎn)。但傳統(tǒng)數(shù)據(jù)平臺(tái)對(duì)這些數(shù)據(jù)的處理能力較為有限,如使用文件系統(tǒng)、多類不同數(shù)據(jù)庫存儲(chǔ)上述數(shù)據(jù),在數(shù)據(jù)存儲(chǔ)管理、查詢分析效率、數(shù)據(jù)價(jià)值挖掘等方面都存在一定的瓶頸,例如傳統(tǒng)數(shù)據(jù)庫查詢是點(diǎn)查和范圍查的一種精確查詢,無法滿足大模型下如智能問答、智能推薦等場(chǎng)景。

因此,企業(yè)急需一款或數(shù)款管理好非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)管理平臺(tái)。業(yè)內(nèi)常用的做法,是利用人工智能中的表示學(xué)習(xí),將這些非結(jié)構(gòu)化數(shù)據(jù)抽象、轉(zhuǎn)換為高維度的多維向量,由此可以結(jié)構(gòu)化地在向量數(shù)據(jù)庫中進(jìn)行管理,實(shí)現(xiàn)快速、高效的數(shù)據(jù)存儲(chǔ)和檢索過程,結(jié)合相似性檢索特性,進(jìn)而更高效地支撐更廣泛的應(yīng)用場(chǎng)景,比如智能推薦場(chǎng)景等。同時(shí),隨著大語言模型應(yīng)用中對(duì)長(zhǎng)文本處理和領(lǐng)域知識(shí)表示使用的深入,對(duì)向量數(shù)據(jù)庫的需求也日益迫切。

近日,在向星力?未來數(shù)據(jù)技術(shù)峰會(huì)上,星環(huán)科技正式發(fā)布了分布式向量數(shù)據(jù)庫Transwarp Hippo。作為一款企業(yè)級(jí)云原生分布式向量數(shù)據(jù)庫,星環(huán)分布式向量數(shù)據(jù)庫Hippo支持存儲(chǔ)、索引以及管理海量的向量式數(shù)據(jù)集,提供向量相似度檢索、高密度向量聚類等能力,有效地解決了大模型在知識(shí)時(shí)效性低、輸入能力有限、準(zhǔn)確度低等問題,讓大模型更高效率地存儲(chǔ)和讀取知識(shí)庫,降低訓(xùn)練和推理成本,激發(fā)更多的AI應(yīng)用場(chǎng)景。在賦予大模型擁有“長(zhǎng)期記憶”的同時(shí),還可以協(xié)助企業(yè)解決目前最擔(dān)憂的大模型數(shù)據(jù)隱私泄露問題。

大模型的快速應(yīng)用,推動(dòng)向量數(shù)據(jù)庫向高擴(kuò)展、高性能、實(shí)時(shí)性方向發(fā)展

大模型正在與企業(yè)應(yīng)用迅速結(jié)合,重塑企業(yè)應(yīng)用中人與數(shù)據(jù)的交互方式。然而,不管是通用模型,還是微調(diào)出來的行業(yè)模型,都存在著一定的局限性:

* 實(shí)時(shí)性難題:模型訓(xùn)練需要很長(zhǎng)的時(shí)間,可能需要半年或一年,實(shí)時(shí)資訊、新聞、市場(chǎng)行情等快速變化的信息,無法及時(shí)地內(nèi)置到模型當(dāng)中。

* 長(zhǎng)Token難題:大模型的輸入Token(文本中的最小單位)能力受到算力和工程化程度的限制。在這種限制下,例如無法將一家上市公司的全部年報(bào)數(shù)據(jù)輸入進(jìn)大模型,導(dǎo)致不能進(jìn)行全面的分析。

* 精度校正難題:大模型雖然經(jīng)過大量數(shù)據(jù)的長(zhǎng)期訓(xùn)練,但很多場(chǎng)景下精準(zhǔn)度還是不夠,需要補(bǔ)充知識(shí)庫進(jìn)行校正,讓其能夠給出更準(zhǔn)確的結(jié)果和更實(shí)時(shí)的信息。

目前,大模型訓(xùn)練所使用的數(shù)據(jù)包含了如文檔、圖片、音視頻等各種類型的非結(jié)構(gòu)化數(shù)據(jù)。用戶可以通過表示學(xué)習(xí)的預(yù)處理方式將這些數(shù)據(jù)轉(zhuǎn)化為多維向量,并存儲(chǔ)在向量數(shù)據(jù)庫中,從而可以很好地解決上述三個(gè)問題。比如,在應(yīng)用端與大模型進(jìn)行交互時(shí),將輸入的文字、圖片等問題信息進(jìn)行向量化,先進(jìn)行語義搜索,找到相關(guān)的信息,將其拼接成提示詞傳遞給大模型,大模型通過計(jì)算分析后反饋結(jié)果。

星環(huán)科技創(chuàng)始人、CEO孫元浩表示,“向量數(shù)據(jù)庫承擔(dān)了中間存儲(chǔ)的角色,我們認(rèn)為向量數(shù)據(jù)庫就是大語言模型的海馬體,是一個(gè)記憶體。其基本功能是能夠存儲(chǔ)多維向量,并提供進(jìn)一步的檢索?!?/p>

向量數(shù)據(jù)庫早先被用于文本搜索或者語義搜索,過去不少公司用來做個(gè)性化推薦、構(gòu)建知識(shí)圖譜等。隨著大模型的興起,向量數(shù)據(jù)庫可以讓大模型更高效率地存儲(chǔ)和讀取知識(shí)庫,并以更低的成本進(jìn)行模型微調(diào),進(jìn)一步地激發(fā)AI應(yīng)用場(chǎng)景。此外,幾千、上萬種應(yīng)用帶來海量的數(shù)據(jù),需要一個(gè)高擴(kuò)展的向量數(shù)據(jù)庫來存放更多的數(shù)據(jù)信息。而向量數(shù)據(jù)復(fù)雜度的提升,模型推理速度的加快等也要求能夠提供高性能的檢索能力。實(shí)時(shí)動(dòng)態(tài)變化的數(shù)據(jù),對(duì)向量數(shù)據(jù)庫的實(shí)時(shí)寫入、實(shí)時(shí)更新、實(shí)現(xiàn)召回能力的要求變高,通過將實(shí)時(shí)資訊、實(shí)時(shí)新聞、市場(chǎng)行情等快速變化的信息及時(shí)地內(nèi)置到模型中,使其能夠提供更實(shí)時(shí)、更精準(zhǔn)的結(jié)果。

星環(huán)科技分布式向量數(shù)據(jù)庫Transwarp Hippo

星環(huán)分布式向量數(shù)據(jù)庫Hippo作為一款企業(yè)級(jí)云原生分布式向量數(shù)據(jù)庫,基于分布式特性,可以對(duì)文檔、圖片、音視頻等多源、海量數(shù)據(jù)轉(zhuǎn)化后的多維向量進(jìn)行統(tǒng)一存儲(chǔ)和管理。通過多進(jìn)程架構(gòu)與GPU加速技術(shù),充分發(fā)揮并行檢索能力,實(shí)現(xiàn)毫秒級(jí)高性能數(shù)據(jù)檢索,結(jié)合相似度檢索等技術(shù),幫助用戶快速挖掘數(shù)據(jù)價(jià)值。

與開源的向量數(shù)據(jù)庫不同,星環(huán)分布式向量數(shù)據(jù)庫Hippo具備高可用、高性能、易拓展等特點(diǎn),支持多種向量搜索索引,支持?jǐn)?shù)據(jù)分區(qū)分片、數(shù)據(jù)持久化、增量數(shù)據(jù)攝取、向量標(biāo)量字段過濾混合查詢等功能,很好地滿足了企業(yè)針對(duì)海量向量數(shù)據(jù)的高實(shí)時(shí)性檢索等場(chǎng)景。


* 云原生技術(shù),支持彈性擴(kuò)縮容

星環(huán)分布式向量數(shù)據(jù)庫Hippo采用全面容器化部署,支持服務(wù)的彈性擴(kuò)縮容,同時(shí)具備多租戶和強(qiáng)大的資源管控能力。


* 高擴(kuò)展性,海量向量數(shù)據(jù)存儲(chǔ)

與直接利用各類算法lib不同,星環(huán)Hippo存儲(chǔ)和計(jì)算都可以充分利用分布式特性,按需靈活擴(kuò)展,滿足大規(guī)模集群部署需求;通過Raft算法確保數(shù)據(jù)的強(qiáng)一致性;并提供故障遷移,數(shù)據(jù)修復(fù)等數(shù)據(jù)保障能力。


* 深度優(yōu)化,高性能數(shù)據(jù)檢索

星環(huán)分布式向量數(shù)據(jù)庫Hippo支持多進(jìn)程架構(gòu)與GPU加速,充分發(fā)揮并行檢索能力;支持基于檢索速度和內(nèi)存使用的特定優(yōu)化,以及寄存器級(jí)算法優(yōu)化;同時(shí)提供多類索引支持,滿足不同需求不同體量的業(yè)務(wù)場(chǎng)景。


* 動(dòng)態(tài)更新,實(shí)時(shí)檢索

星環(huán)分布式向量數(shù)據(jù)庫Hippo提供數(shù)據(jù)動(dòng)態(tài)更新的能力,對(duì)于實(shí)時(shí)插入/更新的數(shù)據(jù),可以快速完成數(shù)據(jù)的加載和索引的構(gòu)建,解決向量數(shù)據(jù)T+1的傳統(tǒng)處理邏輯,滿足實(shí)時(shí)動(dòng)態(tài)變化數(shù)據(jù)的向量檢索分析。


* 多樣化接口,豐富場(chǎng)景支持

星環(huán)分布式向量數(shù)據(jù)庫Hippo供標(biāo)準(zhǔn)的Python、Restful、CPP、Java API等接口,可輕松對(duì)接各類應(yīng)用和模型,提高應(yīng)用開發(fā)和調(diào)用的效率。同時(shí),提供類SQL接口,滿足入庫等特定場(chǎng)景,大幅降低使用和操作的難度。


* 多模型聯(lián)合

基于TDH多模型統(tǒng)一技術(shù)架構(gòu),向量數(shù)據(jù)與關(guān)系型數(shù)據(jù)、圖數(shù)據(jù)、時(shí)序數(shù)據(jù)等多種模型數(shù)據(jù)可進(jìn)行統(tǒng)一存儲(chǔ)管理,并通過統(tǒng)一接口實(shí)現(xiàn)數(shù)據(jù)跨模型聯(lián)合分析。

具備高可用、高性能、易拓展等特點(diǎn)的星環(huán)分布式向量數(shù)據(jù)庫Hippo,可以很好地滿足企業(yè)針對(duì)海量向量數(shù)據(jù)的高實(shí)時(shí)性等場(chǎng)景。


* 文本檢索

傳統(tǒng)搜索引擎更偏向于詞/句的精確查詢,星環(huán)分布式向量數(shù)據(jù)庫Hippo通過向量引擎提供自然語言處理能力,可以更好地支持基于語義的查詢分析,讓查詢更滿足人性化的需求。


* 語音/視頻/圖像檢索

星環(huán)分布式向量數(shù)據(jù)庫Hippo將多維向量特征構(gòu)建成高效的向量索引,實(shí)現(xiàn)數(shù)據(jù)的相似性檢索,可覆蓋人臉識(shí)別、語音識(shí)別、視頻指紋等多類AI場(chǎng)景。


* 個(gè)性化推薦

星環(huán)分布式向量數(shù)據(jù)庫Hippo可與各類深度學(xué)習(xí)平臺(tái)搭建的模型進(jìn)行耦合,通過向量相似度檢索,可以對(duì)用戶行為與喜好等多方面進(jìn)行分析、挖掘,做到千人千面的推薦效果。


* 智能搜索,智能問答

知識(shí)圖譜的目的在于將結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及這些數(shù)據(jù)、實(shí)體之間的關(guān)聯(lián)關(guān)系進(jìn)行存儲(chǔ)和表達(dá)。通過星環(huán)分布式向量數(shù)據(jù)庫Hippo可以將這些信息更好地進(jìn)行表達(dá)和處理,給出符合需求的一系列近似答案和推薦查詢。

向量數(shù)據(jù)庫與圖數(shù)據(jù)庫聯(lián)合,低成本、高效構(gòu)建特定領(lǐng)域大模型應(yīng)用

基于星環(huán)分布式向量數(shù)據(jù)庫Hippo,可以有效地解決大模型在知識(shí)時(shí)效性低、輸入能力有限、準(zhǔn)確度低等問題。通過將最新資料、專業(yè)知識(shí)、個(gè)人習(xí)慣等海量信息向量存儲(chǔ)在星環(huán)分布式向量數(shù)據(jù)庫Hippo中,可以極大地拓展大模型的應(yīng)用邊界,讓大模型保持信息實(shí)時(shí)性,并能夠動(dòng)態(tài)調(diào)整,使大模型擁有“長(zhǎng)期記憶”。

通過建立垂直領(lǐng)域的知識(shí)庫,對(duì)大模型輸出結(jié)果進(jìn)行校正,可以提高結(jié)果的精準(zhǔn)度,在一定程度上解決“AI幻覺”問題。

此外,通過星環(huán)分布式向量數(shù)據(jù)庫Hippo對(duì)向量數(shù)據(jù)進(jìn)行存儲(chǔ),有效解除大模型對(duì)輸入的限制,并且大模型在安全機(jī)制下訪問向量數(shù)據(jù)庫中的隱私數(shù)據(jù),可以充分保證數(shù)據(jù)安全,杜絕隱私泄露風(fēng)險(xiǎn)。

http://jsbuxiugang.com/file/upload/202306/16/113434144.png

然而,大模型只有向量數(shù)據(jù)庫還不夠。在召回的基礎(chǔ)上通過提示工程確保數(shù)據(jù)更精確,更貼近實(shí)際場(chǎng)景,同樣也是重要的一環(huán)。星環(huán)科技將分布式向量數(shù)據(jù)庫Hippo和分布式圖數(shù)據(jù)庫StellarDB結(jié)合,并以此作為微調(diào)的數(shù)據(jù)憑依,可以更低成本、更高效地構(gòu)建特定領(lǐng)域的大模型應(yīng)用。

http://jsbuxiugang.com/file/upload/202306/16/113434584.png

圖數(shù)據(jù)庫StellarDB和知識(shí)圖譜聯(lián)合,與大模型可視化端到端構(gòu)建工具一起,提供了知識(shí)抽取融合、知識(shí)建模、知識(shí)圖譜生成存儲(chǔ)、基于大模型的知識(shí)問答等閉環(huán)功能??蛻粢灾R(shí)圖譜作為大語言模型提示即可發(fā)起模型微調(diào),以較低代價(jià)就可獲得行業(yè)的專屬大語言模型問答應(yīng)用。

將向量數(shù)據(jù)庫、圖數(shù)據(jù)庫與大語言模型結(jié)合,可以構(gòu)建業(yè)務(wù)域知識(shí)圖譜和業(yè)務(wù)系統(tǒng)的應(yīng)用服務(wù),進(jìn)一步提高人機(jī)交互的效率,提供更靈活的組合業(yè)務(wù)服務(wù),激發(fā)出更多更深入的業(yè)務(wù)場(chǎng)景AI應(yīng)用。

例如,在詢問某開源通用大模型關(guān)于某集團(tuán)玉米收儲(chǔ)價(jià)格、某集團(tuán)主要合作上下游企業(yè)等問題,通用大模型沒有行業(yè)知識(shí),無法給出準(zhǔn)確答案。而把農(nóng)業(yè)知識(shí)圖譜和向量數(shù)據(jù)庫結(jié)合后,可以從知識(shí)圖譜中去獲取或者補(bǔ)充大模型的答案,使其可以精確地回答新收豬價(jià)以及價(jià)格影響等。

通過這樣的組合可以解決大模型目前存在的三大問題。一是能夠把實(shí)時(shí)的知識(shí)、變化的信息放到大模型中,二是能夠校正結(jié)果的準(zhǔn)確性,極大地提升精準(zhǔn)度,三是構(gòu)建相應(yīng)的知識(shí)圖譜,增強(qiáng)大模型的能力。

在星環(huán)科技此次推出的金融領(lǐng)域大模型“無涯”中,基于星環(huán)科技自身在金融領(lǐng)域積累的上百萬金融專業(yè)領(lǐng)域的語料,結(jié)合圖數(shù)據(jù)庫StellarDB、深度圖推理算法技術(shù),形成了大規(guī)模高質(zhì)量的金融類事件訓(xùn)練指令集,共同鑄就了星環(huán)開發(fā)金融領(lǐng)域大語言模型的堅(jiān)實(shí)底座。星環(huán)“無涯”大模型能夠理解金融行業(yè)的術(shù)語,也能夠執(zhí)行特定的任務(wù),比如分析上市公司的年報(bào)、公告,生成新聞?wù)袛嗵囟ㄐ侣勈录a(chǎn)生的影響等,提升分析師、研究員、投資經(jīng)理的效率。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報(bào)  |  開放轉(zhuǎn)載  |  滾動(dòng)資訊  |  English Version