欧美高潮一区二区三区,香蕉久久国产超碰青草

星環(huán)科技向量數(shù)據(jù)庫Transwarp Hippo自發(fā)布已來，受到了眾多用戶的歡迎，幫助用戶實現(xiàn)向量數(shù)據(jù)的存儲、管理和檢索，探索和實踐大模型場景。在與用戶不斷地深入交流以及實踐中，Hippo迎來了V1.1版本，一套系統(tǒng)即可支持向量與全文聯(lián)合檢索，提高文本數(shù)據(jù)的召回精度，從而提升大語言模型應(yīng)用的準確率。同時，Hippo1.1新增余弦距離、批量數(shù)據(jù)導(dǎo)入導(dǎo)出、Explain與Profile支持、ARM架構(gòu)支持等能力，大幅降低用戶使用門檻和成本。

此外，Hippo社區(qū)版同樣支持以上新特性，點擊文末閱讀原文或者訪問星環(huán)科技官網(wǎng)，即可申請下載體驗，開啟大語言模型場景探索之旅。

一庫搞定向量+全文聯(lián)合檢索，提升大模型準確率

在大語言模型應(yīng)用中，向量數(shù)據(jù)庫作為中間載體，可以有效地解決大模型在知識時效性低、輸入能力有限、準確度低等問題，賦予大模型擁有“長期記憶”。因此，向量數(shù)據(jù)庫的召回精度直接影響大模型輸出結(jié)果的準確率。然而，在一些實踐場景中，對于向量數(shù)據(jù)庫本身而言，單一使用向量檢索會產(chǎn)生召回準確率不高的問題：

* 對噪聲和冗余信息敏感：若向量數(shù)據(jù)庫中存在大量的噪聲和冗余信息，則檢索的準確率會降低;

* 對特征選擇的依賴：在向量檢索中，需要對數(shù)據(jù)進行特征提取和選擇，若特征選擇不當(dāng)，則會影響檢索的準確性;

* 對查詢語義理解的局限性：當(dāng)查詢語義比較復(fù)雜或模糊時，向量檢索無法準確理解用戶的意圖，導(dǎo)致準確率降低;

此外，像一些特殊情況，如所檢索內(nèi)容未構(gòu)建特征或特征比重較小時，會導(dǎo)致準確率降低，甚至無召回結(jié)果。

針對文本搜索場景，全文檢索更適合做關(guān)鍵字匹配，可以避免檢索內(nèi)容低頻的問題。而向量檢索則能找出字面上不同但語義上相近的內(nèi)容。通過將向量檢索和全文檢索的聯(lián)合召回，可以降低漏檢和誤檢的概率，能夠?qū)崿F(xiàn)比單獨使用向量或全文檢索更高的精度。

此外，向量數(shù)據(jù)與全文數(shù)據(jù)在存儲、計算上有很大的差別，單一的數(shù)據(jù)庫架構(gòu)很難同時高效支持這兩種場景。例如，對于公開數(shù)據(jù)集如ANN Benchmark，Elasticsearch的性能遠落后于專業(yè)的向量數(shù)據(jù)庫。

星環(huán)科技向量數(shù)據(jù)庫Hippo底層使用自研的分布式數(shù)據(jù)管理系統(tǒng)TDDMS，能夠支持向量數(shù)據(jù)和全文數(shù)據(jù)統(tǒng)一存儲管理，一套數(shù)據(jù)庫系統(tǒng)即可支持向量與全文數(shù)據(jù)聯(lián)合檢索召回，避免了部署多套系統(tǒng)帶來的架構(gòu)復(fù)雜、開發(fā)運維成本高等問題。同時，Hippo1.1提供兼容Elasticsearch協(xié)議的SDK支持，方便用戶更便捷地使用向量數(shù)據(jù)庫。

例如，當(dāng)查詢“A公司業(yè)務(wù)發(fā)展情況”時，通過向量檢索可以檢索出A公司“主要業(yè)務(wù)”、“經(jīng)營模式”、“財務(wù)情況”、“市場地位”等信息，通過全文檢索可以檢索出知識庫中和關(guān)鍵字“業(yè)務(wù)”、“發(fā)展”相關(guān)的結(jié)果作為補充，通過將兩者檢索的結(jié)果進行結(jié)合，可以使得大模型回答的結(jié)果更加豐滿和準確。

當(dāng)查詢“A公司產(chǎn)品經(jīng)理B的履歷”時，若該產(chǎn)品經(jīng)理B在知識庫中出現(xiàn)的頻率較低或未構(gòu)建特征時，單一使用向量檢索召回的結(jié)果可能主要是A公司介紹，而通過全文檢索則會檢索出產(chǎn)品經(jīng)理B相關(guān)的內(nèi)容，通過向量+全文的聯(lián)合檢索召回，使得大模型能夠準確地給出答案。

多個新特性升級，幫助用戶實現(xiàn)降本增效

1、余弦距離支持，簡化業(yè)務(wù)邏輯

余弦距離在大模型領(lǐng)域有著廣泛的應(yīng)用。在過去，用戶在將向量數(shù)據(jù)導(dǎo)入向量數(shù)據(jù)庫之前，需要對數(shù)據(jù)庫做L2歸一化，并搭配內(nèi)積距離間接實現(xiàn)余弦距離，這個過程較為復(fù)雜，需要用戶手工操作，并要求有一定的技術(shù)基礎(chǔ)。Hippo1.1新增原生的余弦距離支持，用戶不再需要通過向量歸一化計算 IP metrics 來使用余弦距離，大幅簡化了業(yè)務(wù)邏輯，降低了用戶使用門檻。

2、批量數(shù)據(jù)導(dǎo)入導(dǎo)出，加速數(shù)據(jù)流轉(zhuǎn)

Hippo1.1新增基于csv格式的批量數(shù)據(jù)導(dǎo)入導(dǎo)出功能，方便用戶進行數(shù)據(jù)流轉(zhuǎn)。此外，用戶還可以通過Python、Restful等API進行數(shù)據(jù)操作。

3、支持ARM架構(gòu)，滿足國產(chǎn)化需求

隨著 ARM架構(gòu) CPU 的普及程度越來越高，Hippo1.1在支持X86架構(gòu)的基礎(chǔ)上，新增支持ARM架構(gòu)，滿足企業(yè)用戶國產(chǎn)化需求。

4、支持Explain與Profile，高效性能優(yōu)化

當(dāng)執(zhí)行帶過濾條件的向量檢索時，Hippo會根據(jù)過濾條件預(yù)估過濾率，選擇最優(yōu)的搜索路徑。通過Explain接口，用戶可以準確地看到檢索的具體執(zhí)行路徑，通過Profile接口，用戶可以看到?次搜索中各階段的細分耗時情況。基于這兩點特性，用戶可以更高效地進行數(shù)據(jù)庫調(diào)試、問題排查和性能優(yōu)化。

星環(huán)科技向量數(shù)據(jù)庫Transwarp Hippo1.1發(fā)布：一庫搞定向量+全文聯(lián)合檢索，提升大模型準確率！

星環(huán)科技向量數(shù)據(jù)庫Transwarp Hippo1.1發(fā)布：一庫搞定向量+全文聯(lián)合檢索，提升大模型準確率！