全球知名IT市場研究機構(gòu)IDC最新發(fā)布了關(guān)于中國生成式AI應(yīng)用開發(fā)平臺的深度報告,該報告聚焦于企業(yè)統(tǒng)一AI開發(fā)平臺的雛形,并對市場中的大模型平臺進行了詳盡分析。IDC所界定的大模型平臺,主要由模型開發(fā)平臺和應(yīng)用開發(fā)平臺兩大核心部分組成。前者專注于提供模型訓(xùn)練與調(diào)優(yōu)工具,賦能開發(fā)者利用基礎(chǔ)模型進行自主創(chuàng)新;后者則致力于簡化應(yīng)用開發(fā)流程,通過低代碼甚至無代碼的開發(fā)工具,助力開發(fā)人員高效產(chǎn)出。
報告不僅對比了當前市場上主流的大模型平臺供應(yīng)商,還為企業(yè)用戶在選擇大模型平臺時提供了至關(guān)重要的技術(shù)指標。在這次評估中,百度智能云表現(xiàn)尤為突出,以七項滿分的優(yōu)異成績,在所有大模型平臺廠商中獨占鰲頭,緊隨其后的是亞馬遜云AWS與阿里云,兩者并列第二。
IDC指出,大模型平臺為應(yīng)用程序開發(fā)開辟了新的道路。企業(yè)在挑選大模型平臺時,應(yīng)著重關(guān)注供應(yīng)商在模型層和數(shù)據(jù)層的能力。在模型層,如何使模型更好地適應(yīng)企業(yè)的實際應(yīng)用場景是關(guān)鍵所在;而在數(shù)據(jù)層,如何有效實施RAG(檢索增強生成),確保生成內(nèi)容的精準無誤,消除幻覺現(xiàn)象,則顯得尤為重要。百度智能云在這兩大領(lǐng)域均具備深厚的技術(shù)底蘊。
百度智能云的千帆大模型平臺,作為大模型與AI應(yīng)用開發(fā)的綜合服務(wù)平臺,能夠從模型開發(fā)、模型服務(wù)、應(yīng)用開發(fā)三個維度,為企業(yè)提供全方位的服務(wù)。目前,文心大模型的日均調(diào)用量已超過15億次,千帆平臺已成功幫助客戶精調(diào)了3.3萬個模型,并開發(fā)出77萬個企業(yè)應(yīng)用。
模型精調(diào)是推動大模型與產(chǎn)業(yè)深度融合的重要一環(huán)。盡管大模型具備強大的泛化能力,能夠處理多種通識問題,但在特定行業(yè)及領(lǐng)域的應(yīng)用中,其表現(xiàn)往往不盡如人意。這是因為不同行業(yè)擁有獨特的專業(yè)知識、邏輯結(jié)構(gòu)和數(shù)據(jù)特征,而通識知識難以全面覆蓋這些特殊需求。通過模型精調(diào),將行業(yè)的專業(yè)知識和數(shù)據(jù)特征融入大模型,可以顯著提升其在行業(yè)應(yīng)用中的準確性和可靠性。
當前,行業(yè)內(nèi)主流的大模型服務(wù)商紛紛通過大模型平臺提供模型精調(diào)服務(wù),助力企業(yè)快速構(gòu)建AI應(yīng)用。AWS SageMaker集成了亞馬遜的高性能預(yù)訓(xùn)練模型庫,這些模型已在大規(guī)模通用數(shù)據(jù)上進行了充分訓(xùn)練,為模型精調(diào)奠定了堅實基礎(chǔ)。同時,SageMaker還提供了多種先進的機器學(xué)習(xí)算法,用戶可根據(jù)精調(diào)任務(wù)的具體需求,選擇合適的算法來進一步優(yōu)化模型性能。
百度智能云的千帆大模型平臺則提供了完整的工具鏈,是業(yè)界首個上線DPO、KTO等模型訓(xùn)練方法的平臺,并配備了高質(zhì)量通用語料數(shù)據(jù)和即用的模型精調(diào)模板。無論是希望自行準備數(shù)據(jù)并進行精調(diào),還是希望快速上手并復(fù)制行業(yè)最佳實踐,千帆平臺都能提供高效支持。目前,在千帆平臺上,每天有超過一半的調(diào)用量來自精調(diào)后的模型。
以醫(yī)療行業(yè)為例,杭州全診醫(yī)學(xué)基于千帆平臺和文心大模型,打造了AI醫(yī)療助理應(yīng)用,該應(yīng)用能夠在導(dǎo)診、預(yù)診、診間、入院、手術(shù)、隨訪等全階段為醫(yī)生和患者提供服務(wù)。特別是在輔助醫(yī)生撰寫病歷方面,全診醫(yī)學(xué)通過使用20萬份精標病歷數(shù)據(jù)對大模型進行了精調(diào),使得AI醫(yī)療助理的醫(yī)學(xué)用語更加準確、規(guī)范,病歷內(nèi)容質(zhì)量得到大幅提升。病歷生成的準確度提高了45%,醫(yī)生的接診量也增加了20%,為患者帶來了更多福祉。
RAG技術(shù)已成為企業(yè)解決大模型幻覺問題的有效手段。隨著生成式AI在企業(yè)布局和投資中的日益重要,企業(yè)希望通過大模型實現(xiàn)降本增效和產(chǎn)品創(chuàng)新。然而,通用大語言模型(LLM)在實際應(yīng)用中常出現(xiàn)幻覺問題或回答不準確的情況,特別是在面向B端場景時,難以滿足企業(yè)的實際需求。為解決這一問題,企業(yè)通常采用RAG技術(shù),將生成式AI與企業(yè)內(nèi)部數(shù)據(jù)庫、知識庫相結(jié)合,使生成內(nèi)容更加準確、合理。向量數(shù)據(jù)庫憑借其在語義理解和高效檢索方面的獨特優(yōu)勢,成為企業(yè)實現(xiàn)RAG的關(guān)鍵組件。
IDC發(fā)布的《RAG與向量數(shù)據(jù)庫市場前景預(yù)測》報告顯示,在生成式AI的開發(fā)過程中,41%的高管認為構(gòu)建RAG架構(gòu)至關(guān)重要;81%的IT領(lǐng)導(dǎo)者認為,基于業(yè)務(wù)數(shù)據(jù)的生成式AI模型能夠為企業(yè)帶來顯著的競爭優(yōu)勢。這表明,RAG技術(shù)在提升通用大模型準確性方面效果顯著,且企業(yè)對其認可度正不斷提高。隨著更多企業(yè)意識到RAG的重要性,它有望成為推動生成式AI落地的重要力量。
在評估了RAG和向量數(shù)據(jù)庫市場的發(fā)展趨勢后,IDC還對市場上的主要廠商進行了評估。在這一評估中,百度智能云的向量數(shù)據(jù)庫VectorDB在核心性能、功能全面性、大模型支持、戰(zhàn)略與生態(tài)合作、工程化落地五個關(guān)鍵領(lǐng)域保持領(lǐng)先,綜合排名并列第一。目前,VectorDB已在超過500家客戶中成功落地使用,支持多種常用算法和主流LLM、RAG框架,以及百度智能云千帆和開源Embedding模型,為企業(yè)提供一站式部署落地服務(wù)。