IBM近日在其企業(yè)級AI開發(fā)平臺watsonx.ai上推出了DeepSeek-R1蒸餾版的Llama 3.1 8B和Llama 3.3 70B模型,這一消息引起了業(yè)界的廣泛關(guān)注。
據(jù)悉,DeepSeek不僅利用了知識蒸餾技術(shù),還通過R1模型生成的數(shù)據(jù)優(yōu)化了多個Llama和Qwen變體。這一創(chuàng)新使得用戶能夠在watsonx.ai平臺上更加高效地利用這些模型。
用戶現(xiàn)在可以通過多種方式在watsonx.ai上使用DeepSeek蒸餾模型。在平臺的“按需部署”目錄中,IBM提供了Llama蒸餾版,用戶只需簡單部署即可獲得專用實例,進行安全推理。用戶還可以利用“自定義基礎模型”導入功能,上傳如Qwen蒸餾模型等其他DeepSeek-R1變體。
DeepSeek-R1模型憑借其強大的推理能力,在多個領域展現(xiàn)出了廣泛的應用潛力。在規(guī)劃領域,其獨特的“鏈式思維”邏輯有助于處理需要逐步推理的任務,特別適合智能體應用。在編程領域,DeepSeek-R1可用于代碼生成、調(diào)試和優(yōu)化,極大地提升了開發(fā)效率。該模型還具備處理復雜數(shù)學問題的能力,在科研、工程和科學計算等領域表現(xiàn)出色。
對于開發(fā)者而言,watsonx.ai平臺提供了豐富的解決方案能力,幫助他們更好地利用DeepSeek-R1進行AI解決方案開發(fā)。開發(fā)者可以直觀地測試和評估模型輸出,通過連接向量數(shù)據(jù)庫和嵌入模型構(gòu)建RAG(檢索增強生成)管道,并支持LangChain、CrewAI等主流AI框架。
IBM watsonx.ai平臺還提供了靈活的開源模型定制選項,支持DeepSeek-R1在不同環(huán)境下的部署。這極大地簡化了智能體開發(fā)、微調(diào)、RAG、提示工程等工作流。平臺內(nèi)置的安全機制也保障了用戶應用的安全性。
IBM首席執(zhí)行官在本月初發(fā)表的長文中透露,DeepSeek模型僅用約2000枚英偉達芯片,以大約600萬美元的成本訓練而成,遠低于行業(yè)預期。這一成就再次證明了小型、高效的模型同樣能夠帶來實際成果,無需依賴龐大而昂貴的專有系統(tǒng)。