蘋果公司近期宣布與英偉達(dá)攜手合作,共同推出了一項(xiàng)名為Recurrent Drafter(簡稱ReDrafter)的創(chuàng)新技術(shù),這項(xiàng)技術(shù)旨在顯著提升人工智能大語言模型(LLM)的推理速度。這一消息是在12月18日通過蘋果公司的官方博文發(fā)布的。
據(jù)悉,ReDrafter技術(shù)已經(jīng)成功融入英偉達(dá)的TensorRT-LLM推理加速框架中。這一整合使得在英偉達(dá)GPU上運(yùn)行的LLM模型,每秒生成的tokens數(shù)量最高可提升2.7倍。這一顯著的性能提升,不僅有效減少了用戶在使用過程中的延遲感受,還大幅度降低了計(jì)算成本。
蘋果公司的機(jī)器學(xué)習(xí)專家強(qiáng)調(diào),隨著LLM在生產(chǎn)應(yīng)用程序中的廣泛應(yīng)用,提高推理效率已經(jīng)成為降低計(jì)算成本和減少用戶延遲的關(guān)鍵因素。ReDrafter技術(shù)的推出,正是對這一需求的積極響應(yīng)。
ReDrafter的核心在于其獨(dú)特的RNN草稿模型,該模型結(jié)合了波束搜索(beam search)和動態(tài)樹注意力(dynamic tree attention)技術(shù)。這一創(chuàng)新設(shè)計(jì)使得開源模型在每一步生成過程中最多可以產(chǎn)生3.5個tokens,從而超越了以往推測性解碼技術(shù)的性能表現(xiàn)。
為了將ReDrafter技術(shù)應(yīng)用于實(shí)際生產(chǎn)環(huán)境,蘋果公司與英偉達(dá)展開了深度合作。雙方共同努力,將ReDrafter成功集成到英偉達(dá)的TensorRT-LLM框架中。這一合作不僅展現(xiàn)了蘋果與英偉達(dá)在技術(shù)創(chuàng)新方面的深厚實(shí)力,也體現(xiàn)了雙方在推動AI技術(shù)發(fā)展方面的共同愿景。
為了支持ReDrafter技術(shù)的集成,英偉達(dá)對其TensorRT-LLM框架進(jìn)行了多項(xiàng)優(yōu)化。這包括添加新的運(yùn)算符以及公開現(xiàn)有運(yùn)算符,以增強(qiáng)框架對復(fù)雜模型和解碼方法的適應(yīng)能力。這些優(yōu)化措施為ReDrafter技術(shù)的順利應(yīng)用提供了有力保障。
基準(zhǔn)測試結(jié)果顯示,在使用集成了ReDrafter的TensorRT-LLM框架的英偉達(dá)GPU上,數(shù)百億參數(shù)規(guī)模的生產(chǎn)模型的解碼速度得到了顯著提升,最高可達(dá)2.7倍。這一成果不僅顯著降低了用戶體驗(yàn)延遲,還減少了GPU的使用數(shù)量和功耗,從而進(jìn)一步降低了運(yùn)營成本。
這一合作成果的發(fā)布,標(biāo)志著蘋果與英偉達(dá)在AI技術(shù)領(lǐng)域的合作邁出了重要一步。未來,雙方將繼續(xù)攜手共進(jìn),共同推動AI技術(shù)的創(chuàng)新與發(fā)展,為更多用戶提供更加高效、智能的服務(wù)。