近期,谷歌DeepMind團(tuán)隊(duì)推出了一項(xiàng)名為“可微緩存增強(qiáng)”的創(chuàng)新技術(shù),這項(xiàng)技術(shù)旨在提升大型語(yǔ)言模型(LLMs)的推理性能,而無(wú)需大幅增加計(jì)算成本。
在語(yǔ)言和推理領(lǐng)域,大型語(yǔ)言模型發(fā)揮著越來(lái)越重要的作用。它們能夠處理復(fù)雜問(wèn)題,生成準(zhǔn)確的上下文相關(guān)響應(yīng)。然而,隨著這些模型的復(fù)雜性增加,如何在有限的計(jì)算資源下保持高性能成為了一個(gè)挑戰(zhàn)。特別是,許多LLMs在跨任務(wù)推理或執(zhí)行超出預(yù)訓(xùn)練范圍的計(jì)算時(shí)表現(xiàn)不佳。
現(xiàn)有的提升模型性能的方法通常涉及在任務(wù)處理過(guò)程中生成中間步驟,但這種方法會(huì)增加延遲并降低計(jì)算效率。這限制了LLMs執(zhí)行復(fù)雜推理任務(wù)的能力,尤其是那些需要長(zhǎng)依賴關(guān)系或高預(yù)測(cè)準(zhǔn)確性的任務(wù)。為了解決這個(gè)問(wèn)題,DeepMind團(tuán)隊(duì)開發(fā)了一種新方法。
“可微緩存增強(qiáng)”通過(guò)引入一個(gè)訓(xùn)練過(guò)的協(xié)處理器來(lái)增強(qiáng)LLM的鍵值(kv)緩存。這個(gè)協(xié)處理器使用潛在嵌入來(lái)豐富模型的內(nèi)部記憶。關(guān)鍵在于,基礎(chǔ)LLM保持凍結(jié)狀態(tài),而協(xié)處理器則異步運(yùn)行。這種方法不僅保持了模型的穩(wěn)定性,還提高了性能。
整個(gè)工作流程分為三個(gè)階段。首先,凍結(jié)的LLM從輸入序列生成kv緩存。然后,協(xié)處理器使用可訓(xùn)練的軟令牌處理這個(gè)緩存,并生成潛在嵌入。最后,增強(qiáng)的kv緩存被反饋回LLM,以生成更豐富、更準(zhǔn)確的輸出。
DeepMind團(tuán)隊(duì)在Gemma-2 2B模型上測(cè)試了這項(xiàng)技術(shù),并獲得了顯著成果。例如,在GSM8K數(shù)據(jù)集上,準(zhǔn)確率提高了10.05%;在MMLU基準(zhǔn)測(cè)試上,性能提升了4.70%。該技術(shù)還降低了模型在多個(gè)標(biāo)記位置的困惑度,進(jìn)一步證明了其有效性。
這項(xiàng)研究為增強(qiáng)LLMs的推理能力提供了新的視角。通過(guò)引入外部協(xié)處理器來(lái)增強(qiáng)kv緩存,DeepMind團(tuán)隊(duì)在保持計(jì)算效率的同時(shí),顯著提高了模型性能。這為L(zhǎng)LMs處理更復(fù)雜、更具挑戰(zhàn)性的任務(wù)提供了可能,也為未來(lái)的研究和應(yīng)用開辟了新的道路。