在深度學(xué)習(xí)及自然語言處理領(lǐng)域,Transformer架構(gòu)因其出色的自注意力機(jī)制而被廣泛應(yīng)用,諸如OpenAI的GPT、meta的BART及谷歌的T5等頂尖模型均基于此設(shè)計(jì)。然而,Liquid AI卻選擇了一條不同的道路。
受“交通信號(hào)處理系統(tǒng)”與“數(shù)值線性代數(shù)”的啟發(fā),Liquid AI對(duì)其模型架構(gòu)進(jìn)行了大膽革新。新推出的LFM模型主打“通用性”,能夠靈活應(yīng)對(duì)不同類型的數(shù)據(jù)建模需求,包括視頻、音頻、文本、時(shí)間序列乃至交通信號(hào)等多種內(nèi)容格式。
相較于傳統(tǒng)的Transformer模型,LFM系列在處理大量輸入時(shí)展現(xiàn)了顯著的RAM使用優(yōu)勢(shì)。由于Transformer在處理長(zhǎng)輸入時(shí)需存儲(chǔ)龐大的鍵值緩存,導(dǎo)致RAM占用隨序列長(zhǎng)度急劇增加。而LFM則通過高效的數(shù)據(jù)壓縮技術(shù),大幅降低了對(duì)硬件資源的依賴,使得在相同硬件環(huán)境下能夠處理更長(zhǎng)的數(shù)據(jù)序列。
在性能表現(xiàn)上,LFM系列模型同樣令人矚目。據(jù)悉,LFM-1.3B已在多項(xiàng)基準(zhǔn)測(cè)試中擊敗了包括蘋果OpenELM、meta Llama 3.2、微軟Phi 1.5及Stability Stable LM 2在內(nèi)的多款領(lǐng)先模型。而LFM-3.1B更是跨越了規(guī)模界限,在某些特定任務(wù)中甚至超越了更大規(guī)模的7B與13B模型,其性能已凌駕于谷歌Gemma 2、蘋果AFM Edge等頂尖模型之上。
至于LFM-40.3B,該模型在規(guī)模與輸出質(zhì)量間取得了精妙平衡。盡管擁有高達(dá)400億個(gè)參數(shù),但在實(shí)際推理過程中僅激活了120億個(gè)參數(shù)。Liquid AI解釋稱,這一限制舉措旨在確保模型輸出的高品質(zhì),同時(shí)提升運(yùn)行效率并降低硬件配置要求。