主頁 > 企業(yè)博客 > 職教新聞 > 北大團隊發(fā)布首個復數(shù)量化模型iFairy

北大團隊發(fā)布首個復數(shù)量化模型iFairy

2025-08-17 09:16

為破解大模型部署與推理成本高昂的困境,近日,北京大學楊仝教授團隊首次提出名為iFairy的超低比特量化方案。該方案創(chuàng)新性地利用復數(shù){±1, ±i}對模型權重進行2-bit量化,在實現(xiàn)1/8極致壓縮與“無乘法”推理加速的同時,語言建模能力和下游任務表現(xiàn)反超了同尺寸的全精度LLaMA基座模型。相關論文題為“iFairy: the First 2-bit Complex LLM with All Parameters in {±1, ±i}”。

研究聚焦于大語言模型在真實應用中的空間和時間瓶頸。傳統(tǒng)全精度模型參數(shù)量大、推理能耗高;盡管已有低比特量化降低了模型體積,但核心矩陣乘法仍廣泛依賴乘法運算,難以從根本上壓縮推理時延和能耗。為此,團隊提出在復數(shù)平面進行2-bit量化:通過相位映射將權重限定為四個單位根{+1, −1, +i, −i},在不增加位寬的情況下充分利用2 bit信息容量,同時保持量化集合的對稱性和訓練穩(wěn)定性。

PhaseQuant量化算法示意圖

在實現(xiàn)層面,iFairy配套提出PhaseQuant量化策略與復數(shù)化Transformer設計。當量化權重取{±1, ±i}時,張量乘法可退化為符號翻轉(zhuǎn)、實虛部交換與加減等低成本操作,從而在核心GEMM中大幅減少乘法指令;同時在注意力計算中使用Hermitian內(nèi)積的實部得到實值相似度分數(shù),并在位置編碼中采用復數(shù)旋轉(zhuǎn)形式,實現(xiàn)與主流Transformer架構(gòu)的兼容。得益于2-bit權重表示,模型存儲相較FP16可壓縮至約1/8,具備向邊緣端落地的潛在優(yōu)勢。

超低比特復數(shù)運算規(guī)則

iFairy模型主干

在與同規(guī)模全精度(FP16/BF16)基座模型對齊的數(shù)據(jù)與訓練條件下,團隊報告的結(jié)果顯示:在語言建模任務上,2-bit iFairy的困惑度(PPL)較全精度模型有明顯下降,部分數(shù)據(jù)集上的降幅約可達10%;在若干zero-shot下游任務評測中,1.3B規(guī)模的2-bit模型平均分略高于全精度基座,700M規(guī)模隨任務有所差異但整體保持競爭力。進一步的參數(shù)分布分析顯示,訓練后量化權重在{±1, ±i}之間分布較為均衡,表明模型能夠有效利用復數(shù)碼本進行表示學習。

iFairy PPL評測結(jié)果

iFairy下游任務評測結(jié)果(zero-shot)

iFairy模型k_proj的參數(shù)分布

iFairy模型o_proj的參數(shù)分布

該研究在“高效表示—無乘法推理—復數(shù)化結(jié)構(gòu)”三方面提出系統(tǒng)性方案,為在有限資源條件下實現(xiàn)高性能推理提供了新的技術路徑,也為今后在移動終端與其他資源受限場景中的大模型部署帶來新的可能。

楊仝團隊希望在未來圍繞復數(shù)域算法與硬件協(xié)同設計、端側(cè)部署優(yōu)化以及更大規(guī)模預訓練驗證等方向持續(xù)推進研究,推動高效大模型技術走向產(chǎn)業(yè)化與開放共享。相關論文、訓練代碼、模型權重與實驗腳本已全部開源,配套提供從訓練、評測到可復現(xiàn)實驗的完整流程,人人皆可復現(xiàn)訓練。

楊仝及其團隊(從左至右:黃博楷,張藝豪,楊仝,王國安,陳齊治)

信息來源:北京大學計算機學院

上一篇:南京航空航天大學計算機學院成功舉辦開放原子校源行活動 下一篇:中國石油大學赴中國老撾經(jīng)濟合作區(qū)開展社會實踐

相關產(chǎn)品

你可能也喜歡

掃碼添加微信客服

電話:13817525788 021-36334717
021-36334727

郵箱:dinbon@163.com

售后:021-55158775

郵箱:dinbon@163.com

掃碼關注公眾號

頂部
頂部