Google pristato algoritmą, kuris leidžia LLM naudoti 6 kartus mažiau atminties

TurboQuant suspaudžia modelių vidinę „atminties juostą“ iki 3 bitų, neprarasdamas tikslumo. Kol kas tai tik tyrimas, bet investuotojai iškart pervertino DRAM paklausą.

Google Research paskelbė TurboQuant – nereikalaujantį papildomo treniravimo suspaudimo metodą, kaurusį rakto-reikšmės (KV) podėtį iki 3 bitų vienai reikšmei. Atminties poreikis mažėja mažiausiai 6 kartus, o 4 bitų versija H100 grafe duoda iki 8 kartų spartesnę skaičiavimo dalį „attention logits“. Tikslumas išlieka toks pat ilgo konteksto testuose: „Needle-in-Haystack“, LongBench, RULER.

Kas pasikeitė

Algoritmas sujungia du komponentus. PolarQuant pasuka vektorius į polines koordinates, kad nebereikėtų blokinių normalizacijos konstantų. QJL (Quantized Johnson-Lindenstrauss) likusį paklaidos bitą suspaudžia iki vieno ženklo. Rezultatas – beveik nulinis atminties antdėlis, kurio paprastai prisikaupia 1–2 bitai blokui.

Kodėl tai svarbu debesų tiekėjams

Debesų teikėjai gali ilgesnį kontekstą įtalpinti į tą patį GPU. Mažesnis RAM poreikis = daugiau užklausų per lustą, žemesnė savikaina. Google teigia, kad metodas veikia su atviro kodo modeliais Gemma, Mistral, Llama be papildomo derinimo.

Riba ir atoveiksmis

Tą pačią dieną Micron akcijos smuko 3 %, Western Digital – 4,7 %, SanDisk – 5,7 %. Analitikai perspėja: istoriškai efektyvumo šuoliai išplečia, o ne suspaudžia bendrą skaičiavimų paklausą. Jei pramonė priims TurboQuant, gali augti konteksto ilgiai arba modelių dydžiai, vėl pakeldami atminties poreikį.

Artimiausias etapas – balandžio pabaigos ICLR 2026 konferencija, kur bus pristatytas visas straipsnis.

Šaltiniai

[1] [Research at Google | Tue, 24 Ma] TurboQuant: Redefining AI efficiency with extreme compression
[2] [Ars Technica | Wed, 25 Ma] Google’s TurboQuant AI-compression algorithm can reduce LLM memory usage by 6x
[3] [The Next Web | Wed, 25 Ma] Google's TurboQuant compresses AI memory by 6x, rattles chip stocks
[4] [arXiv | Mon, 28 Ap] [2504.19874] TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate
[5] [OpenReview | Tue, 31 De] TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate

Google pristato algoritmą, kuris leidžia LLM naudoti 6 kartus mažiau atminties

Kas pasikeitė

Kodėl tai svarbu debesų tiekėjams

Riba ir atoveiksmis

Šaltiniai

Prenumeruok naujienlaiski

Susiję straipsniai