Google pristato algoritmą, kuris leidžia LLM naudoti 6 kartus mažiau atminties
TurboQuant suspaudžia modelių vidinę „atminties juostą“ iki 3 bitų, neprarasdamas tikslumo. Kol kas tai tik tyrimas, bet investuotojai iškart pervertino DRAM paklausą.
Google Research paskelbė TurboQuant – nereikalaujantį papildomo treniravimo suspaudimo metodą, kaurusį rakto-reikšmės (KV) podėtį iki 3 bitų vienai reikšmei. Atminties poreikis mažėja mažiausiai 6 kartus, o 4 bitų versija H100 grafe duoda iki 8 kartų spartesnę skaičiavimo dalį „attention logits“. Tikslumas išlieka toks pat ilgo konteksto testuose: „Needle-in-Haystack“, LongBench, RULER.
Kas pasikeitė
Algoritmas sujungia du komponentus. PolarQuant pasuka vektorius į polines koordinates, kad nebereikėtų blokinių normalizacijos konstantų. QJL (Quantized Johnson-Lindenstrauss) likusį paklaidos bitą suspaudžia iki vieno ženklo. Rezultatas – beveik nulinis atminties antdėlis, kurio paprastai prisikaupia 1–2 bitai blokui.
Kodėl tai svarbu debesų tiekėjams
Debesų teikėjai gali ilgesnį kontekstą įtalpinti į tą patį GPU. Mažesnis RAM poreikis = daugiau užklausų per lustą, žemesnė savikaina. Google teigia, kad metodas veikia su atviro kodo modeliais Gemma, Mistral, Llama be papildomo derinimo.
Riba ir atoveiksmis
Tą pačią dieną Micron akcijos smuko 3 %, Western Digital – 4,7 %, SanDisk – 5,7 %. Analitikai perspėja: istoriškai efektyvumo šuoliai išplečia, o ne suspaudžia bendrą skaičiavimų paklausą. Jei pramonė priims TurboQuant, gali augti konteksto ilgiai arba modelių dydžiai, vėl pakeldami atminties poreikį.
Artimiausias etapas – balandžio pabaigos ICLR 2026 konferencija, kur bus pristatytas visas straipsnis.
Šaltiniai
- [1] [Research at Google | Tue, 24 Ma] TurboQuant: Redefining AI efficiency with extreme compression
- [2] [Ars Technica | Wed, 25 Ma] Google’s TurboQuant AI-compression algorithm can reduce LLM memory usage by 6x
- [3] [The Next Web | Wed, 25 Ma] Google's TurboQuant compresses AI memory by 6x, rattles chip stocks
- [4] [arXiv | Mon, 28 Ap] [2504.19874] TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate
- [5] [OpenReview | Tue, 31 De] TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate
