Google pristato TurboQuant: 8 kartus greitesnė išvada, 6 kartus mažesnė atmintis

Google Research paskelbė TurboQuant – algoritmų rinkinį, kuris didžiųjų kalbos modelių atminties poreikį suspaudžia iki 3 bitų, o išvadą pagreitina 8 kartus. Treniravimo nereikia.

Kaip veikia

TurboQuant suskaido duomenis į dvi dalis. Pirmiausia PolarQuant sukasi vektorius ir jų kampus užkoduoja į fiksuotą apskritiminę gardelę – taip dingsta normalizavimo konstantos, kurios paprastai ryja 1–2 papildomus bitus. Likusią paklaidą QJL algoritmas „nupoliruoja“ vieno bito ženklu, išlaikydamas dėmesio balansą.

Ką duoda

H100 plokštėse 4-bitė versija rodo 8× spartesnį dėmesio logaritmų skaičiavimą ir ≥6× mažesnį KV podėlį. Google teigia, kad išlaidos išvadai krenta daugiau nei perpus. Testai su 64 tūkst. žetonų kontekstu rodo nulinį tikslumo nuostolį.

Ką atveria

Kompanijoms, kurios laiko ilgus kontekstus debesyje, reikės mažiau GPU. „Mac Mini“ klasės įrenginiai gali tempti šimtatūkstantinius žetonus be papildomo treniravimo. Atviro kodo implementacija per parą pasirodė MLX ir llama.cpp šakose.

Kur ribos

Metodas skirtas išvadai, ne modelių treniravimui, tad atminties tiekėjų akcijos smuko. Kol kas neaišku, kaip algoritmai elgsis su dar ilgesniais kontekstais ar mažesniais modeliais.

Per artimiausius mėnesių kelias bendruomenes nulems, ar 3 bitai taps nauju standartu kasdieniuose įrankiuose.

Šaltiniai

  1. [1] [Research at Google | Tue, 24 Ma] TurboQuant: Redefining AI efficiency with extreme compression
  2. [2] [TechCrunch | Wed, 25 Ma] Google unveils TurboQuant, a new AI memory compression algorithm — and yes, the internet is calling it 'Pied Piper'
  3. [3] [VentureBeat | Wed, 25 Ma] Google's new TurboQuant algorithm speeds up AI memory 8x, cutting costs by 50% or more
  4. [4] [Research at Google | Tue, 24 Ma] TurboQuant: Redefining AI efficiency with extreme compression
  5. [5] [arXiv | Mon, 28 Ap] [2504.19874] TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate
  6. [6] [OpenReview | Tue, 31 De] TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate