1,5-bitové LLM na iPhone: Prečo je 'hardvérový daň' príjmovou bránou, nie inžinierickou

Verdikt: 7-miliardový parametrický LLM, zmenšený na 1,58 bitu na váhu, sa pohodlne zmestí do 1,2 GB RAM. iPhone 12 má 4 GB. Bariéra, ktorú Apple uvádza — „Apple Intelligence vyžaduje A17 Pro alebo novší“ — je v roku 2026 inžinierickým nesmyslom.

Čísla: Paper BitNet b1.58 (Microsoft Research, 2024) → výkon na úrovni LLaMA pri 1/8 veľkosti modelu. Recover-LoRA (jún 2026) → 2-bitová kvantizácia obnovuje plnú presnosť cez low-rank fine-tuning. Hybrid Gated Flow (február 2026) → identifikuje „Memory Wall“ ako skutočné obmedzenie, nie výpočtový výkon.

Taktika Apple: Blokovanie Apple Intelligence na iPhone 15 a starších. Donútenie 250 miliónov+ používateľov k upgradu, aby mohli využívať on-device zážitok zo Siri.

Status: Hardvérová brána je príjmová brána. Inžinieria je pripravená. Deployment nie je.

30-sekundová verzia: čo je to „1,5-bitové“ LLM #

Keď LLM beží vo vašom telefóne, každá „váha“ — každé spojenie v neuronovej sieti — je normálne číslo, ktoré zaberá 16 bitov (2 bajty) pamäte. 7-miliardový parametrický model, veľkosť Meta LLaMA 2 7B, zaberá pri 16-bitovej presnosti približne 14 GB. To je dôvod, prečo je cloudová AI práve cloudová: žiadny telefón nemá 14 GB voľných pre jediný model.

Kvantizácia zmenšuje každú váhu na menej bitov. Prechod z 16 bitov na 8 bitov z polovíci pamäť (7 GB). 4 bity ju zníм znova na polovicu (3,5 GB). 2 bity ju prinášajú na 1,75 GB. Dizajn BitNet b1.58 od Microsoft Research [The Era of 1-bit LLMs] (era 1-bitových LLM) je najagresívnejší: každá váha je jednou z troch hodnôt — mínus jedna, nula alebo plus jedna. Každá váha zaberá približne 1,58 bitu. 7B model sa tak zmenší na 1,2 GB.

To číslo 1,2 GB je celým príbehom. iPhone 12, vydaný v roku 2020, má 4 GB RAM. iPhone 13, 14 a 15 majú 4 až 8 GB. Žiadný z týchto telefónov nie je výpočtovo hladný pre 1,2 GB model. Pamäť je v poriadku. Výpočet je v poriadku. Neural Engine sa medzi čipmi A14 a A17 nezmenil dramaticky — stal sa len inkrementálne rýchlejším, nie kategoricky schopnejším.

Čo hovorí výskum — v ľudskej reči #

Tri práce publikované v roku 2026 potvrdzujú, že 1,5-bit už nie je experiment.

[Hybrid Gated Flow] (február 2026) je najčistejším vyjadrením inžinierskej reality: „Nasadenie veľkých jazykových modelov (LLM) na edge zariadenia je zásadne obmedzené ‘Memory Wall’ — hardvérovým limitom, kde úzkoúzka pásmo pamäte, nie výpočtový výkon, predstavuje úzke hrdlo.“ Práca potom ukazuje, ako nasadiť 1,58-bitové LLM na edge hardvér s selektívnymi low-rank korekciami. Funguje to.

[Recover-LoRA] (jún 2026) rieši historálnu obavu: keď model tak agresívne zmenšíte, stratí presnosť. Práca ukazuje, že 2-bitová kvantizácia v spojení s malým LoRA fine-tuningom po kompresii obnovuje plnú presnosť. Pipeline je: vezmete akýkoľvek 7B model → kvantizujete na 2 bity → wykonáte malý LoRA adaptér → ošlifíte. Problém s presnosťou je vyriešený.

[Sparse-BitNet] (marec 2026) ukazuje, že 1,58-bitové modely a riedkosť (sparsity) sa dajú kombinovať — môžete vyčistiť 2 zo každých 4 váh na nulu a 1,58-bitový formát model ešte viac skomprimuje bez potreby pretrénovania. 7B Sparse-BitNet model sa zmestí do približne 600 MB.

[BitNet Distillation] (október 2025) poskytuje produkčnú pipeline: „ľahký“ nástroj, ktorý prevádza plné presné modely ako Qwen do 1,58-bitovej formy. Apple už interne používa Qwen a Apple Foundation Model. Tento konverzný proces môžu spustiť dnes.

Mimo akademického prostredia ukazuje [Litespark] (máj 2026) ternárne neuronové siete bežiace na bežných CPU prostredníctvom vlastných SIMD jadier. [PD-Swap] (december 2025) ukazuje 1,58-bitové Transformery bežiace na edge FPGA — čipoch s oveľa menším výpočtovým výkonom než iPhone Neural Engine. Ak to dokáže FPGA za 20 $, dokáže to aj iPhone 12.

Hardvérová brána v číslach #

Zariadenie	Čip	RAM	Neural Engine TOPS	Rok	Apple Intelligence?
iPhone 11	A13	4 GB	6 TOPS	2019	Nie (v iOS 18 vypadlo)
iPhone 12	A14	4 GB	11 TOPS	2020	Nie
iPhone 13	A15	4 GB	15,8 TOPS	2021	Nie
iPhone 14	A16	6 GB	17 TOPS	2022	Nie
iPhone 15	A16	6 GB	17 TOPS	2023	Nie
iPhone 15 Pro	A17 Pro	8 GB	35 TOPS	2023	Áno
iPhone 16	A18	8 GB	35 TOPS	2024	Áno
iPhone 16 Pro	A18 Pro	8 GB	35 TOPS	2024	Áno
iPhone 17 (rumor)	A19	8–12 GB	~45 TOPS	2025	Áno

Čiarka je nakreslená pri A17 Pro. 2× nárast TOPS z A16 (17) na A17 Pro (35) je reálny, ale nie kategorický. Oba môžu spustiť 1,2 GB model. 8 GB RAM oproti 6 GB je dôležité pre KV cache pri dlhom kontexte, ale variant BitNet Sparse (600 MB) zanecháva na 6 GB iPhone 14 viac ako 5 GB rezervy.

Prečo to Apple robí #

Tri dôvody, zoradené podľa korporátnej váhy:

Príjmy. Približne 250 miliónov iPhonov je v aktívnom používaní s čipom A16 alebo starším, čo vychádza z informácií Apple o inštalovanej báze a odhadov analytikov pre cyklus 2025–2026. Ak by aspoň 10 % týchto používateľov upgradovalo, aby získali Apple Intelligence — funkciu, o ktorej počujú už dva roky — znamenalo by to 25 miliónov kusov pri priemernom predajnej cene 900 $ (~830 €), čo predstavuje 22 miliard USD v hardvérových príjmoch. Brána eligibility pre iOS 27 je pákovkou na predbehnutie príjmov vo výške 22 miliárd dolárov, skrytou v rámci vydania softvérovej funkcie.

Ecosystem lock-in. Apple Intelligence sa integruje s Photos, Mail, Messages, Notes a Siri. Keď ju máte na iPhone 15 Pro, kúpite si Mac s čipom Apple Silicon, aby ste pokračovali v zážitku, AirPods, ktoré sa hladko párujú, alebo Apple TV, ktorá beží na tej istej inteligenčnej vrstve. Hardvérová brána je tiež akcelerátorom uzamknutia: používatelia, ktorí ju preskočia, sú vynechaní z AI fázy ekosystému Apple na ďalšie 4 až 5 rokov.

Kontrola nad naratívom AI. Apple nechce, aby používatelia bežali lokálne open-source 1,58-bitové modely ako Qwen alebo LLaMA — to by konkurovalo Apple Intelligence, ktorú Apple (nakoniec) predáva ako platenú predplatnú službu. Hardvérová brána udržuje zážitok „AI na iPhone“ pod značkou a pod kontrolou Apple. Je to súčasť logiky Apple AI Safety walled-garden, kde čím je brána tesnejšia, tým menej alternatívnych AI povrchov má Apple musí brániť.

Čo „Memory Wall“ skutočne znamená #

Rámovanie z práce HGF je tu kľúčové. „Memory Wall“ je medzera medzi tým, ako rýchlo môžu CPU počítať a ako rýchlo im pamäť môže dodávať dáta. Pri 16-bitovom LLM je táto medzera obrovská: model je príliš veľký na to, aby ho čip mohol stíhať kŕmiť. Pri 1,58-bitovom modele sa táto medzera zrúti: 1,2 GB sa zmestí do pásma LPDDR5, Neural Engine sa môže udržiavať v prevádzke a úzkym hrdlom sa stáva latencia generovania tokenov, nie pamäť.

Neural Engine čipu A14 môže spustiť 1,58-bitový model. Čip A13 v iPhone 11 ho môže spustiť pomalšie, ale stále ho môže spustiť. Pamäťová pásma, nie výpočtový výkon TOPS, je to, čo rodina BitNet uvoľňuje. A iPhone 12 a novšie majú dostatočnú pamäťovú pásmu.

Inžinierska cesta, ktorú by Apple mohol dnes odoslať #

Krok	Čo	Prečo
1	Použiť Apple Foundation Model (3B parametrov)	Už vytrénovaný, už optimalizovaný pre hardvér Apple
2	BitDistill k 1,58-bitovej presnosti	Model o veľkosti ~600 MB, zmestí sa do 4 GB RAM s rezervou pre KV cache
3	Pridať Sparse-BitNet pruning	Zníženie na 300 MB, zmestí sa aj na 3 GB iPhone 11
4	Recover-LoRA fine-tune na úlohy Apple Intelligence	Obnovenie akejkoľvek straty kvality kvantizáciou
5	Odoslať ako update iOS 26.5 pre iPhone 12+	Započítanie spätne namiesto forward-gatingu

Toto je štyri-mesačný inžiniersky projekt. Apple má výskumníkov (tím Apple Foundation Model publikoval práce o on-device inference), má hardvér (každý iPhone 12 a novší) a má softvérový stack (Core ML už podporuje 1-bitové a 2-bitové kvantizované modely cez mlpackage). Dôvod, prečo sa to nedeje, nie je technický. Je komerčný — a Appleov rastúci partnerstvo s Anthropic v rámci Project Glasswing and Mythos cybersecurity ukazuje, kam má AI výpočtový výkon, ktorý nie je on-device, prflows.

Čo to znamená pre cyklus iOS 27 #

Brána eligibility pre iOS 27 bude prezentovaná ako hardvérová požiadavka. Keynote povie, že Apple Intelligence „potrebuje Neural Engine v A17 Pro“ alebo niečo podobné. Keynote bude technicky obhajiteľný len pre najťažšie funkcie Apple Intelligence — on-device generovanie obrázkov, komplexné viac-krokové agentické procesy a on-device preklad medzi jazykmi s veľmi odlišnými skriptami.

Pre väčšinu Apple Intelligence — časti, ktoré zhrňujú Mail, píšu odpovede v Messages, generujú Genmoji, prioritizujú upozornenia alebo upravujú Siri — hardvérová brána nie je potrebná. Výskum 1,58-bit / 2-bit / Sparse-BitNet stack to dokazuje. Appleovo rozhodnutie tieto funkcie brániť je rozhodnutie z oblasti biznisu, nie inžinierstva. Úplný rozbor kompatibility zariadení iOS 27 vysvetľuje, ktoré funkcie Apple Intelligence A17 Pro+ brána v skutočnosti umožňuje.

Úprimne povedané #

Apple má inžinierstvo. iPhone 12, šesťročné zariadenie, môže v roku 2026 spustiť Apple Intelligence, ak Apple zvolí odoslanie kvantizovaného modelu. Rozhodnutie, že ho neodošle, je racionálne z hľadiska príjmov, obhajiteľné z hľadiska marketingu, ale nečestné z hľadiska inžinierskej komunikácie. Nazývať príjmovú bránu hardvérovou požiadavkou, bez priznať výskum 1,5-bitovej kvantizácie, ktorý ju urobil zbytočnou, je zádelné vynechanie informácií.

Tých 250 miliónov používateľov iPhonu na čipoch A16 a starších nie je blokovaných ich telefónmi. Sú blokovaní Appleovým ziskom (P&L).

Zdroje #

|- BitNet b1.58 — The Era of 1-bit LLMs (Ma et al., 2024) — Základná práca Microsoft Research.\ |- Hybrid Gated Flow — Stabilizing 1.58-bit LLMs via Selective Low-Rank Correction (Feb 2026) — Identifikuje Memory Wall ako skutočné obmedzenie edge-AI.\ |- Recover-LoRA — Reclaiming Accuracy in 2-Bit Language Models (June 2026) — Inžinierske riešenie pre stratu presnosti pri 2 bitoch.\ |- Sparse-BitNet — 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity (Mar 2026) — Kombinovaná kompresia cez pruning.\ |- BitNet Distillation — Lightweight Pipeline for 1.58-bit Fine-Tuning (Oct 2025) — Produkčne pripravený kvantizačný pipeline.\ |- Litespark — Custom SIMD Kernels for Ternary Networks on Consumer CPUs (May 2026) — Dôkaz 1,5-bitovej inference na bežnom hardvéri.\ |- PD-Swap — 1.58-bit Transformers on Edge FPGAs (Dec 2025) — Aj lacnejší hardvér môže spustiť 1,58-bit.\

Čítajte tiež #

|- iOS 27 Compatibility: iPhone 15 Pro and the Apple Intelligence Gate — Ktoré funkcie Apple Intelligence skutočne potrebujú A17 Pro a ktoré sú umelo bránené.\ |- Apple + Anthropic Project Glasswing: Mythos Cybersecurity — Prečo sa Apple opiera o Anthropic pri AI výpočtoch, ktoré nie sú on-device.\ |- Apple AI Safety as a Walled Garden — Ako sa uzavretá pozícia Apple v oblasti AI na iPhone mapuje na rovnakú logiku, ktorá bráni prístupu k Apple Intelligence starším zariadeniam.\ |- iOS 27 Security Paradox: Agentic Malware Meets the Hardware Gate — Hrozba agentického malvéru, ktorá robí argument o on-device sandbox zložitejším než len „odoslať kvantizovaný model všade“.\