La corsa all'intelligenza artificiale conosce un nuovo contendente: Taalas, società tech canadese, ha presentato l'HC1, un acceleratore che stravolge le gerarchie del settore. Il dispositivo integra direttamente nel chip il modello linguistico Llama 3.1 8B, letteralmente "inciso" nei circuiti in silicio. Il risultato è straordinario: 17mila token al secondo durante l'inferenza, una velocità che umilia i benchmark dei principali competitor del mercato, inclusi la NVIDIA H200 e B200, fino a pochi mesi fa considerati i vertici indiscussi della performance AI.

I numeri parlano da soli. L'HC1 non è semplicemente più rapido: è dieci volte più veloce dei chip Cerebras, costi di produzione dimezzati di venti volte rispetto alla concorrenza, e consumi energetici ridotti del 90 per cento. Taalas sostiene un miglioramento complessivo di mille volte nel rapporto prestazioni per watt e prestazioni per dollaro rispetto all'hardware GPU convenzionale. Una conseguenza pratica affascinante: dieci schede HC1 da 250 watt, sistemate in un singolo rack standard raffreddato ad aria (senza bisogno di costosi sistemi di raffreddamento liquido), erogano la potenza computazionale di un intero cluster di GPU in una sola macchina.

Il segreto è elegante e rimanda a un problema storico dell'informatica: il cosiddetto "Memory Wall". I processori grafici tradizionali separano fisicamente il luogo dove i dati risiedono (la memoria ad alta banda) dai core che li elaborano. Quando eseguono un'inferenza, trascorrono quasi il 90 per cento del tempo e dell'energia a trasportare i pesi del modello da una memoria all'altra. Taalas ha eliminato questo collo di bottiglia fondendo memoria e calcolo in un unico chip a densità DRAM: i dati non devono viaggiare, perché sono già dove servono. La scelta comporta un compromesso: il chip funziona esclusivamente con il modello per cui è stato progettato, bloccando futuri aggiornamenti o modifiche sostanziali del software.

Un beneficio immediato emerge dall'uso quotidiano dei sistemi AI: il ritardo nel generare il primo token, il cosiddetto "time to first token", rappresenta uno dei principali attriti nell'esperienza utente. Su HC1 questo problema quasi sparisce. Taalas ha messo online una demo pubblica dove chiunque può verificare: query semplici raggiungono quasi 20mila token al secondo, mentre quelle più articolate si assestano tra i 15 e i 16mila. Il chip, prodotto da TSMC con processo costruttivo a 6 nanometri, misura 815 millimetri quadrati e integra 53 miliardi di transistor.

La battaglia per il dominio dell'inferenza AI entra quindi in una nuova fase. Mentre Nvidia ha costruito un impero sulla versatilità delle GPU, Taalas propone un modello alternativo: l'ottimizzazione spinta per un compito specifico. Per chi gestisce infrastrutture AI, il compromesso tra rigidità funzionale e efficienza economica diventa una scelta strategica cruciale.