Nella primavera del 2026, il settore dell’intelligenza artificiale è stato scosso da importanti novità: secondo Reuters, Anthropic sta esplorando la possibilità di progettare i propri chip.Questo laboratorio di intelligenza artificiale, con un fatturato annuo superiore a 30 miliardi di dollari e una base di utenti in aumento per il suo modello Claude, sta seriamente valutando la possibilità di evolversi da consumatore di potenza di calcolo a definitore della stessa.
Le fonti ammettono che i piani sono ancora nelle fasi iniziali;la società non ha ancora finalizzato piani specifici né formato un team dedicato.Alla fine Anthropic potrebbe scegliere di acquistare solo chip anziché progettarli internamente.Ma anche la possibilità la dice lunga.
Attualmente, Anthropic utilizza sia le TPU (Tensor Processing Unit) progettate dalla società madre di Google, Alphabet, sia i chip Trainium di Amazon per sviluppare ed eseguire Claude.Proprio questa settimana, la società ha anche firmato un accordo a lungo termine con Google e Broadcom, essendo quest’ultima il principale sostenitore della progettazione delle TPU di Google.Firmando un accordo di approvvigionamento esterno multimiliardario mentre si esplora silenziosamente lo sviluppo interno, questo approccio su due fronti è stranamente simile a quello di Meta e Microsoft di qualche anno fa, che ora hanno entrambi i propri chip personalizzati.
Le stime del settore suggeriscono che la progettazione di un chip AI di alto livello costa circa 500 milioni di dollari, ma al di là del prezzo, ciò che è più degno di nota è il segnale del settore dietro la mossa di Anthropic.Quando un’azienda modello puro inizia a prendere seriamente in considerazione lo sviluppo del proprio silicio, la battaglia hardware per l’inferenza dell’intelligenza artificiale ha effettivamente raggiunto un nuovo livello di intensità.
Negli ultimi due anni, il settore dell’intelligenza artificiale ha subito un cambiamento drammatico, con una grande quantità di domanda di potenza di calcolo che si è spostata rapidamente dal lato della formazione a quello dell’inferenza.
La fase di addestramento, che può richiedere settimane o addirittura mesi, richiede cluster GPU su larga scala per il calcolo parallelo, e il dominio di Nvidia su questo versante è quasi incrollabile.Ma l’inferenza è diversa.L'inferenza è il calcolo in tempo reale che avviene ogni volta che un modello risponde a una richiesta dell'utente;persegue bassa latenza, throughput elevato e basso consumo energetico, obiettivi che non si allineano completamente con ciò in cui eccellono le GPU.
Secondo le previsioni di Barclays, entro il 2026, la domanda di calcolo per inferenza rappresenterà oltre il 70% della domanda totale di potenza di calcolo dell’IA, 4,5 volte quella della domanda di formazione.Si può dire che la vera battaglia decisiva nel futuro mercato dei chip AI sarà nell’inferenza.
Nvidia ha costruito un fossato decennale dal punto di vista della formazione, ma se questo fossato non può estendersi fino al punto dell'inferenza, l'intera struttura del settore dovrà affrontare una riscrittura.Per questo motivo, Nvidia ha fatto una mossa formale alla fine dello scorso anno, annunciando un accordo di licenza non esclusivo con la startup di chip di inferenza AI Groq.Jonathan Ross, fondatore e CEO di Groq, il presidente Sonny Madra e diversi ingegneri principali si sono successivamente uniti a Nvidia.I media stranieri hanno citato fonti interne secondo le quali il corrispettivo per questa transazione è di circa 20 miliardi di dollari.
La formulazione ufficiale di Nvidia è cauta, sottolineando che si tratta solo di una licenza tecnologica più acquisizione di talenti, non di un'acquisizione tradizionale.Ma questo metodo di acquisizione atipico è abbastanza comune nella Silicon Valley: può evitare complicate revisioni antitrust e allo stesso tempo portare sostanzialmente all’ovile la tecnologia target e il team principale.
La storia di Groq era originariamente piuttosto notevole.Il fondatore Ross era un membro fondamentale del progetto TPU di Google ed era ben consapevole dei limiti intrinseci dell'architettura GPU negli scenari di inferenza: migliaia di unità di calcolo parallele e logica di pianificazione della memoria estremamente complessa.Queste funzionalità rappresentano vantaggi nell'addestramento ma causano un jitter di latenza imprevedibile nell'inferenza.
Per questo motivo, Groq ha scelto un percorso completamente diverso: eliminare completamente lo scheduler a livello hardware e lasciare invece che sia il compilatore a determinare il percorso del flusso di ogni bit di dati in fase di codice, consentendo al chip di funzionare come una catena di montaggio automatizzata precisa al nanosecondo.Questa architettura è denominata LPU, o Language Processing Unit.Nei test di inferenza dei modelli tradizionali di grandi dimensioni, la velocità di generazione delle parole può essere più di dieci volte quella delle GPU Nvidia, mentre il consumo energetico per token è solo un decimo di quest'ultimo.
Con questa prestazione estrema, Groq ha attirato più di 1,5 milioni di utenti sviluppatori e ha ricevuto numerosi round di investimenti da istituzioni prestigiose come Cisco, Samsung e BlackRock, con una valutazione che ha raggiunto i 6,9 miliardi di dollari.Tuttavia, ciò che ne ha determinato il successo ha portato anche alla sua rovina.Sono state le prestazioni di inferenza eccessivamente abbaglianti di Groq a renderlo l’obiettivo più importante da bloccare agli occhi di Jensen Huang.
In superficie, l’acquisizione di Groq da parte di Nvidia serve a completare il suo layout tecnico dal lato dell’inferenza, ma più profondamente si tratta di un’integrazione difensiva.Incorporando uno dei più forti sfidanti esterni nel suo ecosistema, Nvidia toglie merce di scambio ai fornitori cloud di secondo livello e alle società di software AI che non hanno la capacità di sviluppare i propri chip.Senza Groq come alternativa, le opzioni per coloro che non vogliono essere "tassati" da Nvidia si sono improvvisamente ristrette.
Tuttavia, questa situazione disperata potrebbe non durare a lungo.
In effetti, molto prima dell’ascesa di Groq, i principali giganti del cloud avevano già pianificato in modo indipendente i propri percorsi di potenza di calcolo.Google ha i TPU, Amazon ha Trainium e Microsoft ha Maia: tutti e tre i percorsi interni hanno ormai raggiunto una fase matura in cui possono essere venduti esternamente.
Il TPU di settima generazione di Google, nome in codice Ironwood, è stato ufficialmente rilasciato e lanciato sul mercato alla fine del 2025. Rispetto alla generazione precedente, le sue prestazioni a chip singolo sono aumentate di oltre 4 volte e un singolo cluster può interconnettere fino a 9.216 chip.Google non ha nascosto il suo posizionamento per questa generazione di prodotti: il motore commerciale più conveniente nell'era dell'inferenza.Dall’essere costretto a sviluppare internamente a causa dei colli di bottiglia della potenza di calcolo interna nel 2015, all’apertura dell’implementazione della TPU nei data center dei clienti nel 2025, Google ha trascorso dieci anni a trasformare un progetto di emergenza in un’arma strategica.L’annuncio di Anthropic secondo cui la futura formazione e implementazione della serie Claude utilizzerà fino a un milione di TPU ha ulteriormente dato un’autorevole approvazione da parte del mercato al valore commerciale di Ironwood.
Amazon sta prendendo una strada diversa.AWS è da tempo fortemente dipendente dai chip sviluppati internamente dalla sua controllata Annapurna Labs.La serie Trainium è più o meno paragonabile alle GPU Nvidia, ma si concentra sulla riduzione del costo dell'infrastruttura cloud e sulla riduzione della dipendenza da fornitori esterni.La recente firma da parte di AWS di un accordo di cooperazione pluriennale con Cerebras per introdurre i chip Wafer-Scale Engine (WSE) di Cerebras nei data center per l'implementazione parallela con chip Trainium auto-sviluppati è una manifestazione concreta di questa logica di dare priorità allo sviluppo interno e integrarlo con appalti esterni.
L'obiettivo di AWS è molto chiaro: utilizzare Trainium per soddisfare la domanda di inferenza a bassa velocità e a basso costo e utilizzare i chip Cerebras per attirare clienti di fascia alta estremamente sensibili alla latenza e disposti a pagare un premio per la velocità.
I chip di inferenza, a differenza dei chip di addestramento che perseguono la velocità a breve termine, prestano maggiore attenzione all’efficienza energetica a lungo termine.Una GPU Nvidia consuma circa 700 watt, mentre un chip di inferenza dedicato con potenza di calcolo equivalente può controllare il consumo energetico entro 200 watt.Per le applicazioni su larga scala che richiedono centinaia di migliaia di chip di inferenza, questo divario può comportare risparmi sui costi di centinaia di milioni di dollari ogni anno.Questo è uno dei motivi principali per cui i giganti del cloud come Google, Amazon e Meta sono in competizione per scommettere sui chip ASIC dedicati.
Secondo le ultime notizie, Meta ha raggiunto un accordo di cooperazione da 1 Gw con Broadcom per la formazione e i chip di inferenza, che è destinato a portare nuovi catalizzatori nel già "caotico" mercato dei chip di inferenza.
Se i percorsi interni di ricerca e sviluppo dei giganti del cloud sono scommesse a lungo termine con sufficienti garanzie in termini di risorse, allora l’alleanza tra Intel e SambaNova rappresenta un altro percorso rivoluzionario più realistico.
Nel 2026, SambaNova ha annunciato il lancio di una soluzione di inferenza hardware eterogenea con Intel, adottando un'architettura a tre livelli: GPU per il pre-riempimento, processore Intel Xeon 6 come principale CPU di controllo ed esecuzione e SambaNova RDU per la decodifica, appositamente progettata per i carichi di lavoro AI degli agenti.Questa soluzione sarà aperta alle imprese, ai fornitori di servizi cloud e ai progetti di intelligenza artificiale sovrani nella seconda metà del 2026.
SambaNova ha sottolineato che i sistemi GPU puri sono buoni nel collegamento di pre-riempimento parallelizzato, ma nelle attività di inferenza negli ambienti di produzione, la pianificazione degli strumenti delle CPU e l'efficienza di decodifica degli acceleratori di inferenza dedicati sono le variabili chiave che determinano la velocità e il costo complessivi.
I dati dei test mostrano che la velocità di compilazione LLVM dei processori Intel Xeon 6 è più veloce di oltre il 50% rispetto a quella delle CPU server basate sull'architettura Arm e le prestazioni del database vettoriale sono fino al 70% più veloci.Questi due indicatori colpiscono esattamente i principali colli di bottiglia prestazionali del flusso di lavoro dell'agente codice.
Il ruolo di Intel in questa cooperazione è intrigante.Un tempo egemone del PC, è stato quasi emarginato dal principale campo di battaglia dei chip AI nell'era della GPU.Ora, con i vantaggi di controllo della CPU e di pianificazione di Xeon 6, sta riconquistando un punto d'appoggio nelle soluzioni di inferenza eterogenee.L'ecosistema software del data center si basa sull'architettura x86, che ha riportato Intel al centro della scena AI.
Cerebras è un altro nome di cui vale la pena scrivere separatamente.
Questa startup focalizzata sui chip AI su scala wafer ha presentato una domanda di IPO nel 2024 e poi l'ha ritirata, suscitando dubbi diffusi sulle sue prospettive nel mercato dei capitali.Ma in seguito, OpenAI ha firmato un accordo di cooperazione con Cerebras del valore di oltre 10 miliardi di dollari per fornire potenza di calcolo a ChatGPT.Questa notizia riportò Cerebras all'attenzione del pubblico e spinse le istituzioni che aspettavano e vedevano a riesaminarne il valore tecnico.Nel febbraio 2026, Cerebras ha completato un nuovo round di finanziamento da 1 miliardo di dollari, con un finanziamento totale di 2,6 miliardi di dollari e una valutazione post-investimento di circa 23 miliardi di dollari.
La tecnologia principale di Cerebras è il Wafer-Scale Engine (WSE), che utilizza un intero wafer come un singolo chip, infrangendo i limiti fisici di taglio dei chip tradizionali e offrendo prestazioni di latenza estremamente eccezionali in attività di inferenza specifiche.Secondo Cerebras, la velocità dei suoi chip nel collegamento di decodifica dell'inferenza può essere fino a 25 volte quella delle GPU Nvidia.
Il recente annuncio di AWS di un accordo di cooperazione pluriennale con Cerebras per introdurre i chip WSE nei data center per l'inferenza dell'intelligenza artificiale segna una transizione chiave dell'identità per questa startup: da una storia di finanziamento a fornitore della più grande piattaforma cloud del mondo.
La scelta di Cerebras da parte di AWS si basa sulla stessa logica di OpenAI: per scenari estremamente sensibili alla velocità di risposta, come l'assistenza alla programmazione e le attività degli agenti, ogni millisecondo di riduzione della latenza corrisponde direttamente all'esperienza dell'utente e al valore commerciale, e questo è proprio il punto debole delle GPU.
Per Cerebras, poiché sempre più persone utilizzano l’intelligenza artificiale per risolvere problemi sempre più difficili, la richiesta di velocità non potrà che aumentare.Se la velocità stessa è il valore del prodotto, allora pagare un premio per la velocità è un comportamento commerciale naturale.Questa logica viene accettata da un numero sempre maggiore di imprese.
Dietro la battaglia sulla potenza di calcolo c’è la ristrutturazione del lato dell’offerta di infrastrutture.A tal fine, il ruolo di CoreWeave sta diventando sempre più indispensabile.
Nel 2025, Meta ha preso l’iniziativa di firmare un accordo di fornitura con CoreWeave, accettando di acquistare 14,2 miliardi di dollari di potenza di calcolo basata sull’intelligenza artificiale entro il 2031;i documenti recentemente depositati presso la SEC mostrano che Meta ha aggiunto all’accordo, accettando di acquistare ulteriori 21 miliardi di dollari in potenza di calcolo dell’intelligenza artificiale entro il 2032. L’aggiunta di questo nuovo accordo ha spinto il portafoglio ordini di CoreWeave a 87,8 miliardi di dollari, di cui Meta da sola rappresenta circa il 40%.
L’ascesa di CoreWeave è un microcosmo dell’evoluzione della potenza di calcolo delle GPU da bene raro a infrastruttura.In quanto puro noleggiatore di potenza di calcolo, non fornisce funzionalità del modello, ma il supporto sottostante che consente l'esecuzione dei modelli.Al di là dei tre principali giganti del cloud, le aziende di intelligenza artificiale necessitano di un’opzione di potenza di calcolo che non sia vincolata a un ecosistema di piattaforme e CoreWeave colma semplicemente questa lacuna.
Nel 2025, CoreWeave ha realizzato un fatturato di 5,13 miliardi di dollari, con un aumento di circa il 170% rispetto all’anno precedente.La dimensione dei suoi data center è aumentata a 43, con una capacità di potenza in uso di 850 megawatt.L'azienda è dotata di circa 600.000 GPU, principalmente Nvidia H100 e H200, con la percentuale della serie Blackwell in continuo aumento.La capacità elettrica totale contrattata ha raggiunto i 3.500 megawatt, ovvero più di quattro volte la sua attuale capacità in uso.
Tuttavia, la logica di espansione di CoreWeave rappresenta anche la sua maggiore pressione strutturale.Per coprire i costi di espansione del data center, la società ha recentemente annunciato un collocamento privato di 4,75 miliardi di dollari in obbligazioni.Con meno di 4 miliardi di dollari in liquidità a disposizione, completare una spesa in conto capitale compresa tra 30 e 35 miliardi di dollari nel 2026 significa che dovrà fare affidamento su finanziamenti esterni per mantenere un’espansione ad alta velocità.Gli investitori di CoreWeave scommettono chiaramente sulla convinzione fondamentale secondo cui la domanda di potenza di calcolo continuerà a crescere a un ritmo elevato nel lungo termine.
L’esplorazione da parte di Anthropic della progettazione interna dei chip, l’acquisizione da 20 miliardi di dollari di Groq da parte di Nvidia, lo sforzo decennale di Google per trasformare il TPU in un prodotto di riferimento, l’introduzione di Cerebras da parte di Amazon nel proprio data center per costruire un portafoglio di inferenza differenziato e l’alleanza di Intel con SambaNova per competere per una quota nel mercato dell’inferenza eterogeneo: questi eventi apparentemente sparsi puntano tutti all’inferenza come nuovo campo di battaglia.
Sempre più persone si stanno rendendo conto che il focus dell’intelligenza artificiale si sta spostando da come addestrare modelli migliori a come dedurre più richieste a costi inferiori e a maggiore velocità.Questo cambiamento ha innescato una massiccia trasformazione nel precedente sistema di potenza di calcolo incentrato sulle GPU.
Questo round di competizione è diverso dalla sostituzione anticipata delle CPU con le GPU.Si trattava di una cotta unidirezionale di nuovi prodotti rispetto a quelli vecchi.La battaglia odierna per i chip di inferenza è più simile a una divisione della ristrutturazione del lavoro all’interno di un ecosistema complesso.Nessuna singola architettura può dominare tutti gli scenari e le combinazioni eterogenee stanno diventando mainstream.Le GPU gestiscono il pre-riempimento altamente parallelo, i chip di inferenza dedicati si occupano della decodifica, le CPU sono responsabili della pianificazione e del coordinamento, con focus diversi sul cloud e sui confini e più attori competono su ciascun collegamento.
Ciò significa che il risultato è lungi dall’essere deciso.
Per Anthropic, esplorare la progettazione interna dei chip è una ricerca attiva dell’autonomia della potenza di calcolo e una polizza assicurativa per evitare di essere tenuti in ostaggio dai fornitori a monte.Ma il ciclo lungo e gli elevati investimenti nella ricerca e sviluppo dei chip fanno sì che questo percorso non sarà facile.Per Nvidia, il fossato dell'ecosistema CUDA è ancora profondo, ma il sempre più evidente divario tra costi e prestazioni sul lato dell'inferenza sta diventando un obiettivo comune per tutti i potenziali sfidanti.Per altri concorrenti tecnici come Groq, la leadership tecnologica non si traduce necessariamente in successo commerciale, e le possibilità di essere acquisiti sono in costante aumento.
Le linee di battaglia sono state tracciate e l’elenco dei partecipanti è ancora in crescita.Questo corpo a corpo con potenza di calcolo basato sull'intelligenza artificiale è appena entrato nel suo capitolo più intenso.