Introduzione
Il 5 marzo 2026 OpenAI ha rilasciato GPT-5.4, descritto dalla compagnia come il modello frontier più capace ed efficiente per il lavoro professionale. La release è stata annunciata in tre varianti principali: GPT-5.4 (standard, disponibile via API), GPT-5.4 Thinking per ChatGPT e GPT-5.4 Pro per le applicazioni più esigenti. A distanza di pochi giorni, il 17 marzo, sono arrivati anche GPT-5.4 mini e GPT-5.4 nano per coprire l'estremità più economica dello spettro.
GPT-5.4 è il primo modello mainline di reasoning di OpenAI che incorpora le capacità di coding frontier di GPT-5.3-Codex. Il salto di naming — da 5.2 direttamente a 5.4 — riflette proprio questa fusione: l'assorbimento del ramo Codex nella linea principale, così da semplificare la scelta fra modelli all'interno di Codex e delle API.
Caratteristiche tecniche
Le specifiche ufficiali pubblicate da OpenAI al lancio sono:
- Finestra di contesto: fino a 1 milione di token in API e Codex (la più ampia mai rilasciata da OpenAI)
- Pricing: 2,50 dollari per milione di token in input, 15 dollari per milione in output per la variante standard
- GPT-5.4 Pro: 30/180 dollari per milione di token input/output
- Riduzione errori fattuali: del 33% sulle singole claim e del 18% sulle risposte complete rispetto a GPT-5.2
- Computer use: nativo, con punteggio del 75% su OSWorld-Verified (contro il 47,3% di GPT-5.2)
Upfront planning: la novità dell'interazione
La feature più visibile in ChatGPT è il cosiddetto upfront planning. Su task complessi, GPT-5.4 Thinking espone un preambolo all'inizio della risposta — un'outline di come intende affrontare il problema — permettendo all'utente di correggere la traiettoria a metà della generazione, prima che il modello completi l'intera risposta.
L'obiettivo dichiarato è ridurre il numero di round di back-and-forth tipici dei task multi-step. In pratica, l'utente non deve più aspettare un output completo, valutarlo e rilanciare: può intervenire mentre il modello sta ancora pianificando, risparmiando sia tempo sia token.
Computer use nativo
GPT-5.4 è il primo modello general-purpose di OpenAI con capacità di computer use native. Il modello può osservare schermate, muovere il cursore, cliccare elementi, digitare testo e interagire con applicazioni desktop. Il punteggio del 75% su OSWorld-Verified supera la media umana (72,4%) e segna un balzo significativo rispetto al 47,3% del predecessore.
L'implementazione si affianca a Claude Computer Use di Anthropic, ma con una differenza rilevante: GPT-5.4 integra il computer use direttamente nel modello mainline, anziché trattarlo come capacità sperimentale in beta.
Tool search: un nuovo paradigma per l'API
Una novità architetturale meno pubblicizzata ma tecnicamente rilevante riguarda la gestione dei tool. In precedenza, i system prompt contenevano la definizione di tutti i tool disponibili — un approccio che consumava molti token quando il numero di tool cresceva. GPT-5.4 introduce Tool Search: il modello può cercare le definizioni dei tool on-demand, invece di averle tutte caricate in contesto.
from openai import OpenAI
client = OpenAI()
response = client.responses.create(
model="gpt-5.4",
input="Trova le fatture non pagate del Q4 e invia promemoria.",
tools=[
{
"type": "tool_search",
"registry": "enterprise_finance"
}
]
)
Il risultato concreto è richieste più rapide ed economiche in sistemi con ecosistemi di tool estesi — un pattern tipico delle applicazioni agentiche enterprise.
Efficienza token e riduzione delle allucinazioni
OpenAI ha posto particolare enfasi sull'efficienza token: GPT-5.4 risolve problemi equivalenti usando significativamente meno token rispetto a GPT-5.2. L'implicazione economica è diretta — un costo inferiore per singolo task completato, anche quando il pricing per token è paragonabile.
Sul fronte dell'affidabilità, la riduzione del 33% sulle singole claim errate e del 18% sulle risposte complete con errori è stata misurata su un set di prompt de-identificati dove gli utenti avevano segnalato errori fattuali. È un progresso importante, ma OpenAI stessa inquadra il modello sotto la soglia "High" per le capacità cyber nel proprio Preparedness Framework — con monitoraggio rafforzato, controlli di accesso e blocco asincrono per richieste ad alto rischio.
Valutazione chain-of-thought e safety
Un aspetto tecnicamente interessante è l'introduzione di una nuova valutazione della chain-of-thought (CoT). I ricercatori di AI safety temono da tempo che i modelli di reasoning possano nascondere o falsificare il proprio processo di pensiero rispetto a quello effettivamente eseguito. I test pubblicati da OpenAI mostrano che la deception è meno probabile nella variante Thinking di GPT-5.4, suggerendo che il modello non ha la capacità di occultare il proprio ragionamento — almeno nelle condizioni testate.
L'evaluation open-source sulla controllabilità della CoT esamina specificamente l'offuscamento del reasoning, ed è parte di un filone di ricerca ancora aperto sulla interpretabilità dei modelli di reasoning.
Casi d'uso e partner
OpenAI ha rilasciato contestualmente a GPT-5.4 un add-in ChatGPT per Excel dedicato agli utenti Enterprise, e ha aggiornato le skill per spreadsheet e presentazioni disponibili in Codex e via API. Fra i benchmark professionali riportati:
- BigLaw Bench (lavoro legale): 91%
- Finance Modeling Preference: 87,3% (contro 68,4% di GPT-5.2)
- Academic Preference: 92,8% su GPQA Diamond
- Presentation Preference: 68,0%
Questi numeri suggeriscono che il posizionamento commerciale del modello punta in modo esplicito al lavoro professionale "document-heavy", dove la precisione su contratti lunghi e l'accuratezza sulle singole claim sono più critiche della creatività generale.
Disponibilità e migrazione
GPT-5.4 Thinking è disponibile in ChatGPT per utenti Plus, Team e Pro; GPT-5.4 Pro è riservato ai piani Pro ed Enterprise. GPT-5.2 Thinking rimane accessibile come modello legacy per i paying user fino al 5 giugno 2026, dopodiché verrà ritirato. L'amministrazione del workspace può abilitare l'early access per nuovi modelli come toggle persistente.
In Codex, GPT-5.4 sostituisce GPT-5.3-Codex come modello primario, e include supporto sperimentale per la finestra da 1M token.
Conclusione
GPT-5.4 Thinking non è un salto architetturale quanto un'operazione di consolidamento: la fusione del ramo Codex nella linea principale, l'adozione nativa del computer use, l'introduzione del tool search, e un pacchetto di miglioramenti incrementali su efficienza token e affidabilità. La strategia è leggibile: semplificare il portfolio di modelli e spostare il campo di battaglia dal benchmark puro alla produttività misurabile sul lavoro professionale reale.
Tre implicazioni di medio termine emergono. La prima è che la finestra di contesto da 1M non è più un elemento distintivo — è ormai condiviso con Gemini 3.1 Pro e (in parte) con i modelli Anthropic, ma diventa il nuovo standard per task di reasoning agentico su orizzonti lunghi. La seconda è che il computer use integrato nel modello mainline accelera la transizione da LLM conversazionali ad agenti operativi, con tutte le implicazioni di sicurezza che ne derivano. La terza, più sottile, è che la competizione sui modelli di reasoning si sta spostando sulla fedeltà della chain-of-thought — un terreno su cui OpenAI, Anthropic e Google stanno convergendo con approcci metodologicamente diversi ma obiettivi simili.