Sovereign AI

Small Language Models: l'AI che gira a casa tua, a un decimo del costo

29 giugno 2026 · Sovereign AI · On-premise

Per due anni il riflesso è stato uno solo: serve l'AI? Si chiama l'API del modello più grande disponibile. Nel 2026 la domanda è cambiata. Non è più "qual è il modello più potente", ma "qual è il modello giusto, nel posto giusto". E sempre più spesso la risposta è un modello compatto, che gira dentro l'azienda.

Cosa sono gli Small Language Models

Gli Small Language Models (SLM) sono modelli linguistici con un numero di parametri ridotto, tipicamente sotto i 30 miliardi, spesso molto meno. Non competono con i modelli di frontiera sui compiti più creativi e aperti. Ma sui compiti aziendali ripetitivi e ben definiti (classificare ticket, estrarre dati, rispondere a domande su una base di conoscenza, instradare richieste) fanno esattamente il lavoro che serve, più in fretta e a una frazione del costo.

Perché nel 2026 sono diventati una scelta seria

Tre numeri raccontano il cambiamento meglio di mille parole:

Fino al 90% di costi di inferenza in meno sui compiti ad alto volume e ripetitivi, con latenza quasi istantanea.
Break-even in circa tre mesi: un modello sotto i 30 miliardi di parametri gira su una singola GPU di fascia consumer. L'investimento hardware si ripaga in fretta rispetto a una bolletta di API che cresce ogni mese.
Un caso reale Fortune 500: un'azienda di servizi finanziari ha sostituito l'API di un grande modello esterno con un modello da 7 miliardi di parametri messo a punto sui propri dati, ottenendo l'89% di accuratezza sulle domande di dominio, risposte sotto i 100 millisecondi e il 73% di costi di inferenza in meno.

Il vero vantaggio: i dati non escono dall'azienda

Il risparmio è solo metà della storia. La parte che interessa di più ai nostri clienti in settori regolamentati (finanza, sanità, legale, manifattura con know-how sensibile) è la sovranità del dato. Un SLM può girare on-premise o in un cloud privato: i documenti riservati, la telemetria, i dati dei clienti non lasciano mai il perimetro aziendale per finire su server di terze parti.

È lo stesso principio di data residency che applichiamo nei progetti RAG sui dati aziendali, portato alle estreme conseguenze: non solo i dati restano in UE, ma l'intero modello vive sotto il tuo controllo. Per chi deve dimostrare conformità all'AI Act e al GDPR, è spesso l'architettura che semplifica di più la vita.

Quando conviene un SLM (e quando no)

Non è una scelta ideologica: è una scelta di architettura. La nostra regola pratica:

SLM on-premise quando il compito è ben definito e ad alto volume, i dati sono sensibili, la latenza conta, e i costi delle API stanno diventando un problema strutturale.
Modello di frontiera via API quando serve ragionamento aperto e complesso, i volumi sono bassi, oppure stai prototipando e la velocità di sviluppo conta più dell'ottimizzazione dei costi.
Architettura ibrida, la più frequente nei progetti maturi: un SLM gestisce il 90% delle richieste banali in locale, e solo i casi complessi vengono inoltrati a un modello più grande. Il meglio dei due mondi.

Come li mettiamo in produzione

Adottare un SLM non significa solo scaricare un modello open. Il valore sta nel fit con il tuo caso d'uso: selezione del modello giusto per il compito, fine-tuning sui tuoi dati, ottimizzazione per l'hardware disponibile, integrazione nei flussi esistenti e monitoraggio della qualità nel tempo. È lo stesso approccio ingegneristico con cui costruiamo i nostri sistemi multi-agente: scegliere lo strumento più semplice che risolve il problema, non il più appariscente.

I costi delle API AI stanno crescendo?

Valutiamo gratuitamente se un modello on-premise può ridurre i tuoi costi e mettere al sicuro i tuoi dati. Risposta entro 24 ore.

Richiedi l'analisi gratuita

← Tutti gli articoli

Small Language Models: l'AI che gira a casa tua, a un decimo del costo

Cosa sono gli Small Language Models

Perché nel 2026 sono diventati una scelta seria

Il vero vantaggio: i dati non escono dall'azienda

Quando conviene un SLM (e quando no)

Come li mettiamo in produzione

I costi delle API AI stanno crescendo?

Articoli correlati

AI Act Omnibus: proroga al 2027 e regole più leggere per le PMI

RAG sui dati aziendali: copilot interni che fanno risparmiare ore

Computer Vision per il controllo qualità in fabbrica