IA generativa con LLM in C# (2026): guida .NET/C# per l'ecosistema Microsoft.
L'intelligenza artificiale generativa è diventata la tecnologia grand pubblico con la crescita più rapida della storia, superando Instagram e TikTok e raggiungendo 100 milioni di utenti in meno di due mesi. Alla fine del 2022, OpenAI ha rilasciato un'anteprima gratuita di GPT-3.5, sotto forma di client di chat conversazionale: ChatGPT. Il modello è stato perfezionato utilizzando il rinforzo per apprendimento dal feedback umano (RLHF), segnando il momento in cui l'IA generativa ha raggiunto la notorietà grand pubblico. All'inizio del 2023, Microsoft ha reagito lanciando il servizio Azure OpenAI, che consente agli sviluppatori di fornire e utilizzare in sicurezza modelli compatibili con OpenAI dietro endpoint gestiti da Azure.
Poco dopo, Microsoft ha presentato:
- Semantic Kernel (SK) → strumenti che consentono di orchestrare prompt, memorie e plugin utilizzando C# o Python.
- Microsoft Extensions for AI (MEAI) → astrazioni unificate per interagire con i modelli (ad esempio, IChatClient).
- Microsoft Extensions for Vector Data → interfacce standard per i database vettoriali utilizzati nei sistemi RAG.
Questo articolo prende le distanze dalla rapida innovazione nel campo dell'IA e si concentra sui concetti fondamentali, fornendo una base agli sviluppatori .NET/C# che lavorano con Microsoft Foundry, GitHub Models, AI Extensions e runtime locali come Ollama.
Comprendere i termini legati all'IA
L'IA possiede il proprio insieme di termini distinti con significati molto specifici.
Intelligenza artificiale (IA)
L'IA implica tecniche che consentono ai computer di eseguire compiti che richiedono tipicamente l'intelligenza umana, come il ragionamento, il linguaggio, la pianificazione o la percezione. L'IA non è nuova, ma oggi, la maggior parte delle persone usa il termine «IA» per riferirsi all'IA generativa.
IA generativa (GenAI)
L'IA generativa si riferisce ai sistemi di IA capaci di produrre testo, immagini, suono o altri contenuti.
Per esempio: GPT significa «Generative Pre-trained Transformer» (trasformatore generativo pre-addestrato). Per riassumere, otteniamo:
- Generativo → produce contenuti;
- Pre-addestrato → addestrato su enormi insiemi di dati;
- Trasformatore → architettura di rete neurale che consente una modellazione linguistica di alta qualità.
Grandi modelli linguistici (LLM)
I LLM sono addestrati su miliardi di token (gettoni) e possono generare testo, immagini, codice o fasi di ragionamento. La loro capacità di funzionare in più lingue deriva dall'apprendimento delle relazioni tra le parole, e non da una semplice traduzione dizionario uno a uno.
Perché la traduzione è difficile?
Le parole hanno più significati:
- pass the car = passare la macchina
- mountain pass = passo di montagna
- pass on the opportunity = lasciare passare l'occasione
- your park pass on the dashboard = il tuo permesso per il parco sul cruscotto
I software tradizionali avevano difficoltà a gestire questa ambiguità; i LLM eccellono perché operano nello spazio semantico.
Token ed embeddings (gettoni e integrazioni)
I modelli non leggono direttamente il testo. Lo dividono in token (gettoni):
- Parole intere
- Frammenti di parole
- Caratteri
Questi gettoni sono convertiti in vettori numerici chiamati embeddings (integrazioni), che sono rappresentazioni matematiche del significato.
Esempi di frasi:
- «l'attore era una star»
- «amavano le stelle»
La parola «star» appare in entrambe le frasi, ma con significati diversi. Le integrazioni catturano questa differenza.
Ecco un modo semplificato per visualizzare questo concetto. Nel grafico, il significato semantico della parola «star» può essere rappresentato in funzione della sua vicinanza al concetto di «corpo celeste» (una stella nella notte) e al concetto di «attore» (star dello spettacolo).
Immaginate ora miliardi di punti di questo tipo. I modelli generano testo navigando in questo spazio e prevedendo il vettore successivo più probabile.
Esempi di distanza semantica:
- scuola ↔ scol (distanza vicina → correzione ortografica)
- gatto ↔ cane (distanza vicina → animali simili)
- gatto ↔ computer portatile (distanza lontana)
La ricerca semantica utilizza la distanza nello spazio di integrazione, e non la corrispondenza di stringhe.
Parametri: dimensione del modello
I LLM sono spesso descritti dal loro numero di parametri:
7 miliardi, 14 miliardi, 70 miliardi, 123 miliardi, ecc.
I parametri sono pesi addestrati.
Più ci sono parametri, più il ragionamento è profondo, le conoscenze ricche e le sfumature fini.
- GPT‑1 (2018) → 117 milioni di parametri
- Modelli all'avanguardia moderni → da 100 miliardi a più di 400 miliardi di parametri
Prompts, istruzioni e strumenti
Le sezioni precedenti hanno trattato le informazioni relative al modello. I termini di questa sezione sono direttamente legati agli input e output del modello.
Prompts (istruzione generativa)
Input utente nel modello. «Qual è il modo migliore per sbucciare un mango?»
Istruzioni di sistema
«Piano» nascosto che guida il comportamento del modello. «Sei un esperto sbucciatore di manghi e sei considerato un esperto nel tuo campo.»
Strumenti / Funzioni
I LLM sono addestrati su dati storici. Gli strumenti consentono loro di accedere a informazioni attuali o autorevoli, per esempio:
- API meteo
- Ricerca in un database
- Motore di ricerca
- Indice di conoscenze aziendali
Questo modello è chiamato «generazione aumentata dalla recupero» (RAG). Esaminiamo due scenari. Innanzitutto, immaginate un agente concierge che dispone di un'API per i ristoranti locali e di un'API per il meteo. L'utente inserisce l'istruzione generativa seguente:
Puoi prenotarmi un tavolo per cena questa settimana in un ristorante con terrazza?
Il LLM chiama prima l'API meteo per determinare quali serate sono probabilmente secche e più calde, quindi chiama l'API ristorante per trovare i ristoranti aperti e con posti disponibili. Infine, restituisce una lista di suggerimenti che corrispondono esattamente alla richiesta.
Poi, immaginate un agente del servizio clienti di un negozio al dettaglio che dispone di tutte le informazioni sui prodotti. L'utente digita:
«Che tipo di pile servono per il Traveling Wonder Cube?»
Il LLM è in grado di estrarre il nome del prodotto, «traveling wonder cube». Vettorializza il testo della query, quindi chiama l'API del prodotto con il nome del prodotto e i vettori. La ricerca semantica viene invocata utilizzando una funzione per trovare i punti del manuale del prodotto che sono semanticamente più vicini alla query. Questo restituirà il risultato pertinente riguardo alle pile richieste se tale sezione esiste.
Protocollo di contesto del modello (MCP)
Il Protocollo di contesto del modello, o MCP in breve, è un insieme di standard per l'interoperabilità tra agenti e strumenti. Permette ai modelli di comprendere facilmente quali strumenti sono disponibili e come chiamarli. Ciò consente di creare delle "cassette degli attrezzi" virtuali che qualsiasi modello o agente può chiamare.
E gli agenti?
Aspetta, ho detto «agente»? Un agente è semplicemente un modo per fornire una soluzione specializzata che comprende un modello, strumenti e un contesto. Un «agente concierge» può includere un modello di ragionamento con strumenti che forniscono informazioni sul meteo, gli eventi e gli ingressi.