- Server LLM open source (Apache 2.0), peso del servizio: soli 2MB in C++ nativo
- API compatibile con lo standard OpenAI — zero modifiche al codice esistente
- Supporta CPU, GPU (ROCm/Vulkan) e NPU in modalità ibrida su Ryzen AI 300 series
- Multimodale: text generation, image gen (SDXL-Turbo), STT (Whisper), TTS (Kokoro) dalla stessa installazione
- Integrazioni validate con VS Code, GitHub Copilot, Open WebUI, n8n e molti altri
AMD ha rilasciato Lemonade, un server LLM open source da soli 2MB capace di eseguire modelli di linguaggio, generazione di immagini e sintesi vocale direttamente su GPU e NPU del tuo PC — senza cloud, senza abbonamento, senza cedere nessun dato a terze parti. Aggiornato ad aprile 2026, Lemonade espone un’API compatibile con lo standard OpenAI all’indirizzo localhost:13305, rendendolo intercambiabile con i servizi cloud in pochi minuti. Per gli utenti AMD, è la risposta più concreta dopo anni di ecosistema locale dominato da CUDA e NVIDIA.
Perché AMD Lemonade è Diverso da Ollama e LM Studio
AMD Lemonade è un server LLM locale open source progettato per sfruttare l’intero stack hardware AMD — GPU Radeon, CPU Ryzen e NPU XDNA 2 — attraverso un’unica API unificata compatibile OpenAI.
La differenza fondamentale rispetto a Ollama e LM Studio sta nel punto di partenza: quei tool sono stati costruiti pensando prevalentemente all’ecosistema NVIDIA/CUDA. Lemonade nasce con AMD come target primario, il che si traduce in ottimizzazioni native per ROCm (il runtime GPU AMD), Vulkan come backend cross-platform e — aspetto unico nel panorama open source — supporto all’NPU integrata nei Ryzen AI 300 series.
Il risultato pratico: un servizio da 2MB scritto in C++ che si installa in minuti, configura automaticamente il backend hardware ottimale per il sistema corrente ed espone un endpoint OpenAI-compatibile. Qualsiasi applicazione che già parla con l’API OpenAI può essere reindirizzata su Lemonade cambiando una sola riga — il base_url.
Per comprendere il contesto più ampio dell’ottimizzazione per l’inferenza locale, vale la pena leggere la nostra analisi su TurboQuant di Google per la compressione KV cache degli LLM: una tecnologia che riduce drasticamente i requisiti di memoria per i modelli, perfettamente complementare a un server locale come Lemonade.
Architettura Tecnica: NPU + GPU in Modalità Ibrida
L’elemento tecnico più rilevante di Lemonade è la modalità ibrida disponibile su Ryzen AI 300 series (Strix Point e Strix Halo): l’NPU XDNA 2 gestisce la fase di prefill — l’elaborazione del prompt in ingresso — mentre la GPU integrata si occupa della token generation, ovvero la produzione della risposta token per token. I due componenti lavorano in pipeline, ottimizzando sia il throughput che l’efficienza energetica.
Su hardware senza NPU, Lemonade degrada in modo trasparente: utilizza ROCm per le GPU AMD dedicate, Vulkan come fallback cross-platform oppure la CPU. Questa selezione automatica del backend elimina la necessità di configurare manualmente driver e flag di compilazione — l’ostacolo principale che ha storicamente scoraggiato gli utenti AMD dall’usare llama.cpp o framework equivalenti.
Il codice è distribuito sotto licenza Apache 2.0, che consente l’utilizzo libero anche in contesti commerciali senza royalty.
Quando si eseguono modelli di grandi dimensioni su RAM limitata, la gestione efficiente della memoria virtuale diventa critica. La nostra guida su zswap vs zram su Linux analizza le strategie per ottimizzare la gestione della RAM — un aspetto direttamente rilevante per chi esegue LLM in locale su sistemi Linux.
Modelli Supportati e Compatibilità Hardware
Lemonade supporta modelli nei formati GGUF, FLM e ONNX. I modelli disponibili nell’ecosistema ufficiale coprono le principali famiglie open weight:
| Famiglia | Esempi verificati |
|---|---|
| Meta LLaMA | LLaMA 3.2 (anche Instruct-Hybrid per NPU), LLaMA 3.1 |
| Google Gemma | Gemma 4 E2B, Gemma 4 E4B |
| Alibaba Qwen | Qwen 2.5 (quantizzato AMD, ONNX hybrid) |
| Microsoft Phi | Phi-3, Phi-4 |
| DeepSeek | DeepSeek-R1 |
Per la modalità multimodale, lo stesso server gestisce senza tool aggiuntivi:
- Image generation: SDXL-Turbo (
lemonade run SDXL-Turbo) - Speech-to-text: Whisper Large v3 Turbo (
lemonade run Whisper-Large-v3-Turbo) - Text-to-speech: Kokoro v1 (
lemonade run kokoro-v1)
I requisiti hardware variano per modello. La documentazione ufficiale consiglia di verificare sulla scheda Hugging Face il peso effettivo del file e aggiungere 2-4 GB di overhead per KV cache, attivazioni e memoria runtime. Su sistemi Ryzen AI Strix Halo con RAM unificata fino a 128 GB, è possibile eseguire modelli molto più grandi rispetto a una configurazione desktop tradizionale.
Supporto piattaforme: Windows (stabile), Linux (stabile), macOS (beta, Apple Silicon con Metal), Docker.
Integrazioni: da VS Code a Open WebUI
La compatibilità con l’API OpenAI non è un dettaglio marginale: è la strategia di adozione. Qualsiasi tool che già usa il client OpenAI funziona con Lemonade cambiando solo il base_url. Il team ha già validato le integrazioni con:
- VS Code + GitHub Copilot — completamento del codice interamente in locale
- Continue — assistant AI per IDE, supporta Claude, GPT e modelli locali
- Open WebUI — interfaccia web self-hosted per chat con LLM
- n8n — automazione workflow con nodi AI
- Morphik — orchestrazione agenti locali
L’app desktop inclusa nella distribuzione funge da pannello di controllo centrale: gestisce il download dei modelli tramite un Model Manager visuale, espone interfacce integrate per chat, image gen e speech, monitora lo stato del server in tempo reale. Non sono richieste competenze tecniche avanzate per l’uso base.
AMD Lemonade vs Ollama: Confronto Onesto
| Caratteristica | AMD Lemonade | Ollama |
|---|---|---|
| Target hardware | AMD nativo (GPU, NPU, CPU) | NVIDIA/CPU first, AMD parziale |
| NPU support | ✓ Ryzen AI 300 (XDNA 2) | ✗ Non supportato |
| API standard | OpenAI-compatible | OpenAI-compatible |
| Modalità | Testo, immagini, voce | Testo (immagini parziale) |
| Peso servizio | ~2MB (C++) | ~150MB (Go) |
| Licenza | Apache 2.0 | MIT |
| macOS | Beta (Apple Silicon) | Sì (stabile) |
Ollama rimane la scelta più consolidata per chi usa hardware NVIDIA o macOS. Lemonade è la scelta naturale per chi ha hardware AMD — specialmente Ryzen AI 300 series — e vuole sfruttare l’NPU senza compromessi o configurazioni manuali. Su macchine AMD senza NPU, il confronto è più bilanciato: Lemonade offre ottimizzazioni ROCm native, Ollama una community più ampia e un maggior numero di modelli preconfigurati.
Come Installare AMD Lemonade in 3 Minuti
L’installazione di Lemonade è progettata per essere il meno frammentata possibile: un singolo installer che configura l’intero stack, dal runtime al Model Manager.
- Download installer — Visita lemonade-server.ai e scarica l’installer per il tuo sistema operativo (Windows, Linux, macOS beta, Docker).
- Selezione modelli — Durante l’installazione, il Model Manager mostra i modelli compatibili con il tuo hardware. Seleziona e avvia il download direttamente da Hugging Face Hub.
- Avvio del server — Usa il collegamento desktop o il comando CLI
lemonade serve. Il server è disponibile suhttp://localhost:13305/api/v1. - Configura le tue app — Modifica il
base_urlin qualsiasi client OpenAI-compatibile:from openai import OpenAI client = OpenAI( base_url="http://localhost:13305/api/v1", api_key="lemonade" ) response = client.chat.completions.create( model="Llama-3.2-1B-Instruct-Hybrid", messages=[{"role": "user", "content": "Ciao!"}] ) print(response.choices[0].message.content) - Modalità Turbo NPU (solo Ryzen AI 300 series su Windows):
cd C:\Windows\System32\AMD .\xrt-smi configure --pmode turbo
🎬 Vuoi approfondire AMD Lemonade?
Ho analizzato questo tool in un video dedicato su YouTube @tuttelevitediunmaker, con installazione live, benchmark comparativo con Ollama e configurazione step-by-step dell’integrazione VS Code + Copilot. Se vuoi supportare questo progetto e accedere a contenuti esclusivi sull’AI locale e la cybersecurity, trovi tutto su Patreon.
👉 YouTube @tuttelevitediunmaker | Patreon
#tuttelevitediunmaker
FAQ — Domande Frequenti su AMD Lemonade
Cos’è AMD Lemonade e a cosa serve concretamente?
AMD Lemonade è un server LLM open source (Apache 2.0) che permette di eseguire modelli di intelligenza artificiale direttamente sul proprio PC, usando GPU, NPU e CPU AMD senza dipendere da servizi cloud. Espone un’API compatibile con lo standard OpenAI su localhost:13305, consentendo di integrarlo in qualsiasi applicazione già configurata per i servizi AI OpenAI senza modificare il codice.
AMD Lemonade funziona su PC senza GPU AMD dedicata?
Sì. Lemonade rileva automaticamente l’hardware disponibile e sceglie il backend ottimale: NPU + GPU integrata in modalità ibrida su Ryzen AI 300 series, ROCm per GPU AMD dedicate, Vulkan come fallback cross-platform, oppure la sola CPU. Le prestazioni variano in base all’hardware, ma il tool rimane funzionale anche su configurazioni base senza GPU dedicata.
Qual è la differenza principale tra AMD Lemonade e Ollama nel 2026?
La differenza principale è il supporto nativo all’NPU AMD. Lemonade è l’unico server LLM open source compatibile OpenAI che accelera l’inferenza attraverso l’NPU XDNA 2 dei Ryzen AI 300 series, suddividendo il carico tra NPU (prefill) e GPU (token generation). Ollama non offre supporto NPU e ha ottimizzazioni AMD meno profonde, ma vanta una community più matura e un ecosistema di modelli più ampio.
AMD Lemonade supporta la generazione di immagini e la sintesi vocale?
Sì. Oltre ai modelli di linguaggio, Lemonade gestisce dalla stessa installazione: generazione immagini con SDXL-Turbo, trascrizione audio con Whisper Large v3 Turbo e sintesi vocale con Kokoro v1. Tutti e tre i modelli si avviano da CLI con un singolo comando.
Come si integra AMD Lemonade con VS Code e GitHub Copilot?
Grazie alla compatibilità OpenAI, è sufficiente configurare http://localhost:13305/api/v1 come base URL nelle impostazioni del provider AI di VS Code o dell’estensione GitHub Copilot. Il team AMD ha già validato questa integrazione ufficialmente. Nessuna modifica al codice dell’applicazione è richiesta.
Conclusione
AMD Lemonade rappresenta un cambio di paradigma concreto per l’ecosistema AI locale su hardware AMD. Non è un proof-of-concept: è un tool funzionale con integrazioni già validate, una licenza Apache 2.0 senza vincoli commerciali e un’architettura che sfrutta davvero l’NPU — un componente hardware che NVIDIA, per definizione strutturale, non può offrire nei laptop consumer. La vera sfida nel lungo periodo sarà costruire una community abbastanza solida e un catalogo di modelli preconfigurati abbastanza ampio da reggere il confronto con Ollama.
La corsa all’AI locale è appena diventata interessante anche per chi ha scelto AMD. Stai già eseguendo LLM in locale? Hai intenzione di provare Lemonade sul tuo Ryzen AI? Lasciami un commento — voglio capire com’è distribuito l’hardware nella community.
#tuttelevitediunmaker
✍️ tuttelevitediunmaker
Professionista IT | Specialista AI & Cybersecurity | Creator YouTube
Professionista IT con oltre un decennio di esperienza nel settore energetico e delle utility, specializzato in intelligenza artificiale applicata, cybersecurity e sistemi embedded. Creator del canale YouTube @tuttelevitediunmaker, dove la tecnologia complessa diventa analisi accessibile e verificabile per una community tecnica italiana in continua crescita.

