Come distribuire un LLM locale senza compromettere lo storage o le app

Eva Wong

IceWhale author

Eva Wong è la Technical Writer e smanettatrice residente di ZimaSpace. Una geek da sempre con una passione per homelab e software open-source, si specializza nel tradurre concetti tecnici complessi in guide accessibili e pratiche. Eva crede che l'auto-ospitare debba essere divertente, non intimidatorio. Attraverso i suoi tutorial, dà potere alla comunità di demistificare le configurazioni hardware, dalla costruzione del loro primo NAS al dominio dei container Docker.

How to Deploy a Local LLM Without Breaking Storage or Apps - Zima Store Online

Distribuire un LLM locale su un NAS domestico non è difficile perché il primo comando sia complicato. È difficile perché modello, cache, container, server API e lavori in background competono tutti per le stesse risorse di storage e sistema che il tuo NAS usa già per file, backup, media, database e app.

L'obiettivo più sicuro non è rendere l'LLM il più veloce possibile dal primo giorno. L'obiettivo più sicuro è dargli un percorso di archiviazione noto, confini rigidi di risorse, parallelismo limitato e una routine di verifica. Un modello locale leggermente più lento è di solito meglio di uno veloce che riempie il disco di sistema, causa pressione sulla memoria o rende inaffidabili altre app self-hosted.

Sintesi rapida: Dai all'LLM il suo spazio e i suoi limiti

Un LLM locale dovrebbe avere il suo spazio prima di avere il primo modello. Ciò significa che dovresti sapere dove vivranno i file del modello, cache, indici, log e dati dell'app prima di eseguire un pull del modello o collegare una WebUI. Se quei file finiscono in un percorso Docker nascosto o su un piccolo disco di avvio, l'implementazione può sembrare riuscita mentre consuma silenziosamente spazio necessario al NAS stesso.

Serve anche impostare limiti. I runtime LLM possono usare molta RAM, VRAM, thread CPU e memoria di contesto, specialmente quando sono abilitati più modelli o richieste parallele. I vincoli di risorse di Docker spiegano che altrimenti i container possono usare le risorse dell'host come consentito dal kernel scheduler, e la pressione sulla memoria può causare comportamenti out-of-memory che influenzano altri processi.

Per un NAS condiviso, questo conta più dei numeri di benchmark massimi. Plex, Jellyfin, Home Assistant, database, lavori di sincronizzazione, backup e condivisione file non devono diventare instabili perché un server modello sta cercando di rispondere a un prompt lungo. Un'implementazione sicura di un LLM locale inizia con la mappatura dello storage, i limiti di risorse, la scelta del modello e la verifica.

Cosa confermare prima di scaricare il primo modello

Prima di scaricare il primo modello, definisci il primo compito. Un LLM locale usato per chat leggere ha requisiti diversi rispetto a un assistente RAG, un lavoratore di embedding, un aiuto per la programmazione o un agente di automazione che può leggere e scrivere file. Se non definisci prima il caso d'uso, è facile scaricare un modello troppo grande, troppo lento o troppo invasivo per il server.

Inizia con questi controlli:

Caso d'uso: chat, RAG, embedding, sintesi, automazione, programmazione o assistenza alla ricerca.
Dimensione modello: quanto è grande il file modello e se manterrai più varianti.
Quantizzazione: se il modello è sufficientemente compresso per il server.
Percorso di archiviazione: dove risiederanno i file modello e la cache sull’host.
Percorso container: come il percorso host si mappa nel container.
RAM e VRAM: quanta memoria rimane per altre app.
Capacità CPU residua: quanti thread il modello può usare senza privare il NAS.
Parallelismo: quante richieste o modelli caricati possono funzionare contemporaneamente.
Carico di lavoro esistente: backup, streaming multimediale, database, sincronizzazione e condivisione file.
Piano di verifica: come dimostrerai che il NAS è ancora sano dopo.

Questo passaggio preliminare non è un lavoro inutile. Previene il problema più comune nel deployment locale di LLM su un NAS: il modello risponde, ma il sistema circostante diventa meno affidabile.

Tieni i File Modello Fuori dall’Unità di Sistema

I file modello possono crescere più rapidamente del previsto. Un singolo modello può essere gestibile, ma più modelli, varianti di quantizzazione, embeddings, indici, dati WebUI e log possono rapidamente raggiungere decine o centinaia di gigabyte. Se questi file finiscono sull’unità di sistema o nella root di Docker, il NAS può esaurire lo spazio critico anche quando il pool di archiviazione principale sembra ancora sano.

La FAQ di Ollama elenca le posizioni predefinite dei modelli per diversi sistemi operativi e spiega che la directory di archiviazione modelli può essere modificata con la variabile d’ambiente OLLAMA_MODELS. Su un NAS o server domestico, questo dettaglio è importante perché il percorso predefinito potrebbe non essere il luogo dove vuoi conservare i file modello a lungo termine.

Se esegui Ollama o un altro esecutore di modelli in Docker, ricorda che un percorso del container non è lo stesso di un percorso host. Una directory come /root/.ollama all’interno del container deve essere mappata a una posizione specifica sull’host se vuoi uno storage prevedibile. Senza una mappatura di volume, i file modello potrebbero rimanere all’interno dello storage gestito da Docker, rendendo più difficile vedere la crescita e più complicata la pulizia.

Un approccio più sicuro è creare una directory modello dedicata prima del deployment, come una cartella di archiviazione AI su un pool di dati o un volume di archiviazione app. Tienila separata da destinazioni di backup, database critici e dati app irrinunciabili. La directory modello dovrebbe essere abbastanza grande, facile da ispezionare e documentata in modo da poter eliminare i modelli vecchi in seguito.

Decidi anche dove risiederanno i file correlati. Gli indici RAG, gli embeddings, i database vettoriali, i log e i documenti caricati possono diventare consumatori separati di spazio di archiviazione. Se pianifichi solo il file del modello, il resto dello stack AI può comunque sorprenderti.

Imposta limiti di Memoria, CPU e Parallelismo

Limiti di Memoria

I LLM locali richiedono molta memoria. Hanno bisogno di memoria per i pesi del modello, il contesto, l'overhead di runtime e talvolta più modelli caricati. Se il server esegue anche database, servizi multimediali, sincronizzazione file, container e backup, il LLM non dovrebbe poter consumare tutta la memoria disponibile.

Docker supporta limiti di memoria per i container che possono impedire a un container di prendere il controllo dell'host. Per un NAS condiviso, questo serve meno a rendere il modello più veloce e più a proteggere il resto del sistema. Se il container LLM raggiunge il proprio limite, di solito è meglio che lasciare che l'intero server entri in pressione di memoria.

Lascia spazio per i servizi core. Se il NAS ha 32GB di RAM e le app normali usano da 8GB a 12GB durante i periodi di attività intensa, non assegnare il resto al LLM. Lascia spazio per la cache del filesystem, i backup, i database e i picchi brevi. Un modello che funziona solo quando non gira nient'altro non è una scelta sicura per un server domestico condiviso.

Anche la VRAM è importante quando è coinvolta l'inferenza GPU. Le FAQ di Ollama spiegano che l'inferenza CPU usa la memoria di sistema, mentre l'inferenza GPU usa la VRAM, e che il caricamento simultaneo di modelli dipende dalla memoria o VRAM disponibile. Ciò significa che una GPU può aiutare molto, ma non elimina la necessità di un piano di memoria.

Limiti CPU

I limiti CPU proteggono la reattività. Un LLM locale può usare molti thread durante l'elaborazione del prompt o la generazione di token. Se satura la CPU, la dashboard del NAS può rallentare, i flussi multimediali possono bufferizzare, le automazioni possono ritardare e i database rispondere lentamente.

Docker fornisce controlli CPU come --cpus, --cpu-quota, e --cpuset-cpusNon sempre sono necessari limiti aggressivi, ma dovresti decidere quanta CPU il LLM può utilizzare durante l'attività normale del NAS. Un modello che impiega un po' più tempo a rispondere lasciando il server reattivo è solitamente una scelta migliore di uno che consuma ogni thread.

L'inferenza solo CPU è particolarmente sensibile ai limiti. Senza una GPU o NPU, il LLM compete direttamente con ogni altro servizio vincolato alla CPU. Se il NAS gestisce già la transcodifica dei media, l'indicizzazione, la compressione, i backup o i database, il LLM non dovrebbe funzionare senza restrizioni durante le ore di punta.

Numero di modelli e richieste parallele

Il parallelismo è facile da trascurare. Un singolo modello che risponde a un singolo prompt può andare bene. Molti utenti, un WebUI, un flusso di lavoro di automazione e uno strumento RAG possono rapidamente creare richieste sovrapposte. Ogni richiesta può aggiungere memoria di contesto e carico CPU.

La FAQ di Ollama descrive richieste parallele e il comportamento dei modelli caricati, inclusi parametri come OLLAMA_MAX_LOADED_MODELS, OLLAMA_NUM_PARALLEL e OLLAMA_MAX_QUEUE. Questi parametri sono importanti su un NAS perché la concorrenza può trasformare un deployment stabile per un singolo utente in un picco di risorse.

Per un server domestico condiviso, inizia con limiti conservativi. Un modello caricato e una richiesta attiva sono una base più sicura. Aumenta solo dopo aver confermato che lo storage, la memoria, la CPU e altri servizi rimangono stabili.

Scegli un modello che corrisponda al server, non all'hype

Il modello giusto da scegliere per primo non è il modello più grande che puoi scaricare. È il modello più piccolo che può completare il lavoro con qualità accettabile. Su un NAS, la scelta del modello fa parte della protezione del sistema.

I modelli quantizzati sono spesso il punto di partenza pratico. llama.cpp documenta come i modelli quantizzati riducono la precisione del peso del modello, ad esempio convertendo file modello GGUF ad alta precisione in formati più piccoli. Questo può ridurre la dimensione del modello e migliorare l'inferenza pratica, ma può anche comportare compromessi di qualità.

Questo compromesso è solitamente accettabile per molti casi d'uso NAS domestici: chat semplice, sintesi, embedding, assistenza RAG, organizzazione file e piccoli aiuti di automazione. È meno accettabile se il compito richiede ragionamento profondo, contesto lungo, prestazioni multi-utente o alta precisione nella codifica.

Usa la condizione del server come punto di partenza:

Condizione del server	Punto di partenza più sicuro	Evitare il primo
8GB–16GB RAM, solo CPU	Modello quantizzato piccolo, embedding, chat leggera	Modelli grandi, contesto lungo, utenti multipli
16GB–32GB RAM, iGPU / NPU	Chat piccola, RAG, assistente di ricerca	Generazione di immagini, assistente di codifica pesante
GPU con VRAM sufficiente	Modello più grande o inferenza più veloce	Stacking illimitato di modelli
NAS condiviso con molte app	Lavori AI programmati, un modello, un utente	Inferenza pesante sempre attiva
NAS più macchina GPU separata	Il NAS memorizza i dati; la macchina AI esegue l'inferenza	Forzare tutto il calcolo sul NAS

Un deployment sicuro inizia in piccolo perché ti dà una base stabile. Dopo puoi testare un modello più grande, un contesto più lungo o un'integrazione WebUI. Se il sistema diventa lento, sai quale cambiamento ha causato il problema.

Tieni il LLM lontano da app critiche e backup

Un LLM locale non dovrebbe condividere i confini di fallimento con i servizi da cui dipendi di più. Se lo storage dei modelli AI, i backup, i database delle app e i file temporanei vivono tutti nello stesso luogo mal pianificato, un carico di lavoro può creare problemi per gli altri.

Tieni il cache dei modelli e i dati temporanei AI lontani dalle destinazioni di backup. Una directory di modelli è solitamente riproducibile; un repository di backup no. Riempire una destinazione di backup con file di modelli o dati temporanei AI può causare backup mancati, sincronizzazioni fallite o punti di ripristino confusi.

Mantieni separate le banche dati delle app quando possibile. Home Assistant, media server, librerie fotografiche, gestori di password e altre app self-hosted possono dipendere da piccoli database che non gradiscono pressioni improvvise di I/O o poco spazio su disco. Non lasciare che un grande download di modelli o un lavoro di indicizzazione RAG occupi la stessa area di storage senza pianificazione.

Considera anche il tempo. Se i backup vengono eseguiti di notte, non programmare indicizzazioni pesanti nella stessa finestra. Se lo streaming multimediale avviene di sera, non eseguire inferenze a lungo contesto solo CPU in quel momento. Un NAS spesso ha capacità sufficiente per più lavori, ma non tutti ai loro picchi.

Per i flussi di lavoro LLM che possono scrivere file o chiamare strumenti, aggiungi barriere di sicurezza. Usa percorsi sandbox, passaggi di conferma e log. Lascia che il modello suggerisca azioni, ma usa codice deterministico o conferma utente per scritture, cancellazioni, spostamenti e modifiche alle app. Un deployment LLM sicuro protegge non solo le risorse di sistema, ma anche i dati che può toccare.

Segnali di avvertimento che il LLM sta sottraendo risorse ad altri servizi

Un deployment difettoso non fallisce sempre immediatamente. Spesso crea sintomi che all'inizio sembrano non correlati.

Un segnale di avvertimento è una crescita improvvisa del disco. Se l'unità di sistema, la root di Docker o lo storage delle app crescono rapidamente dopo aver scaricato modelli, il percorso del modello potrebbe non essere mappato dove ti aspettavi. Controlla il percorso reale dell'host, non solo quello del container.

I riavvii dei container sono un altro segnale. Se il container LLM, il database, Home Assistant, il media server o la WebUI continuano a riavviarsi, controlla la pressione sulla memoria, i log OOM e la saturazione della CPU. Il LLM potrebbe restare attivo mentre altri servizi perdono risorse.

Anche una dashboard NAS lenta è importante. Se l'interfaccia web diventa lenta durante i prompt, il LLM locale potrebbe utilizzare troppi thread CPU, troppa memoria o troppe operazioni di I/O su disco. Il fatto che il modello risponda correttamente non significa che il deployment sia sano.

Il buffering dei media, le automazioni ritardate, le condivisioni di file lente e le finestre di backup mancate sono segnali più forti. Questi sono compiti fondamentali del NAS. Se peggiorano dopo la distribuzione del LLM, il LLM necessita di un modello più piccolo, limiti più rigidi, una migliore pianificazione o un host di calcolo separato.

Monitora anche il comportamento API. Se l'API LLM si blocca, si mette in coda indefinitamente o diventa inaffidabile quando si collega una WebUI, uno strumento RAG o un sistema di automazione, il parallelismo potrebbe essere troppo alto per il server. Limita i modelli caricati, le richieste attive e la lunghezza della coda prima di aggiungere altre integrazioni.

Un ordine di distribuzione più sicuro per LLM locale su NAS

Non iniziare installando tutti gli strumenti AI contemporaneamente. Parti con un solo servizio LLM locale, un modello, un percorso di storage e un caso d'uso di test. Questo rende la distribuzione più facile da comprendere e più sicura da debug.

Un ordine di distribuzione più sicuro è il seguente:

Scegli un caso d'uso, come chat leggera, embedding o test RAG.
Scegli il modello più piccolo che possa svolgere il lavoro.
Crea una directory modello dedicata in un percorso di storage noto.
Mappa quella directory nel container o configura il runner per usarla.
Imposta limiti di memoria e CPU.
Limita le richieste parallele e i modelli caricati.
Inizia con un prompt di test o un piccolo indice RAG.
Monitora disco, RAM, CPU, GPU, log e tempi di risposta durante l'esecuzione.
Conferma che le app e i backup esistenti si comportino ancora normalmente.
Solo allora aggiungi integrazioni come Open WebUI, strumenti RAG o flussi di automazione.

Questo ordine può sembrare più lento di una guida rapida all'installazione, ma riduce le sorprese. Se qualcosa si rompe, saprai se il problema deriva dal modello, dal percorso, dai limiti di risorse, dalla WebUI, dall'indice RAG o da un'altra integrazione.

Come verificare che storage e app siano ancora sicuri

La verifica non dovrebbe fermarsi a “il modello ha risposto.” Un LLM locale può rispondere a un prompt mentre riempie il disco sbagliato, sottrae risorse ad altri container o ritarda i backup.

Inizia con la verifica dello storage. Conferma che i file del modello siano stati salvati nel percorso host previsto. Controlla che l'unità di sistema abbia ancora spazio libero. Verifica che la root di Docker non sia cresciuta inaspettatamente. Conferma che cache del modello, log, indici e dati dell'app non siano mescolati con backup critici o database.

Poi controlla le risorse. La CPU dovrebbe tornare alla normalità dopo i prompt o l'indicizzazione. La memoria dovrebbe rimanere sotto il limite previsto. Lo swap non dovrebbe aumentare durante l'uso normale. Se l'inferenza GPU è abilitata, verifica che il modello usi effettivamente la GPU e che la pressione sulla VRAM sia accettabile.

Controlla la stabilità dell'app successivamente. Apri le condivisioni di file, trasmetti media, attiva un'automazione di Home Assistant, naviga nella dashboard del NAS e conferma che database o dashboard dell'app siano ancora reattivi. Se questi servizi rallentano solo mentre il LLM è attivo, sono necessari limiti più rigidi per CPU, memoria o pianificazione.

Controlla i log. Cerca cicli di riavvio, messaggi OOM, caricamenti modello falliti, errori di permessi, accesso GPU mancante, montaggi volume falliti e timeout API ripetuti. I log sono spesso il luogo dove una distribuzione “funzionante” rivela di essere a malapena stabile.

Infine, controlla il confine dell’endpoint. Se il server modello espone un’API, sapere dove è raggiungibile. Un endpoint LLM locale non dovrebbe diventare pubblico per errore. Mantienilo interno a meno che non sia stato intenzionalmente posizionato dietro autenticazione, regole di reverse proxy, accesso VPN o un altro confine controllato.

Come ZimaOS AI Search Mostra un Modello di Distribuzione AI Controllata

Un flusso di lavoro AI NAS controllato dovrebbe avere un percorso modello definito, requisiti di risorse, aspettative di runtime e un percorso di verifica. Non dovrebbe comportarsi come un servizio in background illimitato che scarica modelli, consuma tempo GPU e scrive dati ovunque voglia.

ZimaOS-AI è un esempio utile di questo schema controllato. La guida ZimaSpace per la ricerca AI spiega che il modulo è progettato per servire la ricerca di ZimaOS utilizzando un LLM locale per estrarre caratteristiche da immagini, audio e video. Questa impostazione è importante: il carico di lavoro AI supporta la ricerca e l’estrazione di caratteristiche piuttosto che trasformare il NAS in un server chat illimitato.

La stessa guida rende visibile il confine delle risorse. Descrive percorsi di installazione separati per sistemi con GPU discreta NVIDIA e sistemi con GPU integrata Intel. Il percorso NVIDIA dipende dal supporto GPU compatibile con CUDA, mentre il percorso GPU integrata Intel richiede almeno 8GB di RAM libera e raccomanda una CPU i5-1235U o superiore con grafica integrata. Elenca inoltre almeno 20GB di spazio di sistema libero e nota che i file del modello sono archiviati sotto /media/ZimaOS-HD/AppData/.models a meno che AppData non sia stato migrato.

Questo è il tipo di informazioni di cui una distribuzione sicura di LLM ha bisogno prima di iniziare. Un dispositivo cloud privato come ZimaCube 2 AI NAS può supportare flussi di lavoro AI locali più ricchi quando il percorso del modello, il supporto GPU o iGPU, la RAM, lo spazio di archiviazione e la pianificazione corrispondono al carico di lavoro. Ma la lezione importante è il confine, non il nome del marchio: sapere dove risiede il modello, quale percorso hardware utilizza e quando è autorizzato a consumare risorse.

I dettagli per la risoluzione dei problemi mostrano anche come appare la verifica dell'implementazione. Se la ricerca AI non restituisce risultati correlati all'AI, il modello potrebbe essere ancora in fase di download, l'estrazione delle caratteristiche potrebbe essere in corso, l'accesso a Hugging Face potrebbe non essere disponibile o la VRAM potrebbe essere troppo bassa e forzare il fallback su CPU/memoria. La guida indirizza inoltre gli utenti verso Call-History, il traffico di rete e journalctl -xef -u zimaos-ai per i controlli di stato.

Questo è un modello utile per qualsiasi implementazione locale di LLM su un NAS: definisci il percorso, definisci le risorse, controlla i log, conferma che la funzione funzioni effettivamente e programma le attività pesanti in modo che il NAS rimanga utilizzabile.

FAQ

Dove dovrei conservare i file modello LLM locali su un NAS?

Conserva i file del modello in una directory modello dedicata e documentata su un volume dati o una posizione di archiviazione app con spazio sufficiente. Evita che i modelli finiscano silenziosamente sull'unità di avvio, nella root di Docker o in una destinazione di backup. Il percorso dovrebbe essere facile da ispezionare, potare e migrare.

Dovrei eseguire Ollama direttamente o in Docker?

Entrambe le opzioni possono funzionare. Docker facilita l'isolamento e l'implementazione, ma devi mappare correttamente l'archiviazione del modello e impostare limiti di risorse. Un'installazione diretta può essere più semplice su alcuni sistemi, ma devi comunque confermare la directory del modello, i permessi, l'uso della memoria e i confini del servizio.

Quanta RAM dovrei riservare per le altre app?

Riserva abbastanza RAM per il sistema operativo del NAS, la cache del filesystem, i database, i servizi multimediali, i backup e i container normali prima di assegnare memoria al LLM. Non dimensionare il modello in base alla RAM totale. Dimensiona in base alla RAM disponibile dopo che i servizi core hanno margine.

Un LLM locale può compromettere gli altri container Docker?

Può interromperli se consuma troppa memoria, CPU, I/O disco o spazio di archiviazione. Potrebbe non "romperli" direttamente, ma può causare rallentamenti, cicli di riavvio, eventi OOM, finestre di backup perse o operazioni di database fallite se implementato senza limiti.

Quando dovrei spostare il LLM su una macchina separata?

Sposta il LLM su una macchina separata quando hai bisogno di modelli più grandi, contesti lunghi, più utenti, carichi di lavoro pesanti per la GPU o risposte rapide che rendono il NAS lento. In questa configurazione, il NAS può rimanere la fonte di archiviazione e dati mentre un desktop, mini PC o server AI con GPU gestisce l'inferenza.

Un'implementazione sicura di un LLM locale su un NAS inizia con confini, non con l'hype del modello. Assegna al modello un percorso noto, imposta limiti di risorse per il container, proteggi le app critiche e i backup, e verifica l'intero server dopo il primo prompt. L'implementazione ha successo solo quando il LLM funziona e il NAS continua a comportarsi come un NAS affidabile.