Hvornår giver selvhostet LLM mening for SMV
Det er ikke alle virksomheder der har brug for deres egen AI. Men når du som dansk SMV arbejder med følsomme data eller har brug for fuld kontrol over dine oplysninger, så giver selvhostet LLM pludselig rigtig god mening.
Konkret handler det om at få AI tæt på din forretning uden at skulle sende data til store amerikanske virksomheder. Din data bliver på dit eget udstyr eller i din egen cloud, og du bestemmer helt selv hvem der har adgang.
Brugsscenarier der batter i hverdagen
I praksis ser jeg størst værdi når SMV skal automatisere tekstbehandling eller kundekommunikation. Det kan være alt fra at sortere henvendelser til at skrive første udkast til tilbud og kontrakter.
- Analyse af kundeemails og kategorisering
- Automatisk udarbejdelse af mødereferater
- Kvalitetssikring af tekster og dokumenter
- Intern vidensdeling og FAQ besvarelse
- Oversættelse mellem dansk og andre sprog
Det smarte er at din AI lærer af dine egne data og processer. Den bliver derfor rigtig god til netop din forretning frem for at være generisk som ChatGPT.
Valg af model og hardware lokalt eller i cloud
Når du skal vælge mellem lokalt udstyr eller cloud, så handler det primært om hvor meget data du skal behandle og hvor ofte. Lokalt giver dig fuld kontrol men kræver investering i hardware.
Cloud hos europæiske udbydere som Hetzner giver dig fleksibilitet og kan skalere op og ned efter behov. Begge løsninger kan være GDPR compliant når de implementeres korrekt.
Llama Qwen og danske modeller
De mest populære open source modeller lige nu er Llama fra Meta og Qwen fra Alibaba. Begge findes i forskellige størrelser og har god dansk sprogforståelse efter træning.
Llama 3.1 i 8B versionen kører fint på mindre hardware mens 70B versionen kræver betydeligt mere kraft men giver også bedre resultater. Qwen modellerne er ofte lidt bedre til kode og struktureret data.
For danske virksomheder anbefaler jeg at starte med Llama 3.1 8B da den har god balance mellem ydeevne og ressourcekrav. Den kan køre på en GPU med 16GB VRAM eller endda CPU kun hvis hastighed ikke er kritisk.
GPU krav og driftsomkostning
Hardware valget afhænger helt af hvor mange samtidige brugere du skal have og hvor hurtigt AI’en skal svare. En RTX 4090 med 24GB kan sagtens køre en 8B model til mindre teams.
| Model størrelse | GPU krav | Samtidige brugere | Månedlig cloud pris |
|---|---|---|---|
| 7B-8B | 16GB VRAM | 5-10 | 800-1200 kr |
| 13B-15B | 24GB VRAM | 3-7 | 1500-2200 kr |
| 30B-35B | 48GB+ VRAM | 1-3 | 3000-4500 kr |
Driftsomkostningerne i cloud starter typisk omkring 800 kr om måneden for mindre opsætninger og kan skaleres op efter behov. Lokalt hardware har højere startomkostning men lavere løbende udgifter.
Datasikkerhed roller og kontrolspor
Når du håndterer følsomme data med din selvhostede LLM, så er sikkerhed ikke bare en teknisk detalje men kernen i hele løsningen. Det handler om at vide præcis hvem der gør hvad og hvornår.
Jeg implementerer altid sikkerhed i lag hvor hver bruger kun får adgang til det de skal bruge. Det betyder rollebaseret adgang hvor salgsteamet kun ser salgsdata og HR kun ser personalerelateret information.
SSO og adgangsstyring
Single Sign On integration med jeres eksisterende Microsoft 365 eller Google Workspace gør det nemt for medarbejderne. De logger ind med deres normale arbejdskonto og får automatisk de rette tilladelser.
Adgangsstyring handler også om at begrænse hvilke funktioner forskellige roller kan bruge. Måske kan alle læse AI svarene men kun ledere kan træne modellen med ny data eller ændre system indstillinger.
Logning og revision
Alle interaktioner med AI’en bliver logget med tidsstempel brugerinfo og selve samtalen. Det gør det muligt at spore beslutninger tilbage og dokumentere overfor myndigheder eller revisorer.
Logfilerne gemmes krypteret og kan eksporteres til jeres eksisterende backup systemer. Jeg sørger for at logs følger danske regler for dataopbevaring og automatisk slettes efter den krævede periode.
Arkitektur med RAG og vektorsøgning
RAG teknologi er det der gør din selvhostede AI rigtig smart til din specifikke forretning. I stedet for kun at trække på generel viden kan den søge i jeres egne dokumenter og systemer for at give præcise svar.
Teknisk fungerer det ved at konvertere al jeres tekst til vektorer som så kan søges igennem lynhurtigt. Når en medarbejder stiller et spørgsmål finder systemet relevante dokumenter først og bruger dem så som kontekst til AI’en.
Datakilder og opdatering
Jeres RAG system kan forbindes til næsten alle datakilder. Det kan være SharePoint dokumenter, CRM systemer, email arkiver eller endda PDF’er og regneark som I uploader manuelt.
- Automatisk synkronisering hver nat eller time
- Real time opdatering når kritiske dokumenter ændres
- Versioning så AI’en altid bruger nyeste information
- Filtrer på afdelinger eller projekter for relevant søgning
Opdateringsprocessen kører i baggrunden uden at påvirke den daglige brug. Nye dokumenter bliver automatisk indekseret og gamle versioner markeres som forældede.
Caching for hastighed
For at spare GPU ressourcer og give hurtigere svar implementerer jeg intelligent caching. Hvis to medarbejdere stiller det samme spørgsmål inden for kort tid får de det samme svar øjeblikkeligt.
Cache systemet lærer også af de mest stillede spørgsmål og pre genererer svar til common cases. Det betyder at de 80% mest typiske forespørgsler svarer på under et sekund.
Fra pilot til drift på få uger
Min tilgang er altid at starte småt og bevise værdien før vi scaler op. Vi begynder typisk med et pilotprojekt på 2-4 uger hvor vi fokuserer på ét konkret brugsscenarie som kan levere målbar værdi.
Piloten giver os mulighed for at teste teknisk setup, træne medarbejderne og finjustere AI’en til jeres specifikke behov. Samtidig får ledelsen konkrete tal på hvad løsningen kan levere i jeres organisation.
Målepunkter og forankring
Jeg definerer altid klare succeskriterier før vi går i gang. Det kan være tidsbesparelser på specifikke opgaver, højere kvalitet i kundesvar eller reduktion i manuel sagsbehandling.
During piloten måler vi dagligt på brugeradoption og teknisk performance. Efter 2 uger har vi typisk nok data til at beregne præcis ROI og planlægge den fulde udrulning til resten af organisationen.
Forankring hos medarbejderne sker gennem hands on træning og løbende support. De skal føle sig trygge ved teknologien og se den som en hjælp frem for en trussel mod deres job.
Fremtiden for selvhostet AI i danske SMV
Selvhostet LLM løsninger bliver kun bedre og billigere. Hardware priserne falder mens modellerne bliver mere effektive og præcise. Det betyder at flere danske SMV kan få glæde af AI uden at give afkald på datakontrol.
Med den rigtige implementering får I ikke bare en chatbot men en intelligent assistent der kender jeres forretning indefra. Den hjælper medarbejderne med at arbejde smartere mens I beholder fuld kontrol over følsomme data og overholder GDPR automatisk.
