Dårlig data giver dyr AI, sådan opdager du det

Christoffer OhlsenChristoffer Ohlsen·
AI fejler sjældent alene. Ofte er det rod i data, duplikerede kunder og uklare felter i CRM, ERP, Excel og dokumenter, der gør svar, rapporter og automatiseringer usikre og dyre.

Her får du de tydeligste tegn på svag datakvalitet, hvorfor fejl vokser med AI, og hvordan du forbedrer dine vigtigste datakilder med datavask, validering og klart ejerskab uden at stoppe driften.
Datakvalitet i AI med rod i CRM og ERP data i en mindre virksomhed

Sådan kan du se at jeres data skaber problemer

Der er en klassisk misforståelse, som florerer i mange danske virksomheder lige nu. Man tror, at AI er dum, fordi svarene er forkerte. Men AI er ikke dum. Den er bare ærlig. Den giver dig præcis det tilbage, du har puttet ind. Og hvis det, der er puttet ind, er rod, så er outputtet også rod.

Det er det, man i fagkredse kalder "garbage in, garbage out". Et princip så gammelt som computere selv, men aldrig mere relevant end i dag, hvor kunstig intelligens er ved at finde vej ind i beslutningsprocesser, automatiseringer og rapportering i virksomheder overalt i Danmark.

Problemet er, at dårlig datakvalitet sjældent ser ud som et problem. Det gemmer sig i et CRM-system med 14 versioner af den samme kunde. Det gemmer sig i en kolonne i et regneark, som halvdelen af teamet kalder "omsætning" og den anden halvdel bruger til noget helt andet. Det gemmer sig i de systemer, der kørte fint i 2019, men aldrig rigtig er blevet ryddet op siden.

Først når man begynder at bygge AI og automatiseringer oven på disse systemer, begynder det at koste. Og det kan koste mere, end man regner med.

Kunder findes i flere versioner

Et af de mest udbredte tegn på dårlig datakvalitet i danske virksomheder er det, man kalder duplikerede data. Det lyder teknisk, men det er faktisk ganske enkelt: den samme kunde er registreret to, tre eller fem gange. Måske med lidt forskellig stavning. Måske med et gammelt telefonnummer på den ene og en forældet e-mail på den anden.

Når kunstig intelligens arbejder med disse data, ved den ikke, hvilken version der er den rigtige. Den slår op, finder tre resultater og gætter. Eller den behandler dem som tre separate kunder og giver dig et billede af din kundebase, der slet ikke stemmer overens med virkeligheden.

Det her er ikke et hypotetisk eksempel. Det sker i praksis i rigtig mange virksomheder, der har brugt et CRM-system i nogle år uden at have haft klare regler for, hvem der måtte oprette hvad, hvornår og hvordan. Resultatet er en kundeliste, der ligner en bunke kort, som aldrig er blevet sorteret ordentligt.

Det samme tal ser forskelligt ud i hvert system

Et andet klassisk varselstegn er, når det samme tal ser anderledes ud, afhængigt af hvilket system man kigger i. Salgschefen trækker en rapport fra CRM'et. Økonomi trækker den fra ERP-systemet. Og de to tal er ikke ens.

Måske skyldes det, at systemerne opdaterer på forskellige tidspunkter. Måske er der en manuel overførselsproces midt i, som af og til fejler. Måske er definitionen af "salg" ikke den samme i de to systemer. Uanset årsagen er konsekvensen den samme: ingen ved, hvad der er rigtigt.

Når man begynder at bruge AI til rapportering og beslutningsgrundlag i en virksomhed, er det ikke et system, der trækker tallene. Det er alle systemerne på én gang. Og hvis de giver modstridende svar, vil AI enten vælge det forkerte, gennemsnittet af de forkerte, eller en kombination, der er endnu mere misvisende.

Medarbejdere retter data manuelt hver uge

Det tredje tegn er måske det mest fortællende af alle. Hvis du har en medarbejder, der bruger tid hver uge på at rette de samme fejl i de samme felter, har du et datakvalitetsproblem. Ikke et medarbejderproblem. Et systemisk problem.

Denne form for manuel vedligeholdelse er et symptom på, at dataindtastningen ikke er bygget rigtigt. Der er ingen validering, ingen konsekvente regler, ingen automatisk kontrol af, om det der indtastes, giver mening. Og den eneste ting, der holder tingene kørende, er et menneske, der hver uge gøre oprydningsarbejde, som reelt burde være overflødigt.

Når AI kommer ind i billedet, er det ikke en løsning på dette problem. Det er tværtimod en forstærker. Fordi AI ikke ved, at disse felter er upålidelige. Den stoler blindt på det, den finder.

Hvorfor dårlig data rammer AI ekstra hårdt

Der er en god grund til, at datakvalitet er et endnu vigtigere emne nu, end det var for bare tre år siden. Tidligere var konsekvensen af fejl i data, at et menneske fik et forkert tal på skærmen og derefter, forhåbentlig, opdagede det og rettede det. Fejlen havde en naturlig bremse: menneskets kritiske blik.

Med kunstig intelligens og automatisering er den bremse borte. Nu kan en enkelt fejl i et datasæt sprede sig til hundredevis af beslutninger, e-mails, rapporter og kundeoplevelser, før nogen opdager, at noget er galt. Det er den fundamentale udfordring ved AI og data kvalitet, og det er grunden til, at datakvalitet ikke længere bare er et IT-anliggende. Det er et forretningskritisk spørgsmål.

AI gentager fejl i stor skala

Forestil dig, at jeres CRM indeholder en fejlagtig branchemarkering på 200 virksomheder. Tidligere ville en sælger måske støde på fem af dem på en måned og undre sig. Nu bruger I AI til at segmentere og sende automatiske e-mails. På tre dage har alle 200 modtaget en besked, der er fuldstændig skæv i forhold til deres faktiske branche.

Det er ikke AI'ens fejl i traditionel forstand. Den gjorde præcis, hvad den fik besked på. Den fulgte reglerne. Den behandlede data som sandheden. Problemet er, at sandheden var forkert. Og nu er problemet femti gange så stort, som det ville have været med manuelle processer.

Dette mønster ser man igen og igen i virksomheder, der ruller AI ud for hurtigt. Fejlene skalerer med teknologien. Og det er præcis, hvorfor dårlig data AI ikke bare er en lille irritation, men kan blive en reel forretningsrisiko, hvis man ikke tager det seriøst fra starten.

Ustruktureret data giver usikre svar

En anden udfordring handler ikke om forkerte data, men om ustrukturerede data. Mange virksomheder har enorme mængder viden liggende i e-mails, PDF-filer, Word-dokumenter og scannede kontrakter. Det er værdifuld information. Men det er information, der ikke er bygget op på en måde, som gør det let for kunstig intelligens at arbejde med.

Når man bygger en AI-assistent, der skal trække på intern viden fra sådanne dokumenter, sker der ofte det, at svarene bliver vage, usikre eller direkte forkerte. Ikke fordi modellen er svag, men fordi den arbejder med et grundlag, der er uklart, inkonsistent og uden tydelig struktur.

Det er her, begrebet RAG, altså Retrieval-Augmented Generation, kommer ind. Teknologien fungerer bedst, når de dokumenter, den trækker på, er ryddelige, velorganiserede og konsistente. Giver du den et kaos af halvfærdige notater og modstridende versioner, giver den dig et kaos af svar. Det er simpel logik, men det er en logik, der let overses, når fokus er på at komme hurtigt i gang.

De vigtigste datakilder før du bruger AI

Ingen virksomhed har perfekte data. Det er ikke målet. Målet er at forstå, hvilke datakilder der faktisk driver beslutningerne i jeres forretning, og sikre, at netop de er i en tilstand, der gør dem brugbare for kunstig intelligens. Det kræver et blik på de systemer, der typisk udgør rygraden i en dansk SMV.

Det handler ikke om at rense alt på én gang. Det handler om at identificere, hvor skaden er størst, og begynde der. Og for de fleste virksomheder begynder skaden i ganske bestemte steder.

CRM, ERP og e-mail skal tale samme sprog

CRM-systemet indeholder kundedata. ERP-systemet indeholder ordrer, lagerbeholdning og økonomi. E-mail indeholder kommunikation og aftaler. I mange virksomheder lever disse systemer i separate verdener, og der er ingen automatisk synkronisering, ingen fælles datamodel og ingen aftalt standard for, hvad et felt skal indeholde.

Når AI skal arbejde på tværs af disse systemer, skal den have et fælles sprog at navigere efter. Hvis et kundenummer ser forskelligt ud i CRM'et og i ERP'et, kan AI ikke koble de to poster sammen. Hvis et firmanavn er stavet med stort ét sted og lille et andet, behandles det som to forskellige firmaer.

CRM data kvalitet og ERP data kvalitet er ikke bare tekniske detaljer. De er fundamentet under enhver AI-implementation, der involverer kundedata, salgsdata eller driftsdata. Og det er næsten altid alle implementationer.

Dokumenter kræver struktur før de kan bruges

Hvis jeres vidensbase består af scannede dokumenter, PDF-kontrakter og PowerPoint-præsentationer uden nogen form for systematik, er det ikke data, det er arkiv. Og AI kan ikke arbejde effektivt med arkiv.

Første skridt er at afgøre, hvilke dokumenttyper der er vigtigst at gøre tilgængelige. Er det tilbud? Kontrakter? Tekniske specifikationer? Derefter handler det om at skabe en ensartet navngivning, en fast mappestruktur og en metadatamodel, så AI ved, hvad den kigger på og hvornår det er fra.

Det behøver ikke være et stort projekt. Det kan starte småt med de dokumenttyper, der bruges mest. Men det skal gøres, inden man bygger noget oven på dem. For at bygge videre på et ustruktureret dokumentarkiv er at bygge på sand.

Gamle Excel ark er ofte den skjulte bremse

Der er ét datasystem, som gemmer sig i næsten enhver dansk virksomhed, og som sjældent nævnes i diskussioner om AI-readiness: Excel-arket. Det ark, der startede som en midlertidig løsning. Det ark, som tre medarbejdere nu bruger. Det ark, som ingen rigtig ejer, men alle er afhængige af.

Excel-ark er farlige for AI af én helt grundlæggende årsag: de er menneskeskabte og menneskeopretholdne, og de har aldrig haft en datamodel. En kolonne kan hedde det samme, men indeholde tre vidt forskellige ting afhængigt af, hvem der sidst redigerede den. En celle kan indeholde et tal, en note og en farvemarkering, som samlet set udgør én information, men som AI ikke kan læse.

Dette gælder ikke kun Excel. Det gælder ethvert uformelt datasystem, der er vokset organisk over tid uden struktur og ejerskab. At rydde op i disse systemer, eller erstatte dem med noget mere struktureret, er en af de mest effektive ting, man kan gøre for at forberede sig på en AI-implementation.

Ejerskab af data skal være tydeligt

Et spørgsmål, der sjældent stilles, men altid bør stilles, er: hvem ejer dette datasæt? Hvem har ansvar for, at det er opdateret, korrekt og komplet?

I mange virksomheder er svaret: ingen. Data er noget, der bare eksisterer. Alle bruger det. Ingen vedligeholder det. Og det er præcis, hvordan man ender med gammel data, forkerte felter og modsatrettede oplysninger.

Datastyring, eller på engelsk data governance, handler om at give ejerskab. Det behøver ikke være en stor formel organisation. Det kan være en simpel aftale: salgsafdelingen ejer kundedata i CRM, økonomiafdelingen ejer fakturaer og betalingsdata i ERP. Med ejerskab følger ansvar. Med ansvar følger kvalitet.

Sådan forbedrer du datakvalitet uden at stoppe driften

Her er den gode nyhed: man behøver ikke sætte virksomheden på pause for at forbedre datakvaliteten. Man behøver ikke rulle et stort datarensningsprojekt ud, der tager seks måneder og kræver en ekstern konsulent. Faktisk er de mest holdbare forbedringer dem, der bygges direkte ind i den daglige arbejdsgang, stille og roligt, uden at forstyrre det, der allerede kører.

Det handler om prioritering og om at starte de rigtige steder. Ikke alle data er lige vigtige. Ikke alle fejl er lige dyre. Og det er der, man begynder.

Start med de felter der rammer flest beslutninger

Spørg dig selv: hvilke datafelter bruges faktisk til at træffe beslutninger? Hvilke felter indgår i rapporter, i segmentering, i automatiske e-mails eller i AI-baserede analyser? Det er dem, der skal have opmærksomhed først.

I de fleste virksomheder er det ganske få felter. Kundenavn, branche, status, omsætning, kontaktperson. Måske ti til femten felter i alt, der faktisk bruges aktivt. Begynder man med at sikre kvaliteten her, og definerer man klart, hvad hvert felt må og skal indeholde, har man allerede løftet fundamentet markant.

  • Definer feltregler: Hvad er det gyldige format? Hvilke værdier er tilladte?
  • Ryd op i eksisterende data: Kør en datavask på de vigtigste felter, og fjern duplikater.
  • Dokumenter reglerne: Skriv dem ned, så alle ved, hvad der gælder.
  • Sæt en ejer: Én person har ansvar for hvert kritisk felt eller datasæt.

Byg validering ind i arbejdsgangen

Den næste skridt er at gøre det svært at lave fejl. Det lyder simpelt, men det er faktisk det mest effektive forebyggende tiltag, man kan tage. Data validering handler om at bygge kontroller direkte ind i de systemer og formularer, som medarbejderne bruger til at indtaste data.

Det kan være en dropdown, der forhindrer fri tekstindtastning i et felt, der kun bør indeholde bestemte værdier. Det kan være en automatisk advarsel, hvis et nyt kundeopslag ligner en eksisterende post. Det kan være en regel i jeres CRM, der kræver, at et telefonnummer har det rigtige format, inden posten gemmes.

Disse små mekanismer lyder trivielle enkeltvis. Men tilsammen er de den mest holdbare måde at sikre, at datakvaliteten forbliver god over tid. For problemet med store rensningsprojekter er, at de løser det, der er galt nu. Valideringsregler forhindrer, at problemet opstår igen.

Kombinerer man data validering med automatisering, kan man gå endnu længere. Man kan bygge workflows, der automatisk flager poster med manglende data, sender en påmindelse til den ansvarlige, eller stopper en automatisering, hvis datagrundlaget ikke lever op til et minimumskrav. Det er, når data kvalitet AI faktisk begynder at fungere.

Hvornår er data god nok til kunstig intelligens

Dette er det spørgsmål, de fleste stiller, når jeg har forklaret, hvor vigtigt datakvalitet er. Og svaret er ikke et tal. Det er ikke en score på en skala fra et til ti. Det er et sæt af tre egenskaber, som tilsammen beskriver, hvornår data er klar til at bære en AI-implementation.

For det er ikke sådan, at man skal have perfekte data, inden man begynder. Det vil aldrig ske. Ingen virksomhed har nogensinde haft perfekte data. Men der er forskel på data, der er "noget rod, men brugbart", og data, der er "et minefelt af modsigelser".

God nok betyder stabil, forståelig og opdateret

De tre egenskaber, der afgør, om data er klar til AI, er ganske enkle at forstå:

Egenskab Hvad det betyder Hvad der sker uden det
Stabil Strukturen og felterne ændrer sig ikke hele tiden. Data er konsistent over tid. AI lærer mønstre, der er forældede, inden den er klar til brug.
Forståelig Felterne er klart definerede, og det er tydeligt, hvad de indeholder og hvad de betyder. AI fortolker forkert og giver svar, der er teknisk korrekte, men meningsforstyrrende.
Opdateret Data afspejler virkeligheden i dag, ikke som den var for to år siden. AI bygger beslutningsgrundlag på information, der ikke længere gælder.


Hvis jeres data er stabilt, forståeligt og opdateret, er I klar til at begynde. Ikke fordi der ikke er forbedringer at hente, men fordi AI kan arbejde meningsfuldt med det grundlag og give jer et pålidelig AI-beslutningsgrundlag, der faktisk rammer plet.

Hvis et eller flere af de tre mangler, er det ikke AI-platformen, der skal justeres. Det er fundamentet, der skal styrkes. Og det er faktisk den bedste investering, man kan gøre, inden man ruller kunstig intelligens ud i sin virksomhed. Ikke bare for AI'ens skyld, men for forretningens skyld generelt.

Dine data bestemmer, hvad din AI er værd

Denne artikel har taget dig igennem det, der ofte er den usynlige årsag til, at AI ikke leverer det forventede. Det er ikke modellerne, der er problemet. Det er det grundlag, de arbejder på.

Vi har set på, hvordan man opdager, at data skaber problemer: kunder i flere versioner, tal der ser forskelligt ud på tværs af systemer, og medarbejdere der bruger tid på manuel oprydning hver uge. Vi har kigget på, hvorfor dårlig datakvalitet rammer kunstig intelligens ekstra hårdt, fordi AI skalerer fejl hurtigere og bredere end noget menneske kan nå at stoppe.

Vi har gennemgået de vigtigste datakilder, CRM, ERP, dokumenter og Excel-ark, og understreget, at ejerskab af data ikke er en luksus men en nødvendighed. Og vi har set på, hvordan man forbedrer datakvalitet i danske virksomheder uden at stoppe driften, ved at starte med de felter der betyder mest og bygge validering direkte ind i arbejdsgangen.

Afslutningsvis er definitionen enkel: god nok data er stabil, forståelig og opdateret. Er det på plads, er fundamentet solidt. Er det ikke, er det der, indsatsen skal sættes ind, ikke i et nyt AI-abonnement.

Data rensning, datastyring og data validering er ikke de sexede dele af en AI-rejse. Men de er de vigtigste. Fordi uden dem er selv den bedste AI bare et dyrt ekko af jeres egne fejl.

Ofte stillede spørgsmål

Hvad er datakvalitet i AI?
Datakvalitet i AI handler om, at data er korrekt, komplet, ensartet og opdateret. Hvis kundedata, masterdata eller dokumenter er uklare, vil AI give usikre svar, skæve rapporter og et svagt beslutningsgrundlag.
Hvordan opdager man dårlig data i CRM og ERP?
De mest tydelige tegn er duplikerede data, manglende data, forkerte felter og forskellige tal i CRM og ERP. Hvis medarbejdere retter de samme fejl hver uge, eller rapporter ikke stemmer, er datakvaliteten for lav.
Hvorfor giver dårlig data AI svar der er forkerte?
AI behandler data som sandhed. Når kilderne indeholder fejl i data, gamle poster eller modstridende oplysninger, skalerer AI problemet hurtigt til segmentering, e mails, rapportering og automatisering.
Hvordan forbedrer man data kvalitet AI uden at stoppe driften?
Start med de felter, der bruges mest i rapporter, automatisering og kundeprocesser. Lav datavask, fjern duplikerede data, indfør data validering og sæt ejerskab på CRM data kvalitet og ERP data kvalitet.
Hvornår er data god nok til kunstig intelligens?
Data er god nok til kunstig intelligens, når den er stabil, forståelig og opdateret. Du behøver ikke perfekte data, men AI datakvalitet skal være høj nok til, at kritiske datakilder kan bruges sikkert i praksis.

Relaterede artikler