AI vidensbase: find svar i mapper og gamle PDFer

Christoffer OhlsenChristoffer Ohlsen·
Træt af at spørge rundt for at finde en procedure, en kontrakt eller en gammel manual? Her får du et klart billede af, hvorfor intern viden ender gemt i mapper, mails og PDFer, selv når svaret allerede findes.

Artiklen forklarer, hvordan en AI vidensbase gør dokumenter søgbare med OCR, kilder og adgangsstyring, så medarbejdere hurtigere finder det rigtige svar uden at gætte eller afbryde kolleger.
AI vidensbase til intern søgning i mapper og PDF filer på kontor

Hvorfor intern viden forsvinder i hverdagen

Der er et mønster, som jeg ser igen og igen i danske virksomheder. En medarbejder skal bruge en bestemt procedure, en gammel kontrakt eller en intern retningslinje. Vedkommende ved, den eksisterer. Den er skrevet ned et eller andet sted. Men hvor?

Først bliver der spurgt en kollega. Kollegaen husker ikke helt, men sender en mail videre. Mailen indeholder et link til et drev, hvor der ligger en mappe med 40 filer, og ingen af dem hedder det rigtige. Til sidst giver medarbejderen op og spørger lederen. Lederen ved det heller ikke med sikkerhed, men finder noget fra 2019, der maaske er det rigtige.

Det her er ikke ineffektivitet. Det er spild af noget, der allerede eksisterer.

Videnssøgning i virksomheden er et undervurderet problem. De fleste tænker på det som et irritationsmoment, ikke som et system der aktivt koster tid, penge og koncentration. Men summen af alle disse afbrydelser, dobbeltsøgninger og usikre svar udgør en reel omkostning hver eneste uge.

Svar ligger i mapper, mails og gamle PDFer

Problemets kerne er ikke, at virksomheder mangler viden. Tværtimod. De fleste virksomheder med blot fem til ti ansatte har opbygget en enorm mængde intern viden over år. Procedurer er skrevet ned. Beslutninger er dokumenteret. Leverandøraftaler ligger et sted. Retningslinjer for alt fra ferieplanlægning til reklamationsbehandling er skrevet i et eller andet Word-dokument.

Problemet er, at denne viden er spredt, gemt og ikke søgbar. Den lever i:
  • Fildelingsløsninger som SharePoint, Google Drev eller Dropbox, ofte med rod i mappestrukturen
  • E-mailkæder, der er videresendt så mange gange, at den originale besked er begravet
  • Scannede PDFer fra leverandører, revisorer eller gamle systemer
  • Manualer og håndbøger, der sidst blev opdateret for tre år siden
  • Mødereferater gemt i mapper ingen husker at kigge i
Når viden ikke kan findes, bliver den skabt forfra. Det er dobbeltarbejde. Og det sker ikke fordi medarbejderne er uopmærksomme, men fordi strukturen ikke understøtter søgning. Det er præcis det problem en AI vidensbase er designet til at løse.

En intern vidensbase med kunstig intelligens ændrer ikke på, hvor filerne ligger. Den ændrer på, hvad der skal til for at finde dem og forstå dem. I stedet for at navigere i mapper stiller medarbejderen et spørgsmål på naturligt sprog og får et svar med kildeangivelse. Ikke en liste med 40 filnavne. Et svar.

Hvad en AI vidensbase faktisk skal kunne

Der er mange bud på, hvad en intern vidensbase med AI er. Nogle tænker på det som en avanceret søgemaskine. Andre som en intern chatbot. Begge dele er lidt rigtigt, men ingen af delene fanger det fulde billede.

En AI vidensbase er et system, der indekserer virksomhedens egne dokumenter og lader medarbejdere stille spørgsmål på naturligt sprog. Svaret formuleres ud fra det faktiske indhold i dokumenterne, ikke ud fra hvad en sprogmodel generelt ved om verden. Det er den afgørende forskel fra at bruge ChatGPT direkte.

Teknisk bygger det på noget, der hedder RAG, som står for Retrieval-Augmented Generation. Det betyder i praksis, at systemet henter de mest relevante passager fra virksomhedens egne filer og bruger dem som grundlag for svaret. Modellen opfinder ikke noget. Den sammenfatter og fortolker det, der rent faktisk er dokumenteret.

Men en god løsning kræver mere end blot at uploade filer og håbe på det bedste. Der er tre konkrete krav, som ethvert seriøst system skal leve op til.

Finde kilder og vise hvor svaret kommer fra

Når en medarbejder spørger systemet om virksomhedens returpolitik og får et svar, er det ikke nok at svaret er korrekt. Det skal også fremgå, hvorfra svaret kommer. Hvilken fil. Hvilket afsnit. Eventuelt hvilken dato dokumentet er fra.

Det er ikke en teknisk finesse. Det er tillid. Uden AI kildehenvisninger er svaret blot en påstand. Med kildehenvisninger kan medarbejderen med ét klik verificere, at oplysningen faktisk stammer fra den gældende version af politikken og ikke fra et forældet kladde-dokument.

Kildelinks er også afgørende, når svaret bruges i en vigtig sammenhæng som fx en klagesag, en leverandørforhandling eller en beslutning, der dokumenteres. Her er det ikke nok at huske, at AI sagde noget. Her skal man kunne pege på kilden.

I praksis bygger jeg altid kildevisning ind som en standardfunktion. Svaret vises med en eller flere referencer til de konkrete dokumenter, der er brugt. Det giver en langt bedre brugeroplevelse og reducerer tvivlen markant.

Respektere rettigheder til mapper og filer

En intern vidensbase med AI dokumenthåndtering må aldrig give alle adgang til alt. Det lyder indlysende, men det er et teknisk krav, der ofte overses i første omgang.

I de fleste virksomheder er der filer, som kun bestemte medarbejdere bør have adgang til. Lønsedler, kontrakter, fortrolige kundeaftaler, bestyrelsesdokumenter. Hvis AI-systemet indekserer alt og besvarer spørgsmål fra alle, er disse rettigheder reelt sat ud af kraft.

En velbygget løsning respekterer de adgangsrettigheder, der allerede er sat op i filsystemet. Bruger virksomheden SharePoint eller Google Drev, kan rettigheder arves direkte. I andre opsætninger defineres de manuelt pr. brugerrolle. Resultatet er, at en salgsmedarbejder kan søge i salgsmaterialer, mens HR-dokumenter kun returneres til dem med adgang.

Det her er ikke noget, man kan lægge til bagefter. Det skal være med fra starten, og det er én af de ting, jeg altid sikrer er på plads, inden et system tages i brug.

Forstå scannede dokumenter med OCR

Mange virksomheder har en stor del af deres viden i scannede dokumenter. Det kan være gamle kontrakter, leverandørdatablade, produktmanualer, forsikringsaftaler eller bogføringsbilag. Disse filer ser ud som PDFer, men indeholder ikke søgbar tekst. De er billeder af tekst.

For at AI-systemet kan bruge disse dokumenter, skal de først igennem OCR, som står for optisk tegngenkendelse. OCR-behandling omdanner billedtekst til maskinlæsbar tekst, som systemet efterfølgende kan indeksere og søge i.

Kvaliteten af OCR-resultatet afhænger af flere faktorer: scanningskvaliteten, skrifttypen i det originale dokument og om dokumentet indeholder tabeller, grafik eller håndskrift. Moderne OCR-løsninger er meget gode, men de er ikke perfekte. Lavkvalitetsscanninger eller håndskrevne noter er stadig en udfordring.

Det praktiske råd er at sikre, at dokumenter der scannes ind i fremtiden, skannes i tilstrækkelig opløsning, og at ældre vigtige dokumenter re-skannes hvis kvaliteten er ringe. OCR dokumenter er en forudsætning for at disse filer overhovedet kan bidrage til vidensbasen, og det er en del af opsætningsprocessen at sortere og behandle dem korrekt.

Hvilke data en AI vidensbase bør bygges på

En AI vidensbase er kun så god som det indhold, den er bygget på. Det er her, mange implementeringer fejler. Man kaster alt ind, og systemet bliver forvirret af forældet, modstridende eller ustruktureret materiale.

Den rigtige tilgang er at starte med det indhold, der faktisk benyttes i hverdagen, og som er relativt opdateret og autoritativt. Ikke alt hvad der nogensinde er skrevet i virksomheden. Det er bedre at have en vidensbase med 50 gode, relevante dokumenter end en med 2.000 filer, hvor halvdelen er forældet.

Ned nedenfor gennemgår jeg, hvilke dokumenttyper der typisk giver mest værdi, og hvilke der kræver lidt ekstra opmærksomhed.

Politikker, manualer og processer

Dette er rygraden i enhver medarbejder vidensbase. Dokumenter der beskriver, hvordan virksomheden fungerer. Hvad er politikken for ferie, sygdom og hjemmearbejde? Hvordan onboardes en ny medarbejder? Hvad er processen for at oprette en ny kunde i CRM-systemet? Hvordan håndteres en reklamation?

Disse dokumenter stiller typisk de samme spørgsmål, som medarbejdere beder om hjælp til at finde svar på. De er velegnet til en AI vidensbase, fordi:
  • De er skrevet med henblik på at kommunikere klart
  • De har en defineret ejerskabsperson, som kan opdatere dem
  • De ændrer sig ikke ukontrolleret over tid
  • De bruges aktivt af mange medarbejdere
Manualer til interne systemer, produktkataloger med tekniske specifikationer og leverandøraftaler hører også til i denne kategori. AI til intern søgning viser sig allerbedst her, fordi indholdet er præcist og besvarer konkrete spørgsmål med konkrete svar.

Mødereferater kræver ekstra oprydning

Mødereferater er interessante, fordi de rummer vigtige beslutninger og historisk kontekst. Hvornår blev det besluttet at skifte leverandør? Hvad var konklusionen på projektmødet i januar? Hvem er ansvarlig for hvad?

Men mødereferater er også fyldt med støj. Diskussioner der ikke førte nogen steder. Punkter der aldrig blev fulgt op. Navne på folk, der ikke længere arbejder i virksomheden. Og ofte er formateringen inkonsistent, da halvdelen er skrevet fra en mobiltelefon halvvejs under mødet.

Hvis mødereferater inkluderes i vidensbasen, anbefaler jeg to ting. Én, at de gennemgås og renses for irrelevant indhold inden indeksering. To, at de mærkes med en klar dato og et klart emne, så systemet kan fortælle brugeren, at dette svar stammer fra et referat fra marts 2024 og ikke er en gældende politik.

Det er ikke umuligt at arbejde med mødereferater. Det kræver bare lidt mere forarbejde end politikker og processdokumenter.

Sådan undgår du forkerte svar fra intern AI

Forkerte svar fra en intern AI er ikke bare irriterende. De er potentielt skadelige. En medarbejder der handler på et forkert svar om en procedure eller en retningslinje kan skabe fejl, som tager tid at rette op på. Tillid til systemet er alt, og tillid opbygges kun hvis svarene er troværdige.

Den gode nyhed er, at forkerte svar sjældent er tilfældige. De har typisk en konkret årsag, og langt de fleste kan forebygges med en bevidst tilgang til dataindhold og systemdesign.

Her er de to mest almindelige årsager til forkerte svar i en AI dokumenthåndtering kontekst.

Gamle filer og dubletter forvirrer modellen

Dette er den hyppigste årsag til unøjagtige svar. Virksomheder akkumulerer dokumenter over tid, og sjældent bliver de gamle versioner ryddet op. Resultatet er, at der findes tre versioner af samme personalehåndbog, to varianter af den samme kontraktskabelon og fire udgaver af onboarding-dokumentet, som er skrevet i fire forskellige år.

Når AI-systemet skal besvare et spørgsmål om fx medarbejderrettigheder, søger det i alle fire versioner og forsøger at sammenfatte dem. Resultatet kan være et svar, der blander elementer fra den nye og den gamle version og dermed er faktisk forkert.

Løsningen er simpel, men den kræver arbejde: ryd op, inden du indekserer. Beh old den nyeste version, arkivér eller fjern de ældre. Mærk dokumenter med dato og status, fx "gældende" eller "udgået". Det tager tid i opstarten, men det betaler sig mange gange igen i kvaliteten af svarene.

Jeg anbefaler altid at gennemgå dokumenterne med en simpel tabel, inden vidensbasen bygges:
Dokumenttype Antal versioner fundet Handling
Personalehåndbog 3 Behold nyeste, fjern resten
Onboarding-dokument 4 Flet til ét dokument, fjern resten
Kontraktskabelon 2 Behold gældende version, arkivér gammel
Leverandøraftaler 1 pr. leverandør Ingen ændring nødvendig

Sådan en simpel oprydning kan halvere antallet af forvirrende svar, inden systemet overhovedet går i luften.

Kildelinks gør svaret lettere at stole på

Jeg nævnte kildehenvisninger under det tekniske, men det fortjener et ekstra ord her i sammenhæng med troværdighed. For uanset hvor godt systemet er designet, vil der opstå situationer, hvor svaret ikke er 100 procent præcist. Det kan skyldes et forældet dokument, en tvetydig formulering eller et spørgsmål, der rammer et grænsetilfælde.

I de situationer er kildelinks det, der redder situationen. Fordi medarbejderen ikke bare modtager et svar og handler blindt på det. Medarbejderen ser, at svaret stammer fra personalehåndbogen fra 2023, åbner dokumentet og dobbelttjekker. Måske opdager vedkommende, at håndbogen faktisk er opdateret i en nyere version, som ikke er indekseret endnu.

Det er i virkeligheden en sund feedback-mekanisme. AI kildehenvisninger giver ikke bare tillid. De bygger en kultur op, hvor AI-assistenten bruges som et udgangspunkt for søgning, ikke som en ufejlbarlig kilde til sandhed. Den distinktion er vigtig i en virksomhedskontekst, og den er med til at sikre, at systemet bruges ansvarligt og med rette forventninger.

Kombinationen af opryddet indhold og synlige kildelinks er i praksis det, der adskiller en vidensbase, folk stoler på, fra en, der opgives efter to uger.

Hvornår en AI vidensbase giver reel værdi

Det er et fair og relevant spørgsmål: hvornår giver det egentlig mening at bygge en intern chatbot til virksomheden baseret på interne dokumenter? Det er ikke alle virksomheder, der har brug for det på samme tidspunkt, og det er vigtigt at have en ærlig samtale om, hvornår investeringen er reel og hvornår det er for tidligt.

Mit svar er, at en AI vidensbase giver mest mening, når en eller flere af disse situationer er genkendte i hverdagen:
  • Medarbejdere stiller de samme spørgsmål om procedurer og regler igen og igen
  • Onboarding af nye medarbejdere er tidskrævende, fordi viden skal forklares mundtligt
  • Vigtig viden sidder i hovederne på nøglepersoner og ikke i dokumenter
  • Søgning i mapper og drev er tidskrævende og giver usikre resultater
  • Der er mange scannede eller ældre dokumenter, ingen rigtig bruger fordi de er svære at søge i
Hvis ingen af ovenstående er genkendt, er det muligvis for tidligt. En vidensbase kræver vedligeholdelse, og hvis dokumentmassen er lille og overskuelig, kan en velstruktureret mappestruktur måske løse problemet billigere.

Når samme spørgsmål ikke afbryder dagen

Der er et konkret billede, jeg altid bruger, når jeg forklarer værdien. Forestil dig, at du er leder eller erfaren medarbejder. Tre gange om ugen afbryder en kollega dig for at spørge om noget, de i princippet selv kunne finde svaret på, hvis det var nemt at finde. Et spørgsmål tager tre minutter at besvare. Det er ni minutter om ugen. Det er seks timer om året. Per medarbejder.

I en virksomhed med ti medarbejdere, der alle afbryder hinanden bare halvt så tit, begynder det at blive til rigtig mange timer. Timer der bruges på at gentage viden, der allerede er dokumenteret.

Når en intern vidensbase fungerer godt, forsvinder de afbrydelser. Medarbejderen stiller spørgsmålet til systemet, får et svar med en kildehenvisning og er videre på under ét minut. Ingen afbrydelse. Ingen ventetid. Ingen usikkerhed om, om svaret er korrekt.

Det er ikke bare en tidsbesparelse. Det er en kvalitetsbesparelse. Viden leveres ensartet, opdateret og med reference. Der er ikke én version for dem, der spørger lederen, og en anden for dem, der finder det selv. Alle får det samme svar fra den samme kilde.

Det er den reelle forretningsværdi ved AI søgning i dokumenter og AI på virksomhedens data. Ikke teknologi for teknologiens skyld. Men et system der giver medarbejdere ro, overblik og selvstændighed i hverdagen.

Viden du allerede har, gjort søgbar

Artiklen her har gennemgået det centrale problem: intern viden i danske virksomheder er der rigeligt af, men den er spredt, gemt og ikke søgbar. Den lever i mapper, gamle PDFer, scannede dokumenter og videresendte mails.

En AI vidensbase løser ikke det ved at skabe ny viden. Den gør den eksisterende viden tilgængelig, søgbar og troværdig. Det kræver, at systemet kan vise kilder, at det respekterer adgangsrettigheder, og at det kan håndtere scannede dokumenter via OCR.

Det kræver også, at indholdet er i orden inden indeksering. Gamle filer og dubletter er den hurtigste vej til forkerte svar. En simpel oprydning inden opstart er ikke tidsspilde. Det er en investering i kvaliteten af systemet.

Og når det virker som det skal, sker der noget konkret i hverdagen. Afbrydelserne falder. Onboarding går hurtigere. Medarbejdere finder svar selv i stedet for at vente på dem. Det er ikke et løfte om magi. Det er en logisk konsekvens af at gøre intern viden søgbar med kunstig intelligens som motor.

Hvis du vil vide, om din virksomhed er klar til en intern vidensbase og hvad der konkret skal til, er du velkommen til at tage en snak med mig.

Ofte stillede spørgsmål

Hvad er en AI vidensbase?
En AI vidensbase er et system, der indekserer virksomhedens egne dokumenter og lader medarbejdere stille spørgsmål i naturligt sprog. I stedet for kun at vise filnavne leverer systemet et konkret svar baseret på de mest relevante kilder. En god intern vidensbase viser også kildehenvisninger, så svaret kan tjekkes med det samme.
Kan en AI vidensbase søge i gamle PDFer og scannede filer?
Ja, men kun hvis filerne først bliver gjort søgbare med OCR. Mange gamle PDFer er reelt billeder af tekst, og uden OCR kan en AI søgning i dokumenter ikke læse indholdet. Når OCR dokumenter er behandlet korrekt, kan systemet finde svar i kontrakter, manualer, datablade og andre ældre filer.
Hvordan undgår man forkerte svar fra intern AI?
De fleste fejl opstår, når gamle versioner, dubletter og uklare dokumenter ligger side om side. Derfor bør man rydde op, før en AI vidensbase bygges, så gældende filer er tydeligt markeret og forældede versioner arkiveres. Kildehenvisninger gør det samtidig lettere at spotte, om svaret bygger på det rigtige dokument.
Skal en AI vidensbase respektere adgang til mapper og filer?
Ja, det er et helt afgørende krav i AI dokumenthåndtering. En medarbejder må kun kunne finde svar i de mapper og filer, personen allerede har adgang til. Det gælder især HR filer, kontrakter, løn og fortrolige aftaler. En seriøs løsning arver eller håndhæver adgangsrettigheder fra de eksisterende systemer.
Hvilke dokumenter giver mest værdi at starte med i en intern vidensbase?
Start med politikker, manualer, processer, onboarding materiale og andre dokumenter, som medarbejdere bruger ofte i hverdagen. Det er her AI til intern søgning typisk giver hurtigst gevinst, fordi spørgsmålene går igen. Mødereferater og ældre arkiver kan også være nyttige, men de kræver ofte mere oprydning og tydelig dato før indeksering.

Relaterede artikler