Ny sprogteknologi læser flydende dansk

Infomedia overvåger og analyserer medieomtaler for virksomheder via mere end 200.000 mediekilder verden over. Med en ny, avanceret teknologi tilbyder de nu kunderne helt nye muligheder.

Et naturligt skridt til at holde øje med udviklingen inden for et bestemt område, vil være at bruge en mediaintelligence-virksomhed. Bruger din virksomhed Infomedias arkiv på over 70 millioner artikler og har daglig medieovervågning af samtlige medietyper verden over, tænker man, at der umiddelbart ikke er noget der bliver misset.

Men selv de største spillere inden for medieovervågning og medieanalyser i Danmark har hidtil kunnet misse en vigtig influencer, eller agenda i din søgning. For man har på forhånd skullet vide, hvilke personer og organisationer, du vil holde øje med. Indtil nu. For nu fortæller Infomedias værktøjer dig, hvad du bør holde øje med. Hemmeligheden bag er dansk sprogteknologi og en række avancerede modeller, som er udviklet af Alexandra Instituttet i samarbejde med mediaintelligence-virksomheden Infomedia.

”Den teknologiske udvikling indenfor Natural Language Processing (NLP) har gjort det muligt at tage den teknologiske udvikling inden for det danske sprog til et helt nyt niveau,” fortæller Joselene Marques, Head of Data Science hos Infomedia.

Avanceret sprogteknologi skaber øget relevans

Teknologien sørger for, at samtaler, eller vigtige aktører, du ikke kender på forhånd, kommer ind på din radar, hurtigere. Kernen i teknologien er baseret på disciplinen ’Named Entity Recognition’ (NER), som er en specialiseret gren inden for forskning og udvikling af sprogteknologi.

Med NER kan man træne en computer til at kunne finde eksempelvis personer, lokationer og organisationer/virksomheder i alle slags tekster – dog med den fordel, at computeren også lærer, hvordan de hver især opfører sig grammatisk i en sætning. Det vil sige, at når du fx søger på ’Brøndby’ for at finde informationer om, hvilke initiativer de har igangsat i byen i forhold til madspild, så kan du præcisere, at du mener byen ’Brøndby’ og dermed eksempelvis undgå at få en række artikler om fodboldklubben Brøndby med i dine resultater. Simpelthen fordi computeren kan kende forskel på, hvordan der skrives om en lokation og en organisation.

Tidligere kunne man godt søge på ordet ’madspild’ og finde de artikler, der omtaler fænomenet, men derfra var det et tidskrævende, manuelt arbejde i at gå artiklerne igennem for at finde relevante personer og organisationer inden for området. Men de kan nu automatisk blive trukket frem i teksterne, og man kan få en oversigt over, hvem der nævnes oftest, og hvor de opererer fra.

Hurtigere og bedre analysearbejde

Udover at man får et væsentligt forbedret søgeresultat, så ligger der en gevinst i de muligheder, NER åbner op for, når det kommer til at udarbejde analyser til virksomheder på baggrund af deres omtaler i medierne.

Før skulle man vide præcis, hvem der skulle holdes øje med i mediebilledet. Men nu kan du få det fulde billede af, hvem der dukker op inden for dit område i medierne, og hvem der primært er løbet med taletiden.

Du vil altså kunne få et langt bedre overblik over de emneområder, der påvirker din virksomheds resultater – både hvis du vil snævre det ind og se på enkelte steder eller organisationer eller verdensmål, eller hvis du mere overordnet vil have et billede af, hvem der tager teten på de emner, hvor du selv vil være den førende meningsdanner.

Dansk sprogteknologi åbner en vifte af muligheder

Udover mulighederne med at fremhæve personer, lokationer og organisationer i tekster, kan man træne computeren til at genkende lige det, man har brug for at finde frem til. Det kunne være bestemte produkter eller emner som fx medicin eller symptomer. Kun fantasien sætter grænser.

På samme måde kan anvendelsen af teknologien også bruges til flere ting. Du kan fx både kaste lys over en tekst, eller sørge for at skjule følsomme private informationer. Med mulighederne for persongenkendelse kan du eksempelvis hurtigt finde frem til personfølsomme oplysninger i en tekst, og anonymisere dem. På den måde kan du stadig bruge tekstdataene uden at kompromittere de personer, der nævnes i teksterne.

Alle disse muligheder opstår, når teknologi og tekstdata mødes.

Du kan læse den fulde artikel her

Foto: Alexandra Instituttet