D. 19. juni startede de første stemmeoptagelser til en ny talebank, som skal sikre, at sprogteknologi i fremtiden har nemmere ved at forstå danske dialekter. Alexandra Instituttet deltager i projektet i samarbejde med Digitaliserings- og Ligestillingsministeriet.

Digitaliserings- og Ligestillingsministeren Marie Bjerre var med, da man fik de første stemme-optagelser i hus i Aalborg. Over de næste to år optages 1.500 timers taledata med bred repræsentation af danske dialekter og accenter.

Mangel på data

Kunstig intelligens og sprogteknologi som vi kender det fra stemmestyrede digitale assistenter som Siri og Google Assistent benytter taledata i udviklingen af teknologiernes funktionalitet. Selvom systemer som disse også opererer på dansk i dag, så er indsamlingen af taledata nødvendig for at følge med – især i et lille land som Danmark.

Netop denne udvikling bidrager projektet CoRal til, hvor Alexandra Instituttet, Digitaliserings- og Ligestillingsministeriet, Innovationsfonden og andre partnere er gået sammen for at styrke dansksproget sprogteknologi. Formålet er at gøre det lettere for både virksomheder og det offentlige at videreudvikle eksisterende løsninger og at udbrede brugen af taleteknologi til nye områder og brancher, hvor det ikke bruges i dag.

“Vi træner løbende sprogmodeller på datasættet, fx forskellige tale-til-tekst og tekst-til-tale modeller, for at teste datasættets kvalitet på forskellige dialekter, så vi kan samle mest af det, hvor udfordringerne er størst”, forklarer Kasper Fanø Bay Noer fra Alexandra Instituttet, der er projektleder på CoRal.

Kan blive en løsning i fremtiden

Projektet bliver lavet for, at kommende teknologiske fremskridt ikke ender med at bero på det engelske sprog.

“Vi har set hvordan det danske sprog har haltet efter eksempelvis engelsk, når man har lavet forskellige digitale sprogløsninger. Det er vigtigt, at det danske sprog spiller en rolle”, siger Digitaliserings- og Ligestillingsminister, Marie Bjerre.

Med en udvikling af dansksproget sprogteknologi opstår muligheder for såvel det offentlige som private borgere. En udviklet dansk sprogteknologi vil nemlig i fremtiden kunne bidrage til, at fx. journalføring i sundhedsvæsenet kan ske gennem tale-til-tekst modeller. På samme tid vil borgere med høre- eller synsudfordringer i fremtiden få gavn af en mere divers sprogteknologi.

Det er mellem 1500 og 2000 danskeres tale, der frem mod slutningen af 2024 skal optages til dialekt-banken.

Du kan læse mere om projektet her.

Foto: Unsplash