Stort dansk tale-datasæt frigivet

Over de seneste to år har danskere fra hele landet doneret deres stemme til et nyt tale-datasæt. Nu bliver optagelserne frigivet med et formål om at styrke dansksproget taleteknologi.

375 timers optagelser af danske dialekter er blevet frigivet til gratis brug

Taleteknologi er i vækst verden over, hvor teknologien kan bidrage med stemmestyrede hjælpemidler og effektiviserede rutineopgaver som notatskrivning. For optimal funktion kræver taleteknologi store datasæt, og derfor har Alexandra Instituttet i samarbejde med flere partnere indsamlet omkring 375 timers dansk tale, hvilket udgør lidt over en tredjedel af de planlagte 1.000 timers dansk tale.

Datasættet repræsenterer en bred vifte af den danske befolkning med hensyn til køn, alder og dialekter, og det er ifølge Dan Saattrup Nielsen, Senior AI Specialist hos Alexandra Instituttet, helt afgørende.

”En af de unikke aspekter ved datasættet er, at det har en bred repræsentation af hele landet, hvor de datasæt, der tidligere har været udgivet, har været relativt små. Og det har typisk været unge mænd fra storbyen, som indgår i datasættene. Det betyder, at hvis du taler dialekt, er ældre eller er af de ‘forkerte’ køn, at så vil talegenkendelsen fungere dårligere. Det har ikke kun betydning for den enkelte borger, men det betyder også, at du som virksomhed eller myndighed ikke kan indfri det potentiale, der er med fx automatisk journalisering”, fortæller han.

Test af eksisterende systemer

Som en del af projektet har man også lavet et testdatasæt, som har en bred repræsentation mellem køn, alder, dialekter og accenter, og som gør det muligt at teste eksisterende systemer på tværs af de her faktorer. Med dem kan man teste talegenkendelsessystemer, som ikke er åbne, fra fx Google, Microsoft eller andre.

“Med det kan du teste præcist, hvor gode de systemer er. Det kan hjælpe virksomheder eller det offentlige med at træffe bedre beslutninger om, hvilket system de skal bruge. Hvis man er en virksomhed i Sønderjylland, så vil man selvfølgelig godt være sikker på, at det fungerer godt på sønderjysk, og det kan testdatasættet hjælpe med at afklare,” forklarer han.

Det frigivne datasæt er det første, der er udgivet i projektet. I løbet af efteråret vil der blive udgivet en anden del, som indeholder samtaledata mellem to personer, og som gengiver en mere naturlig samtale. I løbet af det kommende år kommer der flere udgivelser af både oplæst og samtaledata, indtil man er oppe på cirka 1.000 timers data.

Projektet, CoRal er et samarbejde mellem Alexandra Instituttet, Datalogisk Institut på Københavns Universitet, Alvenir, Corti og Digitaliseringsstyrelsen. Projektet er yderligere finansieret af Innovationsfonden.

Læs mere om projektet her

Foto: Unsplash

Seneste aktuelt

20. november 2024