Medarbejdere fra Apple er stået frem og har fortalt, hvordan de har aflyttet og transskriberet fortrolige og personlige samtaler ført i nærheden af digitale assistenter som Siri. Formålet er at forbedre assistentens evne til at forstå og tale med brugerne. Men behøver det at koste personfølsomme oplysninger at få god sprogteknologi?

Allerede i juli kunne man i en artikel fra The Guardian læse, at medarbejdere ved Apple jævnligt hører fortrolige oplysninger på optagelser fra Siri. Fra Apple har de blot sagt, at data ”…is used to help Siri and dictation … understand you better and recognize what you say”. Men de har ikke nævnt, at det er mennesker, der sidder og lytter til samtalerne for at forbedre teknologien bag.

Og vi er enige med Apple så langt, at ja – det kræver data at udvikle sprogteknologi og mennesker til at oplære maskinerne i at kunne forstå og tale med mennesker.

Men nej – det behøver ikke foregå gennem aflytning af personlige og fortrolige samtaler!

Dansk sprogteknologi

Hos Alexandra Instituttet er vi i gang med at udvikle dansk sprogteknologi. Men i stedet for at sætte mikrofoner på vores kolleger, når de går hjem om eftermiddagen, så arbejder vi med open source datasæt, der for eksempel er baseret på nyhedsartikler. Et konkret eksempel på et datasæt, vi har taget afsæt i, er en samling af 5.512 danske sætninger, som Det Danske Sprog- og Litteraturselskab har samlet i forbindelse med et projekt i 1998, kaldet PAROLE-DK-projektet.

Med de sætninger kan vi lære en maskine at kende ord fra hinanden i det danske sprog. Helt lavpraktisk betyder det, at en person via et program på computeren får præsenteret én sætning ad gangen. I den kan man tagge ord, der for eksempel er et udsagnsord eller et navneord, eller det kan være en organisation eller en lokation. Når vi har fortalt maskinen tilpas mange gange, hvordan eksempelvis et udsagnsord ser ud og opfører sig, kan den med stor præcision gætte sig til, hvilke ord der er udsagnsord i en ny tekst, uden at vi fortæller den det. Maskinen har ikke fået en bevidsthed, men data nok til at kende ordene fra hinanden.

Rent teknisk er der ikke noget i vejen for at træne robotter op med aflyttede personlige og fortrolige samtaler. Men rent etisk er vi glade for vores model, hvor vi bruger data, der ikke kompromitterer nogens private oplysninger.

Vi finder det vigtigt, at vi får lagt grundstenene til en gennemsigtig sprogteknologi af høj kvalitet med respekt for det danske sprog. For vi kommer til at mærke meget mere til sprogteknologi i vores hverdag, end vi gør nu…

Charbots som kundeservice

Alene chatbots kommer til at stå for langt størstedelen af den kundeservice, vi kommunikerer med. Og det er som udgangspunkt godt, for den kender typisk dit problem og løsningen på det, før du selv gør, og den sætter dig ikke i en telefonkø eller holder lukket efter kl. 16.

Men så længe det er tech-giganter som Apple, Google, Amazon o.lign., der primært står for udviklingen af sprogteknologier, kan vi i Danmark ikke styre, hvordan det bliver udviklet, og hvordan det bliver udbudt. Vi kan heller ikke sikre, at det danske sprog bliver bevaret i tilstrækkelig grad, så vi f.eks. uden problemer kan have en samtale med sundhedssektoren via en chatbot. Derfor er vi i gang med at udvikle sprogteknologi på dansk, som skal være frit tilgængelig i Danmark – helt uden at lytte med på dine skænderier med kæresten.

Mere info

Artiklen har også været bragt på Alexandra Instituttets hjemmeside.

Her kan du også hente kontaktinfo m.m.