Kan teknologien redde bornholmsk fra at uddø?
Sprogteknologi kan blive en vigtig brik til overlevelse for udrydningstruede dialekter som bornholmsk. Nu har forskere fra IT-Universitetet og Københavns Universitetet igangsat det første pilotprojekt om bornholmsk sprogteknologi – og skabt en forløber for ’Google Translate’ på bornholmsk.
Institut for DatalogiForskningkunstig intelligenssprogteknologiLeon Derczynski
Skrevet 23. september 2019 11:35 af Vibeke Arildsen
”Ded e Mads å hajn e ejn goer horra.” Eller oversat til rigsdansk: ”Det er Mads og han er en god dreng.”
Bornholmsk er ikke altid ligeud ad landevejen for danskere bosat andre steder end på solskinsøen. Også på Bornholm taler færre og færre indbyggere dialekten, der lige så godt kunne defineres som sit eget sprog med særpræg som tre grammatiske køn og unikke lyd- og bøjningsformer.
Hvis det bornholmske sprog skal overleve i det 21. århundrede, er det nødvendigt, at man kan arbejde med det digitalt, mener Leon Derczynski, forsker i sprogteknologi ved Institut for Datalogi på IT-Universitetet.
Fordi det digitale fylder så meget i vores hverdag, er det vigtigt, at folk kan få en god digital oplevelse med sproget – ellers vil de stoppe med at bruge det.
Leon Derczynski, adjunkt, IT-Universitetet
”Fordi det digitale fylder så meget i vores hverdag, er det vigtigt, at folk kan få en god digital oplevelse med sproget – ellers vil de stoppe med at bruge det. En Google-søgning på bornholmsk vil for eksempel give meget dårlige resultater, fordi søgemaskinen ikke genkender og forstår sproget. Folk vil derfor bruge dansk i stedet,” siger han.
I samarbejde med Alex Speed Kjeldsen, sprogforsker på Københavns Universitet, har Leon Derczynski netop udviklet de første spæde sprogteknologiske værktøjer, som kan bane vej for digitale løsninger på bornholmsk.
Datasæt med sangtekster og eventyr
Sprogteknologi handler kort fortalt om at lære computere at forstå sprog, og er hovedingrediensen i hverdagsteknologier som Google Translate, chatbots og digitale assistenter som Siri og Google Home.
At udvikle sprogteknologi kræver, at man fodrer computere med store mængder data i form af digitale tekster. Derudfra lærer computeren at identificere sprogets mønstre og karakteristika. Udfordringen ved et lille sprog som bornholmsk er, at der ikke findes ret meget digitalt skriftligt materiale, fortæller Leon Derczynski.
”Der findes enkelte hjemmesider med bornholmske sangtekster, enkelte tekster på de sociale medier og en Wikipedia-side med få hundrede ord,” fortæller han.
Via samarbejdet med Alex Speed Kjeldsen, som er i gang med at indsamle materiale til en bornholmsk ordbog, har han dog fået adgang til et stort digitalt arkiv med blandt andet gamle eventyr på både bornholmsk og dansk. Med dette datasæt er det lykkedes at opbygge en værktøjskasse, der blandt andet gør computeren i stand til at forstå, hvilken funktion et bestemt ord har i en tekst.
En bornholmsk Google Translate
Forskerne har også udviklet et basalt maskinoversættelsesværktøj, der kan oversætte fra bornholmsk til dansk og omvendt – akkurat som Google Translate. Der er dog tale om en prototype, der kræver mere fintuning, understreger Leon Derczynski.
”Halvdelen af gangene kan den oversætte til noget forståeligt, men vi har brug for mere data for at kunne optimere den. Heldigvis er data begyndt at strømme ind, efterhånden som rygtet om projektet har spredt sig, og de data bruger vi til at videreudvikle værktøjet,” siger han.
Foreløbig kommer de fleste data fra frivillige, som indsamler gamle avisartikler og bøger på bornholmsk og skriver dem ind på en computer manuelt. Der findes nemlig endnu ingen tekstscanningsværktøjer, der virker ordentligt på bornholmsk – det er endnu en sprogteknologisk løsning, som Leon Derczynski håber at kunne udvikle på sigt.
Udover at danne grundlag for konkrete løsninger som maskinoversættelse og tekstscanning kan de sprogteknologiske modeller hjælpe forskere med at bevare og dele viden om sproget.
”Når vi først har kortlagt, hvordan bornholmsk er bygget op, og hvordan man bearbejder det, vil forskere også nemmere vil kunne beskrive og bevare sproget. I stedet for at skulle forbi en museumskælder på en klippeø ude i Østersøen for at studere det, kan forskere fra hele verden få tilsendt digitale filer med modellerne på få sekunder,” siger han.
Et vigtigt stykke kulturarv
Alex Speed Kjeldsen øjner med sprogteknologien en mulighed for at ændre dialektens status blandt de yngre bornholmere.
Hvis det overhovedet skal kunne lade sig gøre at bevare dialekten i en eller anden form, skal det at tale bornholmsk forbindes med prestige, en følelse af at beherske et unikt sprog i en stadigt mere globaliseret verden.
Alex Speed Kjeldsen, sprogforsker, Københavns Universitet
”Hvis det overhovedet skal kunne lade sig gøre at bevare dialekten i en eller anden form, skal det at tale bornholmsk forbindes med prestige, en følelse af at beherske et unikt sprog i en stadigt mere globaliseret verden. En kombination af sprogteknologiske værktøjer, der gør det muligt at anvende bornholmsk i medier, som de unge anvender, og tiltag som sætter fokus på sammenhængen mellem bornholmsk identitet og sprog, er måske vores eneste chance for at booste en positiv opfattelse af sproget og dermed ændre dets status,” siger han.
For Leon Derczynski handler arbejdet med bornholmsk grundlæggende om at bruge teknologien som redskab til at bevare en vigtig del af den danske kulturarv.
”Når man arbejder med sprog, er det trist at se regionale sprog og dialekter uddø lige foran næsen på én. Hvis et sprog som bornholmsk forsvinder, mister vi også et vigtigt stykke dansk kulturarv, og det ville være trist,” siger han.
Leon Derczynski, adjunkt, email leod@itu.dk
Vibeke Arildsen, presserådgiver, telefon 2555 0447, email viar@itu.dk