Automatisk transskribering
Automatisk transskribering vil sige, at det er et computerprogram, ikke et menneske, der transskriberer. Den teknologi, der ligger bag, kaldes for talegenkendelse.
Talegenkendelse bliver mere og mere udbredt. De store kommunikationsplatforme som Microsoft Teams, Skype, Zoom og Google Meet har integreret talegenkendelsesfunktionalitet, så de samtaler, man har virtuelt, kan transskriberes automatisk.
Funktionen har også fundet vej til YouTube. Alle videoer med engelsk tale kan transskriberes sideløbende med, at videoen afspilles.
Dertil kommer virksomheder, der tilbyder automatisk transskribering af tale, fx interviews, man har optaget med en diktafon, en mobiltelefon eller en anden lydoptager.
Fordelene ved automatisk transskribering er indlysende. Har man brug for en udskrift af fx en samtale, er der sparet meget tid og penge ved automatisk talegenkendelse. Men der er også mange begrænsninger ved automatisk transskribering, særligt af tale på dansk.
Talegenkendelse kræver enorme mængder data
Talegenkendelse kræver data, data og endnu mere data. De sprogmodeller, som talegenkendelse bygger på, trænes på enorme mængder af tekst. Jo mere tekst og lyd, de er trænet på, desto mere nøjagtig vil genkendelsen blive.
En logisk følge heraf er, at teknologi til genkendelse af tale på store sprog, fx engelsk, tysk eller spansk, er mere nøjagtig en teknologi, der udvikles til små sprog som fx dansk.
Der er – i sagens natur – meget færre data til at træne en maskine til at genkende dansk tale end til at træne en maskine til at genkende engelsk eller kinesisk tale.
Talesprog er anarkistisk
Men selv talegenkendelse af store sprog er en svær øvelse. Det skyldes træk ved talesproget. Talesprog har – modsat skriftsprog – en uregelmæssig syntaks. Den grammatik og de konventioner, der gælder for skriftsprog – og som sprogbrugerne holder i hævd – eksisterer ikke i talesproget.
Selvfølgelig er der mønstre og en vis orden i talesproget, men generelt opfører talesprog sig ganske anarkistisk, sammenlignet med skriftsprogets regelrette ortografi og syntaks.
Var talesproget meget regelstyret, ville det være lettere for en maskine at "afkode" talen korrekt.
Sprogteknologi, hvad enten der er tale om ordprædiktion, stavekontroller, oversættelsesprogrammer eller talegenkendelse, baserer sig i høj grad på sandsynlighed, altså kvalificerede gæt.
Hvis en talt sætning består af 10 ord, og maskinen ikke kan genkende det sidste, vil den foretage et gæt, der baserer sig på ordets lyd og dens kendskab til syntaktiske mønstre. Men når talesprogets syntaks ikke er så regelret, øges risikoen for et fejlgæt.
Dialekter, mumlen og talen-i-munden på hinanden spænder ben for nøjagtigheden
Dansk er ikke bare ét dansk. Jo, men det er et sprog, der kommer i mange varianter. Dansk rummer – som alle andre sprog – dialekter, der gør, at udtalen varierer fra landsdel til landsdel. Det er naturligvis en udfordring, som sprogmodellerne har svært ved at håndtere.
En maskine vil let kunne "afkode" udtalen kage korrekt, men hvis det er en sønderjyde, der bruger ordet kache om kage, får den problemer. Den vil ikke kunne genkende ordet, med mindre den er trænet på enorme mængder af sønderjysk tale. Og det er den ikke, for der er meget få mennesker, der taler sønderjysk – altså, hvis man spørger en sprogmodel.
Det siger sig selv, at tydeligt udtalte ord er lette for maskinen at forstå. Det er bare ikke særligt mange mennesker, der taler særligt velartikuleret. Utydelig udtale, mumlen og snøvlende tale er en stor udfordring for autotransskriberingen.
Det samme gælder for taleoverlap, altså talere, der taler i munden på hinanden. Det er selvsagt umuligt for en maskine at skelne de forskellige stemmer fra hinanden og "høre" den enkelte talers ord, når flere taler samtidigt.
Er god nøjagtighed godt nok?
Man måler en transskriberings kvalitet ved dens nøjagtighed. Hvor mange ord er gengivet korrekt? Automatisk transskribering på store sprog af talt lyd vil ofte give en nøjagtighed på 95 % – forudsat, at sproget ikke er dialekt, og at talen er velartikuleret.
Det er ganske godt. Men er det godt nok?
Det kommer an på, hvad udskrifterne skal bruges til, men man skal ikke være blind for, hvor meget det udfordrer læseflowet og sprogets sammenhæng, at hver 20. ord er forkert. Det forstyrrer langt mere, end man umiddelbart skulle tro.
Hos Textservice lever vi af at transskribere kvalitative lyddata for forskere. Her er nøjagtigheden afgørende, for at dataet kan bruges som empiri.
Vores service indebærer 99,5 % nøjagtighed.
Det er dyrere at opnå den nøjagtighed. Til gengæld skal man ikke bruge timevis på at løfte kvaliteten af den udskrift, man får.
Vil du vide mere om transskribering?
Læs vores artikler om transskribering af interviews og om tips til gode lydoptagelser.