Sprogteknologi

Sprogteknologi: fra enkeltord til kontekst

Sprogteknologi er kunstig intelligens, der udfører opgaver af sproglig karakter: talegenkendelse/transskribering, ordprædiktion, oplæsning, oversættelse og korrekturlæsning.

Teknologien har været længe undervejs og kan derfor ikke længere siges at være i sin vorden. Og der er i sandhed sket meget siden de første sprogteknologiske værktøjer så dagens lys.

 

Den tidlige sprogteknologi

I gamle dage, altså for 15-20 år siden, kunne sprogteknologi næppe betegnes kunstig intelligens. I hvert fald var maskinerne til eksempelvis transskription og oversættelse meget primitive.

Maskinen havde en ordbog i sig, og når den fx hørte ordet hus, skrev den hus, hvis der var tale om transskription. Tilsvarende, hvis der var tale om oversættelse, blev ordet korrekt oversat til house. Den indbyggede ordbog fortalte maskinen, at ordet hus skulle oversættes til ordet house.

 

Fokus på enkeltord

Teknologien arbejdede på enkeltordsniveau og kom derfor i problemer, hvis ordet var et homonym. Hvordan skal en oversættelsesmaskine eksempelvis oversætte ordet sukker til engelsk? Ordet er et homonym, der som substantiv kan referere til et sødtsmagende pulver og som verbum til den handling, man udfører ved en skuffet følelse.

Så skal sukker oversættes sugar eller sigh? Det kunne de tidligere oversættelsesmaskiner ikke vide.

De tidlige korrekturfunktioner, altså stavekontroller, fokuserede også kun på enkeltord og accepterede derfor fejlstavninger som ordet vær i følgende: Det er et smukt vær (vær for vejr). Stavekontrollen slog ordet vær op i sin database og fik et match. Ordet vær er jo en bøjningsform af ordet være og derfor et ord, der indgår i maskinens ordbog.

Så maskinen kunne ikke se fejlen.

 

Kontekst som gamechanger

Men hvordan skal en maskine så afgøre, om sukker skal oversættes til sugar eller sigh, og om vejr skal staves vær, værd eller vejr?

Det store dyr i den sprogteknologiske åbenbaring er konteksten – altså den sproglige sammenhæng, et ord indgår i. Kontekstforståelse udgør et kvantespring fremad for sprogteknologiske applikationer. Hvis maskinen kan "forstå" ordet i sin sproglige sammenhæng, kan den vælge den korrekte form.

I praksis kan man kode maskinen med nogle grammatiske regler, der giver maskinen en vis kontekstforståelse. Når maskinens ordbog er ordklasse-tagget, ved maskinen, at ordet vær, som er et verbum, ikke kan stå i forlængelse af ordet smukt, som er et adjektiv – rækkefølgen adjektiv-verbum eksisterer i dansk syntaks.

Derfor er vær ikke er en acceptabel form i den konkrete sproglige kontekst.

Tilsvarende ved maskinen, at ordet sukker skal "forstås" som et verbum, hvis ordet står i forbindelse med et pronomen: han sukker.

 

Regler er ikke nok!

Regler giver sprogteknologiske applikationer en vis kontekstforståelse, men slet ikke nok til at fungere effektivt.

Derfor "træner" man sprogmaskinen ved at lave kørsler på store tekstkorpusser, hvor maskinen "analyserer", hvilke ord og bøjninger der sættes sammen i den normale sprogbrug.

Lad os sige, at maskinen er trænet på et korpus med 100 millioner ord. Så vil den eksempelvis kunne konstatere, at der er tre forekomster af ordforbindelsen smukt vær, to forekomster af forbindelsen smukt værd og 2465 forekomster af forbindelsen smukt vejr.

Maskinen ved derfor, at ordet vær i smukt vær er stavet forkert. Den vil sågar kunne forslå ordet vejr.

Tilsvarende vil en talesyntese til oplæsning af skreven tekst vide, om vandret i sætningen Jeg har vandret i bjergene skal udtales van-dret eller vand-ret. Her vil både regler for syntaks og sprogbrug fortælle maskinen, at den rigtige lydlige form af det skrevne ord er van-dret.

 

Status i dag: Små sprogområder prioriteres ikke

Sprogteknologi er dyrt at udvikle, og man kan ikke bare overføre de regler og den træning, en maskine har på ét sprog, til et andet.

Teknologien skal udvikles til hvert sprog.

Derfor prioriterer teknologi-virksomhederne at udvikle til de store sprog, og derfor er fx auto-transskription og auto-oversættelse mere udviklet på engelsk end på dansk. Det samme gælder med fx ordprædiktion.

Ordprædiktion er software, der hjælper dyslektikere med at stave ord ved at forudsige, hvad man vil skrive. Der findes programmer på til dansk, men de kan ikke matche engelske ordprædiktionsprogrammer som fx Grammarly.

 

Kan man så ikke bruge sprogteknologi i Danmark?

Man skal nok væbne sig med tålmodighed, hvis man venter på, at en maskin-oversat tekst eller et maskin-transskriberet interview får samme kvalitet som et ditto manuelt.

Men det betyder ikke, at det aldrig kan betale sig at bruge sprogteknologi i forbindelse med tekstarbejde. Ordprædiktionsprogrammer til dansk hjælper ganske givet mange personer med at stave korrekt. Det samme gør stavekontrollen i Word.

Oversættelsesprogrammer kan bruges til at lave et groft udkast af en oversættelse, som man efterfølgende kan bearbejde manuelt. I nogle tilfælde kan man endda spare noget tid.

Det samme gælder maskintransskription. Hvis man har en lydoptagelse med få personer, meget tydelig udtale og en optagelse i høj lydkvalitet, vil en maskine kunne transskribere talen med 80-85 % korrekthed. Men man undgår ikke at skulle gå hele udskriften igennem manuelt, for selv i en tekst med 85 % korrekthed vil der være mange passager, der er meningsløse, altså ulæselige.

Man kan se en test af manuel vs. automatisk transskribering her.

 

Ægte intelligens vs. kunstig intelligens

De store tech-giganter bruger enorme beløb på at udvikle sprogteknologi, og der udvikles også til de mindre sprog som dansk. Man udvikler den kunstige intelligens ved at lade "rigtig" intelligens – altså mennesker – transskribere store mængder tale på YouTube-videoer. På den måde får man dels data om, hvordan de enkelte ord udtales på forskellige dialekter og i forskellige sproglige kontekster, dels data om, hvilke regler der gælder for mundtligt sprog – altså det mundtlige sprogs grammatik.

Det er klart, at det er noget, der vil gøre transskription af dansk tale mere præcis.

Men der er stadig tale om "kunstig" intelligens – som jo egentligt ikke er ægte intelligens.

En maskine forstår ikke det sprog, den analyserer. Den forstår sig ikke på semantik. Så selv med 10.000 regler, de bedste ordbøger og træning på 100 mio. ord vil en maskine ikke kunne matche en oversættelse eller en transskription, der er udført af et menneske med en god sprogforståelse.

 

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *