211service.com
Maskinlæring forbedrer arabisk taletransskription
Leveret af Qatar Foundation
Takket være fremskridt inden for tale og naturlig sprogbehandling er der håb om, at du en dag kan spørge din virtuelle assistent, hvad de bedste salatingredienser er. I øjeblikket er det muligt at bede din hjemmegadget om at afspille musik eller åbne på stemmekommando, hvilket er en funktion, der allerede findes i nogle mange enheder.
Hvis du taler marokkansk, algerisk, egyptisk, sudanesisk eller en af de andre dialekter i det arabiske sprog, som er enormt varierede fra region til region, hvor nogle af dem er gensidigt uforståelige, er det en anden historie. Hvis dit modersmål er arabisk, finsk, mongolsk, navajo eller et hvilket som helst andet sprog med høj morfologisk kompleksitet, kan du føle dig udenfor.
Disse komplekse konstruktioner fik Ahmed Ali til at finde en løsning. Han er hovedingeniør ved Arabic Language Technologies-gruppen ved Qatar Computing Research Institute (QCRI) - en del af Qatar Foundations Hamad Bin Khalifa University og grundlægger af ArabicSpeech, et fællesskab, der eksisterer til gavn for arabisk talevidenskab og taleteknologier.

Qatar Foundations hovedkvarter
Ali blev betaget af tanken om at tale med biler, apparater og gadgets for mange år siden, mens han var hos IBM. Kan vi bygge en maskine, der er i stand til at forstå forskellige dialekter – en egyptisk børnelæge til at automatisere en recept, en syrisk lærer til at hjælpe børn med at få de centrale dele fra deres lektion, eller en marokkansk kok, der beskriver den bedste couscousopskrift? fastslår han. Algoritmerne, der driver disse maskiner, kan dog ikke gennemskue de omkring 30 varianter af arabisk, endsige give mening ud af dem. I dag fungerer de fleste talegenkendelsesværktøjer kun på engelsk og en håndfuld andre sprog.
Corona-pandemien har yderligere givet næring til en allerede intensiveret afhængighed af stemmeteknologier, hvor den måde, naturlige sprogbehandlingsteknologier har hjulpet folk med at overholde retningslinjer for ophold i hjemmet og fysiske afstandsforanstaltninger. Men mens vi har brugt stemmekommandoer til at hjælpe med e-handelskøb og administrere vores husholdninger, byder fremtiden på endnu flere applikationer.
Millioner af mennesker verden over bruger massive åbne onlinekurser (MOOC) for deres åbne adgang og ubegrænsede deltagelse. Talegenkendelse er en af hovedfunktionerne i MOOC, hvor eleverne kan søge indenfor bestemte områder i kursernes talte indhold og muliggøre oversættelser via undertekster. Taleteknologi gør det muligt at digitalisere forelæsninger til at vise talte ord som tekst i universitetets klasseværelser.

Ahmed Ali, Hamad Bin Kahlifa Universitet
Ifølge en nylig artikel i magasinet Speech Technology forventes markedet for stemme- og talegenkendelse at nå op på 26,8 milliarder dollars i 2025, da millioner af forbrugere og virksomheder over hele kloden kommer til at stole på stemmerobotter for ikke kun at interagere med deres apparater eller biler, men også for at forbedre kundeservice, drive innovationer i sundhedssektoren og forbedre tilgængelighed og inklusivitet for dem med høre-, tale- eller motoriske handicap.
I en undersøgelse fra 2019 forudsagde Capgemini, at i 2022 ville mere end to ud af tre forbrugere vælge stemmeassistenter frem for besøg i butikker eller bankfilialer; en andel, der med rette kunne stige i betragtning af det hjemmebaserede, fysisk distancerede liv og handel, som epidemien har påtvunget verden i mere end halvandet år.
Ikke desto mindre lever disse enheder ikke til store dele af kloden. For de 30 typer arabisk og millioner af mennesker er det en væsentlig forpasset mulighed.
Arabisk for maskiner
Engelsk- eller fransktalende stemmebots er langt fra perfekte. Alligevel er det særligt vanskeligt at lære maskiner at forstå arabisk af flere grunde. Disse er tre almindeligt anerkendte udfordringer:
- Mangel på diakritiske tegn. Arabiske dialekter er folkesprog, som i primært talt. Det meste af den tilgængelige tekst er ikke-diakritiseret, hvilket betyder, at den mangler accenter, såsom det akutte (´) eller grave (`), der angiver bogstavernes lydværdier. Derfor er det svært at afgøre, hvor vokalerne går hen.
- Mangel på ressourcer. Der er mangel på mærkede data for de forskellige arabiske dialekter. Samlet mangler de standardiserede ortografiske regler, der dikterer, hvordan man skriver et sprog, herunder normer eller stavning, orddeling, ordskift og betoning. Disse ressourcer er afgørende for at træne computermodeller, og det faktum, at der er for få af dem, har hæmmet udviklingen af arabisk talegenkendelse.
- Morfologisk kompleksitet. Arabisktalende engagerer sig i en masse kodeskift. For eksempel i områder koloniseret af franskmændene - Nordafrika, Marokko, Algeriet og Tunesien - indeholder dialekterne mange lånte franske ord. Følgelig er der et stort antal af det, der kaldes ord uden for ordforrådet, som talegenkendelsesteknologier ikke kan gennemskue, fordi disse ord ikke er arabiske.
Men feltet bevæger sig med lynets hast, siger Ali. Det er et samarbejde mellem mange forskere for at få det til at bevæge sig endnu hurtigere. Alis Arabic Language Technology-laboratorium leder ArabicSpeech-projektet for at samle arabiske oversættelser med de dialekter, der er hjemmehørende i hver region. For eksempel kan arabiske dialekter opdeles i fire regionale dialekter: nordafrikansk, egyptisk, golf og levantinsk. Men i betragtning af at dialekter ikke overholder grænser, kan dette gå så finkornet som én dialekt per by; for eksempel kan en egyptisk modersmålstaler skelne mellem ens alexandrinske dialekt fra deres medborger fra Aswan (en 1.000 kilometers afstand på kortet).
Opbygning af en teknologisk kyndig fremtid for alle
På dette tidspunkt er maskiner omtrent lige så nøjagtige som menneskelige transskriberinger, i høj grad takket være fremskridt inden for dybe neurale netværk, et underområde af maskinlæring inden for kunstig intelligens, der er afhængig af algoritmer inspireret af, hvordan den menneskelige hjerne fungerer, biologisk og funktionelt. Indtil for nylig har talegenkendelse dog været en smule hacket sammen. Teknologien har en historie med at stole på forskellige moduler til akustisk modellering, opbygning af udtaleleksikoner og sprogmodellering; alle moduler, der skal trænes separat. For nylig har forskere trænet modeller, der konverterer akustiske funktioner direkte til teksttransskriptioner, hvilket potentielt optimerer alle dele til slutopgaven.
Selv med disse fremskridt kan Ali stadig ikke give en stemmekommando til de fleste enheder på sit modersmål arabisk. Det er 2021, og jeg kan stadig ikke tale med mange maskiner på min dialekt, kommenterer han. Jeg mener, nu har jeg en enhed, der kan forstå mit engelsk, men maskingenkendelse af multi-dialekt arabisk tale er ikke sket endnu.
At få dette til at ske er fokus for Alis arbejde, som er kulmineret i den første transformer til arabisk talegenkendelse og dens dialekter; en, der har opnået hidtil uovertruffen præstation. Døbt QCRI Advanced Transcription System, teknologien bliver i øjeblikket brugt af tv-selskaberne Al-Jazeera, DW og BBC til at transskribere onlineindhold.
Der er et par grunde til, at Ali og hans team har haft succes med at bygge disse talemotorer lige nu. Primært, siger han, er der behov for at have ressourcer på tværs af alle dialekterne. Vi skal opbygge ressourcerne for derefter at kunne træne modellen. Fremskridt inden for computerbehandling betyder, at beregningsintensiv maskinlæring nu sker på en grafisk behandlingsenhed, som hurtigt kan behandle og vise kompleks grafik. Som Ali siger, vi har en fantastisk arkitektur, gode moduler, og vi har data, der repræsenterer virkeligheden.
Forskere fra QCRI og Kanari AI byggede for nylig modeller, der kan opnå menneskelig paritet i arabiske nyheder. Systemet demonstrerer virkningen af at undertekste Aljazeera daglige rapporter. Mens engelsk human error rate (HER) er omkring 5,6 %, afslørede forskningen, at arabisk HER er betydeligt højere og kan nå 10 % på grund af morfologisk kompleksitet i sproget og manglen på standard ortografiske regler i dialektal arabisk. Takket være de seneste fremskridt inden for dyb læring og end-to-end-arkitektur, formår den arabiske talegenkendelsesmotor at overgå til modersmål i broadcast-nyheder.
Mens moderne standard arabisk talegenkendelse ser ud til at fungere godt, er forskere fra QCRI og Kanari AI opslugt af at teste grænserne for dialektal behandling og opnå gode resultater. Da ingen taler moderne standardarabisk derhjemme, er opmærksomhed på dialekt det, vi har brug for, for at vores stemmeassistenter kan forstå os.
Dette indhold er skrevet af Qatar Computing Research Institute , Hamad Bin Khalifa University, medlem af Qatar Foundation. Det er ikke skrevet af MIT Technology Reviews redaktion.
