Computere, der taler dit sprog

Jeg vil fra BostontilMilwaukeennæste
Lørdagformysister
fødselsdag og jeg vil ikke stoppe
Chicago og jeg vil ikke
betale mere end fire hundrede dollars
og festen starter med tre timer så jeg
har brug for sammen inden da.





Sig det pænt til en menneskelig flyselskabsagent, og han eller hun vil hurtigt skille dine ord ud og finde fly, der opfylder dine kriterier. Sig det dog til flyselskabets automatiske reservationslinje, og alt hvad du sandsynligvis vil få, er en munter digital stemme, undskyld, det forstod jeg ikke.

Giv ikke stemmen skylden. Selv hvis det antages, at flyselskabets computere overvandt de forvanskede ord, baggrundsstøj og Boston-accent for at gengive anmodningen til nøjagtig tekst, har intet sprogbehandlingssystem den beregningsmæssige ildkraft til at give mening om dine pris- og rutebegrænsninger. Ignorer irrelevanser som det faktum, at lørdag er din søsters fødselsdag, og forstå, at hvis festen starter kl. 15.00, er du ikke interesseret i fly, der ankommer til Milwaukee kl. 16.00.

Hvis computere kunne forstå og reagere på sådanne rutinemæssige anmodninger på naturligt sprog, ville resultaterne være win-win: flyselskaber ville ikke behøve at ansætte så mange agenter, og forbrugerne ville ikke skulle kæmpe med forvirringen af ​​touch-tone-grænseflader, der efterlader dem rasende trykke på 0-knappen og forgæves forsøge at nå en live-operatør.



Futurister har forestillet sig en sådan verden siden mindst 1968, hvor 2001: A Space Odyssey's HAL 9000 blev den arketypiske stemme-interaktive computer. Akademiske forskere og erhvervsforskere, der er fascineret af ideens rene kølighed, har lige så længe puslet med systemer til at genkende og reagere på menneskelig tale. Men teknologier griber ikke fat, fordi de er seje: de har brug for et forretningsimperativ. For sprogbehandling er det den enorme udgift til live kundeservice, der endelig driver teknologierne ud af laboratoriet. Simpel tryk eller sig, ens telefontræer er hurtigt på vej mod skrotbunken, da virksomheder som Nuance Communications og SpeechWorks smelter tidligere konkurrerende strategier sammen til software, der udleder hensigten bag folks naturligt talte eller skriftlige anmodninger. Større flyselskaber, banker og forbrugervarevirksomheder bruger allerede systemerne, og selvom teknologien endnu ikke kan holde slutningen af ​​en samtale, hjælper den opkaldere med simple spørgsmål med at undgå lange køer - og frigør menneskelige agenter til at håndtere. mere komplekse anmodninger.

Sådanne forbedringer har oprettet naturlige sprogsystemer til eksplosiv vækst: 43 procent af nordamerikanske virksomheder har enten købt interaktiv stemmesvarssoftware til deres callcentre eller udfører pilotundersøgelser, ifølge Forrester Research, et teknologianalysefirma. Efterhånden som flere virksomheder udskifter deres gamle touch-tone telefonmenuer, vil dagens 500 millioner dollars marked for telefonbaserede taleapplikationer vokse og nå 3,5 milliarder dollars i 2007, ifølge Steve McClure, en vicepræsident i softwareforskningsgruppen hos markedsanalysefirmaet IDC. I slutningen af ​​2002 installerede Bell Canada for eksempel et 4,5 millioner dollars stemmesvarsystem bygget af Menlo Park, CA-baserede Nuance. Baseret på de resultater, vi ser, vil det faktiske investeringsafkast kun tage omkring 10 måneder, siger Belinda Banks, Bell Canadas associerede direktør for kundepleje. Samlet set forventer virksomheden at spare 5,3 millioner dollars i kundeserviceomkostninger alene i år.

Og dette er kun fase et i implementeringen af ​​sprogbehandlingssystemer. Virksomheder som Nuance og Bostons SpeechWorks, de to markedsledere inden for interaktive stemmesvarssystemer, lykkes delvist fordi de har skræddersyet deres teknologier til smalle domæner - såsom rejseinformation - hvor de ordforråd og koncepter, de skal mestre, er begrænsede. Selvom sådanne systemer overtager kundeservicenichen, forfølger andre virksomheder stadig udfordringen med ægte naturlig sprogforståelse. Hvis forskningsindsats hos IBM og Palo Alto Research Center (PARC) for eksempel bærer frugt, kan computere snart være i stand til at fortolke næsten enhver samtale eller til at hente næsten enhver information, som en webbruger ønsker, selvom den er låst inde i en videofil eller et fremmedsprog, der åbner markeder, hvor folk søger viden via computernetværk. Forudsiger IDC's McClure, mens GUI [grafisk brugergrænseflade] var grænsefladen i 1990'erne, vil NUI, eller naturlig 'brugergrænseflade, være grænsefladen i dette årti.



Hvad siger du?

Opbygning af et virkelig interaktivt kundeservicesystem som Nuances kræver løsninger på hver af de store udfordringer inden for behandling af naturligt sprog: nøjagtig transformation af menneskelig tale til maskinlæsbar tekst; at analysere tekstens ordforråd og struktur for at udtrække mening; generere et fornuftigt svar; og svarer med en menneskelig stemme.



Forskere ved MIT, Carnegie Mellon University og andre universiteter, såvel som forskere fra virksomheder som IBM, AT&T og Stanford Research Institute (nu SRI International), har kæmpet i årtier med den første del af problemet: at vende det talte ord til noget computere kan arbejde med. De første praktiske produkter kom i begyndelsen af ​​1990'erne i form af talegenkendelsesprogrammer for forbrugere - såsom IBM's Voice Type - der krævede diktering, men tvang brugerne til at holde pause efter hvert ord, hvilket begrænsede adoptionen. I midten af ​​1990'erne var teknologien avanceret og ført til dikteringssystemer som Dragon Systems’ NaturallySpeaking og IBM’s ViaVoice, som kan transskribere ubrudt tale med op til 99 procents nøjagtighed.

Omtrent på samme tid brød et par videnskabsmænd væk fra akademiske og virksomheders laboratorier for at skabe startups med det formål at tackle de endnu mere komplekse problemer - og større potentielle markeder - i det andet område af sprogbehandling, kaldet sprogforståelse. Det er i høj grad fremskridt på dette område, der har positioneret feltet til dets reelle vækstspurt. Disse fremskridt hviler på to vigtige erkendelser, ifølge SpeechWorks teknologichef Michael Phillips, en tidligere forsker ved MIT's Laboratory for Computer Science. Den første var, at der ikke er nogen mening i at nå ud til månen - den årtier gamle drøm om systemer, der er i stand til HAL-lignende generel samtale. Der er en myte om, at folk vil tale med maskiner på samme måde, som de taler til folk, siger Phillips. Folk vil have en effektiv, venlig og hjælpsom maskine - ikke noget, der forsøger at narre dem til at tro, at de har en samtale med et menneske. Denne antagelse forenkler i høj grad arbejdet med at opbygge og træne et naturligt sprogsystem.

Den anden erkendelse var, at tiden var inde til at kombinere filosofier længe holdt af rivaliserende fraktioner i sprogbehandlersamfundet. Den ene filosofi siger i bund og grund, at taleforståelse er et spørgsmål om at skelne dens grammatiske struktur, mens den anden mener, at statistisk analyse-matchende ord eller sætninger mod en historisk database med taleeksempler - er et mere effektivt værktøj til at gætte en sætnings betydning. Hybride systemer, der bruger begge metoder, har startups erfaret, er mere præcise end begge metoder alene.



Men denne indsigt kom ikke over natten. På MIT havde Phillips hjulpet med at udvikle eksperimentel software, der kunne genkende tale og, baseret på sin forståelse af grammatik, give mening i en anmodning og svare logisk. Ligesom andre grammatikbaserede systemer brød den en sætning op i dens syntaktiske komponenter, såsom subjekt, verbum og objekt. Systemet arrangerede derefter disse komponenter i trælignende diagrammer, der repræsenterede en sætnings semantiske indhold, eller intern logik - hvem gjorde hvad mod hvem, og hvornår. Softwaren var begrænset til at hjælpe brugere med at navigere rundt i Cambridge, MA, forklarer Phillips. Du ville sige, hvor er den nærmeste restaurant?’ og den ville sige: Hvilken slags restaurant vil du have?’ Du ville sige, kineser,’ og den ville finde dig et sted.

Kort efter at Phillips licenserede teknologien fra MIT i 1994 og rejste for at starte SpeechWorks, så både han og forskere hos konkurrenten Nuance, at en af ​​deres målapplikationer, call steering, krævede noget mere. Der er virksomheder derude, som har 300 forskellige 800-numre, forklarer Phillips. Kunden forstår ikke organisationens struktur - de ved bare, hvilket problem de har. Den rigtige ting at gøre er at stille et spørgsmål, som: Hvad er problemet, du har?’ Men sammenlignet med en anmodning om en nærliggende kinesisk restaurant, er sådanne spørgsmål farligt åbne.

Problemet bliver sværere, når man tænker på, at tvetydigheden af ​​meget menneskelig tale - tænk på en sætning som han så pigen med teleskopet - betyder, at mange anmodninger er åbne for flere fortolkninger. Der er så mange forskellige måder, som nogen kunne tale til systemet på, at det er uoverkommeligt at forsøge at dække alt det i grammatik, siger John Shea, vicepræsident for marketing og produktstyring hos Nuance.

SpeechWorks fandt endelig en brugbar løsning i 2000, da det giftede sig med MIT-softwaren med en statistisk sprogbehandlingsteknologi udviklet ved AT&T Labs-Research i Florham Park, NJ. AT&T's system er bygget op omkring en database med almindelige sætningsfragmenter hentet fra titusindvis af optagede telefonopkald, der involverer både menneske-til-menneske og menneske-til-maskine kommunikation. Hvert fragment i databasen bedømmes for dets statistiske tilknytning til et bestemt emne og klassificeres i overensstemmelse hermed. Et fragment som f.eks. opkald, jeg ikke foretog, korrelerer måske stærkt med emnet forespørgsler om fakturering med ukendte numre, og systemet vil dirigere opkaldet til en agent, der kunne kreditere den, der ringer op. Hvis systemet ikke er sikker på sit valg, beder det den, der ringer, om flere oplysninger ved hjælp af talesynteseteknologi. I sidste ende, ifølge AT&T, dirigerer systemet mere end 90 procent af opkaldene korrekt - en langt højere succesrate end opkaldere oplever, når de navigerer i gammeldags telefontræer på egen hånd.

Nuance udviklede et lignende system, baseret på teknologi fra SRI, som kan bruge enten grammatiske eller statistiske metoder, eller begge dele, til at udtrække mening fra en opkalders tale. Vi bruger forskellige tilgange afhængigt af kundens behov, siger Felix Gofman, produktmarkedschef hos Nuance. Du kan mikse og matche. Inden for et specifikt område, såsom bank, vil emnerne og ordforrådet for opkaldernes spørgsmål være begrænset, og systemet kan udelukkende fungere ved hjælp af foruddefinerede lister over, hvad kunderne måtte sige. For nye eller bredere felter såsom bestilling af telefonservice, gemmer systemet hvert spørgsmål, det hører, i en database, og bruger derefter statistiske teknikker til at sammenligne nye spørgsmål med gamle poster i en søgning efter sandsynlige matches - og derved forbedre nøjagtigheden over tid.

SpeechWorks' callcenterteknologi bruges af så forskellige virksomheder som Office Depot, US Postal Service, Thrifty Car Rental og United Airlines. Men virksomheden, der skubber teknologien tættest på sine grænser, er Amtrak. Rejsende, der ringer til Amtraks automatiske telefonsystem, kan ikke kun få togplaner, men også bestille reservationer og opkræve billetter til deres kreditkort. Da vi tog afsted, var det primære mål at øge kundetilfredsheden, siger Matt Hardison, jernbanens chef for salg, distribution og kundeservice. Men som en bonus, siger han, tilbagebetalte besparelserne i lønomkostninger Amtraks investering på 4 millioner dollars i teknologien inden for 18 måneder.

Nuance har i mellemtiden store kunder i finans- og telekommunikationsindustrien, herunder Schwab, Sprint PCS og Bell Canada. British Airways fortalte selskabet, at efter at have implementeret Nuance talegenkendelsessystemer sidste år, faldt dens gennemsnitlige pris pr. kundeopkald fra $3,00 til $0,16. Og ifølge Bell Canada's Banks plejede 40 procent af kunderne at nulstille eller anmode om en live-operatør, mens de navigerede i virksomhedens touch-tone-telefontræ. Mellem virksomhedens implementering af systemet i december 2002 og marts 2003 faldt det tal til 15 procent, siger Banks.

En dybere forståelse

På trods af al deres succes forstår disse systemer dog på ingen måde, hvad de hører. De beskæftiger sig kun med grammatikregler, sandsynligheder og lagrede eksempler. Faktisk udmærker de sig, netop fordi deres skabere har vendt sig væk fra søgen efter et system, der er intelligent nok til at læse og opsummere en bog eller opretholde en generel samtale.

Men andre forskere bevarer et bredere blik på mulighederne for naturlig sprogbehandling. Ligesom Ron Kaplan, en forskningsstipendiat ved PARC, der udviklede meget af den grundlæggende grammatiske teori bag mange af nutidens naturlige sprogsystemer, bygger de software, der kan klare et langt større udvalg af input - fra avishistorier til den uorganiserede masse af multimedier information på nettet. Kaplan er kritisk over for, hvad han kalder de overfladiske metoder, der bruges til nicheapplikationer som opkaldsstyring. Sammenlignet med alternativet - at opretholde et dyrt personale af menneskelige kundeserviceagenter - er de faktisk ikke dårlige, siger han. Men i forhold til hvad du gerne vil have, stinker de. En mere effektiv grænseflade på naturligt sprog, siger Kaplan, ville eliminere behovet for omhyggeligt at skræddersy systemerne og give brugerne mulighed for at tale eller skrive frit.

To problemer, der hindrer denne vision, er efter Kaplans opfattelse, at databaserne med sprogeksempler, som enklere systemer trækker på, er for små, og de statistiske algoritmer, de bruger, er designet til at eliminere tvetydigheden i meget af det, folk siger, og søge ind så hurtigt som muligt på den mest sandsynlige betydning. Kaplan mener, at hvis denne tvetydighed elimineres for tidligt, kan den korrekte betydning af en ytring - især en lang eller kompleks sætning - gå tabt. Så han har brugt det sidste årti på at arbejde på et grammatikdrevet system, kaldet Xerox Linguistic Environment, som faktisk forsøger at bevare tvetydighed. Systemet analyserer en ytring i alle mulige sætningsdiagrammer, der er tilladt under et sæt af 314 regler, der styrer forholdet mellem forskellige dele af tale (PARC-forskere samlede reglerne manuelt over tre år). En kompleks sætning med 40 eller flere ord kan for eksempel fortolkes på så mange som 1.000 forskellige måder.

Systemets grammatikanalyse er så grundig, at den i gennemsnit fanger 75 procent af de logiske sammenhænge korrekt i en sætning - hvilket faktisk er meget højt sammenlignet med, hvad de fleste statistiske metoder gør, siger Kaplan. Denne nøjagtighedsgrad kan øges til omkring 80 procent, hvis softwaren udnytter disse statistiske metoder, og sammenligner hver mulig fortolkning med lignende diagrammer i en trænet database - i tilfældet med PARC-softwaren, et lager med hundredtusindvis af nøjagtige diagrammer over tegnede sætninger fra Wall Street Journal artikler.

Kaplan planlægger først at frigive systemet på Xerox’ enorme digitale vidensbase af kopimaskinereparationsteknikker, som konstant konsulteres og opdateres af virksomhedens feltteknikere. Der vil den sammenligne tusindvis af individuelle poster for at luge ud af overflødigheder og modsigelser. Det kan være, at mange teknikere har opdaget den samme løsning på et almindeligt problem, såsom at udskifte en kopimaskines tromle, forklarer Kaplan. Du får en masse indlæg, der siger det samme, kun på forskellige måder. At finde og beskære sådan redundans automatisk, tilføjer han, kan hjælpe teknikere med at bruge mindre tid på at sortere gennem muligheder. Softwaren kan også i sidste ende blive kernen i et avanceret system til oversættelse af dokumenter til forskellige sprog - en opgave, der især er plaget af tvetydighed ( se Oversættelsesudfordringen ).

Før en computer kan forstå eller oversætte lagret information udtrykt i naturligt sprog, skal den dog finde den. Det bliver sværere, efterhånden som det digitale univers udvider sig - hvilket er grunden til, at IBM forfølger et ambitiøst projekt for at anvende naturlig sprogbehandling i håndteringen af ​​ustruktureret information, massen af ​​digital tekst, billeder, video og lyd, der er lagret på computernetværk. Meget af IBMs forretning hviler på dets databaseprodukt, DB2, men en traditionel database kan kun hente information, der allerede er organiseret og indekseret. IBM ønsker at give forretningsbrugere og forbrugere øjeblikkelig adgang til de uindekserede data, der smyger sig ud på millioner af harddiske rundt om i verden, hvilket effektivt udvider sin dominans inden for struktureret datastyring til ustruktureret informations område. For at nå dertil forfølger virksomheden et initiativ designet til at fusionere forskellige sprogbehandlingstilgange til kraftfuld software, der intelligent kan søge, organisere og oversætte alle disse data. Projektet, kaldet Unstructured Information Management Architecture, kan give næring til virksomhedens forretning et godt stykke ind i internetalderen. Som forskningsvæddemål går, er dette en stor en, siger Alfred Spector, divisionens senior vicepræsident.

Oversættelsessoftware og andre produkter, der bruger den nye arkitektur, er stadig i prototypestadiet. Men i sidste ende, siger David Ferrucci, projektets førende softwarearkitekt, vil arkitekturen hjælpe IBM med at bygge systemer, der henter den seneste information, en bruger ønsker, fra enhver digital kilde, på ethvert sprog, og leverer den i organiseret form. Allerede nu bruger amerikanske virksomheder 900 millioner dollars om året på virksomhedsinformationsportaler, der hjælper medarbejderne med at finde de poster, de har brug for, ifølge Giga Information Group i Cambridge, MA, og mulighederne for IBM og andre virksomheder, der udvikler software til håndtering af ustruktureret information, vil kun mangedobles efterhånden som at information akkumuleres. Der er nu klart en forretningsmæssig begrundelse for at håndtere ustrukturerede data, slutter Spector.

Hvis bestræbelserne på at håndtere tvetydighed, ustruktureret information og andre kompleksiteter i sproget lykkes, kan vi i sidste ende stoppe med at behandle computere som småbørn, og forenkle alt, hvad vi siger, så det passer til deres umodne forståelse af verden. Når den dag kommer, og den kan komme snart, kan forbrugerne forvente at finde automatiserede stemmegrænseflader ved hver tur, hvilket giver dem mulighed for at bruge almindeligt engelsk (eller fransk eller kinesisk) til at interagere med alt fra webarkiver til apparater og biler.

Og det ville virkelig være noget at tale om.

Sprogbehandlingens Babel SELSKAB TEKNOLOGI BELIGGENHED AT&T Automatiseret talegenkendelse; naturligt klingende talesyntese
New York, NY Drillerier Automatiseret e-mail klassificering og svar San Francisco, CA, og Jerusalem, Israel IBM Automatiseret talegenkendelse;
oversættelse; standardarkitekturer til håndtering af ustruktureret information Armonk, NY Intel Audiovisuel talegenkendelse Santa Clara, CA Inxight Software til at opdage, udforske og kategorisere tekstdata på virksomhedsnetværk Sunnyvale, CA iPhrase-teknologier Natursproget tekstsøgning på firmawebsteder Cambridge, MA Microsoft grammatikkontrol; forespørgselsgrænseflader; oversættelse Redmond, WA Nuance Communications Interaktive stemmesvarssystemer til telefonbaseret kundeservice Menlo Park, CA Palo Alto Research Center Forbedrede algoritmer til at udtrække mening fra skrevet tekst Palo Alto, CA SpeechWorks Interaktive stemmesvarssystemer til telefonbaseret kundeservice Boston, MA StreamSage Naturlig sprogsøgning og indeksering af video- og lydmateriale Washington, DC

skjule