Computere Lær nye ABC'er

For titusindvis af millioner mennesker rundt om i verden - fra Vestafrika til Sydøstasien til Mellemøsten - er internettet ikke et så venligt sted. Det skyldes, at mange af verdens skrivesystemer stadig ikke er kodet i software, hvilket betyder, at millioner af mennesker ikke kan skrive e-mail, bygge websteder eller søge i databaser i deres oprindelige scripts. En gruppe lingvister ved University of California, Berkeley, forsøger at ændre det ved at sikre sig, at næsten 100 yderligere scripts har en plads i en afgørende international standard, der lader computere gengive, behandle og sende tekstdata.





Universitetets initiativ er et forsøg på at rette op på et ofte overset aspekt af den digitale kløft: mange scripts, der bruges af sprog på under fem millioner talere i verden i dag, er ikke repræsenteret i den internationale standard, siger Deborah Anderson, en lingvist hos Berkeley, der leder indsatsen. Denne standard kaldes Unicode, som tildeler et unikt ID-nummer til hvert skrevet tegn, symbol og tegnsætningstegn i et skriftsprog. ID-numrene betyder, at tegn ikke bliver fejlfortolket, når data flyttes mellem softwareprogrammer eller på tværs af internettet - et problem, der nogle gange viser sig som en række spørgsmålstegn på din skærm og kan lamme hele befolkningers evne til at kommunikere via internettet . For eksempel muliggør Unicode radikale økonomiske transformationer i Vietnam. Før dette år havde computer- og softwareproducenter fundet på 43 forskellige måder at kode vietnamesisk tekst på, hvilket betød, at computere ikke kunne udveksle data pålideligt. Så, tidligt på året, vedtog den vietnamesiske regering Unicode som sin nationale standard.

Boeing

Denne historie var en del af vores september-udgave fra 2003

  • Se resten af ​​problemet
  • Abonner

Problemet er, at de mere obskure skrivesystemer endnu ikke er kodet i Unicode-standarden. Tilføjelse af yderligere 100 scripts er en stor opgave; kun 52 er kodet i dag. For at udføre jobbet rekrutterer og finansierer Berkeley lingvister såvel som brugere af scripts som N'Ko (brugt i Vestafrika), balinesisk (brugt i Indonesien) og Tifinagh (brugt i dele af det nordlige Afrika), for at bestemme, hvordan mange karakterer hvert script indeholder, designer skrifttyper og guider forslag gennem en bureaukratisk labyrint af offentlige myndigheder og computerstandardiseringsorganer. Fordelen vil være synlig for internetbrugere som Mamady Doumbouya, en Philadelphia-udgiver, der ville være i stand til at tilbyde en onlineversion af sin avis i N'Ko for første gang. Uden Unicode kræver det så meget at sætte din computer op til at læse en avis i N'Ko, siger Doumbouya.



Sådanne ændringer vil ikke ske fra den ene dag til den anden. Anderson vurderer, at projektet, der blev lanceret sidste år, vil tage 10 år at gennemføre. Indtil for nylig har computervirksomheder fastholdt kodningsindsatsen, men deres interesse er svindende, fordi brugere af ukodede alfabeter repræsenterer et for lille marked. Berkeley-projektet er en del af en større indsats for at gøre internettet mere globalt tilgængeligt; World Wide Web Consortium har allerede gjort det muligt at registrere domænenavne i disse nye scripts, hvilket blandt andet betyder, at webadresserne på websteder kan afspejle skrivesystemerne hos de personer, der ejer dem.

Amerikanske nationale sikkerhedseksperter er også interesserede. Everette Jordan, leder af National Virtual Translation Center, et nyoprettet amerikansk regeringskontor, der leverer fremmedsprogede ressourcer til efterretningssamfundet, påpeger, at teknologisk set er vi døve, dumme og blinde, hvis vi ikke kan læse det her. . Men snart kunne både amerikanske sikkerhedsbureauer og afrikanske avisudgivere samle sig til en ny standard.

skjule