Bedre, mere nøjagtig billedsøgning

Forskere ved University of California, San Diego (UCSD), har udviklet en ny billedsøgningsmetode, som de hævder overgår eksisterende tilgange med en betydelig margin med hensyn til nøjagtighed og effektivitet. Forskernes tilgang modificerer en typisk maskinlæringsmetode, der bruges til at træne computere til at genkende billeder, siger Nuno Vasconcelos, professor i elektro- og computerteknik ved UCSD. Resultatet er en søgemaskine, der automatisk mærker billeder med navnene på objekterne i den, såsom radise, paraply eller svømmer. Og fordi tilgangen bruger ord til at mærke og klassificere dele af billeder, egner den sig fint til typiske søgeordssøgninger, som folk udfører på nettet, siger Vasconcelos.





At finde billeder : En ny algoritme udviklet på UCSD, der tilføjer ordmærker til billeder, kan øge billedsøgnings nøjagtighed og effektivitet. Ovenfor er træk fra et billede tildelt en sandsynlighed for, at de hører til i bestemte kategorier, såsom vand eller person.

I øjeblikket kan søgning efter billeder på internettet ved hjælp af nøgleord være hit-or-miss. Dette skyldes, at de fleste billedbaserede søgninger bruger metadata – tekst, såsom et filnavn, dato eller andre grundlæggende oplysninger forbundet med et billede – som kan være ufuldstændige, ubrugelige til søgeordssøgninger eller helt fraværende. Dataloger har arbejdet på bedre måder at identificere billeder og gøre dem søgbare i mere end et årti, men at få maskiner til at gå ud over metadata og bestemme, hvilke objekter der er i et billede, er et svært problem at løse, og de fleste bestræbelser til dato har kun haft moderat succes.

Selvom UCSD-forskningen ikke helt løser problemet, forbedrer den ydeevnen og effektiviteten for en bestemt tilgang, siger Vasconcelos, og den identificerer nogle begrænsninger i den måde, folk adresserede problemet.



Den tilgang, som forskerne tog fat på, kaldes indholdsbaseret, og den går ud på at beskrive objekter i et billede ved at analysere funktioner som farve, tekstur og linjer. Disse objekter kan repræsenteres af sæt af funktioner og derefter sammenlignes med sæt udtrukket fra andre billeder. Funktionssæt er beskrevet af deres statistikker, og computeren søger efter statistisk sandsynlige match.

Multimedier

  • Billedsøgning

Den nye forskning er baseret på denne tilgang, men den tilføjer et mellemtrin, siger Pedro Moreno, en Google-forskningsingeniør, der arbejdede på projektet. Moreno forklarer, at dette nye trin giver en semantisk etiket eller et ordmærke, der beskriver objekter i billeder i stedet for udelukkende at stole på sæt tal.

Overvej for eksempel at indsende et billede af en hund på en græsplæne. Objekterne på billederne analyseres og sammenlignes med resultater for kendte kategorier af objekter, såsom hunde, katte eller fisk. Derefter giver computeren en statistisk analyse, der giver sandsynligheden for, at et billede matcher disse kategorier. Systemet kan score billedet med 60 procents sandsynlighed for, at hovedobjektet er en hund og 20 procents sandsynlighed for, at det er en kat eller en fisk. Computeren vurderer således, at billedet efter al sandsynlighed indeholder et billede af en hund. Nøgleideen er at repræsentere billeder i dette semantiske rum, siger Moreno. Dette ser ud til at forbedre ydeevnen betydeligt.



Forskernes system fik sin ekspertise ved at blive eksponeret for tusindvis af billeder, der omfattede objekter som bjerge, blomster, mennesker, vand og tigre, samt de semantiske tags, der svarede til objekterne. Derefter testede forskerne, hvor godt systemet fungerede ved at udsætte det for nye billeder, der indeholdt objekter, der endnu ikke var mærket. Sammenlignet med et menneskes beskrivelse af en scene, klarede systemet sig godt: et billede af en tiger i højt græs fik systemet til at finde kat, tiger, planter, blade og græs. En menneskeskabt billedtekst inkluderede kat, tiger, skov og græs. Og da forskerne sammenlignede deres systems tags med mere typiske indholdsbaserede tilgange, fandt de ud af, at det klarede sig omkring 40 procent bedre. Med andre ord producerede det færre ord, der ikke var gældende for billedet.

Larry Zitnick, en billedsøgningsforsker hos Microsoft, siger, at forskningen skubber grænserne for indholdsbaseret søgning for at se, hvor godt det kan fungere. Det, de gør, er at analysere, hvor langt vi kan gå baseret på [at søge et billede efter objekter], og det er rigtig godt, hvad angår at skubbe konvolutten. Han har også mistanke om, at tilgangen kunne fungere godt for store sæt billeder, såsom dem på internettet.

Zitnick tilføjer, at UCSD-resultaterne kan være gode til visse typer simple objektsøgninger i billeder. Det ville dog ikke fungere for andre søgninger, såsom at skelne den amerikanske hovedstadsbygning fra statshovedbygningen i Lincoln, NE. Visuelle problemer er meget vanskelige, og jeg tror ikke, at nogen løsning vil løse alt, siger Zitnick.



Forskernes tilgang kunne dog være nyttig, hvis den foldes ind i eksisterende søgesoftware, siger Chuck Rosenberg, en Google-softwareingeniør, der arbejder med billedsøgning. Hvis den integreres i skrivebordssøgning, kan tilgangen tillade folk at søge efter billeder baseret på udseendets lighed. Men det ville ikke nødvendigvis hjælpe folk med at finde billeder baseret på mere obskure begreber såsom lykke. For eksempel, siger Rosenberg, vil jeg måske have et billede af en glad familie ude på en aftentur for at sætte på et kort, jeg laver. For en computer virkelig at finde det billede baseret på indholdet af billedet alene … er hinsides den nuværende teknologi.

Vasconcelos fra UCSD har mistanke om, at der vil gå mere end fem år, før computere er i stand til at identificere mere vanskelige begreber, såsom lykke, i billeder. Men det betyder ikke, at den nuværende forskning ikke vil være nyttig inden da, siger han. Forventningen må være, at [teknologien] er mere som et hjælpemiddel, ikke som et svar.

skjule