Kan Googles "superhuman" neurala nätverk verkligen berätta platsen för vilken bild som helst?

$config[ads_kvadrat] not found

Hur Jämför Din Hjärna Med Ett Genis Hjärna

Hur Jämför Din Hjärna Med Ett Genis Hjärna
Anonim

Att söka efter bilder är enklare än någonsin. Men om du försöker hitta en bild på något som inte är helt uppenbart (det är inte de egyptiska pyramiderna eller den gigantiska tumskulpturen i Paris), är det svårare än du tror - även med geolokaliseringsinformationen baserad på vad som är i bilden.

Ange Google ingenjör med namnet Tobias Weyand och ett par av hans kollegor. Enligt ett nytt papper i tidningen arXiv (uttalat "arkiv") har trioen byggt en djuplärande maskin som kan identifiera placeringen av nästan alla foton baserade enbart på analys av dess pixlar.

För att få en maskin för att framgångsrikt utföra en uppgift som denna vill du ge den möjligheten att intuitera information baserat på visuella ledtrådar. Du vill att den ska tänka, med andra ord, som en människa.

Weyand satt om att utveckla ett konstgjort neuralt nätverk - ett maskinsystem som är utformat för att efterlikna hjärnans neurologiska vägar, vilket gör det möjligt att lära, bearbeta och återkalla information som en mänsklig kunde. Detta nya system, PlaNet, är uppenbarligen i stånd att överträffa människor vid bestämning av platser av bilder oavsett vilken inställning som helst - inomhus eller utomhus, och med någon form av unika eller otaliga visuella signaler.

Hur jobbar PlaNet? Weyand och hans team delade upp en världskarta i ett galler som lagde över 26 000 kvadratliknande former i olika regioner, beroende på hur många bilder som togs på dessa platser. Täta platser där många bilder passar in i ett mindre torg, medan större, mer avlägsna regioner kan skära i större torg.

Teamet skapade sedan en stor databas med bilder som redan är geolokerade - nästan 126 miljoner olika bilder. Omkring 91 miljoner användes som en dataset för att undervisa PlaNet hur man kan ta reda på vilken bild som kunde placeras i vilket galler på världskartan.

Sedan var det neurala nätverket uppgift att geolocating de övriga 34 miljoner bilderna från databasen. Slutligen satt PlaNet på en dataset med 2,3 miljoner geotagged bilder från Flickr.

Resultaten? PlaNet kunde bestämma ursprungslandet för 28,4 procent av bilderna och kontinenten för 48 procent. Vidare kan systemet hitta en gatunivå för 3,6 procent av Flickr-bilderna och platsen på 10 nivån för 10,1 procent.

Och PlaNet är bättre på detta än de flesta människor - även de största globetrottersna. Weyand upphandlade 10 välskötta individer för att tävla mot PlaNet i ett spel av märkningslägen för bilder som finns på Google Street View.

"Totalt vann PlaNet 28 av de 50 rundorna med ett median lokaliseringsfel på 1131,7 km, medan det mediana lokaliseringsfelet var 2320,75 km", skrev forskarna. "Detta småskaliga experiment visar att PlaNet når superhuman prestanda i uppgiften att geolocating Street View-scener."

Är det här på riktigt? Har en Google-ingenjör verkligen utvecklat en "superhuman" A.I. systemet?

När det gäller geolocating bilder, kanske. Och det är inte alltför förvånande - poängen med A.I. är inte att i grunden efterlikna människans hjärna på alla sätt, men att överträffa mänskliga begränsningar på några specifika sätt för att uppnå mycket svårare uppgifter. Så i den meningen, vad forskarna skriver är sant.

Det är fortfarande en sträcka att kalla PlaNet till ett "neuralt nätverk". En idealisk form av den typen av teknik skulle kunna lära sig mycket mer än bildgeolokalisering. A.I. system kan skriva likheter och spela Super Mario, men det här är små saker jämfört med ett idealiskt "master" -system som automatiskt kan övervaka och underhålla vitalitet, hantera transport eller energiinfrastruktur, och mycket mer.

$config[ads_kvadrat] not found