MITs nya algoritm kan förutse mänskliga interaktioner innan de blir svåra

$config[ads_kvadrat] not found

Управление и настройка Scher-khan magicar

Управление и настройка Scher-khan magicar
Anonim

Vår oförmåga att läsa andra människor har lett till några episka hög fem misslyckade och missade kyssar. Även efter en livstid av erfarenhet är mänskliga interaktioner svårt att förutsäga. Men forskare vid MIT: s datavetenskapliga och konstgjorda intelligenslaboratorium tror att de kan hjälpa: Med en ny djuplärningsalgoritm som kan förutsäga när två personer kommer att krama, kyssa, skaka hand eller höga fem, har de tagit ett stort steg mot en framtid välsignade saknar de besvärliga ögonblicken.

De hoppas sin nya algoritm - utbildad på 600 timmar av YouTube-videor och TV-serier som Kontoret, scrubs, Big Bang teorin, och Desperata hemmafruar - kan användas för att programmera mindre socialt besvärliga robotar och utveckla headset från Google Glass-stil för att föreslå åtgärder för oss innan vi ens har chans att sakna. I framtiden föreställer de sig, du kommer aldrig mer att röra upp en chans att flyga högt fem med din medarbetare.

Att inse att robotar lär sig att vara sociala på samma sätt som vi gjorde var nyckeln till algoritmens framgång. "Människor lär sig automatiskt att förutse handlingar genom erfarenhet, vilket är det som gjorde oss intresserade av att försöka infoga datorer med samma sortsförnuft", säger CSAIL Ph.D. student Carl Vondrick, den första författaren på ett relaterat papper presenteras i veckan på den internationella konferensen om datorsyn och mönsterigenkänning. "Vi ville visa att bara genom att titta på stora mängder video kan datorer få tillräckligt med kunskap för att konsekvent göra förutsägelser om omgivningen."

Vondrick och hans team lärde sig algoritmens flera "neurala nätverk" för att analysera stora mängder data i det här fallet, timmar av Jim och Pams höga fem, och Mike och Susan's surreptitious kyssar, på egen hand. Med hänsyn till faktorer som utsträckta armar, en upphöjd hand eller en lång blick visade var och en av de neurala nätverken vad som skulle hända under nästa sekund och den allmänna konsensusen i nätverken togs som den slutliga "prediktionen" i studie.

Algoritmen fick den rätt över 43 procent av tiden. Även om det inte verkar vara tillräckligt högt för att garantera att våra dagliga interaktioner blir mindre lika konstiga, är det en stor förbättring på befintliga algoritmer, som bara har en precision på 36 procent.

Dessutom kan människor bara förutsäga handlingar 71 procent av tiden. Vi behöver all hjälp vi kan få.

I den andra delen av studien lärdes algoritmen att förutsäga vilket föremål - hemmabaserade häftklamrar som remotes, diskar och papperskorgen - skulle dyka upp i scenen fem sekunder senare. Till exempel, om en mikrovågsdörr öppnas, är det en relativt hög chans att en krus kommer att visas nästa.

Deras algoritm är inte tillräckligt nog för Google Glass ännu, men med medförfattaren Antonio Torralba, Ph.D. - finansierad av en Google-fakultetsforskningspris och Vondrick arbetar med en Google Ph.D. gemenskap - vi kan satsa på att det kommer dit. Framtida versioner av algoritmen, Vondrick förutspår, kan användas för att programmera robotar för att interagera med människor eller till och med lära säkerhetskameror att registrera när en person faller eller blir skadad.

"En video är inte som en" Välj din egen äventyrsbok "där du kan se alla potentiella vägar", säger Vondrick. "Framtiden är i grunden tvetydig, så det är spännande att utmana oss själva att utveckla ett system som använder dessa representationer för att förutse alla möjligheter."

$config[ads_kvadrat] not found