Deep 'Reinforcement Learning' är undervisningsrobotar nya färdigheter snabbare än någonsin

$config[ads_kvadrat] not found

COFFIN DANCE - Original full song, Astronomia 2k19 - Stefan F ft. Ghana Pallbearers

COFFIN DANCE - Original full song, Astronomia 2k19 - Stefan F ft. Ghana Pallbearers
Anonim

Robotar lär sig hur man fullbordar uppgifter i sped-up virtuella världar, utvecklar färdigheter inom några timmar som annars skulle kunna ta månader. Simulerad djupförstärkning lärande (eller Deep RL) betyder en färdighet som normalt tar 55 dagar för en A.I. att lära sig i den verkliga världen tar bara en dag i det hyperaccelererade klassrummet.

"Det har potential att verkligen revolutionera vad vi kan göra på roboten domänen," sa Raia Hadsell, forskare med Google DeepMind, på Re-Work Deep Learning Summit i London på torsdagen. "Vi kan lära oss kompetens på mänskliga nivåer."

Det kan låta kontraintuitivt, eftersom hela programvarans hela punkt är att programmerare kan lära dem att göra saker, eller hur? Vid konstruktion av en maskin som verkar i den verkliga världen behöver robotar dock en hel del data för att förstå hur man gör en uppgift i en obekant situation. A.I. kan använda dessa data för att "lära" en färdighet utifrån alla förekomster som kom före.

Djupförstärkande lärande samlar in data på samma sätt som hur människor lär sig: En robot kommer att upprepa en uppgift flera gånger, som att fånga en boll och spela in data för att bygga upp en bild av hur bäst man kan ta en boll i en ny situation. När DeepMind använde modellen 2013 för att lära en robot hur man behärskar Atari-spel, helt enkelt genom att sätta den ner framför skärmen och berätta om målen, älskade det vetenskapliga samfundet det.

Problemet är att det tar för alltid. Du måste kasta bollar på en robot flera gånger, eller i Atari-fallet, lämna roboten ensam i sitt sovrum ett tag. Köra en MuJoCo-simulering, kombinerat med ett progressivt neuralt nätverk, kan tränare köra ett program som efterliknar roboten, överför de lärda beteenden till roboten och kartlägger de virtuella rörelserna i den verkliga världen.

"Vi kan köra dessa simulatorer hela dagen och hela natten," sade Hadsell.

Resultaten talar för sig själva. Den här roboten, som fick sitt diplom att fånga, kan nu följa virtuella bollar som om de var riktiga, priming det för den stora dagen när det blir ombedd att fånga en riktig boll:

$config[ads_kvadrat] not found