Algoritm som behärskade "Pong" Nu Utmärkt på "Flappy Bird", Still Single

$config[ads_kvadrat] not found

An introduction to the Random Walk Metropolis algorithm

An introduction to the Random Walk Metropolis algorithm
Anonim

Förbättring på en djuplärande metod som är banbrytande för Pong, Space Invaders, och andra Atari-spel, har Stanford University datavetenskapliga student Kevin Chen skapat en algoritm som är ganska bra på den klassiska 2014-sidoskrollaren Flaxande fågel. Chen har utnyttjat ett begrepp som kallas "q-learning", där en agent syftar till att förbättra sitt belöningsresultat med varje iteration av att spela, för att perfekta ett nästan omöjligt och omöjligt beroendeframkallande spel.

Chen skapade ett system där hans algoritm optimerades för att söka tre belöningar: en liten positiv belöning för varje ram som den levde vid liv, en stor belöning för att passera genom ett rör och en lika stor (men negativ) belöning för att dö. Således motiverat kan det så kallade deep-q-nätverket utspela människor, enligt rapporten Chen författade: "Vi lyckades framgångsrikt spela spelet Flaxande fågel genom att lära sig direkt från pixlarna och poängen och uppnå supermänniska resultat."

Det ursprungliga Atari-pappret, publicerat 2015 i Natur, kom från det Google-ägda DeepMind-företaget (nu känt för sin behärskning av det gamla kinesiska brädspelet Go). DeepMind-prestationen var ett genombrott i att det tog visuellt - eller åtminstone pixel - information, och med minimal inmatning kunde maximera belöningar. Ett sådant belöningssystem har likställts med hjärnans dopaminerga reaktion, bara förenklat.

Det är inte första gången en algoritm har erövrat den flapping fågeln: En tidigare klass av Stanford University datavetenskapsstudenter skapade ett program som, när tränade över natten, förbättrades sin poäng från 0 pipar över till 1600.

$config[ads_kvadrat] not found