OpenAI Plays Hide and Seek…and Breaks The Game! ?
Innehållsförteckning:
Datorer har sparkat våra bräckliga mänskliga åsnor i schack i några decennier nu. Första gången detta hände var 1996, då IBMs Deep Blue kunde ta ner världsmästaren Gary Kasperov. Men en ny studie från Alfabetets A.I. outfit DeepMind skyller på hur begränsad omfattning den tidiga segern verkligen var.
För en, studsade Kasperov tillbaka, vann tre matcher och ritade två gånger i ett sex matcher, per en gammal Dagliga nyheter Rapportera.
Men mycket mer, som DeepMind forskare Julian Schrittwieser berättar Omvänd, program som Deep Blue programmerades också manuellt. Det innebär att människor måste lära A.I. allt det behövde veta om hur man hanterar varje tänkbar händelse. Det kan med andra ord bara vara så bra som de människor som programmerar det var. Och medan Deep Blue självklart kunde bli ganska bra på schacket. ge det ett annat, liknande spel som Go och det hade varit clueless.
Alpha Zero är helt annorlunda. I en ny studie publicerad idag i tidningen Vetenskap, författarna avslöjar hur de kunde inte bara lära sig Alpha Zero hur man slår människor i schack, men hur man lär sig Alpha Zero hur man lära sig själv att behärska flera spel.
Hur man lär A.I. Att lära sig sig
Alpha Zero utvecklades med hjälp av en teknik som kallades djupförstärkningslärande. I huvudsak handlar detta om att undervisa A.I. något väldigt enkelt, som de grundläggande reglerna för schack, och då gör det enkelt om och om igen och igen tills det lär sig mer komplicerade, intressanta saker som strategier och tekniker.
"Traditionellt … människor skulle få kännedom om spelet och försöka koda det i regler", säger Schrittwieser, som har arbetat på Alpha Zero i nästan fyra år. "Vårt tillvägagångssätt är att vi initierar slumpmässigt och låt det spela spel mot sig själv, och från de här spelen kan den lära sig vilka strategier som fungerar."
All Alpha Zero får är de grundläggande reglerna, och därifrån lär man sig att vinna genom att spela sig själv. Enligt de nya fynden tog det bara nio timmar för Alpha Zero att behärska schack, 12 timmar för att behärska Shogi, och ca 13 dagar för att behärska Go. Eftersom det spelar sig själv är det i grunden självlärd. Det är gjort minkött av alla världsmästare mänskliga styrda algoritmer och slog 2017 världsmästaren i Shogi 91 procent av tiden.
"Det kan självständigt upptäcka intressant kunskap om spelet", säger Schrittwieser. "Det leder till program som spelar mer mänsklig."
Medan dess stil är mänsklig och kreativ, är det dock troligt optimal, säger han tillräckligt för att Alpha Zero ska kunna dominera i stort sett alla spel där den har tillgång till all tillgänglig information. Faktum är att Alpha Zero är så sofistikerat, vi kan behöva flytta till en helt annan klass av spel för att fortsätta driva gränserna för hur A.I. löser problem.
Varför Alpa Zero är så bra
A.I. forskare älskar att använda dessa spel som testplats för alltmer sofistikerade former av algoritmer av några skäl. De är eleganta, och folk har spelat dem i hundratals år, för en, vilket innebär att du har massor av potentiella utmanare att testa din algoritm på. Men de är också komplicerade och invecklade, vilket innebär att de kan tjäna som en sten för A.I. som kan lösa problem i den verkliga världen. Schrittwieser säger att nästa forskningsområde skapar en algoritm som Alpha Zero som fortfarande kan göra optimala beslut med ofullständig information.
"I alla dessa spel vet du allt som händer", säger han. "I den verkliga världen kan du bara veta en del av informationen. Du kanske känner dina egna kort, men du känner inte till din motståndares, du har delvis information."
Det finns fortfarande några brädspel som kan ge algoritmer som Alpha Zero den här typen av utmaning också - Schrittwieser nämnde Stratego, där spelarna gömmer sina drag från varandra - och Starcraft, vilket är ett annat intresseområde för DeepMinds spelfokuserade forskare.
"Vi vill göra de problem som vi hanterar mer och mer komplexa", säger han. "Men det är alltid en dimension i taget."
Samtidigt visar Deep Minds nästa generation av datoriserade problemlösare potentialen att flytta från spelvärlden till den verkliga världen. Tidigare i veckan tillkännagav det en annan algoritm som heter AlphaFold, som kan extrapolera en proteinsekvens i en exakt förutsägelse av dess 3D-struktur.Det är ett problem som befoktade forskare i årtionden och kan hjälpa till att öppna dörren för botemedel mot sjukdomar som sträcker sig från Alzheimers till cystisk fibros.
Vuxenbad s "Detta hus har människor i det" är det bästa skräckkortet på året
Vuxenbad sände ut Detta hus har människor i det, en kortfilm speciell som en del av sitt infomercials-block, klockan 4 på 14 mars. Specialen är stiliserad som säkerhetsfilm taget i ett medelklasshem. Familjen bor i huset - inklusive en far, mor, tonårssystern, lilla bror, bebis och en mormor ...
Det här är hur människor använde internet 20 år sedan
Den 16 oktober 1995, innan America Online blev AOL, publicerade Pew Research Center en undersökning av amerikaner online. "Amerikaner som går online ... Explosiv tillväxt, osäkra destinationer" har bevarats för efterlevnad på Pews hemsida, vilket är bra för att digitala artefakter har ett sätt att försvunna och eftersom ...
Här är varför Siri kan omvandla hur människor använder sin Mac
Om nya rykten ska tros kommer Siri att komma till Mac i år. Nästa måndag kommer Apple att ta sig till scenen vid sin Worldwide Developers Conference (WWDC) och skissera sina nästa mjukvaruuppdateringar, bland annat som företaget kan meddela en Mac-mjukvaruuppdatering som möjliggör stöd till den personliga assistenten. Siri Ge ...