Hur den flerarmade banditen bestämmer vilka annonser och berättelser du ser online

$config[ads_kvadrat] not found

Boo Boo Song + More Nursery Rhymes & Kids Songs - CoComelon

Boo Boo Song + More Nursery Rhymes & Kids Songs - CoComelon
Anonim

Tänk dig att du är en spelare och du står framför flera spelautomater. Ditt mål är att maximera dina vinster, men du vet faktiskt ingenting om de potentiella fördelar som varje maskin erbjuder. Du förstår dock att hävstångarna du drar och hur ofta du gör det kommer att påverka resultatet av ditt spelande binge.

Detta scenario som möter varje dag av besökare till Las Vegas och Atlantic City (i vilken grad människor fortfarande går till Atlantic City) är också ett klassiskt logikpussel som heter "Multi-Armed Bandit" - spelautomater kallas "One-Armed Banditer "genom att åldra Reno-typer eftersom de har en spak och tar folkens pengar. Även om det inte finns något korrekt sätt att ta itu med Multi-Armed Bandit-situationer - närmaste kandidat är Gittins Index - det finns strategiska metoder för att hantera dessa problem som du ser utan att registrera dig varje dag när du går online. Många algoritmer styr hur innehållet är uppbyggt via Google och på webbplatser bygger på MAB-strategier. Målet i nästan alla fall är att länka lärande och resultat och maximera potentialen för båda.

Ett multi-armed bandit-tillvägagångssätt används av Washington Post för att ta reda på vilka foton och rubriker du mest sannolikt klickar på, och genom trådlösa nätverk kan du se vilka optimala, energibesparande rutter som är bäst. Algoritmerna som växer ut ur MBA-tillvägagångssätt är mycket viktiga för dessa företag och många andra eftersom de i grund och botten bestämmer när och vilka annonser som visas online.

Att räkna ut vilka annonser som visar människor är ett utmanande problem eftersom det finns så många enarmade banditer som springer runt att klicka på saker online. MAB-algoritmer för annonser brukar använda ett snabbt föränderligt "dödligt multiarmat banditproblem", som appliceras över begränsade tidsperioder. Trafikdata används för att utveckla allt effektivare metoder.

Det är svårt att knyta MAB till ett exakt ändamål, eftersom det är möjligt att skapa så många variationer av formeln. K-beväpnade banditer, till exempel, har "armar" som tävlar för att få den högsta förväntade belöningen. Kontextualisera banditer gör detsamma men med "expertråd" - data som tidigare samlats in på användaren - och den webb-redo med namnet "ILOVETOCONBANDITS" fungerar bara på ett schema av fördefinierade rundor. Däremot har en klassisk MAB-tillvägagångssätt ingen sidinformation möjlig och resultatet beror endast på potentialen i den valda åtgärden.

Medan den mest användbara applikationen för MABs hittills verkar vara internetrelaterad, arbetar forskare för att hitta ett sätt att tillämpa dem på "real life" (aka meatspace) scenarier. I ett dokument från 2015 behandlar forskare från University of British Columbia tillämpningen av MAB till medicinska prövningar. Målet om MABs visar sig vara möjligt här är att en MAB-algoritm kan mäta effekten av en viss medicinering. Det uppenbara problemet är att om en datormodulerad version av detta skulle kunna skapas skulle det bara vara för tidskrävande att gå med detta tillvägagångssätt. Det finns inget sätt att en MAB-design kunde placeras inom en klinisk prövning.

Idén är fin, men inte genomförbar från och med nu. Fram till dess att framtiden är här kommer du mest att känna den överväldigande närvaron av en multi-beväpnad bandit när du desperat försöker klicka på popup-annonser.

$config[ads_kvadrat] not found