SwePub
Sök i LIBRIS databas

  Utökad sökning

WFRF:(Marjani A)
 

Sökning: WFRF:(Marjani A) > Navigating to the B...

Navigating to the Best Policy in Markov Decision Processes

Al Marjani, A. (författare)
Garivier, A. (författare)
Proutiere, Alexandre (författare)
KTH,Reglerteknik
 (creator_code:org_t)
Neural Information Processing Systems Foundation (NIPS), 2021
2021
Engelska.
Ingår i: Advances in Neural Information Processing Systems. - : Neural Information Processing Systems Foundation (NIPS). ; , s. 25852-25864
  • Konferensbidrag (refereegranskat)
Abstract Ämnesord
Stäng  
  • We investigate the classical active pure exploration problem in Markov Decision Processes, where the agent sequentially selects actions and, from the resulting system trajectory, aims at identifying the best policy as fast as possible. We propose a problem-dependent lower bound on the average number of steps required before a correct answer can be given with probability at least 1 - δ. We further provide the first algorithm with an instance-specific sample complexity in this setting. This algorithm addresses the general case of communicating MDPs; we also propose a variant with a reduced exploration rate (and hence faster convergence) under an additional ergodicity assumption. This work extends previous results relative to the generative setting [MP21], where the agent could at each step query the random outcome of any (state, action) pair. In contrast, we show here how to deal with the navigation constraints, induced by the online setting. Our analysis relies on an ergodic theorem for non-homogeneous Markov chains which we consider of wide interest in the analysis of Markov Decision Processes.

Ämnesord

NATURVETENSKAP  -- Matematik -- Matematisk analys (hsv//swe)
NATURAL SCIENCES  -- Mathematics -- Mathematical Analysis (hsv//eng)

Nyckelord

Average numbers
Ergodic theorem
Ergodicity
Fast convergence
Low bound
Markov Decision Processes
Non-homogeneous
On-line setting
Sample complexity
System trajectory

Publikations- och innehållstyp

ref (ämneskategori)
kon (ämneskategori)

Till lärosätets databas

Hitta mer i SwePub

Av författaren/redakt...
Al Marjani, A.
Garivier, A.
Proutiere, Alexa ...
Om ämnet
NATURVETENSKAP
NATURVETENSKAP
och Matematik
och Matematisk analy ...
Artiklar i publikationen
Av lärosätet
Kungliga Tekniska Högskolan

Sök utanför SwePub

Kungliga biblioteket hanterar dina personuppgifter i enlighet med EU:s dataskyddsförordning (2018), GDPR. Läs mer om hur det funkar här.
Så här hanterar KB dina uppgifter vid användning av denna tjänst.

 
pil uppåt Stäng

Kopiera och spara länken för att återkomma till aktuell vy