![]() |
CiteULike | ![]() |
Cavadini's CiteULike | ![]() |
![]() |
|
![]() |
Register | ![]() |
Log in | ![]() |
Autoshaping: Learning to Predict Reward for Novel States |
Reviews
[Write a review of this article]
Notes for this articleL'articolo è collegato a quello del trasporto di Opzioni fra differenti task (in realtà antecedente) e pone luce sugli interrogativi lasciati aperti nella nota a quel paper. L'idea di fondo è quella di costruire uno strumento che permetta di generalizzare i concetti ottenuti dall'apprendimeno effettuato in un particolare problema, cogliendo gli aspetti generici che potrebbero essere riutilizzati in un problema simile ma con un differente spazio degli stati. Nell'altra nota mi chiedevo perché venissero utilizzati per generalizzare gli stati di basso livello identificati dai sensori dell'agente: il motivo è che questi stati sono comuni ad ogni problema perché appunto legati all'agente e non all'ambiente o al problema mentre gli stati "semplificati" usati per descrivere il MDP del problema specifico possono variare e quindi non sono adatti per eventuale generalizzazione. Ribadisco che il concetto di base di poter apprendere una sorta di euristica generica che permetta di accelerare l'apprendimento in problemi simili è di fondo corretta, ma continuo a non essere sicuro che l'approccio sia del tutto corretto ed applicabile più in generale ad un'architettura di apprendimento gerarchico.
Find related articles from these CiteULike users
Find related articles with these CiteULike tags
Posting History
AbstractWe introduce the use of learned shaping rewards in reinforcement learning tasks, where an agent uses prior experience on a sequence of tasks to learn a predictor that estimates intermediate rewards, accelerating learning in later tasks that are related but distinct. Such agents can be trained on a series of relatively easy tasks in order to develop a more informative measure of reward that allows them to perform well on more difficult tasks, without requiring hand coded shaping functions. We use a rod positioning task to demonstrate that this approach significantly improves performance even after a very brief training period.
BibTeX record
RIS record