CiteULike is a free online bibliography manager. Register and you can start organising your references online.

Autoshaping: Learning to Predict Reward for Novel States Export

(2005)

Citation Format

[Posts]

View FullText article


Cavadini's tags for this article

abstraction generalization knowledge options

X Reviews [Write a review of this article]

X Notes for this article

Cavadini has 0 private notes and 1 public note for this article.

L'articolo è collegato a quello del trasporto di Opzioni fra differenti task (in realtà antecedente) e pone luce sugli interrogativi lasciati aperti nella nota a quel paper. L'idea di fondo è quella di costruire uno strumento che permetta di generalizzare i concetti ottenuti dall'apprendimeno effettuato in un particolare problema, cogliendo gli aspetti generici che potrebbero essere riutilizzati in un problema simile ma con un differente spazio degli stati. Nell'altra nota mi chiedevo perché venissero utilizzati per generalizzare gli stati di basso livello identificati dai sensori dell'agente: il motivo è che questi stati sono comuni ad ogni problema perché appunto legati all'agente e non all'ambiente o al problema mentre gli stati "semplificati" usati per descrivere il MDP del problema specifico possono variare e quindi non sono adatti per eventuale generalizzazione. Ribadisco che il concetto di base di poter apprendere una sorta di euristica generica che permetta di accelerare l'apprendimento in problemi simili è di fondo corretta, ma continuo a non essere sicuro che l'approccio sia del tutto corretto ed applicabile più in generale ad un'architettura di apprendimento gerarchico.

Cavadini (public note) - 2007-09-26 16:01:28

X Find related articles from these CiteULike users

X Find related articles with these CiteULike tags

X Posting History

X Abstract

We introduce the use of learned shaping rewards in reinforcement learning tasks, where an agent uses prior experience on a sequence of tasks to learn a predictor that estimates intermediate rewards, accelerating learning in later tasks that are related but distinct. Such agents can be trained on a series of relatively easy tasks in order to develop a more informative measure of reward that allows them to perform well on more difficult tasks, without requiring hand coded shaping functions. We use a rod positioning task to demonstrate that this approach significantly improves performance even after a very brief training period.


X BibTeX record

X RIS record


Privacy Statement | Terms & Conditions
CiteULike organises scholarly (or academic) papers or literature and provides bibliographic (which means it makes bibliographies) for universities and higher education establishments. It helps undergraduates and postgraduates. People studying for PhDs or in postdoctoral (postdoc) positions. The service is similar in scope to EndNote or RefWorks or any other reference manager like BibTeX, but it is a social bookmarking service for scientists and humanities researchers.