The invention provides a robot apparatus and a robot controlling method
wherein the robot apparatus can behave so that its user may not lose
interest in the robot apparatus. A behavior management section (72)
selects one of a seeking behavior and a knowledge utilizing behavior
based on a behavior selection probability. When the behavior management
section (72) executes the selected behavior (a), a reward (r) is provided
from an environment/user (111). The behavior (72) updates a behavior
value based on the reward (r) and applies the behavior value to the
Boltzmann distribution to determine the behavior selection probability.
Further, the behavior management section (72) varies the Boltzmann
temperature based on input information. The present invention can be
applied to a reinforced learning system for a robot.
A invenção fornece um instrumento do robô e um método controlando do robô wherein o instrumento do robô pode se comportar de modo que seu usuário não possa perder o interesse no instrumento do robô. Uma seção da gerência do comportamento (72) seleciona um de um comportamento procurando e de um conhecimento que utilizam o comportamento baseado em uma probabilidade da seleção do comportamento. Quando a seção da gerência do comportamento (72) executa o comportamento selecionado (a), uma recompensa (r) está fornecida de um environment/user (111). O comportamento (72) atualiza um valor do comportamento baseado na recompensa (r) e aplica o valor do comportamento à distribuição de Boltzmann para determinar a probabilidade da seleção do comportamento. Mais mais, a seção da gerência do comportamento (72) varia a temperatura de Boltzmann baseada na informação da entrada. A invenção atual pode ser aplicada a um sistema de aprendizagem reforçado para um robô.