<léxico_da_IA/>

Aprendizado por reforço

Tipo de aprendizado em que um sistema (o "agente") aprende a tomar decisões por tentativa e erro, recebendo recompensas quando age bem e penalidades quando age mal, e ajustando seu comportamento para maximizar a recompensa acumulada.

Tipo de aprendizado em que um sistema (o “agente”) aprende a tomar decisões por tentativa e erro, recebendo recompensas quando age bem e penalidades quando age mal, e ajustando seu comportamento para maximizar a recompensa acumulada. Foi a técnica por trás de programas que superaram campeões humanos em xadrez e Go, treinando em milhões de partidas. O ponto delicado é definir bem a recompensa: o agente otimiza exatamente o que for premiado, e não necessariamente o que se pretendia.

Voltar ao léxico completo