<léxico_da_IA/>
Aprendizado por reforço
Tipo de aprendizado em que um sistema (o "agente") aprende a tomar decisões por tentativa e erro, recebendo recompensas quando age bem e penalidades quando age mal, e ajustando seu comportamento para maximizar a recompensa acumulada.
Tipo de aprendizado em que um sistema (o “agente”) aprende a tomar decisões por tentativa e erro, recebendo recompensas quando age bem e penalidades quando age mal, e ajustando seu comportamento para maximizar a recompensa acumulada. Foi a técnica por trás de programas que superaram campeões humanos em xadrez e Go, treinando em milhões de partidas. O ponto delicado é definir bem a recompensa: o agente otimiza exatamente o que for premiado, e não necessariamente o que se pretendia.
