<léxico_da_IA/>
RLHF
Sigla, em inglês, para "aprendizado por reforço a partir de retorno humano".
Sigla, em inglês, para “aprendizado por reforço a partir de retorno humano”. É uma técnica de ajuste em que pessoas avaliam respostas do modelo, indicando quais são melhores, e essas avaliações são usadas para treiná-lo a produzir respostas preferíveis. Foi fundamental para transformar modelos de linguagem brutos, que apenas completavam texto, em assistentes mais úteis, seguros e ajustados às expectativas dos usuários.
