<léxico_da_IA/>
Benchmark
Conjunto padronizado de tarefas usado para medir e comparar o desempenho de modelos de IA, atribuindo a cada um uma pontuação em condições iguais.
Conjunto padronizado de tarefas usado para medir e comparar o desempenho de modelos de IA, atribuindo a cada um uma pontuação em condições iguais. Permite acompanhar a evolução da área e comparar sistemas entre si. Sua limitação é que um modelo pode ser otimizado especificamente para o teste e ir bem nele sem ter o mesmo desempenho em situações reais, por isso os resultados de benchmarks devem ser interpretados com cautela.
