<léxico_da_IA/>

Léxico da IA

Um glossário vivo dos principais termos do universo da inteligência artificial, explicados em linguagem acessível. Entender as palavras é o primeiro passo para participar do debate e questioná-lo.

Fundamentos

Inteligência artificial

Campo da computação dedicado a fazer máquinas realizarem tarefas que costumamos associar à inteligência humana, como reconhecer imagens, interpretar linguagem ou tomar decisões. Não é uma técnica única, e sim um guarda-chuva que reúne abordagens bem diferentes, do aprendizado de máquina aos antigos sistemas de regras. O termo surgiu em 1956, no congresso de Dartmouth. Em termos técnicos, esses sistemas processam dados e calculam probabilidades; não há compreensão nem consciência envolvidas.

Algoritmo

Uma sequência finita e bem definida de passos para resolver um problema ou executar uma tarefa. Uma receita de bolo e o passo a passo que o GPS usa para achar a rota mais curta são algoritmos. Em programação, é a lógica que o computador segue para transformar uma entrada (os dados) em uma saída (o resultado). Na IA os algoritmos costumam ser complexos e operar sobre grandes volumes de dados, mas o princípio é o mesmo: instruções executadas em ordem.

Aprendizado de máquina

Subcampo da IA em que o sistema aprende a executar uma tarefa a partir de exemplos, em vez de seguir regras escritas à mão. Em vez de programar “gato tem bigode e orelhas pontudas”, mostram-se milhares de fotos rotuladas e o sistema ajusta-se sozinho até distinguir gato de cachorro. O “aprendizado” é estatístico: o modelo identifica padrões nos dados e os usa para fazer previsões sobre casos novos. É a base da maioria das aplicações atuais de IA.

Aprendizado profundo

Modalidade de aprendizado de máquina baseada em redes neurais com muitas camadas, daí o “profundo”. Cada camada transforma a informação em um nível um pouco mais abstrato: ao analisar uma foto, as primeiras camadas detectam bordas e texturas, as seguintes combinam isso em formas e, por fim, em objetos reconhecíveis. Essa capacidade de aprender representações em níveis, sem que um humano descreva quais características importam, foi o que destravou os avanços da IA a partir de 2012.

Rede neural

Modelo de computação formado por unidades simples (“neurônios”) organizadas em camadas e conectadas entre si. Cada conexão tem um peso, um número que define quanto um neurônio influencia o seguinte; durante o treino, esses pesos são ajustados até a rede produzir as respostas certas. A inspiração no cérebro é frouxa e funciona mais como metáfora: o mecanismo real é matemático, baseado em multiplicações e somas feitas em grande escala.

Modelo

Em aprendizado de máquina, é o produto do treinamento: uma função matemática, definida por seus parâmetros, que aprendeu a transformar entradas em saídas. Treinar é o processo de ajuste; o modelo é o resultado pronto para uso. Quando você usa um tradutor automático ou um assistente de texto, está acionando um modelo já treinado, que aplica o que aprendeu sem se alterar durante a conversa.

Dados de treinamento

O conjunto de exemplos usado para treinar um modelo: textos, imagens, áudio ou outros dados, em geral em grande quantidade. É a partir deles que o modelo extrai os padrões que vai aplicar depois. A qualidade e a representatividade desses dados determinam em boa medida o desempenho final: se contêm erros, lacunas ou preconceitos, o modelo tende a reproduzi-los. Por isso a coleta e a curadoria dos dados são etapas críticas.

Como as máquinas aprendem

Aprendizado supervisionado

Tipo de aprendizado de máquina em que o modelo treina com exemplos rotulados, ou seja, dados que já vêm com a resposta correta: fotos marcadas como “gato” ou “cachorro”, e-mails marcados como “spam” ou “não spam”. O modelo ajusta-se para reproduzir esses rótulos e depois aplicá-los a casos novos. É a abordagem mais comum, mas depende de alguém ter rotulado os dados antes, o que costuma ser caro e demorado.

Aprendizado não supervisionado

Tipo de aprendizado em que os dados não vêm rotulados, e o modelo precisa encontrar estrutura por conta própria. A tarefa típica é o agrupamento, em que ele separa os dados em grupos com características semelhantes, como uma empresa que identifica perfis de clientes sem definir as categorias de antemão. Serve para explorar dados e revelar padrões que não eram conhecidos de antemão.

Aprendizado por reforço

Tipo de aprendizado em que um sistema (o “agente”) aprende a tomar decisões por tentativa e erro, recebendo recompensas quando age bem e penalidades quando age mal, e ajustando seu comportamento para maximizar a recompensa acumulada. Foi a técnica por trás de programas que superaram campeões humanos em xadrez e Go, treinando em milhões de partidas. O ponto delicado é definir bem a recompensa: o agente otimiza exatamente o que for premiado, e não necessariamente o que se pretendia.

Treinamento

O processo de ajustar os parâmetros de um modelo a partir dos dados. A cada rodada, o modelo faz previsões, compara-as com as respostas esperadas, mede o erro e corrige os parâmetros para errar menos na vez seguinte; isso se repete um número enorme de vezes. Para grandes modelos, é uma etapa demorada e computacionalmente cara. Depois de treinado, usar o modelo (a inferência) consome bem menos recursos.

Inferência

A fase de uso do modelo já treinado: quando ele recebe uma entrada nova e produz uma resposta, sem alterar o que aprendeu. Acontece toda vez que você faz uma pergunta a um assistente, envia uma foto para ser classificada ou pede uma tradução. Ao contrário do treinamento, é uma operação relativamente rápida e barata, embora, em larga escala, o custo somado de muitas inferências seja significativo.

Sobreajuste

Falha em que o modelo se ajusta bem demais aos dados de treino, memorizando detalhes e ruídos específicos em vez de aprender o padrão geral. O resultado é um modelo que acerta quase tudo nos exemplos vistos e erra em dados novos, como quem decora as respostas de uma prova antiga sem entender a matéria. Combate-se o sobreajuste com mais dados, modelos menos complexos e técnicas de validação.

Generalização

A capacidade de um modelo de ter bom desempenho em dados novos, que não apareceram no treino. É o objetivo central do aprendizado de máquina: não basta acertar nos exemplos já vistos, é preciso responder bem a casos inéditos. Um modelo que generaliza bem aprendeu o padrão; um que generaliza mal provavelmente sofreu sobreajuste. Mede-se a generalização testando o modelo em dados separados, reservados só para isso.

Por dentro dos modelos

Parâmetros

Os valores internos que um modelo ajusta durante o treino e que armazenam o que ele aprendeu, sobretudo os pesos das conexões da rede. O número de parâmetros dá uma ideia da capacidade do modelo: os grandes modelos de linguagem têm de bilhões a centenas de bilhões deles. Mais parâmetros permitem capturar padrões mais complexos, mas não garantem, sozinhos, um modelo melhor; o resultado também depende dos dados e do treino.

Token

A unidade básica em que um modelo de linguagem divide o texto para processá-lo. Em geral é um pedaço de palavra, não a palavra inteira: termos comuns viram um único token, enquanto palavras longas ou raras se dividem em vários. Tudo o que o modelo lê e escreve é contado em tokens, e é nessa unidade que se medem o limite de tamanho de uma conversa e o custo de uso das ferramentas pagas.

Embedding

Uma forma de representar palavras, imagens ou outros itens como listas de números (vetores), de modo que itens com significado parecido fiquem próximos nesse espaço numérico. Assim, “rei” e “rainha” ficam perto um do outro, e relações entre conceitos viram distâncias e direções que podem ser calculadas. É o que permite a um modelo comparar significados e buscar conteúdos semelhantes, sem “entender” as palavras no sentido humano.

Janela de contexto

A quantidade máxima de texto que um modelo de linguagem consegue considerar de uma vez, medida em tokens e somando o que você escreve e o que ele responde. Funciona como uma memória de trabalho: informações que ultrapassam esse limite deixam de ser levadas em conta. Em conversas ou documentos muito longos, é o que explica o modelo ignorar trechos iniciais. Janelas maiores permitem processar textos mais extensos de uma só vez.

Transformer

A arquitetura de rede neural, proposta em 2017, que serve de base para a maioria dos grandes modelos de linguagem atuais. Sua principal inovação foi o mecanismo de atenção, que processa todas as partes de um texto em conjunto e pondera as relações entre elas, em vez de ler palavra por palavra em sequência. Isso a tornou mais eficiente de treinar em larga escala, e é a origem do “T” na sigla GPT.

Mecanismo de atenção

O componente central do Transformer que permite ao modelo, ao processar cada palavra, ponderar quais outras palavras do texto são mais relevantes para o significado. Na frase “o cachorro não comeu porque ele estava cheio”, a atenção é o que associa “ele” a “cachorro”. Ao fazer isso para todas as palavras ao mesmo tempo, o modelo capta relações entre partes distantes do texto, o que responde por boa parte da coerência dos modelos atuais.

GPU

Sigla para unidade de processamento gráfico, a placa originalmente criada para jogos. Diferentemente do processador comum, ela executa milhares de cálculos simples em paralelo, exatamente o tipo de operação que o treino e o uso de redes neurais exigem. Por isso as GPUs se tornaram o hardware padrão da IA, e a forte demanda por elas transformou fabricantes como a Nvidia em peças centrais do setor.

A era dos modelos de linguagem

Modelo de linguagem

Um modelo treinado para prever a próxima palavra (ou token) de uma sequência de texto, com base em tudo que veio antes. Treinado com enormes quantidades de texto, ele aprende padrões de gramática, estilo e associação entre ideias, o que lhe permite gerar texto, resumir, traduzir e responder perguntas. A sigla LLM (“large language model”) designa os modelos dessa categoria com bilhões de parâmetros. A previsão é estatística: o modelo não verifica se o que diz é verdadeiro.

IA generativa

Categoria de IA voltada a criar conteúdo novo (texto, imagem, áudio, vídeo, código) em vez de apenas classificar ou prever dados existentes. Um classificador diz se uma foto contém um gato; um modelo generativo produz uma imagem inédita de um gato. A maioria desses sistemas aprende a distribuição estatística dos dados de treino e gera exemplos novos coerentes com esses padrões.

Modelo de fundação

Um modelo de grande escala, treinado com uma vasta quantidade de dados gerais, que serve de base para muitas aplicações diferentes. Em vez de treinar um sistema do zero para cada tarefa, parte-se desse modelo e faz-se uma adaptação (por exemplo, um ajuste fino) para o uso específico. Os grandes modelos de linguagem e de imagem atuais são exemplos. O nome reflete seu papel de alicerce sobre o qual outras ferramentas são construídas.

GPT

Sigla para “generative pre-trained transformer” (transformador generativo pré-treinado), nome da família de modelos de linguagem que popularizou os assistentes de texto. Cada termo descreve uma característica: “generativo” porque gera texto, “pré-treinado” porque passa por um treino prévio com grandes volumes de dados antes de ser ajustado para tarefas, e “transformer” pela arquitetura usada. Tornou-se quase sinônimo de IA na linguagem cotidiana, embora seja apenas uma linhagem específica entre várias.

Prompt

A instrução ou pergunta que você fornece a um modelo de IA para obter uma resposta. Pode ser uma dúvida, um comando ou um texto a ser completado. Como o modelo gera a resposta a partir desse texto, a forma como o pedido é redigido influencia bastante o resultado: incluir contexto, detalhes e exemplos no prompt costuma levar a respostas mais precisas.

Engenharia de prompt

A prática de formular prompts de maneira a obter as melhores respostas de um modelo. Inclui estratégias como fornecer exemplos do resultado desejado, pedir que o modelo apresente o raciocínio passo a passo ou especificar um papel e um formato de resposta. Surgiu porque o desempenho de um mesmo modelo pode variar bastante conforme a redação do pedido, e tornou-se uma habilidade valorizada no trabalho com IA.

Alucinação

Termo usado quando um modelo de linguagem gera uma informação falsa ou inventada, apresentada com aparência de fato: uma citação inexistente, uma referência fabricada, um dado incorreto. Não se trata de mentira intencional nem de defeito de funcionamento: o modelo prevê o texto mais provável, e o mais provável nem sempre é verdadeiro. É uma limitação conhecida desses sistemas e a razão pela qual convém verificar as afirmações factuais que eles produzem.

Ajuste fino

Processo de pegar um modelo já treinado e submetê-lo a um treino adicional com um conjunto de dados específico, para especializá-lo em uma tarefa ou domínio. Aproveita-se todo o conhecimento geral que o modelo já tem e ajusta-se apenas o necessário, o que é muito mais barato e rápido do que treinar um modelo do zero. É a forma mais comum de adaptar um modelo de fundação a um uso particular, como o atendimento de uma empresa.

RAG (geração aumentada por recuperação)

Sigla, em inglês, para “geração aumentada por recuperação”. É uma técnica em que o modelo, antes de responder, busca informações relevantes em uma fonte externa confiável (uma base de documentos, manuais, uma busca na web) e usa esse material para compor a resposta. Serve para fundamentar as respostas em dados atualizados ou específicos e para reduzir alucinações, já que o modelo passa a se apoiar em conteúdo recuperado, e não só no que memorizou durante o treino.

Multimodal

Característica de modelos capazes de lidar com mais de um tipo de dado de forma integrada, como texto, imagem, áudio e vídeo. Um modelo multimodal pode receber a foto de um gráfico e explicá-lo por escrito, ou descrever o conteúdo de um áudio. Combinar diferentes modalidades aproxima esses sistemas da forma como as pessoas percebem o mundo, usando vários sentidos ao mesmo tempo.

Agente de IA

Um sistema baseado em IA que executa tarefas de forma autônoma, em várias etapas, usando ferramentas para alcançar um objetivo: buscar informações na web, preencher formulários, operar outros programas ou enviar mensagens, sem orientação a cada passo. Distingue-se de um assistente que apenas responde, pois toma decisões e age em sequência. É uma área em rápido desenvolvimento e também uma das que mais exigem cuidado, já que a ação autônoma amplia o impacto de eventuais erros.

Imagem, som e visão

Visão computacional

Área da IA dedicada a fazer computadores interpretarem imagens e vídeos: detectar e classificar objetos, reconhecer rostos, ler textos, estimar distâncias. Para o computador, uma imagem é uma matriz de números que representam a cor de cada pixel, e a tarefa é extrair informação útil dessa matriz. Está por trás de aplicações como carros autônomos, organização automática de fotos e inspeção de qualidade em fábricas.

Processamento de linguagem natural

Conhecido pela sigla PLN, é o campo da IA voltado a fazer computadores lidarem com a língua humana, escrita ou falada. Abrange tarefas como tradução, resumo, classificação de textos, análise de sentimento e resposta a perguntas. O “natural” distingue as línguas humanas das linguagens de programação. É a área que sustenta os tradutores automáticos e os assistentes de texto atuais.

Reconhecimento de fala

Tecnologia que converte a fala em texto, permitindo que dispositivos transcrevam o que é dito e respondam a comandos de voz. Está presente em assistentes de celular, ditado por voz e legendas automáticas. Os principais desafios técnicos são lidar com sotaques, ruído de fundo, velocidade da fala e vozes sobrepostas, fatores que tornam o áudio do mundo real difícil de transcrever com precisão.

Modelos de difusão

Família de modelos generativos usada principalmente para criar imagens. Durante o treino, eles aprendem a reverter um processo de degradação: parte-se de uma imagem real, adiciona-se ruído em etapas até restar apenas ruído, e o modelo aprende a desfazer cada etapa. Para gerar uma imagem nova, ele começa de ruído aleatório e o transforma, passo a passo, em uma figura coerente, geralmente guiado por uma descrição em texto.

GAN

Sigla, em inglês, para “rede generativa adversarial”. É um arranjo com duas redes neurais que competem: uma gera dados falsos (por exemplo, rostos sintéticos) e a outra tenta distinguir o falso do verdadeiro. Treinadas uma contra a outra, ambas melhoram, e o gerador passa a produzir resultados cada vez mais realistas. Foram muito influentes na geração de imagens a partir de 2014, papel hoje em boa parte ocupado pelos modelos de difusão.

Deepfake

Conteúdo de vídeo, áudio ou imagem falsificado por IA de forma convincente, como o rosto de uma pessoa inserido em outro corpo ou uma voz clonada dizendo algo que nunca foi dito. A mesma tecnologia tem usos legítimos, em efeitos visuais e dublagem, e usos prejudiciais, em fraudes, difamação e desinformação. Sua existência reforça a necessidade de checar a origem de vídeos e áudios, já que o realismo deixou de ser garantia de autenticidade.

Treino fino, alinhamento e segurança

RLHF

Sigla, em inglês, para “aprendizado por reforço a partir de retorno humano”. É uma técnica de ajuste em que pessoas avaliam respostas do modelo, indicando quais são melhores, e essas avaliações são usadas para treiná-lo a produzir respostas preferíveis. Foi fundamental para transformar modelos de linguagem brutos, que apenas completavam texto, em assistentes mais úteis, seguros e ajustados às expectativas dos usuários.

Alinhamento

O conjunto de esforços para garantir que um sistema de IA persiga, na prática, os objetivos e valores pretendidos pelas pessoas, e não apenas a interpretação literal do que foi pedido. O risco é o sistema otimizar a meta de forma indesejada, cumprindo a instrução ao pé da letra com consequências ruins. À medida que os modelos ficam mais capazes, o alinhamento torna-se mais importante e mais difícil de assegurar, sendo hoje um campo ativo de pesquisa.

Viés algorítmico

Tendência de um sistema de IA a produzir resultados sistematicamente injustos para certos grupos, em geral porque reproduz preconceitos presentes nos dados de treino. Um sistema de triagem de currículos treinado com decisões passadas pode repetir discriminações contidas nessas decisões. Como o modelo aprende dos dados sem julgá-los, pode perpetuar desigualdades sob uma aparência de neutralidade. Identificar e mitigar esses vieses é parte central do uso responsável de IA.

Caixa-preta

Termo para sistemas cujo funcionamento interno é difícil de interpretar: o modelo produz uma resposta, mas não é simples explicar por que chegou a ela, pois a decisão está distribuída entre milhões ou bilhões de parâmetros. Isso se torna um problema em usos sensíveis, como crédito, saúde ou justiça, em que entender o motivo da decisão é tão importante quanto a decisão em si. O esforço para tornar esses modelos compreensíveis chama-se explicabilidade.

Injeção de prompt

Tipo de ataque a sistemas de IA em que instruções maliciosas são escondidas em um texto que o modelo vai processar, levando-o a ignorar suas regras ou a revelar informações que não deveria. Por exemplo, uma página web pode conter um comando oculto destinado a um assistente que venha a lê-la. É uma vulnerabilidade relevante sobretudo para agentes, que processam conteúdo externo de forma autônoma e podem agir com base nele.

Dados sintéticos

Dados gerados artificialmente, muitas vezes pela própria IA, em vez de coletados do mundo real. São usados para treinar modelos quando faltam exemplos reais, quando obtê-los é caro ou quando o uso de dados reais esbarra em questões de privacidade. Têm utilidade comprovada, mas exigem cuidado: treinar modelos predominantemente com dados gerados por outros modelos pode acumular e amplificar erros ao longo das gerações.

Os clássicos

Teste de Turing

Critério proposto por Alan Turing em 1950 para avaliar se uma máquina exibe comportamento inteligente: se, em uma conversa por texto, uma pessoa não consegue distinguir se está falando com uma máquina ou com um humano, a máquina passa no teste. Por décadas funcionou como meta simbólica da IA. Os modelos atuais o satisfazem em muitas situações, o que levou os pesquisadores a tratá-lo mais como marco histórico do que como medida confiável de inteligência.

Sistema especialista

Abordagem de IA predominante nas décadas de 1970 e 1980, baseada em codificar manualmente regras do tipo “se isto, então aquilo”, extraídas do conhecimento de especialistas humanos, para imitar seu raciocínio em áreas como diagnóstico médico. Funcionavam em domínios restritos, mas eram difíceis de manter e não lidavam bem com situações fora das regras previstas. Perderam espaço com a ascensão do aprendizado de máquina, que aprende padrões dos dados em vez de depender de regras escritas à mão.

Árvore de decisão

Modelo de aprendizado de máquina que toma decisões por meio de uma sequência de perguntas de sim ou não, organizadas como uma árvore: cada resposta leva a um ramo, até se chegar a uma conclusão nas pontas. Por exemplo, classificar um animal perguntando se ele voa, quantas patas tem, e assim por diante. É simples, rápido e fácil de interpretar, o que o torna útil quando é importante entender o motivo de cada decisão.

AGI

Sigla para inteligência artificial geral: uma IA hipotética capaz de aprender e raciocinar com flexibilidade em qualquer área, como faz um ser humano, em vez de ter bom desempenho apenas em tarefas específicas. Os sistemas atuais, por mais avançados, continuam sendo especializados. A AGI não existe, e há grande divergência entre especialistas sobre se, como e quando seria possível alcançá-la.

Singularidade

Cenário hipotético em que a IA se tornaria capaz de aperfeiçoar a si mesma de forma acelerada, ultrapassando a inteligência humana e tornando o desenvolvimento tecnológico seguinte difícil de prever ou controlar. É uma especulação sobre o futuro, não uma previsão estabelecida, e divide opiniões entre pesquisadores que a consideram plausível e os que a veem como improvável. Aparece com frequência em debates sobre os riscos de longo prazo da IA.

Benchmark

Conjunto padronizado de tarefas usado para medir e comparar o desempenho de modelos de IA, atribuindo a cada um uma pontuação em condições iguais. Permite acompanhar a evolução da área e comparar sistemas entre si. Sua limitação é que um modelo pode ser otimizado especificamente para o teste e ir bem nele sem ter o mesmo desempenho em situações reais, por isso os resultados de benchmarks devem ser interpretados com cautela.