Glossário: Termos e Significados sobre Inteligência Artificial Generativa – GenAI

Criamos um conteúdo prático sobre os principais termos, significados com exemplos para um melhor entendimento sobre GenAI, para quem deseja se aprofundar na área.

Prompt:

Explicação: Em IA generativa, um prompt é uma entrada de texto fornecida pelo usuário para orientar a geração de conteúdo por um modelo. O prompt define o contexto ou a tarefa que o modelo deve realizar, como gerar texto, imagens, ou código.
Exemplo: Em um modelo de IA para criação de imagens, um prompt pode ser “desenhe um cachorro brincando no parque”, orientando o modelo a gerar uma imagem correspondente à descrição.

GenAI (Inteligência Artificial Generativa):

Explicação: Subsetor da IA focado na criação de novos conteúdos, dados ou informações que não existiam anteriormente, abrangendo texto, imagens, música, e mais. Utiliza técnicas de aprendizado profundo para gerar saídas inovadoras a partir de entradas fornecidas.
Exemplo: Modelos de GenAI podem criar arte digital realista, compor músicas, escrever histórias, ou desenvolver códigos de programação baseados em especificações simples fornecidas através de prompts.

Algoritmo: Sequência de instruções ou regras projetadas para realizar uma tarefa específica. Exemplo: Algoritmo de ordenação, como o quicksort, que organiza uma lista de números em ordem crescente.

Big Data: Conjuntos de dados extremamente grandes que são analisados computacionalmente para revelar padrões, tendências e associações, especialmente relacionados ao comportamento humano e interações. Exemplo: Dados de navegação na internet usados para personalizar anúncios.

Classificação: Tarefa de ML onde o objetivo é prever a categoria ou classe de uma instância. Exemplo: Classificar e-mails como “spam” ou “não spam”.

Deep Learning (Aprendizagem Profunda): Subcampo de ML baseado em redes neurais com muitas camadas (deep neural networks) para modelar complexidades de dados de alta dimensão. Exemplo: Reconhecimento de imagem.

Ensemble Learning: Método de ML que combina várias modelos para melhorar a performance. Exemplo: Random Forest, que combina várias árvores de decisão.

Feature Engineering: Processo de selecionar, modificar ou criar novas variáveis (features) para melhorar o desempenho do modelo de ML. Exemplo: Criar uma variável “hora do dia” a partir de um timestamp.

Generative Adversarial Networks (GANs): Classe de algoritmos de IA em que dois modelos são treinados simultaneamente por um processo competitivo. Um modelo gera candidatos (gerador) e o outro avalia (discriminador). Exemplo: Criação de imagens realistas de pessoas que não existem.

Hiperparâmetro: Parâmetro de um algoritmo de aprendizado que é definido antes do processo de treinamento e controla o comportamento do algoritmo. Exemplo: Taxa de aprendizado em um modelo de deep learning.

Inteligência Artificial (IA): Simulação de processos de inteligência humana por sistemas de computador. Exemplo: Um programa de xadrez que pode derrotar humanos.

Jupyter Notebook: Aplicação web que permite a criação e compartilhamento de documentos que contêm código, visualizações e texto explicativo. Exemplo: Análise de dados com Python em um projeto de ciência de dados.

K-means: Algoritmo de clusterização que agrupa dados em k número de clusters com base na proximidade aos centros dos clusters. Exemplo: Segmentação de clientes em marketing.

Learning Rate (Taxa de Aprendizado): Hiperparâmetro que controla o quanto ajustamos os parâmetros de nosso modelo em resposta ao erro estimado cada vez que o modelo pondera são atualizados. Exemplo: 0.01 em um treinamento de rede neural.

Machine Learning (ML): Campo da IA que usa algoritmos e estatísticas para permitir que as máquinas melhorem em tarefas com experiência. Exemplo: Sistemas de recomendação, como os da Netflix.

Geração de Linguagem Natural (GLN) ou Natural Language Generation (NLG): Subcampo da IA que se concentra em transformar dados em texto natural, permitindo que as máquinas comuniquem ideias com fluidez e precisão. Exemplo: Um sistema de GLN pode ser usado para gerar resumos de relatórios financeiros a partir de conjuntos de dados, facilitando a interpretação dos resultados por humanos.

Hiperparâmetro: Em ML, um hiperparâmetro é um parâmetro de configuração do algoritmo que é definido antes do início do processo de aprendizado e que influencia a estrutura do modelo ou como ele é treinado. Exemplo: A taxa de aprendizado em redes neurais é um hiperparâmetro que determina o tamanho dos passos durante a atualização dos pesos da rede para minimizar a função de perda.

Inteligência Artificial (IA): Campo da ciência da computação dedicado à criação de sistemas capazes de realizar tarefas que normalmente requerem inteligência humana, como percepção visual, reconhecimento de fala, tomada de decisão e tradução entre idiomas. Exemplo: Assistente virtual que pode entender e responder a comandos de voz em linguagem natural.

Aumento de dados (Data Augmentation): Técnica usada em ML para aumentar o volume de dados de treinamento por meio de modificações menores nos dados existentes ou geração de dados sintéticos, visando melhorar o desempenho e a generalização dos modelos. Exemplo: Rotacionar, cortar ou alterar a escala de imagens em um conjunto de dados de treinamento de reconhecimento de imagens para aumentar a diversidade dos dados.

K-fold Cross Validation: Método de validação cruzada usado em ML para avaliar a capacidade de generalização de um modelo, dividindo os dados em K subconjuntos (ou “folds”). O modelo é treinado K vezes, cada vez usando um fold diferente como conjunto de teste e os restantes como conjunto de treinamento. Exemplo: Usar K-fold cross validation com K=5 em um conjunto de dados de classificação de e-mails para avaliar a precisão do modelo de maneira mais confiável.

Learning Rate (Taxa de Aprendizado): Hiperparâmetro crucial em algoritmos de ML que determina o tamanho dos passos na atualização dos pesos do modelo durante o treinamento, afetando diretamente a velocidade e a qualidade da convergência do modelo. Exemplo: Em uma rede neural, uma taxa de aprendizado muito alta pode levar a uma convergência instável, enquanto uma taxa muito baixa pode tornar o processo de treinamento extremamente lento.

Modelagem Preditiva: Processo de utilização de dados históricos para prever resultados futuros. Técnicas de ML são frequentemente aplicadas para construir modelos preditivos. Exemplo: Empresas de crédito usam modelagem preditiva para avaliar a probabilidade de inadimplência de um cliente com base em seu histórico financeiro.

Naive Bayes: Um modelo de classificação probabilística baseado no Teorema de Bayes, com a “ingenuidade” de assumir independência entre os preditores. É simples, mas surpreendentemente eficaz para certos tipos de dados. Exemplo: Filtragem de spam em e-mails, onde o modelo calcula a probabilidade de um e-mail ser spam com base na frequência de palavras-chave.

Overfitting: Ocorre quando um modelo de ML aprende o ruído ou os detalhes aleatórios do conjunto de dados de treinamento a ponto de prejudicar seu desempenho em dados novos, não vistos. Exemplo: Um modelo de classificação de imagens que identifica fotos de cães e gatos pode memorizar as imagens de treinamento em vez de aprender características gerais, falhando assim em classificar corretamente novas imagens.

Processamento de Linguagem Natural (PLN): Ramo da IA focado na interação entre computadores e humanos através da linguagem natural. O objetivo é que os computadores sejam capazes de entender e processar a linguagem humana de forma significativa. Exemplo: Assistente virtual que compreende perguntas em linguagem natural e fornece respostas úteis.

Quartis: Medidas que dividem um conjunto de dados ordenado em quatro partes iguais, fornecendo uma visão da distribuição dos dados, incluindo a mediana (segundo quartil), o primeiro e o terceiro quartil. Exemplo: Na análise salarial de uma empresa, os quartis podem ajudar a entender a dispersão dos salários entre os empregados.

Random Forest: Algoritmo de ML para classificação e regressão que opera construindo uma multitude de árvores de decisão durante o treinamento e produzindo a média das previsões das árvores individuais para melhorar a precisão preditiva e controlar o overfitting. Exemplo: Previsão do preço de venda de casas com base em características como tamanho, localização e número de quartos.

Sistemas de Recomendação: Sistemas de IA projetados para recomendar itens (produtos, serviços, conteúdos) aos usuários com base em informações sobre suas preferências e comportamentos anteriores. Exemplo: Plataformas de streaming de vídeo que recomendam filmes e séries com base no histórico de visualização do usuário.

TensorFlow: Biblioteca de software de código aberto para computação numérica que facilita a construção e o treinamento de modelos de ML, desenvolvida pela Google Brain Team. Exemplo: Desenvolvimento de modelos complexos de redes neurais para tarefas de visão computacional.

Underfitting: Situação em que um modelo de ML é demasiado simples para capturar a estrutura subjacente dos dados, resultando em um desempenho pobre tanto nos dados de treinamento quanto nos de teste. Exemplo: Um modelo linear tentando prever resultados de um conjunto de dados com relações complexas não-lineares entre as variáveis.

Validação Cruzada: Técnica de avaliação de modelos de ML que envolve a divisão dos dados em subconjuntos para treinar e testar o modelo várias vezes. Isso ajuda a garantir que o modelo é capaz de generalizar para novos dados. Exemplo: Usar validação cruzada de 10-folds em um conjunto de dados para avaliar a precisão de um modelo de classificação.

Variância: Medida estatística que descreve a dispersão dos dados em relação à média. Em ML, alta variância pode indicar que o modelo é muito complexo, capturando ruído dos dados de treinamento (overfitting). Exemplo: Em um modelo de regressão, uma alta variância pode significar que o modelo se ajusta perfeitamente aos dados de treinamento mas falha em generalizar para novos dados.

Word Embeddings: Técnica em PLN para representar palavras e frases em vetores de números, capturando o contexto semântico das palavras. Word embeddings permitem que modelos de IA processem texto de maneira mais eficaz. Exemplo: O modelo `word2vec` gera embeddings que aproximam palavras semanticamente similares em um espaço vetorial, facilitando a identificação de padrões e relações no texto.

XGBoost (Extreme Gradient Boosting): Algoritmo de ML otimizado para aumentar a eficiência e a precisão em problemas de regressão, classificação, e ranking. XGBoost é conhecido por sua velocidade e desempenho. Exemplo: Competições de ciência de dados, onde XGBoost tem sido frequentemente utilizado para construir modelos vencedores devido à sua capacidade de lidar com grandes volumes de dados e encontrar padrões complexos.

Yield (Rendimento em Computação Paralela): Em contextos de programação, especialmente em computação paralela ou concorrente, `yield` é uma instrução que pausa a execução de uma função para permitir que outros processos sejam executados, melhorando a eficiência do uso dos recursos. Exemplo: Em algoritmos de IA que processam grandes conjuntos de dados, a utilização de `yield` pode otimizar a alocação de memória e a execução paralela de tarefas, especialmente em ambientes de cloud computing.

Zero-Shot Learning: Abordagem em ML e IA que permite a um modelo reconhecer objetos, conceitos ou entidades que não foram vistos durante o treinamento, utilizando conhecimento prévio ou abstrações gerais. Exemplo: Um modelo de IA capaz de identificar animais específicos em imagens, mesmo que nunca tenha sido treinado com imagens desses animais, ao aprender características gerais de animais a partir de classes conhecidas.

Em breve, mais termos, explicações e exemplos.