Models

Escopo: transversal. Aplica-se a qualquer linguagem ou stack do projeto.

Um modelo de IA é um conjunto de pesos e parâmetros resultado de treinamento em grandes volumes de dados. Para uso em produção, os modelos se dividem em duas categorias: cloud (nuvem), acessados via API (Application Programming Interface, Interface de Programação de Aplicações) mediante pagamento por token, e local, executados diretamente na máquina do desenvolvedor.

Conceitos fundamentais

ConceitoO que é
Parameters (parâmetros)Valores numéricos aprendidos durante o treinamento; "tamanho" do modelo, medido em bilhões (B)
MoE (Mixture of Experts, Mistura de Especialistas)Arquitetura que ativa apenas uma fração dos parâmetros por inferência, reduzindo custo computacional
Multimodal (multimodal)Modelo que processa mais de um tipo de entrada: texto, imagem, áudio
Open weights (pesos abertos)Modelo cujos pesos são públicos, podendo ser rodados localmente
Proprietary (proprietário)Modelo cujos pesos não são públicos; acesso via API
Context window (janela de contexto)Total de tokens (entrada + saída) processados em uma chamada
quantization (quantização)Técnica que reduz a precisão dos pesos (ex: de 32 bits para 4 bits) para diminuir uso de memória
GGUF (GPT-Generated Unified Format, formato unificado gerado por GPT)Formato binário do llama.cpp para armazenar e executar modelos quantizados localmente

Modelos em nuvem (Cloud Models)

Modelos em nuvem são acessados via API REST (Representational State Transfer, Transferência de Estado Representacional). O desenvolvedor envia tokens e paga por volume de entrada e saída. Nenhum hardware especializado é necessário no lado do cliente.

Claude (Anthropic)

Claude é a família de modelos da Anthropic, com foco em segurança, raciocínio e uso agentico.

ModeloPerfil de usoContext window
Claude Opus 4.7Máxima inteligência; raciocínio xhigh; verifica os próprios outputs1M tokens
Claude Sonnet 4.6Velocidade + inteligência; melhor desempenho agentico; uso geral em produção1M tokens
Claude Haiku 4.5Modelo leve e rápido; latência mínima; tarefas simples e alto volume200K tokens

GPT (OpenAI)

Família de modelos da OpenAI. Os modelos o são especializados em raciocínio estendido (chain-of-thought, cadeia de raciocínio interno).

ModeloPerfil de uso
GPT-4.1Contexto de 1 milhão de tokens; uso geral em produção
GPT-5Topo de linha da família GPT; raciocínio avançado
o3Raciocínio profundo; benchmarks STEM e código
o4-miniRaciocínio com baixo custo; excelente em matemática e código

Gemini (Google)

Família de modelos do Google DeepMind. Todos com suporte nativo a entrada multimodal.

ModeloPerfil de uso
Gemini 2.5 ProContexto de 1 milhão de tokens; Deep Think mode; topo do LMArena
Gemini 2.5 FlashContexto de 1 milhão de tokens; raciocínio dinâmico com orçamento controlável; baixa latência

Llama (Meta)

Família open weights da Meta. Llama 4 adota arquitetura MoE e processamento multimodal nativo.

ModeloParâmetrosContext window
Llama 4 Scout17B ativos / 109B total10 milhões de tokens
Llama 4 Maverick17B ativos / 400B total1 milhão de tokens

Por serem open weights, modelos Llama podem ser rodados localmente via Ollama.

Mistral

Família de modelos da Mistral AI (Artificial Intelligence, Inteligência Artificial), com foco em código e eficiência. Distribuídos sob Apache 2.0.

ModeloPerfil de uso
Mistral Large 341B ativos / 675B total; 256K contexto; uso geral
Devstral 2123B; SOTA open-source para code agents (72.2% SWE-bench)
Ministral 3/8BModelos compactos; rodam em laptop
MagistralFamília de raciocínio da Mistral

Modelos locais (Local Models)

Modelos locais rodam diretamente na máquina, sem envio de dados para servidores externos. São indicados para prototipagem, ambientes sem acesso à internet e controle total sobre privacidade.

Ollama

Ollama permite baixar e executar modelos localmente com um único comando. Modelos são identificados por nome:tag (ex: llama3.1:8b-q4_K_M). O download funciona em camadas, similar ao Docker.

# baixar e executar modelo
ollama run llama3.1:8b

# listar modelos disponíveis
ollama list

Modelos populares disponíveis no Ollama: llama4, qwen2.5, mistral, gemma3, phi4, deepseek-r1.

LM Studio

LM Studio é uma interface gráfica para rodar modelos GGUF (GPT-Generated Unified Format, Formato Unificado Gerado por GPT) localmente. Inclui um servidor compatível com a API da OpenAI, permitindo integração direta com ferramentas existentes sem alterar código.

Quantização (Quantization)

Quantização reduz a precisão dos pesos do modelo de ponto flutuante de 32 bits (FP32) para representações menores como Q8 ou Q4. O modelo ocupa menos memória e a inferência é mais rápida, com perda controlada de qualidade.

O formato GGUF (do llama.cpp) é o padrão para modelos quantizados locais. Cada arquivo .gguf contém os pesos já quantizados e metadados de arquitetura.

Níveis de quantização

NívelBitsTamanho relativoQualidadeIndicação
FP1616100% (referência)MáximaGPU com VRAM suficiente
Q8_08~50%Alta (quase FP16)GPU ou CPU com RAM folgada
Q4_K_M4~25-30%Boa (~95% de FP16)Sweet spot: uso geral local
Q3_K_S3~20%RazoávelHardware muito limitado

A notação K_M indica K-quants com superblocks, que preservam qualidade melhor do que formatos legacy de mesmo nível de bits. Para a maioria dos casos, Q4_K_M é a escolha padrão na comunidade.

Exemplo: modelo 7B em diferentes quantizações

QuantizaçãoTamanho do arquivoRAM necessária
FP16~14 GB~16 GB
Q8_0~7 GB~8 GB
Q4_K_M~4.1 GB~5 GB
Q3_K_S~3.0 GB~4 GB

Desenvolvido por @thiagocajadev · Fork baseado no repositório pmndrs/docs · Poimandres.