REGENERAI · DOCUMENTAÇÃO TÉCNICA · CAMADA DE CONHECIMENTO DO MVP
A base de conhecimento do MVP: RAG Profundo, quatro RAGs setoriais, roteamento e Assistente de Perguntas
Preparado para: Syntropy Labs · GAAS Base de referência: Ontologia ATR e pesquisas GAAS Escopo: Camada de conhecimento do MVP Uso: Interno

A camada de conhecimento em dois níveis

A ontologia, a taxonomia da ATR e o roteamento por padrões já estão definidos. O que falta para fechar o MVP é materializar a base de conhecimento em índices reais. A decisão central deste documento: a base começa enxuta, em dois níveis articulados, um RAG profundo e um único RAG geral aplicado, e se subdivide em partições só quando os evals indicarem.

Nível 1 · profundidade

RAG Profundo (RAPTOR)

Um único índice, sem recorte por cultura, para os documentos longos: livros, manuais científicos densos, teses, normas de certificação e protocolos extensos. A indexação hierárquica recursiva permite navegar do resumo amplo ao trecho exato sem perder o argumento do documento inteiro. É o pilar do Conhecimento Formal.

Nível 2 · panorama produtivo

RAG Geral Aplicado

Um único índice de conhecimento aplicado e vivo no lançamento, com todo o manejo, os casos e as notas de insumo. A especificidade por cultura e bioma vem do filtro de metadados ontológicos, não de índices separados. Esse índice se quebra em partições quando os evals mostrarem que um segmento precisa. São os pilares do Conhecimento Aplicado e do Conhecimento Vivo.

Por que dois níveis e não um RAG único

A apresentação da plataforma organiza o conhecimento do GAAS em três pilares: Conhecimento Formal, a base científica, artigos e materiais validados, Conhecimento Aplicado, o como fazer, casos de uso e manejos documentados, e Conhecimento Vivo, a inteligência coletiva, a sabedoria das trocas. Esses três pilares não pedem o mesmo mecanismo de recuperação.

O que isto resolve

A frustração número 1, tanto de consultores quanto de produtores, é a resposta genérica que ignora solo, clima e manejo locais. O filtro ontológico ataca exatamente essa dor: a busca já entra filtrada pela cultura e pelo bioma do perfil. E o superpoder mais desejado, prática somada a ciência, é a combinação dos dois níveis, o RAPTOR trazendo a evidência científica e o índice geral aplicado trazendo a experiência aplicada e os casos da rede.

73%

dos consultores citam a resposta genérica como principal frustração

86%

dos produtores querem ciência somada à experiência do grupo

77%

exigem transparência e rastreabilidade da fonte como regra inegociável

68%

valorizam muito o acervo de casos reais, a inteligência coletiva

Onde isto se encaixa na arquitetura já definida

Nada na ontologia, no CoT ou no roteamento muda. Estes dois índices no lançamento, o RAPTOR e o geral aplicado, são as fontes físicas que a Camada de Indexação Ontológica expõe. O roteador de padrões continua escolhendo a estratégia, o CoT continua orquestrando a sequência de raciocínio, e o prompt do sistema continua só renderizando em prosa de campo. Este documento instancia a base de conhecimento e adiciona o Assistente de Perguntas. Ele não reescreve o que já está pronto.

Princípio de separação

O filtro de cultura e bioma decide ONDE no panorama produtivo buscar. O RAPTOR decide a PROFUNDIDADE de fundamento. Os metadados ontológicos decidem o ESCOPO fino dentro do índice. O padrão de consulta decide a INTENÇÃO. O CoT decide o MÉTODO de raciocínio. Cinco eixos independentes, e é essa independência que mantém o sistema escalável.

RAG Profundo · indexação hierárquica recursiva

O índice profundo guarda o conhecimento que não pode ser fatiado sem perder sentido. Internamente é RAPTOR. Em comunicação externa, descrevemos sempre como indexação hierárquica recursiva ou estrutura em camadas, nunca pelo nome.

O que entra no índice profundo

Caráter transversal: o índice profundo não tem recorte de cultura. É a base que serve qualquer setor quando a pergunta pede fundamento, conceito ou texto normativo.

Por que RAPTOR e não chunk simples

Em um RAG comum, um livro vira centenas de pedaços soltos. Uma busca recupera o pedaço mais parecido com a pergunta, mas perde o contexto do capítulo. RAPTOR resolve construindo uma árvore: os pedaços originais são as folhas, grupos de pedaços parecidos viram um resumo, grupos de resumos viram um resumo de nível acima, e assim por diante até a raiz. O agente passa a recuperar tanto o trecho específico quanto o resumo que o contextualiza.

Clique em cada nível para ver o detalhe
1
Folhas
Chunks semânticos do documento original
Recorte por sentido, não por contagem fixa de tokens, respeitando seções e parágrafos.
2
Clusters resumidos
Cada grupo de chunks parecidos é resumido pela LLM
O resumo carrega a ideia central do grupo, virando um novo nó indexável.
3
Níveis superiores
Resumos de resumos, subindo a árvore
Cada nível comprime mais o contexto. Repete até sobrar um conjunto pequeno de nós.
4
Raiz
Síntese de mais alto nível do documento
Todos os níveis, das folhas à raiz, ficam no mesmo índice vetorial, com o vínculo de árvore preservado nos metadados.

Pipeline de ingestão

EtapaO que aconteceResponsável
CuradoriaComitê GAAS aprova o documento e classifica o tipo de evidência, científica ou normativa.Comitê GAAS
Chunk semânticoQuebra por sentido, preservando estrutura de seções.Pipeline Syntropy
EmbeddingVetorização de cada folha.Pipeline Syntropy
Clusterização softAgrupamento por similaridade, permitindo que um chunk participe de mais de um grupo.Pipeline Syntropy
Resumo por clusterLLM gera o resumo de cada grupo. Etapa cara, roda em lote, fora do caminho da conversa.OpenAI · lote
RecursãoRe-embedding dos resumos e novo agrupamento, subindo a árvore até a raiz.Pipeline Syntropy
IndexaçãoTodos os níveis entram no índice vetorial com a ficha de metadados e o vínculo de árvore.Pipeline Syntropy

Recuperação no MVP · árvore colapsada

Para o MVP usamos a estratégia de árvore colapsada: a consulta busca em todos os níveis ao mesmo tempo e devolve os melhores nós, sejam folhas ou resumos. É mais simples de operar que a travessia nível a nível e entrega a maior parte do ganho. A travessia guiada fica para depois, quando houver volume para justificar.

// Nó do índice profundo, ficha de metadados
{
  "id": "raptor_solo_vivo_cap3_n12",
  "indice": "raptor",
  "pilar": "formal",
  "nivel_arvore": 2,            // 0 = folha, sobe ate a raiz
  "vinculo_pai": "raptor_solo_vivo_cap3_raiz",
  "vinculo_filhos": ["..._n07", "..._n08", "..._n09"],
  "classe_ontologica": ["processo", "estrutura"],
  "ramo_arvore": "fundamentos.biologia_do_solo",
  "tipo_evidencia": "cientifica",
  "fonte": "Livro X, cap. 3",
  "ano": 2021,
  "validacao_gaas": true,
  "escopo_setor": "transversal"
}

Quando o índice profundo é acionado

Custo e operação

RAPTOR é caro de construir, por causa dos resumos via LLM, e barato de consultar. Por isso a ingestão roda em lote e fora do caminho crítico da conversa. Na consulta, o ganho de contexto não adiciona custo relevante. Isso casa com a arquitetura de custo já adotada, com cache de prompt e modelos por faixa de preço.

RAG Geral Aplicado · um índice no lançamento

No lançamento, todo o conhecimento aplicado e vivo vive em um único índice. A especificidade por cultura e bioma não vem de índices separados, vem do filtro de metadados ontológicos. A partição física é adiada e nasce dos evals, não de uma decisão de mesa.

A decisão

Os dois documentos estruturais, a Ontologia e a Árvore do Conhecimento, mostram que o eixo dominante do conhecimento da ATR é funcional, não a cultura. A maior parte do acervo, fundamentos, solo, fertilidade, MIP e MID, insumos, economia, é transversal a todas as culturas. Particionar por cultura no dia 1 duplicaria esse acervo. Por isso começamos com um índice só e quebramos por evidência.

O que entra no índice geral aplicado

O conhecimento longo e conceitual não entra aqui, fica no RAPTOR. Este índice é o aplicado e o vivo, pontual e acionável.

A especificidade vem do filtro, não do índice

A frustração número 1 da rede é a resposta genérica. A resposta a isso é o pré-filtro ontológico aplicado antes da busca semântica, não um índice por cultura. Um cafeicultor no segundo ano de transição na Mata Atlântica recebe uma busca já restrita a café, Mata Atlântica e às classes ontológicas do passo do CoT. O ruído de outras culturas some pelo filtro.

Filtro entrega especificidade, partição entrega escala

São coisas diferentes. O filtro de cultura e bioma resolve a relevância da resposta e já está na ficha. A partição física resolve o ruído de recuperação em corpus grande e a latência, que não são o gargalo de um MVP com acervo inicial. Por isso a partição pode esperar sem prejuízo de qualidade.

Os eixos de segmentação, que hoje são filtro

Os mesmos campos que filtram a busca hoje são os candidatos a virar partição amanhã. Quando um deles concentrar volume e ruído, ele sai para um índice próprio.

EixoCampo na fichaExemplo de valor
Sistema produtivoculturasoja, café, pastagem, hortaliça
Territóriobiomacerrado, mata atlântica, pampa
Domínio de conhecimentoramo_arvoremanejo.fertilidade, manejo.fitossanidade
Passo do raciocínioclasse_ontologicasintoma, causa, intervenção, prática
Como sei a hora de quebrar

Não pelo tamanho do índice, e sim pela qualidade da recuperação medida por segmento. Os gatilhos e o processo de quebra estão nas duas últimas abas deste documento. O resumo: quando um segmento cai de qualidade ou contamina o top-k, ele vira o primeiro índice próprio.

A ficha de metadados única

Todo pedaço de conhecimento, no RAPTOR e no índice geral aplicado, carrega a mesma ficha de metadados derivada da ontologia. É essa ficha que permite filtrar antes de buscar por semântica, e é também o eixo pelo qual o índice geral será particionado mais tarde. Os dois documentos estruturais travam isto: a Ontologia define o esquema da ficha e a Árvore do Conhecimento é o vocabulário controlado do campo ramo_arvore.

// Ficha de metadados, comum a todos os indices
{
  "id": "aplicado_diag_nodulacao_caso_041",
  "indice": "geral_aplicado", // no lancamento: raptor ou geral_aplicado
  "pilar": "vivo",            // formal, aplicado, vivo
  "classe_ontologica": ["sintoma", "causa_provavel", "processo"],
  "subclasse": "baixa_nodulacao",
  "ramo_arvore": "manejo.fixacao_biologica",
  "bioma": ["cerrado"],
  "cultura": ["soja"],
  "escala": "talhao",
  "origem_funcional": "propria",    // propria, regional, importada
  "tipo_evidencia": "validada",    // cientifica, validada, emergente
  "confiabilidade": 0.8,
  "validacao_gaas": true,
  "fonte": "Caso GAAS, fazenda anonimizada",
  "ano": 2025,
  "nivel_raptor": null,        // preenchido so no indice profundo
  "tags_situacionais": ["transicao_em_curso"]
}

Os campos e para que servem

CampoFunção no sistema
indiceDiz em qual índice o chunk vive, hoje RAPTOR ou geral aplicado. O roteador usa para montar o plano de busca.
pilarFormal, aplicado ou vivo. Liga o chunk ao tipo de conhecimento e ajuda na composição da resposta.
classe_ontologicaSintoma, causa, processo, estrutura, intervenção e demais classes. Filtro principal por passo do CoT.
ramo_arvoreO ramo da Árvore do Conhecimento, vocabulário controlado. Filtro no padrão conceitual e um dos eixos de partição futura.
bioma e culturaFiltros de contexto territorial e de sistema produtivo, vindos das Skills do perfil. São os candidatos naturais a primeiro eixo de partição.
origem_funcionalPrópria, regional ou importada. Filtro central do padrão de autonomia.
tipo_evidencia e confiabilidadeClassificam a evidência e sustentam a rastreabilidade, regra inegociável para 77% dos respondentes.
validacao_gaasMarca o que passou pela curadoria. Habilita o selo Validada pelo GAAS na resposta e nos prompts.
nivel_raptorNível do nó na árvore do índice profundo. Nulo no índice geral aplicado.
tags_situacionaisDiagnósticos persistentes do perfil, por exemplo solo compactado, que reforçam certas buscas.

Filtro estruturado antes da busca semântica

O ganho dessa ficha é simples: o roteador aplica filtros estruturados, por exemplo bioma igual a Cerrado, cultura igual a soja e classe ontológica entre sintoma, causa, processo e intervenção, antes de rodar a similaridade vetorial. Isso reduz o espaço de busca em uma ordem de grandeza e é o que evita a resposta genérica. A busca semântica trabalha sobre um subconjunto já pertinente.

Evidência e os três pilares

O campo de tipo de evidência amarra a ficha aos três pilares e à exigência de transparência. Conhecimento científico, vindo do índice profundo, é evidência científica. Manejo documentado e validado é evidência validada. Casos recentes da rede ainda sem validação ampla são evidência emergente. A resposta sempre informa de onde veio cada peça, e o agente não trata emergente como se fosse científico.

Científica

Vinda do índice profundo, livros e artigos validados. Maior peso de fundamento.

Validada

Manejo documentado e aprovado pela curadoria GAAS. O coração do aplicado.

Emergente

Casos recentes da rede ainda sem validação ampla. Sinalizada como tal, nunca tratada como científica.

Roteamento sobre os dois índices

O roteamento por seis padrões já está definido. Aqui mostramos como cada padrão se materializa em buscas concretas sobre os dois índices físicos do lançamento, o RAPTOR e o geral aplicado, sem a complexidade do GraphRAG ou da política por reforço, que ficam para depois.

Cadeia ontológica · o CoT que orquestra tudo

Contexto → Sintoma → Causa → Processo → Estrutura → Intervenção → Prática → Monitoramento → Resultado → Aprendizado → Compartilhamento

A cadeia continua sendo o CoT que orquestra tudo. O roteamento abaixo só decide qual índice atende cada passo.

Fluxo do Orquestrador

Clique em cada etapa para ver o detalhe
1
Lê o perfil e as Skills
Ponto de entrada único
Bioma, cultura, sistema e estágio viram filtros automáticos sobre o índice geral aplicado.
2
Classifica o padrão da pergunta
Determinístico e auditável no MVP
Classificador leve por palavra-chave e estrutura, sem custo de modelo grande.
3
Monta o plano de índices
Índice primário, apoio e modo de busca
Pela matriz padrão por índice abaixo, escolhe onde buscar e como.
4
Pré-filtro ontológico
Filtra antes do semântico
Aplica os filtros de classe, bioma, cultura e origem sobre a ficha de metadados.
5
Recuperação híbrida e rerank
Lexical somada a vetorial
Busca BM25 mais vetorial, depois reordenação e remoção de duplicatas.
6
Fan out para o índice profundo, se preciso
Fundamento ou baixa confiança
Quando o padrão pede fundamento científico ou quando o índice geral devolve pouco no segmento.
7
Monta o contexto e gera com fontes
Resposta em prosa de campo
O CoT percorre a cadeia, a resposta sai em prosa de campo, sempre com rastreabilidade.

Matriz padrão por índice no MVP

PadrãoPrimárioApoioModo de busca
1 · Diagnósticogeral aplicadoprofundoHíbrida com filtro de classe pela cadeia sintoma a intervenção, mais rerank e casos.
2 · Planejamento operacionalgeral aplicadoprofundoHíbrida com filtro intervenção, prática e insumo, mais casos semelhantes.
3 · Autonomia e origem funcionalgeral aplicadoprofundoHíbrida com filtro de origem funcional e território, mais casos regionais.
4 · Qualidade funcionalgeral aplicadoprofundoHíbrida multifaceta, cruzando genética, ambiente e manejo.
5 · Monitoramentogeral aplicadocasosVetorial leve mais casos semelhantes. Baixa ambiguidade, baixo custo.
6 · Conceitual e fundamentosprofundogeralVetorial sobre os resumos de alto nível da Árvore do Conhecimento.

O índice geral aplicado é primário nos padrões operacionais, sempre com o pré-filtro ontológico de classe, cultura e bioma. O RAPTOR é primário no conceitual e apoio nos demais. Quando um segmento virar partição, o nome do índice primário muda, a lógica não.

Exemplo de decisão de roteamento

// Pergunta: meu solo esta com baixa nodulacao no segundo ano de soja
{
  "perfil": { "cultura": "soja", "bioma": "cerrado", "estagio": "transicao" },
  "padrao_detectado": "diagnostico",
  "plano_indices": {
    "primario": "geral_aplicado",
    "apoio": "raptor",
    "modo": "hibrida + rerank"
  },
  "filtros": {
    "bioma": ["cerrado"],
    "cultura": ["soja"],
    "classe_ontologica": ["sintoma", "causa_provavel", "processo", "intervencao"]
  },
  "casos_semelhantes": true     // reforcado pela Skill transicao_em_curso
}

Fan out: hoje por filtro, amanhã por índice

No índice único, o equivalente ao fan out é combinar filtros dentro do mesmo índice. Um perfil de ILPF, que mistura grãos e pecuária, dispara uma busca com cultura em soja e em pastagem ao mesmo tempo, mais o RAPTOR para o fundamento. Não há vários índices a consultar ainda. Quando os evals indicarem que um segmento merece índice próprio, esse mesmo fan out passa a cruzar índices físicos, e a lógica de roteamento não muda. É por isso que o adiamento é seguro.

Modo Conversa e Modo Técnico

Modo Conversa

Leve e de alto volume

Índice geral aplicado com o filtro do perfil, recuperação leve, sem fan out por padrão. Modelo mais econômico, por exemplo gpt-5.4-mini. Resolve a maioria das perguntas de campo do dia a dia. É também o canário: por ser leve e usar um filtro só, sente a degradação de um segmento antes de todo mundo.

Modo Técnico

Profundo e premium

Combina filtros amplos no índice geral mais o RAPTOR, rerank e CoT mais longo. Modelo de maior capacidade, por exemplo gpt-5.5. Para diagnóstico complexo, qualidade funcional e síntese.

Sinalizações que disparam fallbacks

SinalizaçãoAção do roteador
Pergunta vaga, sem contexto para classificarPergunta de esclarecimento
Skill crítica em alerta, por exemplo erosão avançadaEscalonamento para consultor, via Agente Guardião
Pergunta recorrente já respondida ao mesmo usuárioCache semântico
Pergunta de benchmarking com paresCasos semelhantes da rede GAAS
Pergunta fora de escopoResposta breve do prompt do sistema, sem recuperação
Índice geral com baixa confiança em um segmentoFan out para o RAPTOR e marca o segmento para avaliação de quebra

Assistente de Perguntas · gerar e salvar prompts

A qualidade da resposta começa na pergunta. A frustração com resposta genérica nasce, em boa parte, de perguntas curtas e sem contexto. Esta funcionalidade ajuda o usuário a transformar uma dúvida solta em uma pergunta rica, e a guardar as boas perguntas para reusar.

Metade 1

Gerar

O sistema detecta a pergunta curta, enriquece com o perfil e a anatomia ontológica, e devolve uma versão estruturada que o usuário pode rodar, editar ou salvar.

Metade 2

Salvar

A tela Minhas Perguntas guarda os prompts próprios e os curados, organizados por cultura, tema ou talhão, prontos para rodar de novo.

Gerar · da pergunta solta à pergunta rica

Dois caminhos, conforme o esforço que o usuário quer ter.

Caminho A

Melhorar minha pergunta

Um toque. O usuário escreve do jeito que pensa, por exemplo como melhorar meu solo, e o sistema reescreve em uma versão rica, usando o perfil cadastrado. Roda em modelo leve, por exemplo gpt-5.4-mini, custo baixo.

Caminho B

Construtor guiado

Um formulário curto que segue a anatomia ontológica. O contexto vem preenchido do perfil, o usuário só informa o foco e o formato desejado da resposta.

A anatomia do prompt segue a cadeia

ParteDe onde vemExemplo
ContextoAutomático do perfilSoja, segundo ano de transição, Cerrado, talhão de 40 hectares.
FocoO usuário informaSintoma observado ou objetivo, por exemplo baixa nodulação.
RestriçõesOpcional do usuárioPrefiro alternativa de insumo próprio ou regional.
Formato desejadoO usuário escolhePasso a passo, cálculo de dose, comparação de alternativas com riscos.
Ligação com o roteamento

A versão enriquecida já contém o contexto que o roteador usa para classificar o padrão e aplicar os filtros ontológicos. Ou seja, o Assistente de Perguntas não é só conveniência, ele alimenta o roteamento com perguntas melhores e prepara o caminho para o roteamento automático futuro, onde o sistema reconhece a intenção sem o usuário precisar estruturar nada.

Salvar · a tela Minhas Perguntas

Curadoria e inteligência coletiva

Dois selos, coerentes com a lógica de reconhecimento já desenhada para o blog.

Selo 1

Pergunta do Produtor

Privada por padrão. O usuário pode compartilhar com a rede ou submeter ao comitê para virar pública.

Selo 2

Validada pelo GAAS

Passou pela curadoria do comitê e entra na galeria pública. Carrega a confiança da rede.

As melhores perguntas dos usuários entram no acervo curado, e esse é o motor da inteligência coletiva. Com consentimento LGPD, os prompts e os resultados instrumentados alimentam, mais à frente, a política de roteamento automático.

Onde a funcionalidade aparece na interface

Local na interfaceO que faz
Tela inicial do chat, estado vazioGaleria por categoria com filtros no topo. Resolve a tela em branco.
Botão Melhorar pergunta no campo de digitaçãoSempre visível. Reescreve a pergunta atual em versão rica.
Sugestões contextuais no input vazioTrês a quatro sugestões pelo perfil e pelo tema da conversa.
Próximas perguntas após a respostaCarrossel com perguntas relacionadas, para aprofundar.
Tela Minhas Perguntas e aba Galeria GAASA biblioteca pessoal e a coletiva, lado a lado.

Modelo de dados do prompt

// Objeto prompt, persistido em Postgres
{
  "id": "prompt_a1b2",
  "user_id": "usr_338",
  "titulo": "Baixa nodulacao na soja, segundo ano",
  "corpo": "... pergunta enriquecida ...",
  "padrao_alvo": "diagnostico",
  "categoria": "solo_e_fertilidade",
  "persona": "produtor",
  "cultura": ["soja"],
  "bioma": ["cerrado"],
  "origem": "proprio",        // proprio, curado, derivado
  "status": "privado",        // privado, submetido, validado
  "run_count": 3,
  "consentimento_lgpd": true,
  "criado_em": "2026-06-10"
}
Pré-condição LGPD

Capturar prompts e resultados com consentimento claro é pré-condição da funcionalidade. O usuário pode apagar e exportar suas perguntas a qualquer momento. A instrumentação mínima de adoção, por exemplo taxa de uso da galeria e diferença de avaliação entre pergunta rica e pergunta solta, sustenta a decisão de evoluir para o roteamento automático.

O que fecha o MVP

O MVP sobe enxuto: o RAPTOR para o conhecimento longo e um único RAG geral aplicado com os filtros ontológicos. A partição em segmentos não é entrega de lançamento, é evolução guiada pelos evals. Com a base de conhecimento e o Assistente de Perguntas entregues, o MVP fecha sobre a arquitetura, a ontologia e o roteamento já prontos.

Entregas deste pacote

Roteiro de implementação

A · Imediato
Esquema e seed
  • Travar a ficha de metadados pela Ontologia e carregar o vocabulário do ramo_arvore pela Árvore do Conhecimento.
  • Definir, com o comitê GAAS, o seed do RAPTOR e o seed do índice geral aplicado.
  • Ativar a captura instrumentada de prompts com consentimento LGPD.
B · Curto prazo
Dois índices e roteador
  • Construir o RAPTOR, com ingestão em lote e recuperação por árvore colapsada.
  • Construir o índice geral aplicado com busca híbrida e pré-filtro ontológico.
  • Instanciar a matriz padrão por índice, com fallbacks e os modos Conversa e Técnico.
C · Curto prazo
Eval e Assistente
  • Montar o golden dataset e instrumentar as métricas por segmento no Langfuse.
  • Fixar os limiares de quebra e ligar o alarme por segmento.
  • Entregar o Assistente de Perguntas, gerar, salvar, galeria e os dois selos.
D · Evolução
Quebrar quando os evals pedirem
  • Acompanhar as métricas por segmento na produção e no golden dataset.
  • Quando um gatilho disparar, quebrar o segmento em índice próprio pelo processo definido.
  • Curar para os índices os melhores casos e as melhores perguntas dos usuários.

Dependências

O que fica para depois do MVP

Tudo abaixo se assenta sobre os dois índices iniciais. O substrato já nasce pronto para receber estas camadas, sem reescrita.

Definição de pronto

O MVP está pronto quando

Os dois índices respondem com rastreabilidade e sem resposta genérica para as culturas líderes da rede, o roteador encaminha cada padrão ao índice certo com os dois modos funcionando, o eval roda com métricas por segmento e limiares de quebra acordados, e o usuário consegue gerar, salvar e reusar perguntas, com a galeria GAAS curada disponível. A partir daí, a evolução, inclusive a quebra do RAG, é guiada por dado de uso, não por suposição.

Processo de eval

O eval é o que torna o caminho enxuto seguro. Ele mede a qualidade da recuperação e da resposta de forma contínua e, principalmente, por segmento. É o eval que diz quando um segmento parou de ser bem servido pelo índice único e virou candidato a partição.

Princípio

Não se mede só o número agregado. Toda métrica é quebrada por segmento, cultura, bioma e ramo da árvore. Um número agregado bom pode esconder um segmento ruim, e é o segmento ruim que aciona a quebra. Medir no agregado e por fatia é a regra.

As quatro etapas

Clique em cada etapa para ver o detalhe
1
Golden dataset
50 a 100 exemplos de produção, curados pelo GAAS
Cada exemplo tem a pergunta, o contexto esperado, a resposta de referência e as etiquetas de segmento, cultura, bioma, ramo e padrão. Cobre as culturas líderes da rede e os seis padrões de consulta. É o gabarito contra o qual tudo é medido.
2
Métricas de recuperação e de resposta
RAGAS sobre o pipeline, sempre por segmento
Mede precisão e recall de contexto, fidelidade à fonte e relevância da resposta. As mesmas métricas correm no agregado e fatiadas por segmento. A fatia é o que importa para a quebra.
3
LLM como juiz, calibrado
Concordância com humano por Cohen kappa
Um modelo avalia a resposta segundo uma rubrica. O juiz só entra em produção quando a concordância com a curadoria humana atinge kappa maior ou igual a 0,6 em uma amostra. Sem essa calibração, o juiz não é confiável.
4
CI e observabilidade contínua
Eval no pipeline e traces de produção no Langfuse
O golden dataset roda a cada mudança de prompt, de modelo ou de índice, e barra a subida se uma métrica regredir. Em produção, cada consulta vira trace com suas métricas por segmento, alimentando os gatilhos de quebra.

As métricas que acompanhamos

MétricaO que medePor que importa aqui
Precisão de contextoQuanto do que foi recuperado é de fato relevante.Sinal direto de ruído. Quando cai por segmento, o índice único parou de separar.
Recall de contextoSe o trecho certo foi recuperado.Mostra se o filtro está restringindo demais e perdendo conteúdo.
FidelidadeSe a resposta se sustenta nas fontes, sem invenção.Sustenta a rastreabilidade, regra inegociável da rede.
Relevância da respostaSe a resposta atende à pergunta de fato.Liga a qualidade técnica à utilidade percebida pelo produtor.
Contaminação no top-kFração dos recuperados que é de outro segmento.É o gatilho de quebra mais direto, detalhado na próxima aba.
Candidatos pós-filtroQuantos itens sobram depois do pré-filtro.Mede a saturação do filtro, sinal de que a partição se aproxima.
Latência p95Tempo de recuperação no percentil 95.Sinal operacional. Acompanhado com o tamanho do índice como causa raiz.

Ferramentas

RAGAS

Cálculo das métricas de recuperação e de resposta sobre o pipeline e o golden dataset.

Phoenix

Inspeção e depuração de traces de recuperação, para entender por que um segmento sofre.

Langfuse

Observabilidade em produção, traces por consulta e as séries de métricas por segmento.

Cadência

O golden dataset roda na integração contínua a cada mudança relevante. As métricas por segmento de produção são revistas em janela fixa, por exemplo a cada duas semanas, que é quando se olha para os gatilhos de quebra. Decisão por série histórica, não por episódio isolado.

Gatilhos de quebra do RAG

A pergunta do caminho enxuto é como saber a hora de quebrar. A resposta: não se mede o tamanho do índice, mede-se a qualidade da recuperação por segmento. O tamanho é só o alarme antecipado, não o gatilho.

A regra

O gatilho é a degradação de qualidade em um segmento específico, medida pelo eval. Quando dispara, quebra-se o segmento que está sofrendo, não o acervo inteiro. As próprias métricas dizem qual segmento sai primeiro.

Os quatro sinais

Sinal 1 · principal

Qualidade por segmento

Precisão ou recall de contexto de um segmento caindo abaixo do piso em rodadas seguidas. Esse segmento virou candidato a índice próprio.

Sinal 2

Contaminação cruzada

Fração do top-k que pertence a outra cultura, bioma ou ramo subindo acima do limiar. O filtro de metadado parou de separar.

Sinal 3

Saturação do filtro

Mediana de candidatos pós-filtro indo para os milhares e o rerank errando a ordem. O filtro sozinho não estreita mais.

Sinal 4

Latência e custo

p95 da recuperação furando a meta, com o tamanho do índice como causa raiz. Sinal operacional, não de relevância.

Tamanho é alarme, não gatilho

Com índice vetorial bem configurado, de centenas de milhares a poucos milhões de vetores rodam bem. Raramente o tamanho sozinho força a quebra antes da ordem de um milhão de vetores. As métricas de qualidade quase sempre disparam primeiro. O tamanho serve para começar a olhar com atenção, não para decidir.

O canário

O Modo Conversa é o primeiro a sentir. Por ser leve e usar um filtro só, ele acusa a degradação de um segmento antes do Modo Técnico, que mascara o problema com fan out e rerank. Vale vigiar o Conversa de perto.

Limiares pré-comprometidos

Os números abaixo são um ponto de partida para fixar com a equipe. O valor importa menos que o compromisso de decidir por dado, e não por impressão. Calibre na primeira leitura de produção.

GatilhoLimiar de partidaLeitura
Precisão de contexto do segmentoabaixo de 0,75Em duas janelas seguidas. Candidato confirmado a partição.
Contaminação no top-kacima de 20%O filtro perdeu poder de separação no segmento.
Candidatos pós-filtrona casa dos milharesCom queda perceptível de acerto do rerank.
Latência p95 da recuperaçãoacima da meta do modoCom o tamanho do índice como causa raiz.
Por que o adiamento é seguro

A ficha de metadados já carrega os eixos da partição, cultura, bioma e ramo. Quando um gatilho dispara, quebrar é filtrar o mesmo metadado para um índice separado. Não há reanotar conteúdo nem refazer onboarding. Adiar custa quase nada, e a quebra vira mecânica. O passo a passo está na próxima aba.

Processo de quebra do RAG

Quando um gatilho dispara, a quebra é uma operação mecânica e incremental. Tira-se um segmento por vez do índice geral para um índice próprio, sempre o que está sofrendo, e repete-se quantas vezes os evals pedirem. Nada de redesenho de mesa.

A ideia central

Quebrar não é reorganizar o acervo, é apontar um filtro de metadado para um índice físico separado. O conteúdo dos chunks e a ficha não mudam. Por isso a operação é barata e reversível, e pode ser repetida quantas vezes for preciso, uma partição de cada vez.

O passo a passo de uma quebra

Clique em cada etapa para ver o detalhe
1
Eval aponta o segmento
O gatilho identifica quem sai
A métrica por segmento diz qual fatia sofre, por exemplo cultura igual a café, ou ramo igual a fitossanidade. Esse é o recorte do novo índice.
2
Cria o índice da partição
Mesmo esquema, mesmo pipeline
Um novo índice físico recebe os chunks cujo metadado bate com o recorte. A ficha é a mesma, a ingestão é a mesma. É uma cópia filtrada, não um novo modelo de dados.
3
Atualiza o roteador
O plano de índices passa a conhecer a partição
O orquestrador aprende que, para aquele recorte, o índice primário agora é a partição. Para os demais, segue o índice geral. A lógica de roteamento não muda, muda o destino de um recorte.
4
Valida com o mesmo eval
Confirma que a partição resolveu
O golden dataset roda de novo. A precisão do segmento tem que subir e a contaminação cair, sem regressão nos outros segmentos. Se não resolveu, reverte, porque a quebra é reversível.
5
Repete se preciso
Uma partição por vez, sob demanda
O índice geral segue existindo com o que ainda não foi partido. Quando outro segmento disparar, repete-se o ciclo. A arquitetura cresce de uma para N partições por evidência, nunca de uma vez.

O que muda no roteador, em concreto

A mudança é uma entrada na tabela de roteamento, não uma reescrita. Antes, todo recorte aponta para o índice geral. Depois, o recorte partido aponta para a partição.

// Antes: um indice geral atende todos os recortes
{
  "default": "geral_aplicado"
}

// Depois da 1a quebra: o recorte de cafe vai para a particao
{
  "regras": [
    { "se": { "cultura": "cafe" }, "usa": "aplicado_cafe" }
  ],
  "default": "geral_aplicado"
}

// Depois da Na quebra: mais recortes, mesma estrutura
{
  "regras": [
    { "se": { "cultura": "cafe" }, "usa": "aplicado_cafe" },
    { "se": { "cultura": "soja" }, "usa": "aplicado_graos" }
  ],
  "default": "geral_aplicado"
}

O fan out continua valendo

Um perfil que cruza recortes, por exemplo ILPF com grãos e pecuária, depois da quebra consulta as duas partições mais o RAPTOR e sintetiza. É o mesmo fan out que antes combinava filtros dentro do índice único. A passagem de filtro para índice é invisível para a lógica de roteamento.

Critério de parada

Não se quebra por estética nem por antecipação. Só sai do índice geral o segmento que um gatilho marcou. O que está bem servido pelo índice único permanece nele. A meta não é ter muitas partições, é ter recuperação boa com o menor número de índices.