A camada de conhecimento em dois níveis
A ontologia, a taxonomia da ATR e o roteamento por padrões já estão definidos. O que falta para fechar o MVP é materializar a base de conhecimento em índices reais. A decisão central deste documento: a base começa enxuta, em dois níveis articulados, um RAG profundo e um único RAG geral aplicado, e se subdivide em partições só quando os evals indicarem.
RAG Profundo (RAPTOR)
Um único índice, sem recorte por cultura, para os documentos longos: livros, manuais científicos densos, teses, normas de certificação e protocolos extensos. A indexação hierárquica recursiva permite navegar do resumo amplo ao trecho exato sem perder o argumento do documento inteiro. É o pilar do Conhecimento Formal.
RAG Geral Aplicado
Um único índice de conhecimento aplicado e vivo no lançamento, com todo o manejo, os casos e as notas de insumo. A especificidade por cultura e bioma vem do filtro de metadados ontológicos, não de índices separados. Esse índice se quebra em partições quando os evals mostrarem que um segmento precisa. São os pilares do Conhecimento Aplicado e do Conhecimento Vivo.
Por que dois níveis e não um RAG único
A apresentação da plataforma organiza o conhecimento do GAAS em três pilares: Conhecimento Formal, a base científica, artigos e materiais validados, Conhecimento Aplicado, o como fazer, casos de uso e manejos documentados, e Conhecimento Vivo, a inteligência coletiva, a sabedoria das trocas. Esses três pilares não pedem o mesmo mecanismo de recuperação.
- O Formal é longo e precisa de contexto inteiro. Um trecho de um livro só faz sentido dentro do argumento do capítulo. RAPTOR resolve isso construindo uma árvore de resumos recursivos, então o agente recupera tanto o detalhe quanto o resumo que o contextualiza.
- O Aplicado e o Vivo são pontuais e dependem do contexto. A recomendação certa para soja no Cerrado não é a recomendação certa para café na Mata Atlântica. Filtrar por cultura, bioma e classe ontológica na recuperação faz a resposta chegar específica, sem precisar de um índice por cultura.
A frustração número 1, tanto de consultores quanto de produtores, é a resposta genérica que ignora solo, clima e manejo locais. O filtro ontológico ataca exatamente essa dor: a busca já entra filtrada pela cultura e pelo bioma do perfil. E o superpoder mais desejado, prática somada a ciência, é a combinação dos dois níveis, o RAPTOR trazendo a evidência científica e o índice geral aplicado trazendo a experiência aplicada e os casos da rede.
dos consultores citam a resposta genérica como principal frustração
dos produtores querem ciência somada à experiência do grupo
exigem transparência e rastreabilidade da fonte como regra inegociável
valorizam muito o acervo de casos reais, a inteligência coletiva
Onde isto se encaixa na arquitetura já definida
Nada na ontologia, no CoT ou no roteamento muda. Estes dois índices no lançamento, o RAPTOR e o geral aplicado, são as fontes físicas que a Camada de Indexação Ontológica expõe. O roteador de padrões continua escolhendo a estratégia, o CoT continua orquestrando a sequência de raciocínio, e o prompt do sistema continua só renderizando em prosa de campo. Este documento instancia a base de conhecimento e adiciona o Assistente de Perguntas. Ele não reescreve o que já está pronto.
O filtro de cultura e bioma decide ONDE no panorama produtivo buscar. O RAPTOR decide a PROFUNDIDADE de fundamento. Os metadados ontológicos decidem o ESCOPO fino dentro do índice. O padrão de consulta decide a INTENÇÃO. O CoT decide o MÉTODO de raciocínio. Cinco eixos independentes, e é essa independência que mantém o sistema escalável.
RAG Profundo · indexação hierárquica recursiva
O índice profundo guarda o conhecimento que não pode ser fatiado sem perder sentido. Internamente é RAPTOR. Em comunicação externa, descrevemos sempre como indexação hierárquica recursiva ou estrutura em camadas, nunca pelo nome.
O que entra no índice profundo
- Livros e obras de referência de agricultura regenerativa, biologia do solo e agroecologia tropical.
- Manuais técnicos densos e protocolos longos, por exemplo manuais de MIP, manejo de pastagens, sistemas agroflorestais.
- Teses, dissertações e revisões científicas validadas pela curadoria GAAS.
- Normas e protocolos de certificação, por exemplo certificação orgânica, onde a resposta exige fidelidade ao texto da norma e ao seu contexto.
Caráter transversal: o índice profundo não tem recorte de cultura. É a base que serve qualquer setor quando a pergunta pede fundamento, conceito ou texto normativo.
Por que RAPTOR e não chunk simples
Em um RAG comum, um livro vira centenas de pedaços soltos. Uma busca recupera o pedaço mais parecido com a pergunta, mas perde o contexto do capítulo. RAPTOR resolve construindo uma árvore: os pedaços originais são as folhas, grupos de pedaços parecidos viram um resumo, grupos de resumos viram um resumo de nível acima, e assim por diante até a raiz. O agente passa a recuperar tanto o trecho específico quanto o resumo que o contextualiza.
Pipeline de ingestão
| Etapa | O que acontece | Responsável |
|---|---|---|
| Curadoria | Comitê GAAS aprova o documento e classifica o tipo de evidência, científica ou normativa. | Comitê GAAS |
| Chunk semântico | Quebra por sentido, preservando estrutura de seções. | Pipeline Syntropy |
| Embedding | Vetorização de cada folha. | Pipeline Syntropy |
| Clusterização soft | Agrupamento por similaridade, permitindo que um chunk participe de mais de um grupo. | Pipeline Syntropy |
| Resumo por cluster | LLM gera o resumo de cada grupo. Etapa cara, roda em lote, fora do caminho da conversa. | OpenAI · lote |
| Recursão | Re-embedding dos resumos e novo agrupamento, subindo a árvore até a raiz. | Pipeline Syntropy |
| Indexação | Todos os níveis entram no índice vetorial com a ficha de metadados e o vínculo de árvore. | Pipeline Syntropy |
Recuperação no MVP · árvore colapsada
Para o MVP usamos a estratégia de árvore colapsada: a consulta busca em todos os níveis ao mesmo tempo e devolve os melhores nós, sejam folhas ou resumos. É mais simples de operar que a travessia nível a nível e entrega a maior parte do ganho. A travessia guiada fica para depois, quando houver volume para justificar.
// Nó do índice profundo, ficha de metadados { "id": "raptor_solo_vivo_cap3_n12", "indice": "raptor", "pilar": "formal", "nivel_arvore": 2, // 0 = folha, sobe ate a raiz "vinculo_pai": "raptor_solo_vivo_cap3_raiz", "vinculo_filhos": ["..._n07", "..._n08", "..._n09"], "classe_ontologica": ["processo", "estrutura"], "ramo_arvore": "fundamentos.biologia_do_solo", "tipo_evidencia": "cientifica", "fonte": "Livro X, cap. 3", "ano": 2021, "validacao_gaas": true, "escopo_setor": "transversal" }
Quando o índice profundo é acionado
- Padrão Conceitual e fundamentos. Aqui ele é o índice primário, buscando sobre os resumos de alto nível da Árvore do Conhecimento.
- Consulta a texto normativo. Quando a pergunta pede o que a norma ou o livro diz, por exemplo regras de certificação orgânica.
- Apoio a qualquer padrão que precise de fundamento científico para justificar uma intervenção.
- Baixa confiança no índice geral aplicado. Se o índice aplicado devolve pouco ou nada no segmento, o roteador expande a busca para o índice profundo.
RAPTOR é caro de construir, por causa dos resumos via LLM, e barato de consultar. Por isso a ingestão roda em lote e fora do caminho crítico da conversa. Na consulta, o ganho de contexto não adiciona custo relevante. Isso casa com a arquitetura de custo já adotada, com cache de prompt e modelos por faixa de preço.
RAG Geral Aplicado · um índice no lançamento
No lançamento, todo o conhecimento aplicado e vivo vive em um único índice. A especificidade por cultura e bioma não vem de índices separados, vem do filtro de metadados ontológicos. A partição física é adiada e nasce dos evals, não de uma decisão de mesa.
Os dois documentos estruturais, a Ontologia e a Árvore do Conhecimento, mostram que o eixo dominante do conhecimento da ATR é funcional, não a cultura. A maior parte do acervo, fundamentos, solo, fertilidade, MIP e MID, insumos, economia, é transversal a todas as culturas. Particionar por cultura no dia 1 duplicaria esse acervo. Por isso começamos com um índice só e quebramos por evidência.
O que entra no índice geral aplicado
- Manejo aplicado e protocolos curtos, o como fazer, o passo a passo, formato mais pedido pelos produtores.
- Notas de insumo e bioinsumo descritas por função e classe ontológica, nunca por marca, com a origem funcional marcada.
- Casos da rede GAAS, a memória de campo, o pilar do Conhecimento Vivo, anonimizada conforme as regras de dados.
- Insumos para as calculadoras determinísticas, parâmetros de custo e dose que o ciclo produtivo e a comercialização consomem.
O conhecimento longo e conceitual não entra aqui, fica no RAPTOR. Este índice é o aplicado e o vivo, pontual e acionável.
A especificidade vem do filtro, não do índice
A frustração número 1 da rede é a resposta genérica. A resposta a isso é o pré-filtro ontológico aplicado antes da busca semântica, não um índice por cultura. Um cafeicultor no segundo ano de transição na Mata Atlântica recebe uma busca já restrita a café, Mata Atlântica e às classes ontológicas do passo do CoT. O ruído de outras culturas some pelo filtro.
São coisas diferentes. O filtro de cultura e bioma resolve a relevância da resposta e já está na ficha. A partição física resolve o ruído de recuperação em corpus grande e a latência, que não são o gargalo de um MVP com acervo inicial. Por isso a partição pode esperar sem prejuízo de qualidade.
Os eixos de segmentação, que hoje são filtro
Os mesmos campos que filtram a busca hoje são os candidatos a virar partição amanhã. Quando um deles concentrar volume e ruído, ele sai para um índice próprio.
| Eixo | Campo na ficha | Exemplo de valor |
|---|---|---|
| Sistema produtivo | cultura | soja, café, pastagem, hortaliça |
| Território | bioma | cerrado, mata atlântica, pampa |
| Domínio de conhecimento | ramo_arvore | manejo.fertilidade, manejo.fitossanidade |
| Passo do raciocínio | classe_ontologica | sintoma, causa, intervenção, prática |
Não pelo tamanho do índice, e sim pela qualidade da recuperação medida por segmento. Os gatilhos e o processo de quebra estão nas duas últimas abas deste documento. O resumo: quando um segmento cai de qualidade ou contamina o top-k, ele vira o primeiro índice próprio.
A ficha de metadados única
Todo pedaço de conhecimento, no RAPTOR e no índice geral aplicado, carrega a mesma ficha de metadados derivada da ontologia. É essa ficha que permite filtrar antes de buscar por semântica, e é também o eixo pelo qual o índice geral será particionado mais tarde. Os dois documentos estruturais travam isto: a Ontologia define o esquema da ficha e a Árvore do Conhecimento é o vocabulário controlado do campo ramo_arvore.
// Ficha de metadados, comum a todos os indices { "id": "aplicado_diag_nodulacao_caso_041", "indice": "geral_aplicado", // no lancamento: raptor ou geral_aplicado "pilar": "vivo", // formal, aplicado, vivo "classe_ontologica": ["sintoma", "causa_provavel", "processo"], "subclasse": "baixa_nodulacao", "ramo_arvore": "manejo.fixacao_biologica", "bioma": ["cerrado"], "cultura": ["soja"], "escala": "talhao", "origem_funcional": "propria", // propria, regional, importada "tipo_evidencia": "validada", // cientifica, validada, emergente "confiabilidade": 0.8, "validacao_gaas": true, "fonte": "Caso GAAS, fazenda anonimizada", "ano": 2025, "nivel_raptor": null, // preenchido so no indice profundo "tags_situacionais": ["transicao_em_curso"] }
Os campos e para que servem
| Campo | Função no sistema |
|---|---|
indice | Diz em qual índice o chunk vive, hoje RAPTOR ou geral aplicado. O roteador usa para montar o plano de busca. |
pilar | Formal, aplicado ou vivo. Liga o chunk ao tipo de conhecimento e ajuda na composição da resposta. |
classe_ontologica | Sintoma, causa, processo, estrutura, intervenção e demais classes. Filtro principal por passo do CoT. |
ramo_arvore | O ramo da Árvore do Conhecimento, vocabulário controlado. Filtro no padrão conceitual e um dos eixos de partição futura. |
bioma e cultura | Filtros de contexto territorial e de sistema produtivo, vindos das Skills do perfil. São os candidatos naturais a primeiro eixo de partição. |
origem_funcional | Própria, regional ou importada. Filtro central do padrão de autonomia. |
tipo_evidencia e confiabilidade | Classificam a evidência e sustentam a rastreabilidade, regra inegociável para 77% dos respondentes. |
validacao_gaas | Marca o que passou pela curadoria. Habilita o selo Validada pelo GAAS na resposta e nos prompts. |
nivel_raptor | Nível do nó na árvore do índice profundo. Nulo no índice geral aplicado. |
tags_situacionais | Diagnósticos persistentes do perfil, por exemplo solo compactado, que reforçam certas buscas. |
Filtro estruturado antes da busca semântica
O ganho dessa ficha é simples: o roteador aplica filtros estruturados, por exemplo bioma igual a Cerrado, cultura igual a soja e classe ontológica entre sintoma, causa, processo e intervenção, antes de rodar a similaridade vetorial. Isso reduz o espaço de busca em uma ordem de grandeza e é o que evita a resposta genérica. A busca semântica trabalha sobre um subconjunto já pertinente.
Evidência e os três pilares
O campo de tipo de evidência amarra a ficha aos três pilares e à exigência de transparência. Conhecimento científico, vindo do índice profundo, é evidência científica. Manejo documentado e validado é evidência validada. Casos recentes da rede ainda sem validação ampla são evidência emergente. A resposta sempre informa de onde veio cada peça, e o agente não trata emergente como se fosse científico.
Vinda do índice profundo, livros e artigos validados. Maior peso de fundamento.
Manejo documentado e aprovado pela curadoria GAAS. O coração do aplicado.
Casos recentes da rede ainda sem validação ampla. Sinalizada como tal, nunca tratada como científica.
Roteamento sobre os dois índices
O roteamento por seis padrões já está definido. Aqui mostramos como cada padrão se materializa em buscas concretas sobre os dois índices físicos do lançamento, o RAPTOR e o geral aplicado, sem a complexidade do GraphRAG ou da política por reforço, que ficam para depois.
Contexto → Sintoma → Causa → Processo → Estrutura → Intervenção → Prática → Monitoramento → Resultado → Aprendizado → Compartilhamento
A cadeia continua sendo o CoT que orquestra tudo. O roteamento abaixo só decide qual índice atende cada passo.
Fluxo do Orquestrador
Matriz padrão por índice no MVP
| Padrão | Primário | Apoio | Modo de busca |
|---|---|---|---|
| 1 · Diagnóstico | geral aplicado | profundo | Híbrida com filtro de classe pela cadeia sintoma a intervenção, mais rerank e casos. |
| 2 · Planejamento operacional | geral aplicado | profundo | Híbrida com filtro intervenção, prática e insumo, mais casos semelhantes. |
| 3 · Autonomia e origem funcional | geral aplicado | profundo | Híbrida com filtro de origem funcional e território, mais casos regionais. |
| 4 · Qualidade funcional | geral aplicado | profundo | Híbrida multifaceta, cruzando genética, ambiente e manejo. |
| 5 · Monitoramento | geral aplicado | casos | Vetorial leve mais casos semelhantes. Baixa ambiguidade, baixo custo. |
| 6 · Conceitual e fundamentos | profundo | geral | Vetorial sobre os resumos de alto nível da Árvore do Conhecimento. |
O índice geral aplicado é primário nos padrões operacionais, sempre com o pré-filtro ontológico de classe, cultura e bioma. O RAPTOR é primário no conceitual e apoio nos demais. Quando um segmento virar partição, o nome do índice primário muda, a lógica não.
Exemplo de decisão de roteamento
// Pergunta: meu solo esta com baixa nodulacao no segundo ano de soja { "perfil": { "cultura": "soja", "bioma": "cerrado", "estagio": "transicao" }, "padrao_detectado": "diagnostico", "plano_indices": { "primario": "geral_aplicado", "apoio": "raptor", "modo": "hibrida + rerank" }, "filtros": { "bioma": ["cerrado"], "cultura": ["soja"], "classe_ontologica": ["sintoma", "causa_provavel", "processo", "intervencao"] }, "casos_semelhantes": true // reforcado pela Skill transicao_em_curso }
Fan out: hoje por filtro, amanhã por índice
No índice único, o equivalente ao fan out é combinar filtros dentro do mesmo índice. Um perfil de ILPF, que mistura grãos e pecuária, dispara uma busca com cultura em soja e em pastagem ao mesmo tempo, mais o RAPTOR para o fundamento. Não há vários índices a consultar ainda. Quando os evals indicarem que um segmento merece índice próprio, esse mesmo fan out passa a cruzar índices físicos, e a lógica de roteamento não muda. É por isso que o adiamento é seguro.
Modo Conversa e Modo Técnico
Leve e de alto volume
Índice geral aplicado com o filtro do perfil, recuperação leve, sem fan out por padrão. Modelo mais econômico, por exemplo gpt-5.4-mini. Resolve a maioria das perguntas de campo do dia a dia. É também o canário: por ser leve e usar um filtro só, sente a degradação de um segmento antes de todo mundo.
Profundo e premium
Combina filtros amplos no índice geral mais o RAPTOR, rerank e CoT mais longo. Modelo de maior capacidade, por exemplo gpt-5.5. Para diagnóstico complexo, qualidade funcional e síntese.
Sinalizações que disparam fallbacks
| Sinalização | Ação do roteador |
|---|---|
| Pergunta vaga, sem contexto para classificar | Pergunta de esclarecimento |
| Skill crítica em alerta, por exemplo erosão avançada | Escalonamento para consultor, via Agente Guardião |
| Pergunta recorrente já respondida ao mesmo usuário | Cache semântico |
| Pergunta de benchmarking com pares | Casos semelhantes da rede GAAS |
| Pergunta fora de escopo | Resposta breve do prompt do sistema, sem recuperação |
| Índice geral com baixa confiança em um segmento | Fan out para o RAPTOR e marca o segmento para avaliação de quebra |
Assistente de Perguntas · gerar e salvar prompts
A qualidade da resposta começa na pergunta. A frustração com resposta genérica nasce, em boa parte, de perguntas curtas e sem contexto. Esta funcionalidade ajuda o usuário a transformar uma dúvida solta em uma pergunta rica, e a guardar as boas perguntas para reusar.
Gerar
O sistema detecta a pergunta curta, enriquece com o perfil e a anatomia ontológica, e devolve uma versão estruturada que o usuário pode rodar, editar ou salvar.
Salvar
A tela Minhas Perguntas guarda os prompts próprios e os curados, organizados por cultura, tema ou talhão, prontos para rodar de novo.
Gerar · da pergunta solta à pergunta rica
Dois caminhos, conforme o esforço que o usuário quer ter.
Melhorar minha pergunta
Um toque. O usuário escreve do jeito que pensa, por exemplo como melhorar meu solo, e o sistema reescreve em uma versão rica, usando o perfil cadastrado. Roda em modelo leve, por exemplo gpt-5.4-mini, custo baixo.
Construtor guiado
Um formulário curto que segue a anatomia ontológica. O contexto vem preenchido do perfil, o usuário só informa o foco e o formato desejado da resposta.
A anatomia do prompt segue a cadeia
| Parte | De onde vem | Exemplo |
|---|---|---|
| Contexto | Automático do perfil | Soja, segundo ano de transição, Cerrado, talhão de 40 hectares. |
| Foco | O usuário informa | Sintoma observado ou objetivo, por exemplo baixa nodulação. |
| Restrições | Opcional do usuário | Prefiro alternativa de insumo próprio ou regional. |
| Formato desejado | O usuário escolhe | Passo a passo, cálculo de dose, comparação de alternativas com riscos. |
A versão enriquecida já contém o contexto que o roteador usa para classificar o padrão e aplicar os filtros ontológicos. Ou seja, o Assistente de Perguntas não é só conveniência, ele alimenta o roteamento com perguntas melhores e prepara o caminho para o roteamento automático futuro, onde o sistema reconhece a intenção sem o usuário precisar estruturar nada.
Salvar · a tela Minhas Perguntas
- Salvar próprios e curados. O usuário guarda as perguntas que criou e também as da galeria GAAS.
- Organizar por cultura, tema ou talhão. Etiquetas simples para achar depois.
- Rodar rápido. Um toque executa a pergunta salva, com opção de reatualizar o contexto, por exemplo a safra atual, antes de rodar.
- Editar e duplicar. Partir de uma pergunta salva para criar uma variação.
Curadoria e inteligência coletiva
Dois selos, coerentes com a lógica de reconhecimento já desenhada para o blog.
Pergunta do Produtor
Privada por padrão. O usuário pode compartilhar com a rede ou submeter ao comitê para virar pública.
Validada pelo GAAS
Passou pela curadoria do comitê e entra na galeria pública. Carrega a confiança da rede.
As melhores perguntas dos usuários entram no acervo curado, e esse é o motor da inteligência coletiva. Com consentimento LGPD, os prompts e os resultados instrumentados alimentam, mais à frente, a política de roteamento automático.
Onde a funcionalidade aparece na interface
| Local na interface | O que faz |
|---|---|
| Tela inicial do chat, estado vazio | Galeria por categoria com filtros no topo. Resolve a tela em branco. |
| Botão Melhorar pergunta no campo de digitação | Sempre visível. Reescreve a pergunta atual em versão rica. |
| Sugestões contextuais no input vazio | Três a quatro sugestões pelo perfil e pelo tema da conversa. |
| Próximas perguntas após a resposta | Carrossel com perguntas relacionadas, para aprofundar. |
| Tela Minhas Perguntas e aba Galeria GAAS | A biblioteca pessoal e a coletiva, lado a lado. |
Modelo de dados do prompt
// Objeto prompt, persistido em Postgres { "id": "prompt_a1b2", "user_id": "usr_338", "titulo": "Baixa nodulacao na soja, segundo ano", "corpo": "... pergunta enriquecida ...", "padrao_alvo": "diagnostico", "categoria": "solo_e_fertilidade", "persona": "produtor", "cultura": ["soja"], "bioma": ["cerrado"], "origem": "proprio", // proprio, curado, derivado "status": "privado", // privado, submetido, validado "run_count": 3, "consentimento_lgpd": true, "criado_em": "2026-06-10" }
Capturar prompts e resultados com consentimento claro é pré-condição da funcionalidade. O usuário pode apagar e exportar suas perguntas a qualquer momento. A instrumentação mínima de adoção, por exemplo taxa de uso da galeria e diferença de avaliação entre pergunta rica e pergunta solta, sustenta a decisão de evoluir para o roteamento automático.
O que fecha o MVP
O MVP sobe enxuto: o RAPTOR para o conhecimento longo e um único RAG geral aplicado com os filtros ontológicos. A partição em segmentos não é entrega de lançamento, é evolução guiada pelos evals. Com a base de conhecimento e o Assistente de Perguntas entregues, o MVP fecha sobre a arquitetura, a ontologia e o roteamento já prontos.
Entregas deste pacote
- Dois índices no lançamento. Um RAPTOR para o conhecimento formal e longo, e um RAG geral aplicado para o aplicado e o vivo, ambos com a ficha de metadados única.
- Roteador instanciado. Os seis padrões traduzidos em buscas sobre os dois índices, com o pré-filtro ontológico, os fallbacks e os dois modos.
- Eval e gatilhos de quebra. O processo de avaliação rodando, com as métricas por segmento e os limiares que disparam a partição.
- Assistente de Perguntas. Gerar, salvar, galeria curada e sugestões na interface, com consentimento LGPD.
Roteiro de implementação
Esquema e seed
- Travar a ficha de metadados pela Ontologia e carregar o vocabulário do ramo_arvore pela Árvore do Conhecimento.
- Definir, com o comitê GAAS, o seed do RAPTOR e o seed do índice geral aplicado.
- Ativar a captura instrumentada de prompts com consentimento LGPD.
Dois índices e roteador
- Construir o RAPTOR, com ingestão em lote e recuperação por árvore colapsada.
- Construir o índice geral aplicado com busca híbrida e pré-filtro ontológico.
- Instanciar a matriz padrão por índice, com fallbacks e os modos Conversa e Técnico.
Eval e Assistente
- Montar o golden dataset e instrumentar as métricas por segmento no Langfuse.
- Fixar os limiares de quebra e ligar o alarme por segmento.
- Entregar o Assistente de Perguntas, gerar, salvar, galeria e os dois selos.
Quebrar quando os evals pedirem
- Acompanhar as métricas por segmento na produção e no golden dataset.
- Quando um gatilho disparar, quebrar o segmento em índice próprio pelo processo definido.
- Curar para os índices os melhores casos e as melhores perguntas dos usuários.
Dependências
- Curadoria GAAS. Sem o comitê definindo o que entra, os índices não ganham qualidade. É o guardião epistêmico.
- LGPD. Consentimento de captura, mais apagar e exportar, é pré-requisito do Assistente de Perguntas e do uso coletivo dos dados.
- Instrumentação desde o dia 1. Sem a série histórica de métricas por segmento, a decisão de quebrar vira impressão. A captura tem que nascer junto com os índices.
O que fica para depois do MVP
Tudo abaixo se assenta sobre os dois índices iniciais. O substrato já nasce pronto para receber estas camadas, sem reescrita.
- Partições do índice geral. A quebra em segmentos por cultura, bioma ou ramo, disparada pelos gatilhos de eval, não por calendário.
- GraphRAG. Síntese transversal sobre grafo de entidades, para o planejamento e o avançado.
- Multi-hop sobre o grafo ontológico. Navegação encadeada sintoma a intervenção como passos explícitos da ontologia.
- Política por reforço. O roteador deixa de ser determinístico e aprende a escolher a estratégia.
- Roteamento automático e agentes. O sistema reconhece a intenção e ativa o squad de agentes proativos.
Definição de pronto
Os dois índices respondem com rastreabilidade e sem resposta genérica para as culturas líderes da rede, o roteador encaminha cada padrão ao índice certo com os dois modos funcionando, o eval roda com métricas por segmento e limiares de quebra acordados, e o usuário consegue gerar, salvar e reusar perguntas, com a galeria GAAS curada disponível. A partir daí, a evolução, inclusive a quebra do RAG, é guiada por dado de uso, não por suposição.
Processo de eval
O eval é o que torna o caminho enxuto seguro. Ele mede a qualidade da recuperação e da resposta de forma contínua e, principalmente, por segmento. É o eval que diz quando um segmento parou de ser bem servido pelo índice único e virou candidato a partição.
Não se mede só o número agregado. Toda métrica é quebrada por segmento, cultura, bioma e ramo da árvore. Um número agregado bom pode esconder um segmento ruim, e é o segmento ruim que aciona a quebra. Medir no agregado e por fatia é a regra.
As quatro etapas
As métricas que acompanhamos
| Métrica | O que mede | Por que importa aqui |
|---|---|---|
| Precisão de contexto | Quanto do que foi recuperado é de fato relevante. | Sinal direto de ruído. Quando cai por segmento, o índice único parou de separar. |
| Recall de contexto | Se o trecho certo foi recuperado. | Mostra se o filtro está restringindo demais e perdendo conteúdo. |
| Fidelidade | Se a resposta se sustenta nas fontes, sem invenção. | Sustenta a rastreabilidade, regra inegociável da rede. |
| Relevância da resposta | Se a resposta atende à pergunta de fato. | Liga a qualidade técnica à utilidade percebida pelo produtor. |
| Contaminação no top-k | Fração dos recuperados que é de outro segmento. | É o gatilho de quebra mais direto, detalhado na próxima aba. |
| Candidatos pós-filtro | Quantos itens sobram depois do pré-filtro. | Mede a saturação do filtro, sinal de que a partição se aproxima. |
| Latência p95 | Tempo de recuperação no percentil 95. | Sinal operacional. Acompanhado com o tamanho do índice como causa raiz. |
Ferramentas
Cálculo das métricas de recuperação e de resposta sobre o pipeline e o golden dataset.
Inspeção e depuração de traces de recuperação, para entender por que um segmento sofre.
Observabilidade em produção, traces por consulta e as séries de métricas por segmento.
O golden dataset roda na integração contínua a cada mudança relevante. As métricas por segmento de produção são revistas em janela fixa, por exemplo a cada duas semanas, que é quando se olha para os gatilhos de quebra. Decisão por série histórica, não por episódio isolado.
Gatilhos de quebra do RAG
A pergunta do caminho enxuto é como saber a hora de quebrar. A resposta: não se mede o tamanho do índice, mede-se a qualidade da recuperação por segmento. O tamanho é só o alarme antecipado, não o gatilho.
O gatilho é a degradação de qualidade em um segmento específico, medida pelo eval. Quando dispara, quebra-se o segmento que está sofrendo, não o acervo inteiro. As próprias métricas dizem qual segmento sai primeiro.
Os quatro sinais
Qualidade por segmento
Precisão ou recall de contexto de um segmento caindo abaixo do piso em rodadas seguidas. Esse segmento virou candidato a índice próprio.
Contaminação cruzada
Fração do top-k que pertence a outra cultura, bioma ou ramo subindo acima do limiar. O filtro de metadado parou de separar.
Saturação do filtro
Mediana de candidatos pós-filtro indo para os milhares e o rerank errando a ordem. O filtro sozinho não estreita mais.
Latência e custo
p95 da recuperação furando a meta, com o tamanho do índice como causa raiz. Sinal operacional, não de relevância.
Com índice vetorial bem configurado, de centenas de milhares a poucos milhões de vetores rodam bem. Raramente o tamanho sozinho força a quebra antes da ordem de um milhão de vetores. As métricas de qualidade quase sempre disparam primeiro. O tamanho serve para começar a olhar com atenção, não para decidir.
O Modo Conversa é o primeiro a sentir. Por ser leve e usar um filtro só, ele acusa a degradação de um segmento antes do Modo Técnico, que mascara o problema com fan out e rerank. Vale vigiar o Conversa de perto.
Limiares pré-comprometidos
Os números abaixo são um ponto de partida para fixar com a equipe. O valor importa menos que o compromisso de decidir por dado, e não por impressão. Calibre na primeira leitura de produção.
| Gatilho | Limiar de partida | Leitura |
|---|---|---|
| Precisão de contexto do segmento | abaixo de 0,75 | Em duas janelas seguidas. Candidato confirmado a partição. |
| Contaminação no top-k | acima de 20% | O filtro perdeu poder de separação no segmento. |
| Candidatos pós-filtro | na casa dos milhares | Com queda perceptível de acerto do rerank. |
| Latência p95 da recuperação | acima da meta do modo | Com o tamanho do índice como causa raiz. |
A ficha de metadados já carrega os eixos da partição, cultura, bioma e ramo. Quando um gatilho dispara, quebrar é filtrar o mesmo metadado para um índice separado. Não há reanotar conteúdo nem refazer onboarding. Adiar custa quase nada, e a quebra vira mecânica. O passo a passo está na próxima aba.
Processo de quebra do RAG
Quando um gatilho dispara, a quebra é uma operação mecânica e incremental. Tira-se um segmento por vez do índice geral para um índice próprio, sempre o que está sofrendo, e repete-se quantas vezes os evals pedirem. Nada de redesenho de mesa.
Quebrar não é reorganizar o acervo, é apontar um filtro de metadado para um índice físico separado. O conteúdo dos chunks e a ficha não mudam. Por isso a operação é barata e reversível, e pode ser repetida quantas vezes for preciso, uma partição de cada vez.
O passo a passo de uma quebra
O que muda no roteador, em concreto
A mudança é uma entrada na tabela de roteamento, não uma reescrita. Antes, todo recorte aponta para o índice geral. Depois, o recorte partido aponta para a partição.
// Antes: um indice geral atende todos os recortes { "default": "geral_aplicado" } // Depois da 1a quebra: o recorte de cafe vai para a particao { "regras": [ { "se": { "cultura": "cafe" }, "usa": "aplicado_cafe" } ], "default": "geral_aplicado" } // Depois da Na quebra: mais recortes, mesma estrutura { "regras": [ { "se": { "cultura": "cafe" }, "usa": "aplicado_cafe" }, { "se": { "cultura": "soja" }, "usa": "aplicado_graos" } ], "default": "geral_aplicado" }
O fan out continua valendo
Um perfil que cruza recortes, por exemplo ILPF com grãos e pecuária, depois da quebra consulta as duas partições mais o RAPTOR e sintetiza. É o mesmo fan out que antes combinava filtros dentro do índice único. A passagem de filtro para índice é invisível para a lógica de roteamento.
Não se quebra por estética nem por antecipação. Só sai do índice geral o segmento que um gatilho marcou. O que está bem servido pelo índice único permanece nele. A meta não é ter muitas partições, é ter recuperação boa com o menor número de índices.