Skip to content

Instantly share code, notes, and snippets.

@tarcnux
Forked from karpathy/llm-wiki.md
Last active May 6, 2026 18:19
Show Gist options
  • Select an option

  • Save tarcnux/6af27d09f26652a99fb1fa980f977ac1 to your computer and use it in GitHub Desktop.

Select an option

Save tarcnux/6af27d09f26652a99fb1fa980f977ac1 to your computer and use it in GitHub Desktop.
llm-wiki

Wiki LLM - Conceito de "Segundo Cérebro" de Andrej Karpathy

Um padrão para construir bases de conhecimento pessoais usando LLMs.

Este é um arquivo de ideias, projetado para ser copiado e colado em seu próprio Agente LLM (por exemplo, OpenAI Codex, Claude Code, OpenCode/Pi, etc.). Seu objetivo é comunicar a ideia geral, mas seu agente desenvolverá os detalhes em colaboração com você.

A ideia central

A experiência da maioria das pessoas com LLMs e documentos se assemelha ao RAG: você carrega uma coleção de arquivos, o LLM recupera os trechos relevantes no momento da consulta e gera uma resposta. Isso funciona, mas o LLM está redescobrindo o conhecimento do zero a cada pergunta. Não há acumulação. Faça uma pergunta sutil que exija a síntese de cinco documentos, e o LLM terá que encontrar e juntar os fragmentos relevantes a cada vez. Nada é construído. O NotebookLM, os uploads de arquivos do ChatGPT e a maioria dos sistemas RAG funcionam dessa maneira.

A ideia aqui é diferente. Em vez de simplesmente recuperar informações de documentos brutos no momento da consulta, o LLM constrói e mantém incrementalmente um wiki persistente — uma coleção estruturada e interligada de arquivos Markdown que serve de intermediária entre você e as fontes originais. Quando você adiciona uma nova fonte, o LLM não apenas a indexa para recuperação posterior. Ele a lê, extrai as informações principais e as integra ao wiki existente — atualizando páginas de entidades, revisando resumos de tópicos, observando onde novos dados contradizem afirmações antigas, fortalecendo ou contestando a síntese em evolução. O conhecimento é compilado uma única vez e então mantido atualizado, não sendo derivado novamente a cada consulta.

Essa é a principal diferença: o wiki é um artefato persistente e cumulativo. As referências cruzadas já existem. As contradições já foram sinalizadas. A síntese já reflete tudo o que você leu. O wiki se enriquece a cada fonte adicionada e a cada pergunta feita.

Você nunca (ou raramente) escreve o wiki por conta própria — o LLM escreve e mantém tudo. Você é responsável por buscar informações, explorar e fazer as perguntas certas. O LLM faz todo o trabalho pesado — resumir, referenciar, arquivar e manter a organização, o que torna uma base de conhecimento realmente útil ao longo do tempo. Na prática, eu mantenho o agente do LLM aberto em uma janela e o Obsidian na outra. O LLM faz edições com base na nossa conversa, e eu navego pelos resultados em tempo real — seguindo links, verificando a visualização em gráfico e lendo as páginas atualizadas. O Obsidian é a IDE; o LLM é o programador; o wiki é a base de código.

Isso pode ser aplicado a muitos contextos diferentes. Alguns exemplos:

  • Pessoal: acompanhar seus próprios objetivos, saúde, psicologia e desenvolvimento pessoal — arquivar entradas de diário, artigos, notas de podcasts e construir uma imagem estruturada de si mesmo ao longo do tempo.

  • Pesquisa: aprofundar-se em um tópico por semanas ou meses — ler artigos, relatórios e construir incrementalmente um wiki abrangente com uma tese em constante evolução.

  • Leitura de um livro: arquivar cada capítulo à medida que avança, criando páginas para personagens, temas, tramas e como eles se conectam. Ao final, você terá um rico wiki complementar. Pense em wikis de fãs como o Tolkien Gateway — milhares de páginas interligadas que abrangem personagens, lugares, eventos, idiomas, construídas por uma comunidade de voluntários ao longo de anos. Você poderia construir algo assim pessoalmente enquanto lê, com o LLM fazendo todas as referências cruzadas e a manutenção.

  • Negócios/equipe: um wiki interno mantido pelos LLMs, alimentado por conversas do Slack, transcrições de reuniões, documentos de projetos e ligações com clientes. Possivelmente com pessoas envolvidas revisando as atualizações. O wiki permanece atualizado porque o LLM faz a manutenção que ninguém na equipe quer fazer.

  • Análise competitiva, due diligence, planejamento de viagens, anotações de cursos, aprofundamento em hobbies — qualquer coisa em que você esteja acumulando conhecimento ao longo do tempo e queira organizá-lo em vez de mantê-lo disperso.

Arquitetura

Existem três camadas:

Fontes brutas — sua coleção selecionada de documentos de origem. Artigos, documentos, imagens, arquivos de dados. Estes são imutáveis ​​— o LLM lê deles, mas nunca os modifica. Esta é a sua fonte de verdade.

A wiki — um diretório de arquivos Markdown gerados pelo LLM. Resumos, páginas de entidades, páginas de conceitos, comparações, uma visão geral, uma síntese. O LLM é o único responsável por esta camada. Ele cria páginas, atualiza-as quando novas fontes chegam, mantém referências cruzadas e mantém tudo consistente. Você lê; o LLM escreve.

O esquema — um documento (por exemplo, CLAUDE.md para o Claude Code ou AGENTS.md para o Codex) que informa ao LLM como a wiki está estruturada, quais são as convenções e quais fluxos de trabalho seguir ao importar fontes, responder a perguntas ou manter a wiki. Este é o arquivo de configuração principal — é o que torna o LLM um mantenedor de wiki disciplinado, em vez de um chatbot genérico. Você e o LLM coevoluem isso ao longo do tempo, à medida que descobrem o que funciona para o seu domínio.

Operações

Ingestão. Você adiciona uma nova fonte à coleção de dados brutos e instrui o LLM a processá-la. Um exemplo de fluxo: o LLM lê a fonte, discute os principais pontos com você, escreve uma página de resumo na wiki, atualiza o índice, atualiza as páginas de entidades e conceitos relevantes em toda a wiki e adiciona uma entrada ao registro. Uma única fonte pode afetar de 10 a 15 páginas da wiki. Pessoalmente, prefiro ingerir as fontes uma de cada vez e permanecer envolvido — leio os resumos, verifico as atualizações e oriento o LLM sobre o que enfatizar. Mas você também pode ingerir várias fontes de uma só vez com menos supervisão. Cabe a você desenvolver o fluxo de trabalho que se adapta ao seu estilo e documentá-lo no esquema para sessões futuras.

Consulta. Você faz perguntas à wiki. O LLM pesquisa páginas relevantes, lê-as e sintetiza uma resposta com citações. As respostas podem assumir diferentes formas, dependendo da pergunta — uma página em Markdown, uma tabela comparativa, uma apresentação de slides (Marp), um gráfico (matplotlib), um canvas. A dica importante: boas respostas podem ser arquivadas na wiki como novas páginas. Uma comparação que você solicitou, uma análise, uma conexão que você descobriu — tudo isso é valioso e não deve se perder no histórico do chat. Dessa forma, suas explorações se acumulam na base de conhecimento, assim como as fontes incorporadas.

Verificação. Periodicamente, peça ao Gerente de Aprendizagem para verificar a integridade da wiki. Procure por: contradições entre páginas, afirmações desatualizadas que foram substituídas por fontes mais recentes, páginas órfãs sem links de entrada, conceitos importantes mencionados, mas sem página própria, referências cruzadas ausentes, lacunas de dados que poderiam ser preenchidas com uma pesquisa na web. O Gerente de Aprendizagem é bom em sugerir novas perguntas para investigar e novas fontes para procurar. Isso mantém a wiki saudável à medida que ela cresce.

Indexação e registro

Dois arquivos especiais ajudam o Gerente de Aprendizagem (e você) a navegar pela wiki à medida que ela cresce. Eles servem a propósitos diferentes:

index.md é orientado ao conteúdo. É um catálogo de tudo na wiki — cada página listada com um link, um resumo de uma linha e, opcionalmente, metadados como data ou número de fontes. Organizado por categoria (entidades, conceitos, fontes, etc.). O LLM o atualiza a cada ingestão. Ao responder a uma consulta, o LLM lê primeiro o índice para encontrar as páginas relevantes e, em seguida, explora-as. Isso funciona surpreendentemente bem em escala moderada (~100 fontes, ~centenas de páginas) e evita a necessidade de infraestrutura RAG baseada em incorporação.

O arquivo log.md é cronológico. É um registro de acréscimo único do que aconteceu e quando — ingestões, consultas, verificações de lint. Uma dica útil: se cada entrada começar com um prefixo consistente (por exemplo, ## [2026-04-02] ingestão | Título do Artigo), o log se torna analisável com ferramentas simples do Unix — grep "^## \[" log.md | tail -5 retorna as últimas 5 entradas. O registro fornece uma linha do tempo da evolução da wiki e ajuda o LLM a entender o que foi feito recentemente.

Opcional: Ferramentas de linha de comando

Em algum momento, você pode querer criar pequenas ferramentas que ajudem o LLM a operar na wiki com mais eficiência. Um mecanismo de busca para as páginas da wiki é a opção mais óbvia — em pequena escala, o arquivo de índice é suficiente, mas à medida que a wiki cresce, você precisará de uma busca adequada. O qmd é uma boa opção: é um mecanismo de busca local para arquivos Markdown com busca híbrida BM25/vetorial e reclassificação do LLM, tudo no dispositivo. Ele possui uma interface de linha de comando (para que o LLM possa executar comandos) e um servidor MCP (para que o LLM possa usá-lo como uma ferramenta nativa). Você também pode criar algo mais simples por conta própria — o LLM pode ajudá-lo a desenvolver um script de busca básico conforme a necessidade.

Dicas e truques

  • Obsidian Web Clipper é uma extensão de navegador que converte artigos da web em Markdown. Muito útil para adicionar rapidamente fontes à sua coleção de arquivos brutos.

  • Baixe imagens localmente. Em Configurações do Obsidian → Arquivos e links, defina o "Caminho da pasta de anexos" para um diretório fixo (por exemplo, raw/assets/). Em seguida, em Configurações → Teclas de atalho, procure por "Download" para encontrar "Baixar anexos do arquivo atual" e associe-o a uma tecla de atalho (por exemplo, Ctrl+Shift+D). Depois de recortar um artigo, pressione a tecla de atalho e todas as imagens serão baixadas para o disco local. Isso é opcional, mas útil — permite que o LLM visualize e referencie imagens diretamente, em vez de depender de URLs que podem apresentar problemas. Observe que os LLMs não conseguem ler Markdown com imagens embutidas nativamente em uma única passagem — a solução alternativa é fazer com que o LLM leia o texto primeiro e, em seguida, visualize algumas ou todas as imagens referenciadas separadamente para obter contexto adicional. É um pouco complicado, mas funciona bem o suficiente.

  • A visualização em gráfico do Obsidian é a melhor maneira de ver a estrutura da sua wiki — o que está conectado a quê, quais páginas são hubs e quais são órfãs.

  • Marp é um formato de apresentação de slides baseado em Markdown. O Obsidian possui um plugin para ele. Útil para gerar apresentações diretamente do conteúdo da wiki.

  • Dataview é um plugin do Obsidian que executa consultas sobre o frontmatter da página. Se o seu LLM adicionar frontmatter YAML às páginas da wiki (tags, datas, contagens de fontes), o Dataview pode gerar tabelas e listas dinâmicas.

  • A wiki é apenas um repositório Git de arquivos Markdown. Você obtém histórico de versões, ramificação e colaboração gratuitamente.

Por que isso funciona

A parte tediosa de Manter uma base de conhecimento não se resume à leitura ou ao pensamento crítico — trata-se da organização e controle. Atualizar referências cruzadas, manter resumos atualizados, observar quando novos dados contradizem afirmações antigas, manter a consistência em dezenas de páginas. Humanos abandonam wikis porque o custo de manutenção cresce mais rápido do que o valor agregado. Os gestores de conteúdo não se entediam, não se esquecem de atualizar referências cruzadas e conseguem revisar 15 arquivos de uma só vez. A wiki permanece ativa porque o custo de manutenção é praticamente zero.

O trabalho do humano é selecionar as fontes, direcionar a análise, fazer boas perguntas e refletir sobre o significado de tudo isso. O trabalho do gestor de conteúdo é todo o resto.

A ideia se assemelha, em espírito, ao Memex de Vannevar Bush (1945) — um repositório de conhecimento pessoal e selecionado, com trilhas associativas entre documentos. A visão de Bush era mais próxima disso do que do que a web se tornou: privada, ativamente gerenciada, com as conexões entre os documentos tão valiosas quanto os próprios documentos. O que ele não conseguiu resolver foi quem faria a manutenção. O LLM cuida disso.

Nota

Este documento é intencionalmente abstrato. Ele descreve a ideia, não uma implementação específica. A estrutura de diretórios exata, as convenções de esquema, os formatos de página, as ferramentas — tudo isso dependerá do seu domínio, das suas preferências e do LLM escolhido. Tudo o que foi mencionado acima é opcional e modular — escolha o que for útil e ignore o que não for. Por exemplo: suas fontes podem ser apenas texto, então você não precisa de manipulação de imagens. Seu wiki pode ser pequeno o suficiente para que o arquivo de índice seja tudo o que você precisa, sem necessidade de mecanismo de busca. Você pode não se importar com apresentações de slides e querer apenas páginas em Markdown. Você pode querer um conjunto completamente diferente de formatos de saída. A maneira correta de usar este documento é compartilhá-lo com seu agente LLM e trabalhar em conjunto para instanciar uma versão que atenda às suas necessidades. O único objetivo deste documento é comunicar o padrão. Seu LLM pode cuidar do resto.

@tarcnux
Copy link
Copy Markdown
Author

tarcnux commented May 6, 2026

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment