Saltar para o conteúdo principal
Versão: 1.0.0

Base de dados de conhecimento a partir de um URL

Nesta secção, discutiremos como criar um instantâneo de coleção de vectores a partir de um URL da Web. Primeiro, vamos analisar o URL para um ficheiro markdown estruturado. Em seguida, seguiremos os passos da Base de dados de conhecimento a partir de um ficheiro markdown para criar uma incorporação para o seu URL.

Analisar o conteúdo do URL para um ficheiro markdown

O Firecrawl pode rastrear e converter qualquer sítio Web em dados estruturados ou de marcação prontos para LLM. Também suporta o rastreio de um URL e de todas as subpáginas acessíveis.

Para utilizar o Firecrawl, é necessário inscrever-se no Firecrawl e obter uma chave API.

Primeiro, instale as dependências. Estamos assumindo que você já tem o Node.JS 20+ instalado.

git clone https://github.com/JYC0413/firecrawl-integration.git
cd firecrawl-integration
npm install

Em seguida, exportar a chave API no terminal.

export FIRECRAWL_KEY="your_api_key_here"

Em seguida, podemos utilizar a seguinte linha de comando para executar o serviço.

node crawlWebToMd.js

Depois de a aplicação estar a ser executada com êxito, verá o aviso aparecer no Terminal.

Pode escrever o seu URL no terminal agora mesmo. Aqui temos duas opções.

  • Várias páginas: introduza a sua ligação com / no final, o programa irá rastrear e converter a página e as suas subpáginas num único ficheiro markdown. Desta forma, o uso de tokens da API será muito dispendioso.
  • Uma única página: introduza a sua ligação sem / no final. o programa irá rastrear e converter a página atual num único ficheiro markdown.

O ficheiro markdown de saída estará localizado nesta pasta com o nome output.md.

Criar embeddings a partir dos ficheiros markdown

Siga o tutorial Base de conhecimento a partir de um ficheiro markdown para converter o seu ficheiro markdown num instantâneo de embeddings que pode ser importado para um nó GaiaNet.