Base de dados de conhecimento a partir de um URL
Nesta secção, discutiremos como criar um instantâneo de coleção de vectores a partir de um URL da Web. Primeiro, vamos analisar o URL para um ficheiro markdown estruturado. Em seguida, seguiremos os passos da Base de dados de conhecimento a partir de um ficheiro markdown para criar uma incorporação para o seu URL.
Analisar o conteúdo do URL para um ficheiro markdown
O Firecrawl pode rastrear e converter qualquer sítio Web em dados estruturados ou de marcação prontos para LLM. Também suporta o rastreio de um URL e de todas as subpáginas acessíveis.
Para utilizar o Firecrawl, é necessário inscrever-se no Firecrawl e obter uma chave API.
Primeiro, instale as dependências. Estamos assumindo que você já tem o Node.JS 20+ instalado.
git clone https://github.com/JYC0413/firecrawl-integration.git
cd firecrawl-integration
npm install
Em seguida, exportar a chave API no terminal.
export FIRECRAWL_KEY="your_api_key_here"
Em seguida, podemos utilizar a seguinte linha de comando para executar o serviço.
node crawlWebToMd.js
Depois de a aplicação estar a ser executada com êxito, verá o aviso aparecer no Terminal.
Pode escrever o seu URL no terminal agora mesmo. Aqui temos duas opções.
- Várias páginas: introduza a sua ligação com
/
no final, o programa irá rastrear e converter a página e as suas subpáginas num único ficheiro markdown. Desta forma, o uso de tokens da API será muito dispendioso. - Uma única página: introduza a sua ligação sem
/
no final. o programa irá rastrear e converter a página atual num único ficheiro markdown.
O ficheiro markdown de saída estará localizado nesta pasta com o nome output.md
.
Criar embeddings a partir dos ficheiros markdown
Siga o tutorial Base de conhecimento a partir de um ficheiro markdown para converter o seu ficheiro markdown num instantâneo de embeddings que pode ser importado para um nó GaiaNet.