Saltar para o conteúdo principal
Versão: 1.0.0

Base de dados de conhecimento a partir de um ficheiro PDF

Nesta secção, discutiremos como criar um instantâneo de coleção de vectores a partir de um ficheiro PDF. Primeiro, vamos analisar o ficheiro PDF não estruturado para um ficheiro markdown estruturado. Em seguida, seguiremos os passos da Base de dados de conhecimento a partir de um ficheiro markdown para criar uma incorporação para os seus ficheiros PDF.

Ferramentas para converter um ficheiro PDF num ficheiro markdown

Ferramenta nº 1: LlamaParse

LlamaParse é uma ferramenta para analisar ficheiros para obter o melhor RAG. Necessita de uma chave LlamaCloud de https://cloud.llamaindex.ai.

Primeiro, instale as dependências. Estamos assumindo que você já tem o Node.JS 20+ instalado.

git clone https://github.com/alabulei1/llamaparse-integration.git
cd llamaparse-integration
npm install llamaindex
npm install dotenv

Em seguida, edite o ficheiro .env para configurar o caminho do ficheiro PDF e a chave LlamaCloud. Neste caso, não precisa de se preocupar com as definições relacionadas com o LLM.

Depois disso, execute a seguinte linha de comando para analisar o seu pdf num ficheiro markdown.

npx tsx transMd.ts

O ficheiro markdown de saída estará localizado nesta pasta com o nome output.md por defeito. Pode alterar o caminho no ficheiro .env ficheiro.

Ferramenta #2: GPTPDF

O GPTPDF é uma ferramenta de código aberto que utiliza o GPT-4o para analisar PDF em markdown. Aqui precisa de uma chave OpenAI.

Primeiro, instale o software gptpdf.

pip install gptpdf

Em seguida, introduza o ambiente Python.

pitão

Em seguida, utilize o seguinte comando para analisar o seu pdf.

from gptpdf import parse_pdf
api_key = 'A sua chave da API OpenAI'
content, image_paths = parse_pdf(Your_Pdf_Path, api_key=api_key)
print(content)

Os ficheiros markdown de saída chamados output.md estará localizado no seu diretório raiz.

Criar embeddings a partir dos ficheiros markdown

Siga o tutorial Base de conhecimento a partir de um ficheiro markdown para converter o seu ficheiro markdown num instantâneo de embeddings que pode ser importado para um nó GaiaNet.