Base de dados de conhecimento a partir de um ficheiro PDF
Nesta secção, discutiremos como criar um instantâneo de coleção de vectores a partir de um ficheiro PDF. Primeiro, vamos analisar o ficheiro PDF não estruturado para um ficheiro markdown estruturado. Em seguida, seguiremos os passos da Base de dados de conhecimento a partir de um ficheiro markdown para criar uma incorporação para os seus ficheiros PDF.
Ferramentas para converter um ficheiro PDF num ficheiro markdown
Ferramenta nº 1: LlamaParse
LlamaParse é uma ferramenta para analisar ficheiros para obter o melhor RAG. Necessita de uma chave LlamaCloud de https://cloud.llamaindex.ai.
Primeiro, instale as dependências. Estamos assumindo que você já tem o Node.JS 20+ instalado.
git clone https://github.com/alabulei1/llamaparse-integration.git
cd llamaparse-integration
npm install llamaindex
npm install dotenv
Em seguida, edite o ficheiro .env
para configurar o caminho do ficheiro PDF e a chave LlamaCloud. Neste caso, não precisa de se preocupar com as definições relacionadas com o LLM.
Depois disso, execute a seguinte linha de comando para analisar o seu pdf num ficheiro markdown.
npx tsx transMd.ts
O ficheiro markdown de saída estará localizado nesta pasta com o nome output.md
por defeito. Pode alterar o caminho no ficheiro .env
ficheiro.
Ferramenta #2: GPTPDF
O GPTPDF é uma ferramenta de código aberto que utiliza o GPT-4o para analisar PDF em markdown. Aqui precisa de uma chave OpenAI.
Primeiro, instale o software gptpdf.
pip install gptpdf
Em seguida, introduza o ambiente Python.
pitão
Em seguida, utilize o seguinte comando para analisar o seu pdf.
from gptpdf import parse_pdf
api_key = 'A sua chave da API OpenAI'
content, image_paths = parse_pdf(Your_Pdf_Path, api_key=api_key)
print(content)
Os ficheiros markdown de saída chamados output.md
estará localizado no seu diretório raiz.
Criar embeddings a partir dos ficheiros markdown
Siga o tutorial Base de conhecimento a partir de um ficheiro markdown para converter o seu ficheiro markdown num instantâneo de embeddings que pode ser importado para um nó GaiaNet.