PDFSearchTool
Ainda estamos trabalhando para melhorar as ferramentas, então pode haver comportamentos inesperados ou mudanças futuras.
Descrição
O PDFSearchTool é uma ferramenta RAG projetada para buscas semânticas dentro do conteúdo de PDFs. Ela permite inserir uma consulta de busca e um documento PDF, aproveitando técnicas avançadas de busca para encontrar conteúdos relevantes de forma eficiente. Essa capacidade a torna especialmente útil para extrair informações específicas de arquivos PDF grandes rapidamente.Instalação
Para começar a usar o PDFSearchTool, primeiro, garanta que o pacote crewai_tools está instalado com o seguinte comando:Exemplo
Veja como utilizar o PDFSearchTool para buscar dentro de um documento PDF:Code
Argumentos
pdf: Opcional O caminho do PDF para busca. Pode ser fornecido na inicialização ou nos argumentos do métodorun. Caso seja fornecido na inicialização, a ferramenta confinará suas buscas ao documento especificado.
Modelo e embeddings personalizados
Por padrão, a ferramenta utiliza OpenAI para embeddings e sumarização. Para personalizar, use um dicionário de configuração conforme abaixo. Observação: um banco vetorial (vectordb) é necessário, pois os embeddings gerados precisam ser armazenados e consultados.Code
Segurança
Validação de Caminhos
Os caminhos de arquivo fornecidos a esta ferramenta são validados em relação ao diretório de trabalho atual. Caminhos que resolvem fora do diretório de trabalho são rejeitados com umValueError.
Para permitir caminhos fora do diretório de trabalho (por exemplo, em testes ou pipelines confiáveis), defina a variável de ambiente:
Validação de URLs
Entradas de URL também são validadas: URIsfile:// e requisições direcionadas a faixas de IP privadas ou reservadas são bloqueadas para prevenir ataques de falsificação de requisições do lado do servidor (SSRF).