Formas alternativas para extração de tabelas

Olá comunidade!

Gostaria de extrair uma tabela que vem em formatado PDF, a atividade de extração de tabelas não extrai a tabela devido a forma do arquivo PDF (não possivel de alterar). Teria alguma outra alternativa de extração? Seja por python ou alguma ferramenta do Google Cloud?

Hi @devrpa746 ,

One option is to use the Tabula library, which is a Python package for extracting tables from PDF files. Tabula can handle a variety of table formats, including those with merged cells, and can output the extracted tables as CSV, Excel, or JSON files. You can install Tabula using pip and use it to extract tables from PDF files programmatically. Here’s an example code snippet:

pythonCopy code

import tabula

# Read PDF into DataFrame
df = tabula.read_pdf("file.pdf")

# Extract table(s) to CSV
tabula.convert_into("file.pdf", "output.csv", output_format="csv", pages="all")

Thanks

1 Like