PDF转Pandas数据框 [英] PDF to Pandas Data Frame

查看:0
本文介绍了PDF转Pandas数据框的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

就在我想我终于得到它的时候,这样一个新手。

我正在尝试从PDF表格的列中获取数字列表。

我想要转换为Panda DF的第一步。

pip install tabula-py
pip install PyPDF2

import pandas as pd
import tabula
df = tabula.read_pdf('/content/Manifest.pdf')
但是,我得到的输出是一个1的列表,而不是一个df。当我查看df信息时,我只是不知道如何访问它,因为它是一个1的列表。

所以不确定我为什么没有获取df,也不知道我打算如何处理1的列表。Output

不确定这是否重要,但我正在使用Google Colab。

任何帮助都是很棒的。

谢谢

推荐答案

tabula.Read_pdf返回不带任何附加参数的数据帧列表。要访问您的特定数据帧,您可以选择并使用该索引。

下面是我阅读文档并选择第一个索引并对类型进行比较的示例

import tabula

df = tabula.read_pdf(
    "https://github.com/chezou/tabula-py/raw/master/tests/resources/data.pdf")

df_0 = df[0]

print("type of df :", type(df))
print("type of df_0", type(df_0))

退货:

type of df : <class 'list'>
type of df_0 <class 'pandas.core.frame.DataFrame'>

这篇关于PDF转Pandas数据框的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆