pandas相关内容

更新熊猫的 iterrow 值

我正在做一些地理编码工作,我使用 selenium 来屏幕抓取我需要的位置地址的 xy 坐标,我将一个 xls 文件导入到熊猫数据帧并想使用显式循环来更新没有 xy 坐标的行,如下所示: 用于索引,rche_df.iterrows() 中的行:if isinstance(row.wgs1984_latitude, float):行 = row.copy()目标 = row.address_ch ..
发布时间:2021-12-08 23:45:22 Python

HDF5 - 并发、压缩和输入输出性能

我有以下关于 HDF5 性能和并发性的问题: HDF5 是否支持并发写入访问? 抛开并发考虑不谈,HDF5 在I/O 性能方面的性能如何(压缩率会影响性能吗)? 由于我将 HDF5 与 Python 结合使用,它的性能与 Sqlite 相比如何? 参考文献: http://www.sqlite.org/faq.html#q5 可以在 NFS 文件系统上锁定 sqlite 文 ..
发布时间:2021-12-08 18:19:11 Python

对 Pandas 数据集执行 SQL 查询

我有一个名为“df"的 Pandas 数据集. 我该如何做类似下面的事情; df.query("select * from df") 谢谢. 对于那些知道R的人来说,有一个叫做sqldf的库,你可以在R中执行SQL代码,我的问题基本上是,python中有没有像sqldf这样的库 解决方案 这不是什么 pandas.query 应该这样做.您可以查看包 pandasql(与 ..
发布时间:2021-12-08 18:10:58 数据库

减少 pyinstaller exe 的大小

我有一个简单的 Pandas pyinstaller exe,它超过 40MB. 我的exe示例: 导入集合导入 csv进口硒进口大熊猫打印('嗨') 40MB+ 似乎有点矫枉过正. 我怎样才能尽可能减少这种情况? 一种方法: pyinstaller --onefile --exclude matplotlib --exclude scipy --exclude panda ..
发布时间:2021-12-08 16:08:31 Python

matlab 数据文件到 Pandas DataFrame

是否有一种标准的方法可以将 matlab .mat(matlab 格式的数据)文件转换为 Panda DataFrame? 我知道可以通过使用 scipy.io 来解决问题,但我想知道是否有一种直接的方法可以做到这一点. 解决方案 我找到了 2 种方式:scipy 或 mat4py. mat4py 从 MAT 文件加载数据 函数 loadmat 将存储在 MAT 文 ..
发布时间:2021-12-08 15:15:40 Python

将包含多行 JSON 的文件加载到 Pandas 中

我正在尝试将 JSON 文件读入 Python pandas (0.14.0) 数据框.这是 JSON 文件的第一行: {"votes": {"funny": 0, "useful": 0, "cool": 0}, "user_id": "P_Mk0ygOilLJo4_WEvabAA", "review_id": "OeT5kgUOe3vcN7H6ImVmZQ", "stars": 3, "da ..
发布时间:2021-12-08 13:10:55 Python

熊猫坏线警告捕获

Pandas 有没有办法捕获通过设置 error_bad_lines = False 和 warn_bad_lines = True 产生的警告?例如下面的脚本: 将pandas导入为pd从 StringIO 导入 StringIO数据 = StringIO("""a,b,c1,2,34,5,66,7,8,91,2,53,4,5""")pd.read_csv(数据,warn_bad_lines= ..
发布时间:2021-12-08 13:01:25 Python

从 SQL 数据库导入表并按日期过滤行时,将 Pandas 列解析为日期时间

我有一个 DataFrame,列名为 date.我们如何将“日期"列转换/解析为 DateTime 对象? 我使用 sql.read_frame() 从 Postgresql 数据库加载了日期列.date 列的示例是 2013-04-04. 我想要做的是选择数据框中在特定时间段内具有日期列的所有行,例如在 2013-04-01 之后和 2013-04- 之前04. 我在下面的尝试 ..
发布时间:2021-12-08 12:57:57 Python

如何根据pandas python中的特定列合并两个数据框?

我必须合并两个数据框: df1 公司,标准塔塔,A1cts,A2戴尔,A3 df2 公司,返回塔塔,71戴尔,78cts,27盐酸,23 我必须将两个数据帧统一为一个数据帧.我需要这样的输出: 公司、标准、返回塔塔,A1,71cts,A2,27戴尔,A3,78 解决方案 使用 合并: print (pd.merge(df1, df2, on='company')) 示例: ..
发布时间:2021-12-08 12:57:48 Python

我想将 Pandas DataFrame 中的两列相乘并将结果添加到新列中

我正在尝试将 Pandas Dataframe (orders_df) 中的两个现有列相乘 - Prices(股票收盘价)和 Amount(股票数量),并将计算结果添加到名为“Value"的新列中.出于某种原因,当我运行此代码时,“值"列下的所有行都是正数,而某些行应该是负数.在 DataFrame 的 Action 列下,有七行带有“Sell"字符串,七行带有“Buy"字符串. for i i ..
发布时间:2021-12-08 12:54:28 Python

Python Pandas 为所选列的行列最大值添加列

data = {'name' : ['bill', 'joe', 'steve'],'test1' : [85, 75, 85],'test2' : [35, 45, 83],'test3' : [51, 61, 45]}框架 = pd.DataFrame(data) 我想添加一个新列,显示每行的最大值. 期望的输出: name test1 test2 test3 HighScore账 ..
发布时间:2021-12-08 12:54:00 Python

提高 Pandas DataFrames 的行追加性能

我正在运行一个基本脚本,该脚本循环遍历嵌套字典,从每条记录中获取数据,并将其附加到 Pandas DataFrame.数据看起来像这样: data = {"SomeCity": {"Date1": {record1, record2, record3, ...}, "Date2": {}, ...}, ...} 它总共有几百万条记录.脚本本身看起来像这样: city = ["SomeCity ..
发布时间:2021-12-08 12:47:53 Python

如何解决熊猫导入错误?

我用 python 2.7.7 安装了 Anaconda. 但是,每当我运行“import pandas"时,我都会收到错误: “ImportError: C extension: y not built.如果你想导入源目录中的 Pandas,您可能需要先运行“python setup.py build_ext --inplace"来构建 C 扩展." 我尝试运行建议的命令,但它指出 跳过 ..
发布时间:2021-12-08 12:44:29 Python

在 Python Pandas read_csv 中使用多字符分隔符

熊猫 read_csv 函数似乎只允许使用单字符分隔符/分隔符.有没有办法允许使用字符串,例如“*|*"或“%%"? 解决方案 解决方案是使用 read_table 而不是 read_csv: 1*|*2*|*3*|*4*|*512*|*12*|*13*|*14*|*1521*|*22*|*23*|*24*|*25 所以,我们可以用: pd.read_table('file.csv' ..
发布时间:2021-12-08 12:37:43 Python

如何通过 Python Pandas 正确规范化 json

我是 Python 初学者.我想要做的是通过 Pandas 加载外汇历史价格数据的 json 文件并对数据进行统计.我已经浏览了许多关于 Pandas 和解析 json 文件的主题.我想将带有额外值和嵌套列表的 json 文件传递​​给 Pandas 数据框.我有一个问题卡在这里. 我有一个 json 文件 'EUR_JPY_H8.json' 首先我导入所需的库, 将pandas导入 ..
发布时间:2021-12-08 12:32:36 Python

用 $ 将货币转换为 Python pandas 中的数字

我在熊猫数据框中有以下数据: 状态 1st 2nd 3rd0 加利福尼亚 $11,593,820 $109,264,246 $8,496,2731 纽约 $10,861,680 $45,336,041 $6,317,3002 佛罗里达 $7,942,848 $69,369,589 $4,697,2443 德克萨斯州 $7,536,817 $61,830,712 $5,736,941 我想用三 ..
发布时间:2021-12-08 12:22:17 Python

Pandas 数据帧和系列 - IB TWS 历史数据

我正在尝试将 pandas 模块应用到我的代码中,以便重新组织从 IB TWS 服务器收到的消息. 代码是 from ibapi.client import EClient从 ibapi.wrapper 导入 EWrapperfrom ibapi.contract 导入合约类 MyWrapper(EWrapper):def nextValidId(self, orderId:int):打印 ..
发布时间:2021-12-08 10:51:09 Python

使用 numpy.genfromtxt 读取包含逗号的字符串的 csv 文件

我正在尝试使用 numpy.genfromtxt 读取 csv 文件,但其中一些字段是包含逗号的字符串.字符串在引号中,但 numpy 没有将引号识别为定义单个字符串.例如,'t.csv' 中的数据: 2012,“路易斯维尔肯塔基州",3.52011,“肯塔基州列克星敦",4.0 代码 np.genfromtxt('t.csv', delimiter=',') 产生错误: Value ..
发布时间:2021-12-08 10:00:29 Python

缺失数据,在 Pandas 中插入行并用 NAN 填充

我是 Python 和 Pandas 的新手,所以可能有一个我看不到的简单解决方案. 我有一些不连续的数据集,看起来像这样: ind A B C0 0.0 1 31 0.5 4 22 1.0 6 13 3.5 2 04 4.0 4 55 4.5 3 3 我现在正在寻找一种解决方案来获得以下内容: ind A B C0 0.0 1 31 0.5 4 22 1.0 6 13 1.5 楠楠4 ..
发布时间:2021-12-08 09:59:35 Python