pandas 第9页 - IT屋-程序员软件开发技术分享社区

如何根据 pandas 列注解散点图中的点？

希望'Age'作为x轴，'Pos'作为y轴，标签为'Player'名称。但由于某些原因，无法对这些点进行标注。编码： import numpy as np import matplotlib.pyplot as plt import pandas as pd import adjustText as at data = pd.read_excel("path to the f ..

Matplotlib框图与叠加的散点图不对齐

我有一个图，我试图将散点图系列叠加在盒子图系列上...以下是该问题的一个简单示例，以便您可以重新创建它。 import pandas as pd import numpy as np import matplotlib.pyplot as plt names = ['a','b','c','d','e','f'] df = pd.DataFrame(np.random.rand(6,6) ..

发布时间：2022-05-24 19:03:14 python pandas matplotlib scatter-plot boxplot Python

带有matplotlib散布的条件颜色

我有以下Pandas Dataframe，其中列a表示一个伪变量：我想要做的是在b列的值之后为我的标记添加cmap='jet'颜色，但当a列的值等于1时除外-在本例中，我希望它是灰色。你知道我该怎么做吗？推荐答案您必须将等于1的值标记为1并绘制： import matplotlib.pyplot as plt import numpy as np # tes ..

发布时间：2022-05-24 18:41:54 python pandas matplotlib scatter-plot Python

使用python根据条件选择两行或多行连续行

我有一个这样的数据集： user time city cookie index A 2019-01-01 11.00 NYC 123456 1 A 2019-01-01 11.12 CA 234567 2 A 2019-01-01 11.18 ..

发布时间：2022-05-23 15:16:07 python-3.x pandas numpy dataframe data-mining AI人工智能

执行操作时忽略字符串列

我使用以下代码来标准化 pandas DataFrame： df_norm = (df - df.mean()) / (df.max() - df.min()) 当所有列都是数字时，这很好用。但是，现在我在df中有一些字符串列，上面的标准化出现了错误。有没有办法只对数据框的数字列执行这种标准化(保持字符串列不变)？推荐答案可以使用select_dtypes计算所需列的值： ..

发布时间：2022-05-18 15:20:34 python python-3.x pandas normalization Python

按总和归一化 pandas DataFrame行

将 pandas DataFrame的每一行标准化的最常用的方法是什么？将列正常化很容易，所以一个(非常难看！)选项为： (df.T / df.T.sum()).T pandas 广播规则禁止df / df.sum(axis=1)这样做推荐答案要解决直播问题，可以使用div方法： df.div(df.sum(axis=1), axis=0) 参见pandas U ..

发布时间：2022-05-18 15:02:23 python pandas normalization dataframe Python

如何在单元测试中使用PANAS数据框

我正在开发一组Python脚本，用于对数据集进行预处理，然后使用SCRKIT-LEARN生成一系列机器学习模型。我想开发一套单元测试来检查数据的预处理功能，并希望能够使用一个小型的 pandas 数据帧来确定答案，并在Assert语句中使用它。我似乎无法让它加载数据帧并使用Self将其传递给单元测试。我的代码如下所示； def setUp(self): TEST_INPUT_ ..

发布时间：2022-05-17 18:29:22 python pandas python-unittest Python

向现有数据帧添加空间输出时，列不对齐

我有一个CSV，其中包含一列文章标题，我使用Spacy从其中提取出现在标题中的任何人名。尝试使用Spacy提取的名称向CSV添加新列时，它们与从中提取它们的行不对齐。我相信这是因为Spacy结果有自己的索引，独立于原始数据的索引。我已尝试将, index=df.index)添加到新列行，但得到"；ValueError：传递的值的长度为2，索引暗示为10。&q；如何将 ..

发布时间：2022-05-15 22:18:08 python pandas spacy Python

我如何才能将 pandas 数据帧中的字符串列举出来？

我有一个Python Pandas DataFrame，其中我需要对其中两列中的单词进行词汇化。我正在使用Spacy进行此操作。 import spacy nlp = spacy.load("en") 我正在尝试使用基于此示例的词汇化(它工作得非常好)： doc3 = nlp(u"this is spacy lemmatize testing. programming books ..

发布时间：2022-05-15 15:42:03 python pandas spacy lemmatization Python

Textacy无法从extacy.doc.Doc类创建语料库

我只是通过文本教程使用DataSet模块之外的数据进行工作。我从DataFrame获得一些文本数据，并将其存储为字符串变量以供工作。 def mergeText(df): content = '' for i in df['textColumn']: content += (i + '. ' ) #print(content) return c ..

发布时间：2022-05-15 15:08:17 python-3.x pandas corpus spacy textacy Python

在带有随机字符串值的PANAS中插入新列

我有一个DataFrame A B C 0 1 2 3 1 2 3 3 2 3 2 1 我需要在 pandas DataFrame中创建一个新列，其中‘yes’或‘no’随机填充此列。 A B C NEW 0 1 2 3 yes 1 2 3 3 no 2 3 2 1 no 使用随机选项会导致每一行都有相 ..

发布时间：2022-05-12 10:35:00 python pandas dataframe random series Python

如何高效地将多个 pandas 列组合成一个阵列式的列？

使用类似对象类型的列创建(或加载)DataFrame很容易，如下所示： [In]: pdf = pd.DataFrame({ "a": [1, 2, 3], "b": [4, 5, 6], "c": [7, 8, 9], ..

发布时间：2022-05-12 10:31:08 python pandas dataframe series Python

在 pandas 数据帧中使用REPLACE和str.startswith()来重命名值

我有一个名为SOURCE的列，它包含数百行文本。问题是，其中一些可以组合在一起，我正在努力在 pandas 数据帧中做到这一点。以下是我的代码： df.source.replace({ df.source.str.startswith('share', na=False): 'sharePet', df.sourc ..

发布时间：2022-05-12 10:24:26 python string pandas series Python

Str.startswith使用Regex

我可以理解为什么str.startswith()不处理正则表达式： col1 0 country 1 Country i.e : df.col1.str.startswith('(C|c)ountry') 它返回所有值FALSE： col1 0 False 1 False 推荐答案 Series.str.startswith不接受正则表达式，因为它的 ..

发布时间：2022-05-12 10:19:44 regex pandas series Python

将多列的数据帧转换为序列

我尝试将数据框转换为序列，但显示以下错误。我使用Pandas.Series(Dataframe)->将Dataframe转换为Series 我想要第一张图像格式的输出推荐答案请尝试以下方法从提到的数据中获取系列对象(假设data是您正在使用的DataFrame) series = pd.Series(data['Sales'], index=data.index) ..

发布时间：2022-05-12 10:10:28 python pandas dataframe series Python

用索引法求 pandas 中两个级数的交集

我有两个不同长度的序列，我试图根据索引找到这两个序列的交集，其中索引是一个字符串。希望最终结果是一个包含基于公共字符串索引的交叉点元素的系列。有什么想法吗？推荐答案 pandas 索引有一个可以使用的intersection method。如果您有两个系列s1和s2，则 s1.index.intersection(s2.index) 或，相当于： s1.ind ..

发布时间：2022-05-12 10:06:38 python pandas intersection series Python

类型错误：不可散列的类型：Pandas DataFrame列

这可能很简单，但我找不到解释，这经常发生在我身上。我正在尝试从列Rate1E中选择超过3.5的值，并查看Pandas DataFrameenergy中符合上述条件的选定行的其余行。我之前有人给了我一个答案，现在简单地改成了如下文字： energy = energy.loc[energy[:, 'Rate1E'] >= 3.5] print(energy.loc[:, 'Rate1E']) ..

发布时间：2022-05-12 09:56:00 python pandas dataframe indexing series Python

获得 pandas 系列赛一周的第一天

我有以下df： import pandas as pd from datetime import datetime, timedelta df = pd.DataFrame([ ["A", "2018-08-03"], ["B", "2018-08-20"] ]) df.columns = ["Item", "Date"] 我想为我的df的每一行获得一周 ..

发布时间：2022-05-12 09:51:54 python pandas datetime series Python

拼图文件日期时间值不匹配

在使用PANDA读取拼图文件时，日期时间字段中的值发生了变化。例如，读取拼图文件时，字段的输出是2021-02-07 10：43：20.067，但实际值应该是2021-02-07 6：43：20。对于较少的记录，同样的方法日期时间列将看到+4和+5小时。所有日期分钟和秒都相同，但只有小时字段正在更改。我正在使用的以下代码 df=pd.read_parquet('filename.pa ..

发布时间：2022-05-11 23:38:06 python pandas datetime parquet Python

有没有办法在行而不是列中处理pandas.DataFrame的数据类型？

parquet、feather和hdf5等大数据文件格式能够与面向列的表配合使用，以加快读取列的速度。在我的用例中，我希望从netcdf4文件切换到feather文件格式，因为我读取某些列的速度比使用netcdf4快10倍。但不幸的是，我正在丢失增加文件大小的dtype规范。所以我的想法是定义行的数据类型，但 pandas 只接受列数据类型。有没有一种方法可以更像以列为导向的表 ..

发布时间：2022-05-11 23:00:03 python-3.x pandas parquet hdf5 feather Python

pandas相关内容