data-analysis相关内容

在 Excel 数据透视表中使用 QUARTILE 按子群汇总数据

我在 Excel 电子表格中有一个很大的数据表,从本质上讲,它可以被认为是被识别为属于不同亚群的个人的值的集合: IndivID SubPopID 值1 A 33.562 东 42.313D 16.354 50.595 华氏度 80.63... 此表中有 10,000 多个个体,以及 50 多个亚群. 我想计算每个亚群的 5 数汇总(最小值、Q1、中值、Q3、最大值). Min ..
发布时间:2022-01-07 23:37:15 其他开发

查找出现在数据集中多于一行的所有两个词组

我们想运行一个查询,该查询返回出现在多行中的两个词组.所以例如取字符串“数据忍者".由于它出现在我们数据集中的不止一行,查询应该返回它.通过查询数据集中的行中的两个相邻单词组合(形成一个短语),查询应该从我们数据集中的所有行中找到所有这样的短语.这两个相邻的单词组合应该来自我们加载到 BigQuery 的数据集 我们如何在 Google BigQuery 中编写此查询? 数据集只是一长 ..

groupby 多个值,并绘制结果

我正在使用一些关于杀菌剂使用的数据,其中包含年份、杀菌剂、使用量以及熊猫数据框中的一些不相关列.看起来有点像: 年份、州、杀菌剂、价值2011 年,加利福尼亚州,A,128792011, 加利福尼亚州, B, 295722011 年,佛罗里达州,A,86452011, 佛罗里达州, B, 195732009 年,加利福尼亚州,A,87642009, 加利福尼亚州, B, 98643,... 我 ..
发布时间:2021-12-27 08:06:46 Python

Pandas GroupBy 的绘图结果

我开始学习 Pandas,并试图找到最 Pythonic(或 panda-thonic?)的方法来完成某些任务. 假设我们有一个包含 A、B 和 C 列的 DataFrame. A 列包含布尔值:每一行的 A 值要么是真要么是假. B 列有一些我们想要绘制的重要值. 我们想要发现的是 A 设置为 false 的行的 B 值与 A 设置为 true 的行的 B 值之间的细微区别. ..
发布时间:2021-12-27 08:05:16 Python

如何在散点图中圈出不同的数据集?

如何在散点图中圈出不同的数据集? 我正在寻找的是这样的: 此外,此后我如何用(阴影)颜色填充圆圈? 解决方案 您可以通过凸包获得包含所有点的路径 scipy.spatial.ConvexHull. 将 matplotlib.pyplot 导入为 plt将 numpy 导入为 np;np.random.seed(1)从 scipy.spatial 导入 ConvexHullx1 ..
发布时间:2021-12-24 14:37:49 Python

Matplotlib:在 3D 条形图中在 x 轴上格式化日期

鉴于此 3D 条形图示例代码,您将如何转换x 轴中的数字数据到格式化的日期/时间字符串?我尝试使用 ax.xaxis_date() 函数但没有成功.我还尝试使用 plot_date(),它似乎不适用于 3D 条形图.这是示例代码的修改版本,用于说明我正在尝试执行的操作: from mpl_toolkits.mplot3d 导入 Axes3D导入 matplotlib.pyplot 作为 plt将 ..
发布时间:2021-12-24 14:35:50 Python

如何摆脱将excel表中的大数字转换为指数的熊猫?

在excel表中,我有两列大数字. 但是当我使用 read_excel() 读取 excel 文件并显示数据框时, 这两列以指数形式以科学格式打印. 怎样才能摆脱这种格式? 谢谢 熊猫输出 解决方案 应用科学记数法的方式是通过 pandas 的显示控制的 选项: pd.set_option('display.float_format', '{:.2f}'.f ..
发布时间:2021-12-14 09:54:08 AI人工智能

如何使用熊猫对与给定条件匹配的列中的值求和?

假设我有一个这样的列: a b1 51 72 31 32 5 例如,我想总结 b 的值,其中 a = 1.这会给我 5 + 7 + 3 = 15. 我如何在熊猫中做到这一点? 解决方案 这里的基本思想是选择要求和的数据,然后对它们求和.可以通过几种不同的方式来选择数据,其中一些如下所示. 布尔索引 可以说最常见的选择值的方法是使用 布尔索引. 使用此方法,您可以 ..
发布时间:2021-12-03 09:04:41 Python

Python:熊猫合并多个数据帧

我有不同的数据框,需要根据日期列将它们合并在一起.如果我只有两个数据帧,我可以使用 df1.merge(df2, on='date'),用三个数据帧来做,我使用 df1.merge(df2.merge(df3, on='date'), on='date'),但是使用多个数据帧来执行它变得非常复杂且不可读. 所有数据帧都有一个共同的列 -date,但它们的行数和列数都不相同,我只需要每个数据帧 ..
发布时间:2021-12-03 08:42:19 Python

如何按两列或更多列对python pandas中的数据帧进行排序?

假设我有一个包含 a、b 和 c 列的数据框,我想按 b 升序,c 列降序,我该怎么做? 解决方案 从 0.17.0 版本开始,sort 方法已被弃用,取而代之的是 sort_values.sort 在 0.20.0 版本中被完全删除.参数(和结果)保持不变: df.sort_values(['a', 'b'], 升序=[真, 假]) 您可以使用 的升序参数排序: df.sort([ ..
发布时间:2021-12-03 08:22:25 Python

Matlab 互相关 vs 相关系数问题

我正在用 C++ 编写程序,但使用来自涉及互相关的 matlab 数据.我知道当我对 2 组数据进行相关时,它会给我一个单一的相关系数数字,表明它们是否相关.但我想对数据系列使用互相关.当我在 Matlab 上运行 Cross Correlation 时,它给了我很多数据,绘制时该图看起来像一个三角形......我知道 Correlation 应该在 +/- 1 之间,但三角形尖端的数据没有't ..
发布时间:2021-11-27 12:02:36 其他开发

处理加速度计数据

我想知道是否有一些库/算法/技术可以帮助从加速度计数据(从任何智能手机中提取)中提取用户上下文(行走/站立)? 例如,我会在一定时间内每 5 秒收集一次加速度计数据,然后识别用户上下文(例如,前 5 分钟,用户正在步行,然后用户站立一分钟,以及然后他又继续走了3分钟). 非常感谢您 :) 解决方案 我不知道有任何这样的库. 编写这样的库是一项非常耗时的任务.基本上,您将构 ..
发布时间:2021-11-26 18:24:15 其他开发

如何在 MySQL 中滞后列?

考虑下表: SELECT id, value FROM table ORDER BY id ASC;+-----+---------+|身份证 |价值 |+-----+---------+|12 |158 ||15 |第346话|27 |第334话|84 |第378话|85 |第546话+-----+---------+ id 列是自动递增的,但包含间隙.value 列是数字. 我想通过 ..
发布时间:2021-11-20 22:30:11 数据库

在 Flink 流中使用静态 DataSet 丰富 DataStream

我正在编写一个 Flink 流程序,其中我需要使用一些静态数据集(信息库,IB)来丰富用户事件的 DataStream. 例如假设我们有一个买家的静态数据集,我们有一个传入的事件点击流,对于每个事件,我们想要添加一个布尔标志,指示事件的执行者是否是买家. 实现此目的的理想方法是按用户 ID 对传入流进行分区,让数据集中的买方设置再次按用户 ID 进行分区,然后在此数据集中查找流中的每个 ..
发布时间:2021-11-12 01:06:46 其他开发

将函数应用于列表Python中的所有项目

我正在尝试将功能应用于列表.该函数需要一个值并产生另一个值. 例如: myCoolFunction(75) 将产生新的价值 到目前为止,我正在使用它: x = 0newValues = []在my_list中的值:x = x + 1newValues.append(myCoolFunction(value))打印(x) 我正在处理大约125,000个值,并且运行速度似乎 ..
发布时间:2021-05-28 20:08:09 Python

从列表填充数据

我有一个包含以下项目的列表 l = [11.1,22.2,33.3,11.1,33.3,33.3,22.2,55.5] 每个项目都是11.1的倍数,列表的长度是8.我想生成另一个包含30个项的列表,其值分别为11.1、22.2、33.3、55.5出现在原始列表 l 中. 我想知道如何将列表 l 中的数据填充到 l_new 中. 解决方案 您可以使用 random 模块来做到这 ..
发布时间:2021-04-28 19:46:45 其他开发