data-analysis相关内容
我有一个像这样的数组中的点列表 points = [[1,2];[2,5];[7,1]...[x,y]] x 在 0 到 1020 之间,y 在 0 到 1920 之间. 如何在 Matlab 中计算点数组的熵? 非常感谢! 解决方案 我假设您想将每个 [x,y] 点视为一个数据点.让我们定义一些示例数据: A = [[1,2];[2,5];[7,1];[1,2]];
..
我在 Excel 电子表格中有一个很大的数据表,从本质上讲,它可以被认为是被识别为属于不同亚群的个人的值的集合: IndivID SubPopID 值1 A 33.562 东 42.313D 16.354 50.595 华氏度 80.63... 此表中有 10,000 多个个体,以及 50 多个亚群. 我想计算每个亚群的 5 数汇总(最小值、Q1、中值、Q3、最大值). Min
..
我们想运行一个查询,该查询返回出现在多行中的两个词组.所以例如取字符串“数据忍者".由于它出现在我们数据集中的不止一行,查询应该返回它.通过查询数据集中的行中的两个相邻单词组合(形成一个短语),查询应该从我们数据集中的所有行中找到所有这样的短语.这两个相邻的单词组合应该来自我们加载到 BigQuery 的数据集 我们如何在 Google BigQuery 中编写此查询? 数据集只是一长
..
我正在使用一些关于杀菌剂使用的数据,其中包含年份、杀菌剂、使用量以及熊猫数据框中的一些不相关列.看起来有点像: 年份、州、杀菌剂、价值2011 年,加利福尼亚州,A,128792011, 加利福尼亚州, B, 295722011 年,佛罗里达州,A,86452011, 佛罗里达州, B, 195732009 年,加利福尼亚州,A,87642009, 加利福尼亚州, B, 98643,... 我
..
我开始学习 Pandas,并试图找到最 Pythonic(或 panda-thonic?)的方法来完成某些任务. 假设我们有一个包含 A、B 和 C 列的 DataFrame. A 列包含布尔值:每一行的 A 值要么是真要么是假. B 列有一些我们想要绘制的重要值. 我们想要发现的是 A 设置为 false 的行的 B 值与 A 设置为 true 的行的 B 值之间的细微区别.
..
如何在散点图中圈出不同的数据集? 我正在寻找的是这样的: 此外,此后我如何用(阴影)颜色填充圆圈? 解决方案 您可以通过凸包获得包含所有点的路径 scipy.spatial.ConvexHull. 将 matplotlib.pyplot 导入为 plt将 numpy 导入为 np;np.random.seed(1)从 scipy.spatial 导入 ConvexHullx1
..
鉴于此 3D 条形图示例代码,您将如何转换x 轴中的数字数据到格式化的日期/时间字符串?我尝试使用 ax.xaxis_date() 函数但没有成功.我还尝试使用 plot_date(),它似乎不适用于 3D 条形图.这是示例代码的修改版本,用于说明我正在尝试执行的操作: from mpl_toolkits.mplot3d 导入 Axes3D导入 matplotlib.pyplot 作为 plt将
..
在excel表中,我有两列大数字. 但是当我使用 read_excel() 读取 excel 文件并显示数据框时, 这两列以指数形式以科学格式打印. 怎样才能摆脱这种格式? 谢谢 熊猫输出 解决方案 应用科学记数法的方式是通过 pandas 的显示控制的 选项: pd.set_option('display.float_format', '{:.2f}'.f
..
假设我有一个这样的列: a b1 51 72 31 32 5 例如,我想总结 b 的值,其中 a = 1.这会给我 5 + 7 + 3 = 15. 我如何在熊猫中做到这一点? 解决方案 这里的基本思想是选择要求和的数据,然后对它们求和.可以通过几种不同的方式来选择数据,其中一些如下所示. 布尔索引 可以说最常见的选择值的方法是使用 布尔索引. 使用此方法,您可以
..
我有不同的数据框,需要根据日期列将它们合并在一起.如果我只有两个数据帧,我可以使用 df1.merge(df2, on='date'),用三个数据帧来做,我使用 df1.merge(df2.merge(df3, on='date'), on='date'),但是使用多个数据帧来执行它变得非常复杂且不可读. 所有数据帧都有一个共同的列 -date,但它们的行数和列数都不相同,我只需要每个数据帧
..
假设我有一个包含 a、b 和 c 列的数据框,我想按 b 升序,c 列降序,我该怎么做? 解决方案 从 0.17.0 版本开始,sort 方法已被弃用,取而代之的是 sort_values.sort 在 0.20.0 版本中被完全删除.参数(和结果)保持不变: df.sort_values(['a', 'b'], 升序=[真, 假]) 您可以使用 的升序参数排序: df.sort([
..
我正在用 C++ 编写程序,但使用来自涉及互相关的 matlab 数据.我知道当我对 2 组数据进行相关时,它会给我一个单一的相关系数数字,表明它们是否相关.但我想对数据系列使用互相关.当我在 Matlab 上运行 Cross Correlation 时,它给了我很多数据,绘制时该图看起来像一个三角形......我知道 Correlation 应该在 +/- 1 之间,但三角形尖端的数据没有't
..
我想知道是否有一些库/算法/技术可以帮助从加速度计数据(从任何智能手机中提取)中提取用户上下文(行走/站立)? 例如,我会在一定时间内每 5 秒收集一次加速度计数据,然后识别用户上下文(例如,前 5 分钟,用户正在步行,然后用户站立一分钟,以及然后他又继续走了3分钟). 非常感谢您 :) 解决方案 我不知道有任何这样的库. 编写这样的库是一项非常耗时的任务.基本上,您将构
..
考虑下表: SELECT id, value FROM table ORDER BY id ASC;+-----+---------+|身份证 |价值 |+-----+---------+|12 |158 ||15 |第346话|27 |第334话|84 |第378话|85 |第546话+-----+---------+ id 列是自动递增的,但包含间隙.value 列是数字. 我想通过
..
我需要将多个 csv 文件组合成一个对象(我假设是一个数据框),但它们都有不匹配的列,如下所示: CSV A store_location_key |product_key |收藏家_key |trans_dt |销售 |单位|转键 CSV B collector_key |trans_dt |store_location_key |product_key |销售 |单位|转键 CS
..
我正在编写一个 Flink 流程序,其中我需要使用一些静态数据集(信息库,IB)来丰富用户事件的 DataStream. 例如假设我们有一个买家的静态数据集,我们有一个传入的事件点击流,对于每个事件,我们想要添加一个布尔标志,指示事件的执行者是否是买家. 实现此目的的理想方法是按用户 ID 对传入流进行分区,让数据集中的买方设置再次按用户 ID 进行分区,然后在此数据集中查找流中的每个
..
我有一个data.frame 星系和它们的距离(z): >头(sdss16, 10)SDSS RAJ2000 DEJ2000 MJD 类 QSO z umag gmag rmag imag zmag e_umag e_gmag e_rmag e_imag e_zmag1 000000.15 + 353104.2 0.000629 35.517841 58402 0 1 0.845435 18.9
..
我有这组数据 2016-08-09 12:39:00,536.7841,536.7849,536.6141,536.7849,0.6562016-08-09 12:40:00,536.6749,536.6749,536.6749,536.6749,0.26422016-08-09 12:41:00,535.84,535.84,535.615,535.615,0.3482016-08-09 12:
..
我正在尝试将功能应用于列表.该函数需要一个值并产生另一个值. 例如: myCoolFunction(75) 将产生新的价值 到目前为止,我正在使用它: x = 0newValues = []在my_list中的值:x = x + 1newValues.append(myCoolFunction(value))打印(x) 我正在处理大约125,000个值,并且运行速度似乎
..
我有一个包含以下项目的列表 l = [11.1,22.2,33.3,11.1,33.3,33.3,22.2,55.5] 每个项目都是11.1的倍数,列表的长度是8.我想生成另一个包含30个项的列表,其值分别为11.1、22.2、33.3、55.5出现在原始列表 l 中. 我想知道如何将列表 l 中的数据填充到 l_new 中. 解决方案 您可以使用 random 模块来做到这
..