data-analysis 第2页 - IT屋-程序员软件开发技术分享社区

在 Matlab 中计算二维点列表的熵

我有一个像这样的数组中的点列表 points = [[1,2];[2,5];[7,1]...[x,y]] x 在 0 到 1020 之间，y 在 0 到 1920 之间. 如何在 Matlab 中计算点数组的熵? 非常感谢！解决方案我假设您想将每个 [x,y] 点视为一个数据点.让我们定义一些示例数据: A = [[1,2];[2,5];[7,1];[1,2]]; ..

发布时间：2022-01-07 23:59:27 arrays matlab statistics data-analysis entropy 其他开发

在 Excel 数据透视表中使用 QUARTILE 按子群汇总数据

我在 Excel 电子表格中有一个很大的数据表，从本质上讲，它可以被认为是被识别为属于不同亚群的个人的值的集合: IndivID SubPopID 值1 A 33.562 东 42.313D 16.354 50.595 华氏度 80.63... 此表中有 10,000 多个个体，以及 50 多个亚群. 我想计算每个亚群的 5 数汇总(最小值、Q1、中值、Q3、最大值). Min ..

发布时间：2022-01-07 23:37:15 excel statistics excel-2007 pivot-table data-analysis 其他开发

查找出现在数据集中多于一行的所有两个词组

我们想运行一个查询，该查询返回出现在多行中的两个词组.所以例如取字符串“数据忍者".由于它出现在我们数据集中的不止一行，查询应该返回它.通过查询数据集中的行中的两个相邻单词组合(形成一个短语)，查询应该从我们数据集中的所有行中找到所有这样的短语.这两个相邻的单词组合应该来自我们加载到 BigQuery 的数据集我们如何在 Google BigQuery 中编写此查询? 数据集只是一长 ..

发布时间：2021-12-30 22:53:06 data-mining bigdata google-bigquery data-analysis n-gram AI人工智能

我正在使用一些关于杀菌剂使用的数据，其中包含年份、杀菌剂、使用量以及熊猫数据框中的一些不相关列.看起来有点像: 年份、州、杀菌剂、价值2011 年，加利福尼亚州，A，128792011, 加利福尼亚州, B, 295722011 年，佛罗里达州，A，86452011, 佛罗里达州, B, 195732009 年，加利福尼亚州，A，87642009, 加利福尼亚州, B, 98643,... 我 ..

发布时间：2021-12-27 08:06:46 python pandas matplotlib group-by data-analysis Python

Pandas GroupBy 的绘图结果

我开始学习 Pandas，并试图找到最 Pythonic(或 panda-thonic?)的方法来完成某些任务. 假设我们有一个包含 A、B 和 C 列的 DataFrame. A 列包含布尔值:每一行的 A 值要么是真要么是假. B 列有一些我们想要绘制的重要值. 我们想要发现的是 A 设置为 false 的行的 B 值与 A 设置为 true 的行的 B 值之间的细微区别. ..

发布时间：2021-12-27 08:05:16 python matplotlib group-by pandas data-analysis Python

如何在散点图中圈出不同的数据集?

如何在散点图中圈出不同的数据集? 我正在寻找的是这样的: 此外，此后我如何用(阴影)颜色填充圆圈? 解决方案您可以通过凸包获得包含所有点的路径 scipy.spatial.ConvexHull. 将 matplotlib.pyplot 导入为 plt将 numpy 导入为 np;np.random.seed(1)从 scipy.spatial 导入 ConvexHullx1 ..

发布时间：2021-12-24 14:37:49 python matplotlib graph latex data-analysis Python

Matplotlib:在 3D 条形图中在 x 轴上格式化日期

鉴于此 3D 条形图示例代码，您将如何转换x 轴中的数字数据到格式化的日期/时间字符串?我尝试使用 ax.xaxis_date() 函数但没有成功.我还尝试使用 plot_date()，它似乎不适用于 3D 条形图.这是示例代码的修改版本，用于说明我正在尝试执行的操作: from mpl_toolkits.mplot3d 导入 Axes3D导入 matplotlib.pyplot 作为 plt将 ..

发布时间：2021-12-24 14:35:50 python numpy graph matplotlib data-analysis Python

如何摆脱将excel表中的大数字转换为指数的熊猫?

在excel表中，我有两列大数字. 但是当我使用 read_excel() 读取 excel 文件并显示数据框时，这两列以指数形式以科学格式打印. 怎样才能摆脱这种格式? 谢谢熊猫输出解决方案应用科学记数法的方式是通过 pandas 的显示控制的选项: pd.set_option('display.float_format', '{:.2f}'.f ..

发布时间：2021-12-14 09:54:08 python pandas machine-learning data-analysis AI人工智能

如何使用熊猫对与给定条件匹配的列中的值求和?

假设我有一个这样的列: a b1 51 72 31 32 5 例如，我想总结 b 的值，其中 a = 1.这会给我 5 + 7 + 3 = 15. 我如何在熊猫中做到这一点? 解决方案这里的基本思想是选择要求和的数据，然后对它们求和.可以通过几种不同的方式来选择数据，其中一些如下所示. 布尔索引可以说最常见的选择值的方法是使用布尔索引. 使用此方法，您可以 ..

发布时间：2021-12-03 09:04:41 python pandas dataframe data-analysis Python

Python:熊猫合并多个数据帧

我有不同的数据框，需要根据日期列将它们合并在一起.如果我只有两个数据帧，我可以使用 df1.merge(df2, on='date')，用三个数据帧来做，我使用 df1.merge(df2.merge(df3, on='date'), on='date')，但是使用多个数据帧来执行它变得非常复杂且不可读. 所有数据帧都有一个共同的列 -date，但它们的行数和列数都不相同，我只需要每个数据帧 ..

发布时间：2021-12-03 08:42:19 python pandas dataframe merge data-analysis Python

如何按两列或更多列对python pandas中的数据帧进行排序?

假设我有一个包含 a、b 和 c 列的数据框，我想按 b 升序，c 列降序，我该怎么做? 解决方案从 0.17.0 版本开始，sort 方法已被弃用，取而代之的是 sort_values.sort 在 0.20.0 版本中被完全删除.参数(和结果)保持不变: df.sort_values(['a', 'b'], 升序=[真, 假]) 您可以使用的升序参数排序: df.sort([ ..

发布时间：2021-12-03 08:22:25 python pandas python-2.7 sorting data-analysis Python

Matlab 互相关 vs 相关系数问题

我正在用 C++ 编写程序，但使用来自涉及互相关的 matlab 数据.我知道当我对 2 组数据进行相关时，它会给我一个单一的相关系数数字，表明它们是否相关.但我想对数据系列使用互相关.当我在 Matlab 上运行 Cross Correlation 时，它给了我很多数据，绘制时该图看起来像一个三角形......我知道 Correlation 应该在 +/- 1 之间，但三角形尖端的数据没有't ..

发布时间：2021-11-27 12:02:36 matlab analysis correlation data-analysis 其他开发

处理加速度计数据

我想知道是否有一些库/算法/技术可以帮助从加速度计数据(从任何智能手机中提取)中提取用户上下文(行走/站立)? 例如，我会在一定时间内每 5 秒收集一次加速度计数据，然后识别用户上下文(例如，前 5 分钟，用户正在步行，然后用户站立一分钟，以及然后他又继续走了3分钟). 非常感谢您 :) 解决方案我不知道有任何这样的库. 编写这样的库是一项非常耗时的任务.基本上，您将构 ..

发布时间：2021-11-26 18:24:15 accelerometer data-analysis 其他开发

如何在 MySQL 中滞后列?

考虑下表: SELECT id, value FROM table ORDER BY id ASC;+-----+---------+|身份证 |价值 |+-----+---------+|12 |158 ||15 |第346话|27 |第334话|84 |第378话|85 |第546话+-----+---------+ id 列是自动递增的，但包含间隙.value 列是数字. 我想通过 ..

发布时间：2021-11-20 22:30:11 mysql sql data-analysis sliding-window 数据库

将 csv 文件与不匹配的列相结合

发布时间：2021-11-14 22:34:23 csv apache-spark pyspark spark-dataframe data-analysis 其他开发

在 Flink 流中使用静态 DataSet 丰富 DataStream

我正在编写一个 Flink 流程序，其中我需要使用一些静态数据集(信息库，IB)来丰富用户事件的 DataStream. 例如假设我们有一个买家的静态数据集，我们有一个传入的事件点击流，对于每个事件，我们想要添加一个布尔标志，指示事件的执行者是否是买家. 实现此目的的理想方法是按用户 ID 对传入流进行分区，让数据集中的买方设置再次按用户 ID 进行分区，然后在此数据集中查找流中的每个 ..

发布时间：2021-11-12 01:06:46 bigdata apache-flink data-analysis flink-streaming 其他开发

R:将列添加到 data.frame 以分为低、中、高范围

我有一个data.frame 星系和它们的距离(z): >头(sdss16, 10)SDSS RAJ2000 DEJ2000 MJD 类 QSO z umag gmag rmag imag zmag e_umag e_gmag e_rmag e_imag e_zmag1 000000.15 + 353104.2 0.000629 35.517841 58402 0 1 0.845435 18.9 ..

发布时间：2021-09-07 19:39:11 r dataframe tidyverse data-analysis 其他开发

如何将 OHLCV 数据重新采样为 5 分钟?

我有这组数据 2016-08-09 12:39:00,536.7841,536.7849,536.6141,536.7849,0.6562016-08-09 12:40:00,536.6749,536.6749,536.6749,536.6749,0.26422016-08-09 12:41:00,535.84,535.84,535.615,535.615,0.3482016-08-09 12: ..

发布时间：2021-07-14 20:01:22 python dataframe data-analysis sampling trading Python

将函数应用于列表Python中的所有项目

我正在尝试将功能应用于列表.该函数需要一个值并产生另一个值. 例如: myCoolFunction(75) 将产生新的价值到目前为止，我正在使用它: x = 0newValues = []在my_list中的值:x = x + 1newValues.append(myCoolFunction(value))打印(x) 我正在处理大约125,000个值，并且运行速度似乎 ..

发布时间：2021-05-28 20:08:09 python pandas dataframe lambda data-analysis Python

从列表填充数据

我有一个包含以下项目的列表 l = [11.1，22.2，33.3，11.1，33.3，33.3，22.2，55.5] 每个项目都是11.1的倍数，列表的长度是8.我想生成另一个包含30个项的列表，其值分别为11.1、22.2、33.3、55.5出现在原始列表 l 中. 我想知道如何将列表 l 中的数据填充到 l_new 中. 解决方案您可以使用 random 模块来做到这 ..

发布时间：2021-04-28 19:46:45 python-3.x list statistics data-analysis 其他开发

data-analysis相关内容