data-analysis相关内容

对熊猫中的多个.csv文件应用相同的操作

我有六个.csv文件。它们的整体大小约为4gigs。我需要清理每个对象,并对每个对象执行一些数据分析任务。这些操作对于所有帧都是相同的。 这是我阅读它们的代码。 #df = pd.read_csv(r“ yellow_tripdata_2018-01.csv “) #df = pd.read_csv(r” yellow_tripdata_2018-02.csv“) #df = pd. ..
发布时间:2020-10-12 21:14:15 Python

在Flink流中使用静态DataSet丰富DataStream

我正在编写一个Flink流传输程序,在该程序中,我需要使用一些静态数据集(信息库IB)来丰富用户事件的DataStream. 例如假设我们有一个静态的买家数据集,并且有一个事件的传入点击流,我们希望为每个事件添加一个布尔型标志,指示事件的执行者是否是买家. 实现此目标的理想方法是按用户ID对传入流进行分区,使数据集中可用的购买者集再次按用户ID进行分区,然后针对流中的每个事件查找到此D ..
发布时间:2020-09-03 07:20:19 其他开发

在大熊猫中,您可以通过均值聚合并将其四舍五入到最接近的整数吗?

因此,我有169列已被处理为保留1 =表示是,0 =表示否,现在我需要平均合计200万行,以及 结果到最接近的整数,我怎么能得到呢? 图像仅显示每列的值为0或1 解决方案 如果data是您的数据框,则可以使用以下方法简单地获取所有列的平均值: data.mean().astype(int) # Truncates mean to integer, e.g. 1.95 = 1 ..
发布时间:2020-08-24 03:33:00 Python

信号增强算法

我需要一种算法(最好是一种类似于Pascal的语言,但是最终并不重要),它将使“信号"成为可能. (实际上是一系列数据点)在左侧看起来像在右侧. 信号来源: 该信号是由机器产生的.为了简化说明,该机器正在测量流过透明管的液体的密度.因此,该信号类似于电信号(音频/射频). 数据点可能看起来像这样:[1、2、1、3、4、5、4、3、2、1、13、14、15、18、23、19、17、15、15、15 ..

生成伪变量后?

我正在尝试将类别变量更改为虚拟变量. “季节",“假日",“工作日",“天气",“温度",“温度",“湿度",“风速",“已注册",“计数",“小时",“降落"都是变量. 这是我的代码: #dummy library(dummies) #set up new dummy variables data.new = data.frame(data) data.new = cbind(dat ..
发布时间:2020-07-31 04:18:58 其他开发

Python的小提琴正数值图

我发现小提琴图非常有用,我使用python库"seaborn". 但是,当应用于正值时,它们几乎总是在下端显示负值.我发现这确实令人误解,尤其是在处理现实数据集时. 在seaborn的官方文档中 https://seaborn.pydata.org/genic/seaborn.violinplot.html 可以看到带有"total_bill"和"tip"的示例,这些示例 not 不能为负. ..
发布时间:2020-07-13 22:13:38 Python

R计算数据框中的百分比值

我今天的问题是指我正在R中处理的数据框. 数据帧的标题如下:String(unique),Integer N [0-23] 这24个Integer值表示与一天中的每个小时关联的String的频率.从逻辑上讲,每一行的int值总和该字符串在数据中出现的频率. 问题是,我不需要某个小时的字符串的实际频率,而是该频率相对于所有行中整数值之和的百分比. 我的讲师暗示table()可能是正 ..
发布时间:2020-06-15 19:20:32 其他开发

您如何测试排序算法的速度?

我想对排序算法的速度进行实证检验。最初,我是随机生成的数据,但这似乎不公平,并弄乱了一些算法。例如,对于快速排序,枢轴选择很重要,而选择枢轴的一种方法是始终选择第一个,而另一种方法则是选择第一个,最后一个和中间元素的中位数。但是,如果数组已经是随机的,则选择哪个枢轴都无关紧要,因此从这个意义上讲,这是不公平的。您如何解决这个问题? 在哪里可以获得用于测试排序算法的真实样本?我听说在实际场景中 ..
发布时间:2020-06-03 21:31:56 Java开发

如何在R中添加新列和聚合值

我对gnuplot完全陌生,仅尝试此操作是因为我需要学习它。我在三列中都有一个值,其中第一列代表文件名(日期和时间,一个小时的间隔),其余两列代表两个不同的实体Prop1和Prop2。 Datetime Prop1 Prop2 20110101_0000.txt 2 5 20110101_0100.txt 2 5 20110101_0200.txt 2 5 ... ..
发布时间:2020-06-02 20:54:10 其他开发

处理加速度计数据

我想知道是否有一些库/算法/技术可帮助从加速度计数据(从任何智能手机中提取)中提取用户上下文(步行/站立)? 例如,我将在一定时间段内每5秒钟收集一次加速度计数据,然后识别用户环境(例如,在开始的5分钟内,用户在走路,然后用户站立一分钟,然后他继续走了3分钟。) 非常感谢:) 解决方案 我不知道任何这样的库。 编写这样的库非常耗时。基本上,您将建立一个您希望识别的“用户上 ..
发布时间:2020-05-31 23:14:52 其他开发

Power BI-根据纬度/经度查找最近的位置

我是Power BI和DAX的新手,所以希望您能为我提供帮助。 我有两个没有任何关系的表: 表A 包含经纬度的经纬度和日期。 表B 包含经度/纬度和所有体育场的名称。 我想找到最靠近跟踪位置的体育场。另外,如果可能的话,我想验证一下该位置是否在该体育场的特定半径内。 任何帮助都将不胜感激。 解决方案 这里是一种可能的方法: 首先,计算 将其作为计算列添加到 ..
发布时间:2020-05-30 02:29:17 其他开发