data-analysis相关内容

如何制作DataFrame和“ fillna”切片在特定切片中使用Python Pandas?

问题:让我们从Kaggle获取Titanic数据集。 我有带有“ Pclass”,“ Sex”和“ Age”列的数据框。 我需要使用某些组的中位数填充“年龄”列中的NaN。 如果是一等舱的女性,我想用一等舱女性的中位数而不是整个“年龄”列的中位数来填充她的年龄。 问题是如何在特定范围内进行更改? 我尝试过: data ['Age'] [(data ['Sex'] =='f ..
发布时间:2020-10-15 21:29:23 Python

Spark-sqlserver连接

我们可以将spark与sql-server连接吗?如果是这样,怎么办? 我是spark的新手,我想将服务器连接到spark并直接从sql-server工作,而不是上传.txt或.csv文件。请帮忙,谢谢。 解决方案 下面是一些代码段。 DataFrame用于创建表t2和插入数据。 SqlContext用于将t2表中的数据加载到DataFrame中。我在我的spark-default.co ..
发布时间:2020-10-15 21:29:20 数据库

检测数据集中的重大变化,然后逐渐变化

我在python中有一个数据列表,代表每分钟使用的资源量。我想找到它在该数据集中发生显着变化的次数。我所说的重大更改与到目前为止所读内容有所不同。 例如如果我有一个数据集,例如 [10,15,17,20,30,40,50,70,80,60,40,20] 我说当数据比以前的正常值增加一倍或减少一半时,会发生重大变化。 例如因为列表以10开头,所以这是我们的起始法线点。 然后 ..
发布时间:2020-10-15 21:29:17 Python

unicodecsv.DictReader如何表示一个csv文件

我目前正在学习有关python中数据分析的Udacity课程,并且我们一直在使用unicodecsv库。 更具体地说,我们编写了以下代码,该代码读取一个csv文件并将其转换为列表。这是代码: def read_csv(filename): ,open(filename,'rb')as f : reader = unicodecsv.DictReader(f) 返回列表(阅读器) ..
发布时间:2020-10-15 21:29:15 Python

用Python进行傅立叶变换

我有一组数据。它显然具有一定的周期性。我想通过使用傅立叶变换来找出频率,然后将其绘制出来。 这里是我的镜头,但看起来不太好。 这是相应的代码,我不知道为什么它会失败: import numpy from pylab import * scipy.fftpack import fft,fftfreq import matplotlib.pyplot as plt 数 ..
发布时间:2020-10-15 21:27:52 Python

如何使Python决策树更易于理解?

我有一个数据文件。数据的最后一列具有+1和-1区分变量。我在单独的文件中也有每列的ID名称。 例如 1 2 3 4 1 5 6 7 8 1 9 1 2 3 -1 4 5 6 7 -1 8 9 1 2 -1 对于每个列,我分别具有Q1,Q2,Q3,Q4,Q5名称。 我想实现决策树分类器,所以我写了以下代码: import numpy ..
发布时间:2020-10-15 21:27:47 Python

使用Python在实时信号上进行ECG数据分析

我正在使用Python从Arduino获得的信号中产生心电图(ECG)。我想对其进行一些分析,我尚不知道哪种分析类型尚待确定。但是我的问题是,是否可以对通过串行端口的实时数据流进行分析,还是先将数据保存为一个文本文件然后对其进行分析,是更容易/更好的方法。现在,我无法解决这个问题。一个额外的注意事项:我至少想检测信号的峰值(R波)和R-R间隔(这样我就可以测量每分钟的拍数)。 到目前为止,这 ..
发布时间:2020-10-15 21:27:43 Python

Seaborn多变量组条形图

我有熊猫数据框,一个索引(日期时间)和三个变量(整数) date ABC 2017 -09-05 25 261 31 2017-09-06 261 1519 151 2017-09-07 188 1545 144 2017-09-08 200 2110 232 2017-09 -09 292 2391 325 我可以使用基本的熊猫图创建分组的条形图。 ..
发布时间:2020-10-15 21:26:39 Python

如何从无线路由器捕获原始信号?

我现在看到了几个项目,这些项目从典型的无线路由器收集的无线电数据中获得新颖的空间信息: http://www.extremetech.com/extreme/133936-using-wifi-to-see-through-walls 使用无线路由器作为一种无源雷达的想法很棒。 我非常感兴趣在我自己尝试从无线路由器收集的数据时,但是关于如何与无线路由器进行实际接口并获得设备收集的 ..
发布时间:2020-10-15 21:26:34 其他开发

如何使用word2vec查找与向量最接近的词

我刚刚开始使用Word2vec,我想知道如何才能找到与向量最接近的词。 我有这个向量,它是一组向量的平均向量: array([-0.00449447,- 0.00310097,0.02421786,...],dtype = float32) 是否有直接找到的方法在训练数据中与该向量最相似的词是 还是唯一的解决方案是计算此向量与训练数据中每个词的向量之间的余弦相似 ..
发布时间:2020-10-15 21:25:26 Python

Seaborn图书馆中的直方图,计数图和distplot有什么主要区别?

我认为它们看起来都一样,但是必须有所区别。 它们都以单列作为输入,而y轴具有 解决方案 那些绘图函数 pyplot.hist , seaborn.countplot 和 seaborn.displot 都是绘制单个变量频率的辅助工具。根据此变量的性质,它们或多或少适合可视化。 连续变量 连续变量 x 可以用直方图显示频率分布。 import matplotlib. ..
发布时间:2020-10-15 21:24:23 Python

R和SPSS的区别

我将在短期内分析大量与网络流量相关的数据,并对数据进行预处理以进行分析。我发现R和SPSS是最流行的统计分析工具。我还将生成很多图形和图表。因此,我想知道这两个软件之间的基本区别是什么。 我不是在问哪个更好,而是想知道两者之间在工作流程方面有什么区别(除了SPSS具有GUI的事实) 。无论如何,我都会主要使用两种脚本,因此我想了解其他差异。 解决方案 我在使用SPSS进行大多数数据分 ..
发布时间:2020-10-15 21:24:14 其他开发

使用matplotlib根据某些变量用颜色绘制多个线段

遵循这两个主题的答案 Matplotlib:绘制大量未连接的图不同颜色的线段和 matplotlib:如何根据某个变量更改数据点的颜色,我正在尝试绘制列表给出的一组细分,例如: data = [(-118,-118),(34.07,34.16), (-117.99,-118.15),(34.07,34.16), (-118 ,-117.98),(34.16,34.07)] ..
发布时间:2020-10-15 21:23:11 Python

R,将列与行相关

我有5列[每个列的名称代表每个候选人的发言。. can1 can2 can3 can4 can5 ,每列都有二进制数据(TRUE或FALSE),而我还有另一列CANDIDATES,其数据收集带有名称5个候选者中(因子= 5)(相同候选者)。 ,所以它类似于 can1 can2 can3 can4 can5候选人 我想创建一个二进制的列,如果CA ..
发布时间:2020-10-15 21:23:06 其他开发

如何在matplotlib熊猫中的一个图中组合两个文件的两个条形图

我有两个具有相同列但内容不同的数据框。 我已经绘制了数字数据框。现在我想在同一张图上绘制另一个数据框 dffinal_no 以便进行比较。 例如,一个条形图蓝色,而同一条形图和另一种颜色只是在y轴上有所区别。 这是我绘制第一个数据框的代码的一部分。 dffinal = df [[''6month','final-Formula','numPatients6month']]。d ..
发布时间:2020-10-15 21:23:04 Python

替换R中条目的更短方法

我最近开始学习R。这是我正在使用的源文件( https:// github.com/cosname/art-r-translation/blob/master/data/Grades.txt )。无论如何,我可以在不使用循环的情况下将字母等级从A更改为4.0,从A-更改为3.7等。 我在问,因为如果有1M条目,“ for”循环可能不是修改数据的最有效方法。我将不胜感激。 由于其中一个张 ..
发布时间:2020-10-15 21:23:00 其他开发

熊猫数据框分配不会更新数据框

我制作了虹膜数据集的熊猫数据框,我想在其中增加4列。列的内容必须为SepalRatio,PetalRatio,SepalMultiplied,PetalMultiplied。我使用了DataFrame的assign()函数添加了这四列,但是DataFrame保持不变。 我添加列的代码是: iris.assign(SepalRatio = iris ['SepalLengthCm'] ..
发布时间:2020-10-15 21:22:58 Python