data-analysis相关内容

在Visual Studio 2010中使用大型查找表的代码库链接器的局限性

在我的工作中,我们有各种各样的大表存储用于一组多维非参数模型的数据.每个表都是一个float数组,大小通常为200,000至5,000,000个元素. 今天,当我发现项目的编译和链接导致 Microsoft增量链接器已停止工作时,我打算对该代码库进行通常的琐碎更新,从而更新了一组查找表. strong>,这是我之前从未见过的.请注意,我正在更新的表从大约290,000个元素的大小增长到每个接 ..

在Jupyter Notebook的同一单元中删除涉及交互式小部件的过去Matplotlib图

这只是一个小问题,困扰了我一段时间. 我有一个由所有连续变量组成的熊猫数据框.我想为任意选择的变量对绘制散点图(使用matplotlib),同时还要利用Jupyter中的交互式小部件. 假设数据具有3个数字列:"a","b"和"c". 到目前为止,我有以下几行代码: def g(x,y): plt.scatter(x, y) interactive_plot = i ..
发布时间:2020-04-25 06:18:51 Python

联接两个表而不会丢失相关值

我有两个表,分别代表客户产品及其竞争对手产品的数据库: tmp_match-from_product_id和to_product_id分别表示客户产品和竞争对手产品之间的匹配. tmp_price_history-显示每个日期每个产品的价格. 我正在尝试编写一个查询,该查询将列出表tmp_price_history中的所有日期.对于每个日期,我都希望根据表tmp_match中的产 ..
发布时间:2019-09-19 16:06:15 数据库

趋势线的最佳拟合曲线

问题限制 数据集的大小,但不是数据本身,已知。 数据集一次增长一个数据点。 趋势线一次绘制一个数据点(使用样条曲线/贝塞尔曲线) 。 图表 下面的拼贴画显示具有相当准确的趋势线的数据集: 图表是: 左上角。按小时计算,有~24个数据点。 右上角。白天一年,有~365个数据点。 左下角。按周计算,一年约52个数据点。 右下角。按月计算,一年约12个数据点。 ..
发布时间:2018-11-19 20:26:05 Java开发

绘制包含NaN的pandas数据帧

我有来自三个不同GPS接收器的冰速GPS数据。这些数据位于熊猫数据框中,其索引为朱利安日(从2009年开始增量)。 这是数据的子集(主要数据集是3487235)行...): R2 R7 R8 1235.000000 116.321959 100.805197 96.519977 1235.000116 NaN 100.771133 96.234957 1235.00023 ..
发布时间:2018-11-14 18:58:27 Python

自定义Python熊猫中的rolling_apply函数

设置 我有一个包含三列的DataFrame: “类别“包含True和False,并且我已经通过这些值对 df.groupby('Category')进行分组。 ”时间“包含记录值的时间戳(以秒为单位)。 ”值“包含值本身。 在每个时间点,记录两个值:一个具有类别“True”,另一个具有类别“False”。 滚动应用问题 在每个类别组中,我希望计算一个数字并将其存储 ..
发布时间:2018-05-30 13:58:59 Python

分组多个值,并绘制结果

我正在使用一些关于杀菌剂使用情况的数据,其中包括年份,杀菌剂,使用量,以及熊猫DataFrame中的一些不相关的列。它看起来有点像: 年,州,杀菌剂,价值 2011,California,A,12879 2011年,加州,B,29572 2011,佛罗里达,A,8645 2011,佛罗里达,B,19573 2009,加利福尼亚,A,8764 2009,加州B ,9864 ..
发布时间:2018-05-30 13:41:06 Python

绘制Pandas Group的结果

我开始学习熊猫,并试图找到最具Pythonic(或panda-thonic?)方式来完成某些任务。 假设我们有一个DataFrame包含列A,B和C. 列A包含布尔值:每行的A值为true或false。 li> B列有一些我们想要绘制的重要值。 我们想要发现的是如果行的A值设置为false,那么B值之间的细微差别与A的行的B值为true。 换句话说,怎么能我按列A的值(无论是t ..
发布时间:2018-05-30 13:37:28 Python

如何在同一个图上绘制两个DataFrame进行比较

我有两个数据框(trail1和trail2),包含以下列:流派,城市和已售数量。现在我想创建一个两个数据集的条形图,用于并行比较流派和总售数。对于每个类型,我想要两个酒吧:一个代表路径1,另一个代表路径2. 我如何使用熊猫来实现这个目标? 我尝试了下面的方法,但是没有奏效。 gf1 = df1.groupby(['Genre']) gf2 = df2.groupby(['Ge ..
发布时间:2018-05-25 17:00:33 Python

Matplotlib:在三维条形图中在x轴上格式化日期

鉴于此 3D条形图示例代码,您将如何将数值x轴中的数据转换为格式化的日期/时间字符串?我试图使用ax.xaxis_date()函数而没有成功。我也尝试使用plot_date(),它似乎不适用于3D条形图。以下是示例代码的修改版本,以说明我正在尝试执行的操作: from mpl_toolkits.mplot3d import Axes3D import matplotlib.pyplot ..
发布时间:2018-05-25 17:00:00 Python

查找数据集中出现在多行中的所有两个单词短语

我们想运行一个查询,返回出现在两行以上的两个单词。因此对于例如采取字符串“数据忍者”。由于它出现在我们数据集的多行中,所以查询应该返回。查询应查找数据集中所有行的所有这些短语,方法是查询数据集中行中的两个相邻单词组合(形成短语)。这两个相邻的单词组合应该来自我们加载到BigQuery中的数据集 我们如何在Google BigQuery中编写此查询? 数据集只是一长串英文句子。解析方案 ..

Python:获取TypeError:调用函数时期望的字符串或类似字节的对象

我有一个文本文件,使用以下命令转换为数据框: df = pd.read_csv(“C: \\Users\\Sriram\\Desktop\\New文件夹(4)\\aclImdb\\test\\result.txt“,sep ='\t' , names = ['评论','极性'] 这里的评论栏包括所有的电影评论和极性列包括评论是正面还是负面。 我有以下功能功能, ..
发布时间:2017-03-26 03:43:01 Python