data-science相关内容

D3js更新直方图元素不起作用(常规更新模式)

我正在尝试完成与此处类似的操作: https://www.opportunityatlas.org/.如果您继续浏览此链接,然后点击“显示分布" 以查看图表,然后选择“在屏幕上" ,然后在地图上移动光标,您将看到矩形的大小会发生变化,更新模式也会起作用,即,如果矩形已经存在,则它将水平移动到新值. 我试图做同样的事情,但是无法实现更新部分.你能指出我错过的地方吗?我已经附加了一部分代码,其中 ..

如何将两个以上的格式化条件添加到数据框中的不同行?

我问了这个问题如何将不同的条件格式应用于不同的行?由@davmos 友善回答 现在我有一个新问题,那就是在不同的数据行中添加两个以上的条件! 所以我有以下数据框: 我要突出显示彩色行中的最大值,但我也想在其他行中添加其他条件.例如"FORWARD P/E"行中的最小值 所以我的代码如下: def highlight_min(s):尝试:is_min = s == s.mi ..
发布时间:2021-04-23 20:50:40 Python

训练稀疏自动编码器

我的数据集由大量矢量组成.数据点几乎都是零,约有3%的特征是1.本质上,我的数据非常稀疏,我正在尝试训练自动编码器,但是我的模型只是在学习重新创建所有零的向量. 有什么方法可以防止这种情况发生?我曾尝试用骰子损失代替均方误差,但是它完全停止了学习.我的其他想法是使用损失函数,该函数有助于正确猜测1,而不是0.我也尝试过使用S型和线性最后一次激活,但没有明确的获胜者.任何想法都很棒. 解 ..

如何避免内存不足的python?

我是python和ubuntu的新手.我在运行python代码后被 killed 杀死.我用于代码的文件大约是2.7 GB,并且我有16 GB的RAM,有一兆的硬位……应该怎么做才能避免此问题,因为我正在搜索并发现它似乎内存不足问题 我用了这个命令 免费-mh 我知道了 总共可用的免费共享buff/缓存可用内存:15G 2.5G 9.7G 148M 3.3G 12G掉期:4.0G 2 ..

堆积条形图麻烦而无池

我对要绘制的内容有清楚的了解,但是我不确定从哪里开始使用matplotlib/seaborn. 我有〜999条不等行,分别为0、1和2.这是其中一行的示例: [1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1 ..
发布时间:2021-04-15 19:46:25 Python

解释ASCII中的特殊字符

我正尝试从数据集中过滤掉非英语应用程序,以解决我正在解决的问题. 如何从数据集中删除非英语应用程序?最初的方法是检查字符串是否只能用ASCII字符编码.如果该字符串不能仅使用ASCII字符编码,则该字符串包含其他字母或特殊字符的字符. 在一些玩具示例上测试此方法会得出: def is_english(app_name):尝试:app_name.encode(encoding ='u ..
发布时间:2021-04-10 18:36:11 其他开发

将动物园对象转换为每周时间序列

我正在使用R编程语言构建时间序列.我有一个动物园物体,如下所示: 我想将其转换为每周的时间序列数据以进行分析,并输入以下代码 tt2 但是,我得到以下输出: 时间序列:开始= 17538底= 18532频率= 0.142857142857143 虽然我希望看到与以下内容一致的输出: 时间序列:开始= c(2018,2)结束= c(2020,40)频率= 52 或者因为我 ..

如何将多个额外的列添加到NumPy数组

假设我有两个NumPy数组,分别是 a 和 b : a = np.array([[1、2、3],[2,3,4]])b = np.array([8,9]) 我想将相同的数组 b 附加到每一行(即添加多列)以获得一个数组, c : b = np.array([[1、2、3、8、9],[2、3、4、8、9]]) 如何在NumPy中轻松高效地做到这一点? 我特别担心它在大型数据集(其 ..
发布时间:2021-04-09 20:27:45 Python

如何从PySpark的SQLLite db文件加载表?

我正在尝试从存储在本地磁盘上的SQLLite .db文件加载表.在PySpark中有什么干净的方法可以做到这一点? 当前,我正在使用一种有效但不那么优雅的解决方案.首先,我通过sqlite3使用熊猫来读取表格.一个问题是在过程模式中信息不会传递(可能是问题,也可能不是问题).我想知道是否有不使用Pandas的直接加载表的方法. import sqlite3将熊猫作为pd导入db_path ..
发布时间:2021-04-08 19:26:20 数据库

邻域计算,用于离群值检测

我正在使用R编程语言,并且试图了解用于异常值检测的以下函数的详细信息: https://en.wikipedia.org/wiki/Local_outlier_factor . LOP算法是基于距离的无监督算法,其定义了数据集中与“可达性和邻域"相关的离群值.观察通常,不是“非常容易到达"的观察结果就是“不完全观察".关于它们附近的其他观察结果,被认为是“离群值".基于这些属性(用户指定这些属性 ..
发布时间:2021-04-02 20:52:32 其他开发

如何将文本数据聚类成多列?

我想做一个k表示用具有“标题",“类型",“评论"和“摘要"列的书本文本数据进行聚类. 我想使用“标题"作为指示符或主键进行聚类,但是我不确定如何为此使用多列. 我知道我首先必须对数据进行矢量化,但是矢量化需要输入系列数据,而不是数据帧值.所以在这里,我又一次不知道如何使用所有列. 解决方案 您可以分别矢量化各列并连接结果. 只需确保进行稀疏连接即可. 但是,用k均 ..

KMeans聚类不平衡数据

我有一组具有50个特征(c1,c2,c3 ...)的数据,具有超过8万行. 每行都包含归一化的数值(范围为0-1).它实际上是一个归一化的伪变量,其中某些行仅具有3-4个很少的功能(即,如果没有值,则分配0).大多数行具有大约10-20个功能. 我使用KMeans对数据进行聚类,总是导致具有大量成员的聚类.经过分析,我注意到具有少于4个特征的行趋于聚集在一起,这不是我想要的. 总 ..

如何修复"ValueError:输入0与图层展平不兼容:预期的min_ndim = 3,找到的ndim = 2"加载模型时出错

我正在尝试保存和加载我的keras模型.它训练,评估并保存良好(使用.h5保存模型),但是当我尝试加载模型时,出现以下错误: ValueError:输入0与图层展平不兼容:预期的min_ndim = 3,找到的ndim = 2. 我加载模型不正确吗?任何帮助将不胜感激! 这是我保存模型的代码块. def ml(self): model = tf.kera ..

如何创建导入最常用的python模块的快捷方式?

我正在寻找一种自动(或作为快捷方式)在jupyter笔记本中导入一组python模块的方法,这样我就不必在每次创建新笔记本时都将其导入 我发现将这些模块导入每个笔记本非常重复.我在这里可能想到的最接近的事情是创建一个python文件并将其作为模块导入,但是我正在Jupyter-notebook中寻找更灵活的东西 # Example Code import pandas as pd im ..
发布时间:2021-02-09 18:49:45 Python

Python Google表格API

所以我有这个Google Sheets API,我正在从中获取数据并运行KS测试.但是,我只想对一个数字运行KS测试.但是,字符串也包含单词.例如,在这里 2020-09-15 00:05:13,chemsense,co,concentration,-0.51058, 2020-09-15 00:05:43,chemsense,co,concentration,-0.75889, 2020 ..
发布时间:2020-11-19 20:21:19 Python