data-science 第8页 - IT屋-程序员软件开发技术分享社区

D3js更新直方图元素不起作用(常规更新模式)

我正在尝试完成与此处类似的操作: https://www.opportunityatlas.org/.如果您继续浏览此链接，然后点击“显示分布" 以查看图表，然后选择“在屏幕上" ，然后在地图上移动光标，您将看到矩形的大小会发生变化，更新模式也会起作用，即，如果矩形已经存在，则它将水平移动到新值. 我试图做同样的事情，但是无法实现更新部分.你能指出我错过的地方吗?我已经附加了一部分代码，其中 ..

发布时间：2021-04-28 18:38:21 javascript d3.js data-science data-visualization data-analysis 前端开发

在R中对嘈杂的1/x数据建模，从而获得“基本上完美的拟合".从摘要-为什么?

使用以下玩具示例，尝试逐步介绍如何将倒数函数与数据拟合: #包括库(ggplot2)图书馆(预测)图书馆(秤)#制作数据样本数据 ..

发布时间：2021-04-27 20:34:10 r data-science curve-fitting data-analysis 其他开发

如何将两个以上的格式化条件添加到数据框中的不同行?

我问了这个问题如何将不同的条件格式应用于不同的行?由@davmos 友善回答现在我有一个新问题，那就是在不同的数据行中添加两个以上的条件！所以我有以下数据框: 我要突出显示彩色行中的最大值，但我也想在其他行中添加其他条件.例如"FORWARD P/E"行中的最小值所以我的代码如下: def highlight_min(s):尝试:is_min = s == s.mi ..

发布时间：2021-04-23 20:50:40 python pandas dataframe data-science conditional-formatting Python

如何将不同的条件格式应用于不同的行?

我有以下数据框:[1]: https://i.stack.imgur.com/wBi6V.png 我使用以下代码突出显示每个单元格的最大值: def highlight_max(s):尝试:is_max = s == s.max()返回['background-color:red'，如果在is_max中v等于v否则为'除了TypeError:经过除了KeyError:经过s = df.s ..

发布时间：2021-04-23 20:50:28 python pandas dataframe data-science conditional-formatting Python

训练稀疏自动编码器

我的数据集由大量矢量组成.数据点几乎都是零，约有3％的特征是1.本质上，我的数据非常稀疏，我正在尝试训练自动编码器，但是我的模型只是在学习重新创建所有零的向量. 有什么方法可以防止这种情况发生?我曾尝试用骰子损失代替均方误差，但是它完全停止了学习.我的其他想法是使用损失函数，该函数有助于正确猜测1，而不是0.我也尝试过使用S型和线性最后一次激活，但没有明确的获胜者.任何想法都很棒. 解 ..

发布时间：2021-04-23 20:28:16 machine-learning computer-vision pytorch data-science AI人工智能

如何避免内存不足的python?

我是python和ubuntu的新手.我在运行python代码后被 killed 杀死.我用于代码的文件大约是2.7 GB，并且我有16 GB的RAM，有一兆的硬位……应该怎么做才能避免此问题，因为我正在搜索并发现它似乎内存不足问题我用了这个命令免费-mh 我知道了总共可用的免费共享buff/缓存可用内存:15G 2.5G 9.7G 148M 3.3G 12G掉期:4.0G 2 ..

发布时间：2021-04-22 19:43:23 python machine-learning out-of-memory data-science cluster-analysis AI人工智能

堆积条形图麻烦而无池

我对要绘制的内容有清楚的了解，但是我不确定从哪里开始使用matplotlib/seaborn. 我有〜999条不等行，分别为0、1和2.这是其中一行的示例: [1，1，1，1，1，1，1，1，1，1，1，0，0，0，0，0，0，0，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1 ..

发布时间：2021-04-15 19:46:25 python matplotlib seaborn data-science bioinformatics Python

解释ASCII中的特殊字符

我正尝试从数据集中过滤掉非英语应用程序，以解决我正在解决的问题. 如何从数据集中删除非英语应用程序?最初的方法是检查字符串是否只能用ASCII字符编码.如果该字符串不能仅使用ASCII字符编码，则该字符串包含其他字母或特殊字符的字符. 在一些玩具示例上测试此方法会得出: def is_english(app_name):尝试:app_name.encode(encoding ='u ..

发布时间：2021-04-10 18:36:11 python utf-8 ascii data-science 其他开发

将动物园对象转换为每周时间序列

我正在使用R编程语言构建时间序列.我有一个动物园物体，如下所示: 我想将其转换为每周的时间序列数据以进行分析，并输入以下代码 tt2 但是，我得到以下输出: 时间序列:开始= 17538底= 18532频率= 0.142857142857143 虽然我希望看到与以下内容一致的输出: 时间序列:开始= c(2018,2)结束= c(2020,40)频率= 52 或者因为我 ..

发布时间：2021-04-10 18:33:54 r time-series artificial-intelligence data-science forecasting AI人工智能

如何将多个额外的列添加到NumPy数组

假设我有两个NumPy数组，分别是 a 和 b : a = np.array([[1、2、3]，[2，3，4]])b = np.array([8,9]) 我想将相同的数组 b 附加到每一行(即添加多列)以获得一个数组， c : b = np.array([[1、2、3、8、9]，[2、3、4、8、9]]) 如何在NumPy中轻松高效地做到这一点? 我特别担心它在大型数据集(其 ..

发布时间：2021-04-09 20:27:45 python arrays numpy data-science Python

如何从PySpark的SQLLite db文件加载表?

我正在尝试从存储在本地磁盘上的SQLLite .db文件加载表.在PySpark中有什么干净的方法可以做到这一点? 当前，我正在使用一种有效但不那么优雅的解决方案.首先，我通过sqlite3使用熊猫来读取表格.一个问题是在过程模式中信息不会传递(可能是问题，也可能不是问题).我想知道是否有不使用Pandas的直接加载表的方法. import sqlite3将熊猫作为pd导入db_path ..

发布时间：2021-04-08 19:26:20 python sqlite apache-spark pyspark data-science 数据库

形状不匹配:如果类别是数组，则必须具有形状(n_features，)

这是我要执行的代码，用于使用哑数值对数据集第一列的值进行编码. 将numpy导入为py导入matplotlib.pyplot作为plt将熊猫作为pd导入DataSet = pd.read_csv('Data.csv')x = DataSet.iloc [:,:-1] .valuesy = DataSet.iloc [:，3] .values从sklearn.impute导入SimpleImput ..

发布时间：2021-04-03 20:13:14 python machine-learning anaconda data-science AI人工智能

邻域计算，用于离群值检测

我正在使用R编程语言，并且试图了解用于异常值检测的以下函数的详细信息: https://en.wikipedia.org/wiki/Local_outlier_factor . LOP算法是基于距离的无监督算法，其定义了数据集中与“可达性和邻域"相关的离群值.观察通常，不是“非常容易到达"的观察结果就是“不完全观察".关于它们附近的其他观察结果，被认为是“离群值".基于这些属性(用户指定这些属性 ..

发布时间：2021-04-02 20:52:32 r algorithm data-science histogram outliers 其他开发

如何将文本数据聚类成多列?

我想做一个k表示用具有“标题"，“类型"，“评论"和“摘要"列的书本文本数据进行聚类. 我想使用“标题"作为指示符或主键进行聚类，但是我不确定如何为此使用多列. 我知道我首先必须对数据进行矢量化，但是矢量化需要输入系列数据，而不是数据帧值.所以在这里，我又一次不知道如何使用所有列. 解决方案您可以分别矢量化各列并连接结果. 只需确保进行稀疏连接即可. 但是，用k均 ..

发布时间：2021-02-15 19:03:36 cluster-analysis k-means data-science tfidfvectorizer 其他开发

KMeans聚类不平衡数据

我有一组具有50个特征(c1，c2，c3 ...)的数据，具有超过8万行. 每行都包含归一化的数值(范围为0-1).它实际上是一个归一化的伪变量，其中某些行仅具有3-4个很少的功能(即，如果没有值，则分配0).大多数行具有大约10-20个功能. 我使用KMeans对数据进行聚类，总是导致具有大量成员的聚类.经过分析，我注意到具有少于4个特征的行趋于聚集在一起，这不是我想要的. 总 ..

发布时间：2021-02-15 19:03:03 python cluster-analysis k-means data-science feature-engineering Python

如何修复"ValueError:输入0与图层展平不兼容:预期的min_ndim = 3，找到的ndim = 2"加载模型时出错

我正在尝试保存和加载我的keras模型.它训练，评估并保存良好(使用.h5保存模型)，但是当我尝试加载模型时，出现以下错误: ValueError:输入0与图层展平不兼容:预期的min_ndim = 3，找到的ndim = 2. 我加载模型不正确吗?任何帮助将不胜感激！这是我保存模型的代码块. def ml(self): model = tf.kera ..

发布时间：2021-02-14 21:00:24 python machine-learning keras deep-learning data-science AI人工智能

Jupyter/IPython SList ::从外壳执行操作符“！"获取未标记的输出

在Jupyter Notebook Python Cell中运行shell命令时，如下所示: output = ! some-shell-command 发出到标准输出(stdout)的每一行都在称为SList的list IPython数据结构中捕获.例如: output = !echo -e 'line1\nline2\nline3' print(output) # A IPy ..

发布时间：2021-02-09 19:01:40 python jupyter-notebook jupyter data-science jupyter-lab Python

AttributeError:“属性"对象没有属性"name"

当我在数据科学项目中导入大熊猫时，我遇到了这样的错误.有人知道这可能是什么原因吗? 我尝试重新安装pandas和python 我也尝试过滚轮 import numpy as np import pandas as pd AttributeError Traceback (most recent call last) ..

发布时间：2021-02-09 18:58:54 python-3.x jupyter-notebook data-science 其他开发

如何创建导入最常用的python模块的快捷方式?

我正在寻找一种自动(或作为快捷方式)在jupyter笔记本中导入一组python模块的方法，这样我就不必在每次创建新笔记本时都将其导入我发现将这些模块导入每个笔记本非常重复.我在这里可能想到的最接近的事情是创建一个python文件并将其作为模块导入，但是我正在Jupyter-notebook中寻找更灵活的东西 # Example Code import pandas as pd im ..

发布时间：2021-02-09 18:49:45 python python-3.x jupyter-notebook data-science Python

Python Google表格API

所以我有这个Google Sheets API，我正在从中获取数据并运行KS测试.但是，我只想对一个数字运行KS测试.但是，字符串也包含单词.例如，在这里 2020-09-15 00:05:13,chemsense,co,concentration,-0.51058, 2020-09-15 00:05:43,chemsense,co,concentration,-0.75889, 2020 ..

发布时间：2020-11-19 20:21:19 python google-sheets data-science Python

data-science相关内容