data-science相关内容

为什么 PCA 降低了 Logistic 回归的性能?

我用50000 X 370维的数据对一个二元分类问题进行了Logistic回归.我得到了大约90%的准确率.但是当我对数据做PCA+logistic时,我的准确率下降到了10%,我很震惊看到这个结果.谁能解释一下可能出了什么问题? 解决方案 不能保证 PCA 会帮助或损害学习过程.特别是 - 如果您使用 PCA 来减少维度数量 - 您正在从数据中删除信息,因此一切都可能发生 - 如果删除的 ..

我对 Davies-Bouldin 索引的 Python 实现是否正确?

我正在尝试计算 Davies-Bouldin 指数Python. 以下是代码尝试重现的步骤. 5 个步骤: 对于每个集群,计算每个点到质心的欧几里德距离 对于每个集群,计算这些距离的平均值 对于每对集群,计算它们的质心之间的欧几里德距离 那么, 对于每对聚类,求到它们各自质心的平均距离之和(在第 2 步计算),然后除以它们之间的距离(在第 3 步计算). 最 ..
发布时间:2022-01-07 23:41:07 Python

如何在 TensorFlow 的 MNIST 示例中获得预测的类标签?

我是神经网络的新手,并为初学者学习了 MNIST 示例. 我目前正在尝试在另一个没有测试标签的 Kaggle 数据集上使用这个例子. 如果我在没有相应标签的测试数据集上运行模型,因此无法像 MNIST 示例中那样计算准确度,我希望能够看到预测.是否有可能以某种方式访问​​观察结果及其预测标签并将其打印出来? 解决方案 我认为你只需要按照教程中的说明评估你的输出张量: accu ..

Pandas 数据框上的分位数归一化

简单地说,如何在 Python 中对大型 Pandas 数据帧(可能有 2,000,000 行)应用分位数归一化? 附注.我知道有一个名为 rpy2 的包可以在子进程中运行 R,在 R 中使用分位数归一化.但事实是,当我使用如下数据集时,R 无法计算出正确的结果: 5.690386092696389541e-05,2.051450375415418849e-05,1.96319018404 ..
发布时间:2021-12-27 17:00:58 Python

fit_transform() 需要 2 个位置参数,但 3 个是通过 LabelBinarizer 给出的

我对机器学习完全陌生,并且一直在研究无监督学习技术. 图像显示了我的示例数据(所有清理后)屏幕截图:样本数据 我有这两个管道来清理数据: num_attribs = list(housing_num)cat_attribs = [“ocean_proximity"]打印(类型(数字属性))num_pipeline = 管道([('选择器', DataFrameSelector(num ..
发布时间:2021-12-25 14:22:13 Python

Scikit-learn 的 LabelBinarizer 与 OneHotEncoder

两者有什么区别?似乎两者都创建了新列,它们的数量等于特征中唯一类别的数量.然后他们根据数据点所在的类别将 0 和 1 分配给数据点. 解决方案 一个使用 LabelEncoder、OneHotEncoder、LabelBinarizer 对数组进行编码的简单示例如下所示. 我看到 OneHotEncoder 首先需要整数编码形式的数据才能转换为其各自的编码,而在 LabelBinar ..
发布时间:2021-12-25 14:19:50 Python

pyspark.ml 管道:基本预处理任务是否需要自定义转换器?

开始使用 pyspark.ml 和管道 API,我发现自己为典型的预处理任务编写了自定义转换器,以便在管道中使用它们.示例: from pyspark.ml import Pipeline, Transformer类 CustomTransformer(变压器):# 懒惰的解决方法 - 转换器需要具有这些属性_defaultParamMap = dict()_paramMap = dict()_ ..

在拆分训练和测试数据之前或之后标准化数据?

我想将我的数据分成训练集和测试集,我应该在拆分之前还是之后对数据应用标准化?在构建预测模型时有什么不同吗? 解决方案 您首先需要将数据拆分为训练集和测试集(验证集也可能有用). 不要忘记测试数据点代表真实世界的数据.解释(或预测)变量的特征归一化(或数据标准化)是一种用于通过减去均值并除以方差来使数据居中和归一化的技术.如果您采用整个数据集的均值和方差,您会将未来信息引入训练解释变量 ..

“Conda"未被识别为内部或外部命令

我在 Windows 7 Professional 机器上安装了 Anaconda3 4.4.0(32 位),并在 Jupyter 笔记本上导入了 NumPy 和 Pandas,所以我认为 Python 安装正确.但是当我在命令提示符下输入 conda list 和 conda --version 时,它说 conda 不是内部或外部命令.> 我已经为 Anaconda3 设置了环境变量;变量名 ..
发布时间:2021-11-27 11:53:37 Python

使用 scala 在 Flink 中进行实时流预测

Flink 版本:1.2.0 斯卡拉版本:2.11.8 我想使用 DataStream 使用 scala 在 flink 中使用模型进行预测.我在 flink 中有一个 DataStream[String] 使用 scala,它包含来自 kafka 源的 json 格式的数据.我想使用这个数据流来预测一个已经训练过的 Flink-ml 模型.问题是所有的 flink-ml 示例都使用 Da ..
发布时间:2021-11-12 01:03:34 其他开发

使用 R 在流程中的连续阶段之间处理事件

我一直在尝试解决教科书中的一个练习,我面临的挑战是计算工业过程的连续阶段之间的不同事件. 过程相关信息: 一个测试对象经历了一个 3 个阶段的过程,分别是 A、B 和 C 阶段,第一个是 A、第二个 B 和最后一个 C;测试对象可能会在 A 或 B 阶段放弃该过程,然后从 A 点重新开始,每次该过程发生时,都会创建一个数据集,其中包含测试对象的 IDENTIFICATION、发生该阶段的 T ..
发布时间:2021-10-26 18:37:24 其他开发

使用 Pandas 将 HTML 脚本中的 @Type 抓取到 csv 文件中

我是第一次尝试网络抓取,但遇到了很多麻烦,尤其是因为我应该使用的网站尽力阻止抓取库.我下载了 HTML 代码,但我想收集以制作 csv 文件的数据不在标签中(如 div、li、...).就像@type 显示字典一样.我需要制作一个数据集,其中的列显示字典中的列(评级值、作者、URL 和描述).我下载的 HTML 源代码附在下面.感谢您的帮助! 这是我用来抓取它的代码: from bs4 i ..
发布时间:2021-09-24 19:04:07 Python