data-science 第4页 - IT屋-程序员软件开发技术分享社区

为什么 PCA 降低了 Logistic 回归的性能?

我用50000 X 370维的数据对一个二元分类问题进行了Logistic回归.我得到了大约90%的准确率.但是当我对数据做PCA+logistic时，我的准确率下降到了10%，我很震惊看到这个结果.谁能解释一下可能出了什么问题? 解决方案不能保证 PCA 会帮助或损害学习过程.特别是 - 如果您使用 PCA 来减少维度数量 - 您正在从数据中删除信息，因此一切都可能发生 - 如果删除的 ..

发布时间：2022-01-07 23:41:15 machine-learning statistics pca logistic-regression data-science AI人工智能

我对 Davies-Bouldin 索引的 Python 实现是否正确?

我正在尝试计算 Davies-Bouldin 指数Python. 以下是代码尝试重现的步骤. 5 个步骤: 对于每个集群，计算每个点到质心的欧几里德距离对于每个集群，计算这些距离的平均值对于每对集群，计算它们的质心之间的欧几里德距离那么，对于每对聚类，求到它们各自质心的平均距离之和(在第 2 步计算)，然后除以它们之间的距离(在第 3 步计算). 最 ..

发布时间：2022-01-07 23:41:07 python statistics cluster-analysis metrics data-science Python

如何在 Python 中优化 MAPE 代码?

我需要一个 MAPE 函数，但是我无法在标准包中找到它......下面是我对这个函数的实现. def mape(actual, predict):tmp, n = 0.0, 0对于范围内的 i (0, len(actual)):如果实际[i] 0:tmp += math.fabs(actual[i]-predict[i])/actual[i]n += 1回报 (tmp/n) 我不喜欢它，它 ..

发布时间：2022-01-07 23:36:33 python numpy machine-learning statistics data-science AI人工智能

如何在 TensorFlow 的 MNIST 示例中获得预测的类标签?

我是神经网络的新手，并为初学者学习了 MNIST 示例. 我目前正在尝试在另一个没有测试标签的 Kaggle 数据集上使用这个例子. 如果我在没有相应标签的测试数据集上运行模型，因此无法像 MNIST 示例中那样计算准确度，我希望能够看到预测.是否有可能以某种方式访问观察结果及其预测标签并将其打印出来? 解决方案我认为你只需要按照教程中的说明评估你的输出张量: accu ..

发布时间：2021-12-31 17:01:01 python machine-learning neural-network tensorflow data-science AI人工智能

我使用带有线性核的 SVC 分类器来训练我的模型.训练数据:42000条记录模型 = SVC(probability=True)模型.fit(self.features_train，self.labels_train)y_pred = model.predict(self.features_test)train_accuracy = model.score(self.features_tra ..

发布时间：2021-12-27 17:28:10 machine-learning deep-learning data-science AI人工智能

Pandas 数据框上的分位数归一化

简单地说，如何在 Python 中对大型 Pandas 数据帧(可能有 2,000,000 行)应用分位数归一化? 附注.我知道有一个名为 rpy2 的包可以在子进程中运行 R，在 R 中使用分位数归一化.但事实是，当我使用如下数据集时，R 无法计算出正确的结果: 5.690386092696389541e-05,2.051450375415418849e-05,1.96319018404 ..

发布时间：2021-12-27 17:00:58 python deep-learning data-science Python

绘制 scikit-learn (sklearn) SVM 决策边界/曲面

我目前正在使用 python 的 scikit 库使用线性内核执行多类 SVM.样本训练数据和测试数据如下: 模型数据: x = [[20,32,45,33,32,44,0],[23,32,45,12,32,66,11],[16,32,45,12,32,44,23],[120,2,55,62,82,14,81],[30,222,115,12,42,64,91],[220,12,55,222 ..

发布时间：2021-12-25 14:41:02 python python-2.7 scikit-learn svm data-science Python

GridSearchCV - XGBoost - 提前停止

我正在尝试在 XGBoost 上使用 scikit-learn 的 GridSearchCV 进行超参数搜索.在 gridsearch 期间，我希望它早点停止，因为它大大减少了搜索时间并且(期望)在我的预测/回归任务上有更好的结果.我正在通过其 Scikit-Learn API 使用 XGBoost. 模型 = xgb.XGBRegressor()GridSearchCV(model, par ..

发布时间：2021-12-25 14:36:19 python-3.x scikit-learn regression data-science xgboost 其他开发

fit_transform() 需要 2 个位置参数，但 3 个是通过 LabelBinarizer 给出的

我对机器学习完全陌生，并且一直在研究无监督学习技术. 图像显示了我的示例数据(所有清理后)屏幕截图:样本数据我有这两个管道来清理数据: num_attribs = list(housing_num)cat_attribs = [“ocean_proximity"]打印(类型(数字属性))num_pipeline = 管道([('选择器', DataFrameSelector(num ..

发布时间：2021-12-25 14:22:13 python scikit-learn data-science Python

Scikit-learn 的 LabelBinarizer 与 OneHotEncoder

两者有什么区别?似乎两者都创建了新列，它们的数量等于特征中唯一类别的数量.然后他们根据数据点所在的类别将 0 和 1 分配给数据点. 解决方案一个使用 LabelEncoder、OneHotEncoder、LabelBinarizer 对数组进行编码的简单示例如下所示. 我看到 OneHotEncoder 首先需要整数编码形式的数据才能转换为其各自的编码，而在 LabelBinar ..

发布时间：2021-12-25 14:19:50 python encoding scikit-learn data-science categorical-data Python

pyspark.ml 管道:基本预处理任务是否需要自定义转换器?

开始使用 pyspark.ml 和管道 API，我发现自己为典型的预处理任务编写了自定义转换器，以便在管道中使用它们.示例: from pyspark.ml import Pipeline, Transformer类 CustomTransformer(变压器):# 懒惰的解决方法 - 转换器需要具有这些属性_defaultParamMap = dict()_paramMap = dict()_ ..

发布时间：2021-12-22 21:40:06 python apache-spark machine-learning pyspark data-science AI人工智能

我在哪里调用 Keras 中的 BatchNormalization 函数?

如果我想在 Keras 中使用 BatchNormalization 函数，那么我需要在开始时只调用一次吗? 我为此阅读了此文档:http://keras.io/layers/normalization/ 我不知道我应该在哪里称呼它.以下是我尝试使用它的代码: model = Sequential()keras.layers.normalization.BatchNormalizat ..

发布时间：2021-12-19 12:18:57 python keras neural-network data-science batch-normalization Python

如何在python的sklearn中使用gridsearchcv执行特征选择

我使用递归特征消除和交叉验证(rfecv)作为随机森林分类器的特征选择器，如下所示. X = df[[my_features]] #我的所有功能y = df['gold_standard'] #labelsclf = RandomForestClassifier(random_state = 42, class_weight="平衡")rfecv = RFECV(estimator=clf, s ..

发布时间：2021-12-14 09:55:31 python machine-learning scikit-learn data-science grid-search AI人工智能

在拆分训练和测试数据之前或之后标准化数据?

我想将我的数据分成训练集和测试集，我应该在拆分之前还是之后对数据应用标准化?在构建预测模型时有什么不同吗? 解决方案您首先需要将数据拆分为训练集和测试集(验证集也可能有用). 不要忘记测试数据点代表真实世界的数据.解释(或预测)变量的特征归一化(或数据标准化)是一种用于通过减去均值并除以方差来使数据居中和归一化的技术.如果您采用整个数据集的均值和方差，您会将未来信息引入训练解释变量 ..

发布时间：2021-12-14 09:49:49 machine-learning data-science normalization training-data train-test-split AI人工智能

如何从 Keras 中的 HDF5 文件加载模型?

如何在 Keras 中从 HDF5 文件加载模型? 我尝试了什么: model = Sequential()模型.添加(密集(64, input_dim=14, init='uniform'))model.add(LeakyReLU(alpha=0.3))model.add(BatchNormalization(epsilon=1e-06，模式=0，动量=0.9，权重=无))模型.添加(辍 ..

发布时间：2021-12-14 09:48:09 python machine-learning keras data-science AI人工智能

“Conda"未被识别为内部或外部命令

我在 Windows 7 Professional 机器上安装了 Anaconda3 4.4.0(32 位)，并在 Jupyter 笔记本上导入了 NumPy 和 Pandas，所以我认为 Python 安装正确.但是当我在命令提示符下输入 conda list 和 conda --version 时，它说 conda 不是内部或外部命令.> 我已经为 Anaconda3 设置了环境变量；变量名 ..

发布时间：2021-11-27 11:53:37 python anaconda conda data-science Python

使用 scala 在 Flink 中进行实时流预测

Flink 版本:1.2.0 斯卡拉版本:2.11.8 我想使用 DataStream 使用 scala 在 flink 中使用模型进行预测.我在 flink 中有一个 DataStream[String] 使用 scala，它包含来自 kafka 源的 json 格式的数据.我想使用这个数据流来预测一个已经训练过的 Flink-ml 模型.问题是所有的 flink-ml 示例都使用 Da ..

发布时间：2021-11-12 01:03:34 scala apache-flink data-science flink-streaming flinkml 其他开发

使用 R 在流程中的连续阶段之间处理事件

我一直在尝试解决教科书中的一个练习，我面临的挑战是计算工业过程的连续阶段之间的不同事件. 过程相关信息: 一个测试对象经历了一个 3 个阶段的过程，分别是 A、B 和 C 阶段，第一个是 A、第二个 B 和最后一个 C；测试对象可能会在 A 或 B 阶段放弃该过程，然后从 A 点重新开始，每次该过程发生时，都会创建一个数据集，其中包含测试对象的 IDENTIFICATION、发生该阶段的 T ..

发布时间：2021-10-26 18:37:24 r algorithm count data-science data-wrangling 其他开发

使用 Pandas 将 HTML 脚本中的 @Type 抓取到 csv 文件中

我是第一次尝试网络抓取，但遇到了很多麻烦，尤其是因为我应该使用的网站尽力阻止抓取库.我下载了 HTML 代码，但我想收集以制作 csv 文件的数据不在标签中(如 div、li、...).就像@type 显示字典一样.我需要制作一个数据集，其中的列显示字典中的列(评级值、作者、URL 和描述).我下载的 HTML 源代码附在下面.感谢您的帮助！这是我用来抓取它的代码: from bs4 i ..

发布时间：2021-09-24 19:04:07 python csv web-scraping beautifulsoup data-science Python

调整 ConfusionMatrixDisplay 的大小 (ScikitLearn)

如何设置 ScikitLearn 的 ConfusionMatrixDisplay 绘制的图形的大小? 将 numpy 导入为 np从 sklearn.metrics 导入 ConfusionMatrixDisplay，confusion_matrixcm =混淆_矩阵(np.arange(25)，np.arange(25))cmp = ConfusionMatrixDisplay(cm, di ..

发布时间：2021-07-16 20:15:07 matplotlib scikit-learn data-science 其他开发

data-science相关内容