data-science相关内容
我用50000 X 370维的数据对一个二元分类问题进行了Logistic回归.我得到了大约90%的准确率.但是当我对数据做PCA+logistic时,我的准确率下降到了10%,我很震惊看到这个结果.谁能解释一下可能出了什么问题? 解决方案 不能保证 PCA 会帮助或损害学习过程.特别是 - 如果您使用 PCA 来减少维度数量 - 您正在从数据中删除信息,因此一切都可能发生 - 如果删除的
..
我正在尝试计算 Davies-Bouldin 指数Python. 以下是代码尝试重现的步骤. 5 个步骤: 对于每个集群,计算每个点到质心的欧几里德距离 对于每个集群,计算这些距离的平均值 对于每对集群,计算它们的质心之间的欧几里德距离 那么, 对于每对聚类,求到它们各自质心的平均距离之和(在第 2 步计算),然后除以它们之间的距离(在第 3 步计算). 最
..
我需要一个 MAPE 函数,但是我无法在标准包中找到它......下面是我对这个函数的实现. def mape(actual, predict):tmp, n = 0.0, 0对于范围内的 i (0, len(actual)):如果实际[i] 0:tmp += math.fabs(actual[i]-predict[i])/actual[i]n += 1回报 (tmp/n) 我不喜欢它,它
..
我是神经网络的新手,并为初学者学习了 MNIST 示例. 我目前正在尝试在另一个没有测试标签的 Kaggle 数据集上使用这个例子. 如果我在没有相应标签的测试数据集上运行模型,因此无法像 MNIST 示例中那样计算准确度,我希望能够看到预测.是否有可能以某种方式访问观察结果及其预测标签并将其打印出来? 解决方案 我认为你只需要按照教程中的说明评估你的输出张量: accu
..
我使用带有线性核的 SVC 分类器来训练我的模型.训练数据:42000条记录 模型 = SVC(probability=True)模型.fit(self.features_train,self.labels_train)y_pred = model.predict(self.features_test)train_accuracy = model.score(self.features_tra
..
简单地说,如何在 Python 中对大型 Pandas 数据帧(可能有 2,000,000 行)应用分位数归一化? 附注.我知道有一个名为 rpy2 的包可以在子进程中运行 R,在 R 中使用分位数归一化.但事实是,当我使用如下数据集时,R 无法计算出正确的结果: 5.690386092696389541e-05,2.051450375415418849e-05,1.96319018404
..
我目前正在使用 python 的 scikit 库使用线性内核执行多类 SVM.样本训练数据和测试数据如下: 模型数据: x = [[20,32,45,33,32,44,0],[23,32,45,12,32,66,11],[16,32,45,12,32,44,23],[120,2,55,62,82,14,81],[30,222,115,12,42,64,91],[220,12,55,222
..
我正在尝试在 XGBoost 上使用 scikit-learn 的 GridSearchCV 进行超参数搜索.在 gridsearch 期间,我希望它早点停止,因为它大大减少了搜索时间并且(期望)在我的预测/回归任务上有更好的结果.我正在通过其 Scikit-Learn API 使用 XGBoost. 模型 = xgb.XGBRegressor()GridSearchCV(model, par
..
我对机器学习完全陌生,并且一直在研究无监督学习技术. 图像显示了我的示例数据(所有清理后)屏幕截图:样本数据 我有这两个管道来清理数据: num_attribs = list(housing_num)cat_attribs = [“ocean_proximity"]打印(类型(数字属性))num_pipeline = 管道([('选择器', DataFrameSelector(num
..
两者有什么区别?似乎两者都创建了新列,它们的数量等于特征中唯一类别的数量.然后他们根据数据点所在的类别将 0 和 1 分配给数据点. 解决方案 一个使用 LabelEncoder、OneHotEncoder、LabelBinarizer 对数组进行编码的简单示例如下所示. 我看到 OneHotEncoder 首先需要整数编码形式的数据才能转换为其各自的编码,而在 LabelBinar
..
开始使用 pyspark.ml 和管道 API,我发现自己为典型的预处理任务编写了自定义转换器,以便在管道中使用它们.示例: from pyspark.ml import Pipeline, Transformer类 CustomTransformer(变压器):# 懒惰的解决方法 - 转换器需要具有这些属性_defaultParamMap = dict()_paramMap = dict()_
..
如果我想在 Keras 中使用 BatchNormalization 函数,那么我需要在开始时只调用一次吗? 我为此阅读了此文档:http://keras.io/layers/normalization/ 我不知道我应该在哪里称呼它.以下是我尝试使用它的代码: model = Sequential()keras.layers.normalization.BatchNormalizat
..
我使用递归特征消除和交叉验证(rfecv)作为随机森林分类器的特征选择器,如下所示. X = df[[my_features]] #我的所有功能y = df['gold_standard'] #labelsclf = RandomForestClassifier(random_state = 42, class_weight="平衡")rfecv = RFECV(estimator=clf, s
..
我想将我的数据分成训练集和测试集,我应该在拆分之前还是之后对数据应用标准化?在构建预测模型时有什么不同吗? 解决方案 您首先需要将数据拆分为训练集和测试集(验证集也可能有用). 不要忘记测试数据点代表真实世界的数据.解释(或预测)变量的特征归一化(或数据标准化)是一种用于通过减去均值并除以方差来使数据居中和归一化的技术.如果您采用整个数据集的均值和方差,您会将未来信息引入训练解释变量
..
如何在 Keras 中从 HDF5 文件加载模型? 我尝试了什么: model = Sequential()模型.添加(密集(64, input_dim=14, init='uniform'))model.add(LeakyReLU(alpha=0.3))model.add(BatchNormalization(epsilon=1e-06,模式=0,动量=0.9,权重=无))模型.添加(辍
..
我在 Windows 7 Professional 机器上安装了 Anaconda3 4.4.0(32 位),并在 Jupyter 笔记本上导入了 NumPy 和 Pandas,所以我认为 Python 安装正确.但是当我在命令提示符下输入 conda list 和 conda --version 时,它说 conda 不是内部或外部命令.> 我已经为 Anaconda3 设置了环境变量;变量名
..
Flink 版本:1.2.0 斯卡拉版本:2.11.8 我想使用 DataStream 使用 scala 在 flink 中使用模型进行预测.我在 flink 中有一个 DataStream[String] 使用 scala,它包含来自 kafka 源的 json 格式的数据.我想使用这个数据流来预测一个已经训练过的 Flink-ml 模型.问题是所有的 flink-ml 示例都使用 Da
..
我一直在尝试解决教科书中的一个练习,我面临的挑战是计算工业过程的连续阶段之间的不同事件. 过程相关信息: 一个测试对象经历了一个 3 个阶段的过程,分别是 A、B 和 C 阶段,第一个是 A、第二个 B 和最后一个 C;测试对象可能会在 A 或 B 阶段放弃该过程,然后从 A 点重新开始,每次该过程发生时,都会创建一个数据集,其中包含测试对象的 IDENTIFICATION、发生该阶段的 T
..
我是第一次尝试网络抓取,但遇到了很多麻烦,尤其是因为我应该使用的网站尽力阻止抓取库.我下载了 HTML 代码,但我想收集以制作 csv 文件的数据不在标签中(如 div、li、...).就像@type 显示字典一样.我需要制作一个数据集,其中的列显示字典中的列(评级值、作者、URL 和描述).我下载的 HTML 源代码附在下面.感谢您的帮助! 这是我用来抓取它的代码: from bs4 i
..
如何设置 ScikitLearn 的 ConfusionMatrixDisplay 绘制的图形的大小? 将 numpy 导入为 np从 sklearn.metrics 导入 ConfusionMatrixDisplay,confusion_matrixcm =混淆_矩阵(np.arange(25),np.arange(25))cmp = ConfusionMatrixDisplay(cm, di
..