scikit-learn相关内容

AWS Sagemaker |如何训练文本数据|用于门票分类

我是 Sagemaker 的新手,不确定如何对 AWS sagemaker 中的文本输入进行分类, 假设我有一个 Dataframe,它有两个字段,如“Ticket"和“Category",两者都是文本输入,现在我想将它拆分为测试和训练集并上传到 Sagemaker 训练模型中. X_train, X_test, y_train, y_test = model_selection.trai ..
发布时间:2021-11-27 10:56:25 Python

部署使用 sagemaker.estimator.Estimator 获得的最佳估算器的问题(带有 sklearn 自定义图像)

在创建 SKLearn() 实例并使用具有几个超参数范围的 HyperparamaterTuner 之后,我得到了最好的估计器.当我尝试 deploy() 估算器时,它在日志中出现错误.当我创建转换器并对其调用转换时,会发生完全相同的错误().不部署也不变形.可能是什么问题,至少我怎么可能缩小问题的范围? 我什至不知道如何开始弄清楚这一点.谷歌搜索没有帮助.什么都没有出现. 创建 SK ..
发布时间:2021-11-27 10:53:56 其他开发

借助 AWS SageMaker,是否可以使用 sagemaker SDK 部署预训练模型?

我试图避免将现有模型训练过程迁移到 SageMaker,并避免创建自定义 Docker 容器来托管我们训练的模型. 我希望将我们现有的、经过训练的模型注入到 AWS 通过 sagemaker-python-sdk.我发现的所有示例都需要先训练模型,然后在 SageMaker 中创建模型/模型配置.然后使用 deploy 方法进行部署. 是否可以为 deploy 方法提供经过训练的模型, ..
发布时间:2021-11-27 10:53:05 Python

我可以使用 Scikit learn 绘制 3 个特征(在 3D 空间中)的 SVM 决策边界吗?

我正在使用 scikit-learn 来理解支持向量机 (SVM).我想绘制由 SVM 计算的决策边界.SVM 使用 3 个特征.所以决策边界必须在 3D 空间中绘制.这可以使用 scikit-learn 吗?我在官方网站上只能找到 SVM 决策边界的二维图.但是我在 stackoverflow 上找到了链接,这表明使用 matlab 和 r.有没有办法使用 scikit-learn 实现相同的目 ..
发布时间:2021-11-25 03:47:21 C#

如何将列和行的 Pandas DataFrame 子集转换为 numpy 数组?

我想知道是否有一种更简单、内存高效的方法来从 Pandas DataFrame 中选择行和列的子集. 例如,给定这个数据框: df = DataFrame(np.random.rand(4,5), columns = list('abcde'))打印文件a b c d0 0.945686 0.000710 0.909158 0.892892 0.3266701 0.919359 0.667 ..
发布时间:2021-11-18 03:17:43 其他开发

python中最快的成对距离度量

我有一个一维数字数组,想计算所有成对的欧几里德距离.我有一种方法(感谢 SO)通过广播来做到这一点,但效率低下,因为它计算每个距离两次.它不能很好地扩展. 这是一个示例,它通过一个包含 1000 个数字的数组为我提供了所需的内容. 将 numpy 导入为 np随机导入r = np.array([random.randrange(1, 1000) for _ in range(0, 1000 ..
发布时间:2021-11-18 02:17:06 其他开发

如何对 numpy 数组进行 n 维距离和最近邻计算

此问题旨在成为规范的重复目标 给定两个形状为 (i, n) 和 (j, n) 的数组 X 和 Y, 表示 n 维坐标的列表, def test_data(n, i, j, r = 100):X = np.random.rand(i, n) * r - r/2Y = np.random.rand(j, n) * r - r/2返回 X, YX, Y = test_data(3, 1000, ..
发布时间:2021-11-18 01:53:56 其他开发

scikit-learn 中的“详细"参数

许多 scikit-learn 函数都有一个 verbose 参数,根据他们的文档,“[c] 控制冗长:越高,消息越多";(例如,GridSearchCV). 不幸的是,没有提供关于允许使用哪些整数的指南(例如,用户可以将详细程度设置为 100?)以及什么级别的详细程度对应于哪些整数.我在文档中的任何地方都找不到此信息. 我的问题是,哪些整数映射到哪个级别的详细程度? 解决方案 ..
发布时间:2021-11-17 05:36:11 其他开发

PySpark 中是否有与 scikit-learn 的 sample_weight 等效的参数?

我目前正在使用 scikit-learn 库提供的 SGDClassifier.当我使用 fit 方法时,我可以设置 sample_weight 参数: 应用于单个样本的权重.如果没有提供,统一假设权重.这些权重将乘以class_weight(通过构造函数传递)如果 class_weight 是指定 我想切换到 PySpark 并使用 LogisticRegression 类.无论如何 ..
发布时间:2021-11-14 21:11:48 其他开发

PySpark 中是否有与 scikit-learn 的 sample_weight 等效的参数?

我目前正在使用 scikit-learn 库提供的 SGDClassifier.当我使用 fit 方法时,我可以设置 sample_weight 参数: 应用于单个样本的权重.如果没有提供,统一假设权重.这些权重将乘以class_weight(通过构造函数传递)如果 class_weight 是指定 我想切换到 PySpark 并使用 LogisticRegression 类.无论如何 ..
发布时间:2021-11-14 21:11:45 其他开发

具有重复项的类的多标签编码

如何对一列具有重复项的列表进行 n-hot 编码? 类似于 sklearn 的 MultiLabelBinarizer,它计算重复类的实例数而不是二值化. 示例输入: x = pd.Series([['a', 'b', 'a'], ['b', 'c'], ['c','c']]) 预期输出: a b c0 2 1 01 0 1 12 0 0 2 解决方案 我写了一个新的类 M ..
发布时间:2021-11-14 21:08:58 其他开发

如何使用 Spark 内部的 Sklearn 模型进行预测?

我已经使用 sklearn 在 python 中训练了一个模型.我们如何使用相同的模型加载到 Spark 中并在 Spark RDD 上生成预测? 解决方案 嗯, 我将展示 Sklearn 中的线性回归示例,并向您展示如何使用它来预测 Spark RDD 中的元素. 首先使用 sklearn 示例训练模型: # 创建线性回归对象regr = linear_model.Line ..
发布时间:2021-11-14 21:06:09 其他开发

Spark.ml 回归不计算与 scikit-learn 相同的模型

我在 scikit-learn 和 spark.ml 中设置了一个非常简单的逻辑回归问题,结果出现分歧:他们学习的模型不同,但我想不通为什么(数据相同,模型类型是一样的,正则化是一样的......). 毫无疑问,我在一侧或另一侧缺少一些设置.哪个设置?我应该如何设置 scikit 或 spark.ml 以找到与其对应的模型相同的模型? 我在下面给出了 sklearn 代码和 spark ..
发布时间:2021-11-14 21:06:06 其他开发

系统之间的随机种子是否兼容?

我使用 python 的 sklearn 包制作了一个随机森林模型,其中我将种子设置为例如 1234.为了生产模型,我们使用 pyspark.如果我要传递相同的超参数和相同的种子值,即 1234,它会得到相同的结果吗? 基本上,随机种子数在不同系统之间是否有效? 解决方案 嗯,这正是可以真正用一些实验解决的问题.提供的代码片段... 无论如何,似乎普遍的答案是肯定的否:不仅在 ..
发布时间:2021-11-14 20:59:54 其他开发

scikit learn:如何检查系数的重要性

我尝试使用 SKLearn 对一个相当大的数据集进行 LR,该数据集具有约 600 个虚拟变量且只有很少的区间变量(以及我的数据集中的 300 K 行),结果混淆矩阵看起来很可疑.我想检查返回的系数和方差分析的重要性,但我找不到如何访问它.有可能吗?对于包含大量虚拟变量的数据,最佳策略是什么?非常感谢! 解决方案 Scikit-learn 故意不支持统计推断.如果您想要开箱即用的系数显着性 ..
发布时间:2021-11-10 23:42:06 其他开发

AWS SageMaker 无权在资源上执行:ecr:CreateRepository:*

我正在创建自己的 Docker 映像,以便可以在 AWS SageMaker 中使用自己的模型.我使用自定义 Dockerfile 在 SageMaker ml.t2.medium 实例中的 Jupyter Notebook 中使用命令行成功创建了一个 Docker 映像: REPOSITORY TAG IMAGE ID 创建大小sklearn 最新 01234212345 6 分钟前 1.23 ..
发布时间:2021-10-27 19:08:30 其他开发

使用一个模型的预测概率训练另一个模型并保存为单个模型

我有一个用于某些二进制分类目的的 XGBoost 模型.它利用了一些特性,即 f1, f2, f3, f4, f5, f6, f7 我想使用 sklearn 中的另一个 LogisticRegression 模型,该模型利用模型的输出和 XGBoost 模型的特征进行预测,即必须使用 f1, out 进行预测.其中 out 是 XGBoost 模型做出的预测. 我想将这两个模型保存到一 ..
发布时间:2021-10-01 18:37:19 其他开发