scikit-learn相关内容
我让Dask来处理内存中无法容纳的大型向量数组,并使用SCRICKIT-LINE COSING_SIMPLIZATION来计算这些向量之间的余弦相似度,即: import dask.array as da from sklearn.metrics.pairwise import cosine_similarity vectors = da.from_array(vectors, 10000)
..
在Julia中使用SymPy,如何转换示例输入 feature_names = ["1", "x", "y", "z", "x^2", "x y", "x z", "y^2", "y z", "z^2"] 转换为可调用的方法f(x, y, z),该方法返回以下表达式的计算结果: julia >>> f(1, 2, 3) julia >>> 10-element Vector{fl
..
我正在使用Gaussian Mixture Model (GMM)中的sklearn.mixture对我的数据集执行群集。 我可以使用函数score()来计算该模型下的对数概率。 但是,我正在寻找this article中定义的名为‘PURITY’的指标。 如何在Python中实现它?我当前的实现如下所示: from sklearn.mixture import GMM
..
我遇到了一个问题,我正在尝试构建我自己的类以放入到python中的管道中,但它不起作用。 我尝试解决的问题是一个多类分类问题。 我要做的是在管道中添加一个步骤来检测和删除离群值。 我发现这个detect and remove outliers in pipeline python与我所做的非常相似。 这是我的班级: from sklearn.neighbors import Lo
..
我试图了解在Logistic回归交叉验证中如何计算最佳系数,其中“refit”参数为True。 如果我对docs的理解是正确的,那么最好的系数是首先确定最佳正则化参数“C”的结果,即在所有折叠上具有最高平均分数的C值。然后,最好的系数就是在最佳C得分最高的折叠上计算的系数。我假设,如果最大分数被几个折叠获得,则这些折叠的系数将被平均,以得到最佳系数(我在文档中没有看到任何关于如何处理这种情况的内容
..
是否可以在sklearn中运行带有和不带有预测值(即只有截取)的回归(例如,Logistic回归)?这似乎是一个相当标准的类型分析,可能这个信息已经在输出中可用。 我找到的唯一相关内容是sklearn.svm.l1_min_c,但这将返回一个非空模型。 我正在寻找类似的东西,只截取的回归(Y = a + ε)与标准回归(Y = a + bX + ε):http://www.philen
..
我正在对布尔0/1数据集进行Logistic回归(预测某个年龄超过某个金额的工资的概率),并且我使用sklearn和StatsModels得到了非常不同的结果,而skLearning是非常错误的。 为了使该函数更类似于StatsModels,我已将skLearning惩罚设置为None,并将Intercept Term设置为False,但我看不到如何让skLearning给出合理的答案。
..
我拟合了Logistic回归模型,并使用以下内容基于训练数据集训练该模型 import scikits as sklearn from sklearn.linear_model import LogisticRegression lr = LogisticRegression(C=0.1, penalty='l1') model = lr.fit(training[:,0:-1], trai
..
类似于此问题(ColumnTransformer fails with CountVectorizer in a pipeline),我希望使用管道中的ColumnTransformer对具有文本功能的列应用CountVectorizer/HashingVectorizer。但我不是只有一个文字功能,而是多个。如果我传递了一个功能(而不是像另一个问题的解决方案中建议的那样作为列表),它工作得很好,
..
我正在尝试使用KNeighbors分类器和支持向量机在sklear中构建一个GridSearchCV管道。到目前为止,我已经尝试了以下代码: from sklearn.model_selection import GridSearchCV from sklearn.pipeline import Pipeline from sklearn.neighbors import KNeighbor
..
到目前为止,我拥有的代码如下所示,它工作得很好。但是,我要为每个测试的功能打印以下RFE属性:";rfe.Support_[i]";、&rfe.ranking_[i]";和所选功能的名称。i";引用索引后,第一个属性返回True或False(如果选择了列),第二个属性返回它们各自的排名。 换句话说,我想打印每个RFE中考虑的列,并且它们不会保留为抽象的东西。
..
我使用Scipy库执行层次聚类并创建树形图。以下是简单的代码和生成的树状图: import numpy as np from scipy.cluster.hierarchy import dendrogram, linkage from matplotlib import pyplot as plt X = np.array([[5, 3], [10, 15],
..
我编写了以下代码来计算多类分类问题的精度和召回率: import numpy as np import matplotlib.pyplot as plt from itertools import cycle from sklearn import svm, datasets from sklearn.metrics import roc_curve, auc, precision_rec
..
我正在处理一个回归问题,我使用StackingRegressor来训练数据,然后在测试集上进行预测。出于模型可解释性目的,我使用了SHAP,如下所示: import xgboost from sklearn.ensemble import RandomForestRegressor from sklearn.ensemble import StackingRegressor import s
..
我有一个数字数组X,它有3列,如下所示: array([[ 3791, 2629, 0], [ 1198760, 113989, 0], [ 4120665, 0, 1], ... 前两列是连续值,最后一列是BINARY(0,1)。我只想将StandardScaler类应用
..
我在Jupyter Notebook中使用Ploly在Python中创建了一些曲线图,不幸的是,每次我打开Jupyter Notebook时都必须重新加载数据才能在Ploly中看到这些曲线图,为什么会发生这种情况,如果我可以在每次运行Jupyter Notebook时以某种方式使曲线图自动生成? 请给我一些建议,这对我来说真的是个大问题。 例如,当我打开Jupyter Notebook时,我
..
我在从SCRICKIT-LEARN导入机器学习算法时遇到了问题。 我已经安装了它,但每当我输入例如“from sklearn.naive_Bayes import GaussianNB”时,它就会显示“‘from’不被识别为内部或外部命令、可操作程序或批处理文件。 我在Windows 10上使用的是蟒蛇。是不是有兼容性问题?我是不是遗漏了什么?IDK我还是个新手,所以我觉得很迷茫。谢谢 推荐
..
我正在试验MultiOutputRegressor(),我想知道一旦测量到损耗后,是否有可能达到多输出回归任务的Trains&;Testset上的损耗曲线。 我尝试的内容: import matplotlib.pyplot as plt import numpy as np #from sklearn import datasets, ensemble #from sklearn
..
我已经引用了帖子here、here和here。不要将其标记为重复。 我正在处理一个二进制分类问题,其中我的数据集具有类别列和数值列。 但是,有些分类列混合了数值和字符串值。然而,它们仅指示类别名称。 例如,我有一个名为biz_category的列,它的值类似于A,B,C,4,5等。 我猜下面的错误是由于类似4 and 5的值引发的。 因此,我尝试在下面将它们转换为catego
..
我正在学习一个教程,该教程介绍了如何使用pythonv3.6来使用SCRICKIT-LEARN进行带有机器学习的决策树。 以下是代码; import pandas as pd import numpy as np import matplotlib.pyplot as plt import mglearn import graphviz from sklearn.datasets i
..