machine-learning相关内容
word2vec和手套有什么区别? 训练单词的两种方法都是嵌入的吗?如果是,那么我们如何才能同时使用两者? 推荐答案 是,它们都是训练单词嵌入的方法。它们都提供相同的核心输出:每个单词一个向量,这些向量以有用的方式排列。也就是说,向量的相对距离/方向大致符合人类对整体词汇关联性的看法,甚至在某些显著的语义维度上也符合关联性。 word2vec通过在训练语料库上重复迭代,对神经网络
..
from sklearn.model_selection import RandomizedSearchCV # --initialise classifier classifier = RandomForestClassifier(n_estimators=300) # -- set hyperparameters to tune param_grid = { "max_depth":
..
在随机林中预测()和预测_Proba()产生不同的ROC_AUC_Score。 我知道Forecast_Proba()给出了概率,比如在二进制分类的情况下,它会给出两个对应于两个类别的概率。 Forecate()给出它预测的类。 #Using predict_proba() rf = RandomForestClassifier(n_estimators=200, ra
..
我正在学习机器学习理论。我有一个使用多类别Logistic回归的预测混淆矩阵。 现在我已经计算了微观和宏观平均值(精度和召回)。 值有很大不同。现在我想知道是什么因素影响了这一点。在什么情况下,微观和宏观会有很大的不同? 我注意到的是,对于不同的类别,预测的准确性是不同的。这就是原因吗?或者还有什么其他因素可以导致这种情况? 样本混淆矩阵: 和我计算的微观-宏观平均值
..
我想对下面包含的LogitRegress函数进行修改,以包括其他自变量和固定效果。 以下代码改编自此处提供的答案:how to use sklearn when target variable is a proportion from sklearn.linear_model import LinearRegression from random import choices from
..
我目前正在上一门关于Coursera的Andrew Ng课程,我尝试在数据集上使用我所学到的关于Logistic回归的知识。但我不能使成本函数减小。 我尝试了不同的学习速率(0.0001、0.003、0.0001…)和迭代次数。可能是我写错了函数,但找不到错误 import numpy as np import scipy as sc import matplotlib.pyplot
..
我正在通过在Coursera上使用Andrew Ng的机器学习来实现所有的代码,而不是用MatLab。 在编程练习3中,我以向量化的形式实现了我的正则化Logistic回归成本函数: def compute_cost_regularized(theta, X, y, lda): reg =lda/(2*len(y)) * np.sum(theta**2) return
..
我使用来自乳腺癌数据的以下内容训练Logistic模型,并且只使用了一个特征‘Mean_Area’ from statsmodels.formula.api import logit logistic_model = logit('target ~ mean_area',breast) result = logistic_model.fit() 在训练好的模型中有一个内置的预测方法。然而
..
我刚开始在CourseraMachine Learning上Ng的课程。 第三周的主题是Logistic回归,因此我尝试实现以下成本函数。 假设定义为: 其中g为Sigmoid函数: 这是我的函数目前的外观: function [J, grad] = costFunction(theta, X, y) m = length(y); % number of training e
..
data是一维数据数组。 data = [0.0, 7000.0, 0.0, 7000.0, -400.0, 0.0, 7000.0, -400.0, -7400.0, 7000.0, -400.0, -7000.0, -7000.0, 0.0, 0.0, 0.0, -7000.0, 7000.0, 7000.0, 7000.0, 0.0, -7000.0, 6600.0, -7400.0,
..
在TensorFlow对象检测API中获取类和检测到对象的概率时遇到问题。我想将这两个值与每个图像一起打印。 代码如下: for image_path in TEST_IMAGE_PATHS: image = Image.open(image_path) # the array based representation of the image will be used lat
..
我正在进行一个多分类项目,我注意到无论我运行什么分类器,模型中的精度和召回率都是相同的。 分类问题有三个截然不同的类别。数据量偏小,13k实例分为测试(0.8)和训练(0.2)。 训练数据的形状为(10608,28),标签的形状为(10608,3)(二进制标签)。 分类不平衡: 标签0占所有标签的30% 标签1占所有标签的4% 标签2占所有标签的66%。 我正在比
..
我使用的是SciKit中的确切示例,它将permutation_importance与tree feature_importances 进行了比较 如您所见,使用了管道: rf = Pipeline([ ('preprocess', preprocessing), ('classifier', RandomForestClassifier(random_state=42)
..
我正在学习sklearn自定义转换器,并阅读有关创建自定义转换器的两种核心方法: 通过设置从BaseEstimator和TransformerMixin继承的自定义类,或 通过创建转换方法并将其传递给FunctionTransformer。 我想通过实现元矢量器和功能来比较这两种方法:支持CountVectorizer或TfidfVectorizer的矢量器,并根据指定的矢量器类型转
..
我正在尝试用e1071的支持向量机绘制分隔三类问题的二维超平面(线)。我使用了默认方法(因此不涉及公式),如下所示: library('e1071') ## S3 method for class 'default': machine
..
我在R中使用的是e1017中的支持向量机模型。我曾使用支持向量机进行文本挖掘和分类。所以我的数据是DTM(从文档语料库获得的文档术语矩阵)。如何开始绘制我的支持向量机模型? 下面是我在类预测代码中使用的支持向量机模型 model
..
我使用来自SCRKIT学习的线性支持向量机(LinearSVC)来解决二值分类问题。我知道LinearSVC可以给我预测的标签和决策得分,但我想要概率估计(对标签的信心)。由于速度的原因,我想继续使用LinearSVC(与使用线性内核的sklearn.svm.SVC相比)使用Logistic函数将决策分数转换为概率是否合理? import sklearn.svm as suppmach #
..
我是R中的新手,正在尝试Rstudio中的keras。通过运行FIT()进行的所有accuracy、loss交互绘图都显示在Viewer窗格中,而不是Rmarkdown文件中。 所有其他绘图通常在Rmarkdown文件中打印,但不使用kera。 我还检查了RStudio中的Global settingsTools>Global Options>R Markdown>Show outpu
..
我尝试使用FIT_GENERATOR和TALOS(用于超参数调优)。早些时候,当我使用FIT方法时,我得到了内存错误,所以当我在这里搜索时,人们说我应该尝试使用FIT_GENERATOR。前面我给了太多的参数,所以即使使用FIT_GENERATOR,我也得到了内存错误,现在我减少了参数的数量,现在我得到了不同的错误。请查找下面的代码和错误。 代码: def yield_arrays_t
..
我以前有一个导出的RetinanNet模型(最初来自对象检测动物园),它已经使用TensorFlow对象检测API(TensorFlow 2.4.1版)在自定义数据集上进行了微调。下面是导出模型的文件夹的外观。 对模型运行评估时(如下所示),MAP@0.5IOU为0.5。 python model_main_tf2.py --model_dir=exported-models/reti
..