data-science相关内容

sklearn partial_fit()未显示准确的结果为fit()

我正在训练数据L1,L2,L3的3个列表.首先,我使用SGDClassifier fit()训练所有一个,然后使用partial_fit()实例进行训练.我用L4,L5测试数据. [列表中的数据是图像数据,L4,L5图像与L2相同. fit()的预测是正确的,这是我对partial_fit()的期望.但是,以下代码的输出显示,无论partial_fit()进行10,000次迭代,两者的行为都 ..
发布时间:2020-05-04 09:20:37 AI人工智能

如何在TensorFlow的MNIST示例中获取预测的类标签?

我是神经网络的新手,并为初学者讲了MNIST示例. 我目前正试图在Kaggle的另一个没有测试标签的数据集上使用此示例. 如果我在没有相应标签的测试数据集上运行模型,因此无法像MNIST示例中那样计算准确性,我希望能够看到预测.可以以某种方式访问​​观测值及其预测的标签并很好地打印出来吗? 解决方案 我认为您只需要按照本教程中的说明评估输出张量即可: accuracy = ..

在分割训练和测试数据之前或之后对数据进行归一化?

我想将数据分为训练集和测试集,是否应该在拆分之前或之后对数据进行归一化处理?建立预测模型时,它有什么区别吗?预先感谢. 解决方案 您首先需要将数据分为训练和测试集(可能还需要验证集). 请不要忘记测试数据点代表了真实的数据. 说明性(或预测变量)变量的特征归一化(或数据标准化)是一种用于通过减去均值并除以方差来对数据进行居中和归一化的技术.如果您采用整个数据集的均值和方差,则会将未来 ..

预测分析-“为什么"因子&模型的可解释性

我拥有包含大量x变量的数据,这些变量主要是分类/标称的,而我的目标变量是一个多类标签.我能够建立几个模型来预测多类变量并比较每个变量的执行情况.我有训练和测试数据.培训和测试数据都给了我很好的结果. 现在,我试图找出“为什么"该模型预测了某些Y变量?表示是否有天气数据:X变量:城市,州,邮政编码,温度,年份; Y变量:雨,太阳,阴天,雪.我想找出模型为什么要预测的“原因":分别是降雨,阳光, ..
发布时间:2020-05-04 08:57:12 AI人工智能

为什么PCA降低了Logistic回归的性能?

我对具有50000 X 370维数据的二元分类问题进行了Logistic回归,我获得了大约90%的准确性,但是当我对数据进行PCA + Logistic时,我的准确性降低到10%,我对此感到非常震惊看到这个结果.谁能解释可能出了什么问题? 解决方案 不能保证PCA会有所帮助,也不会损害学习过程.特别是-如果您使用PCA来减少尺寸量-您正在从数据中删除信息,那么一切都会发生-如果删除的数据是 ..

将具有各种长度向量的列表转换为R中的data.frame的最简单方法

在这里,我有一个包含不同长度向量的列表.我想获取一个data.frame.我已经在SO中看到很多关于它的文章(请参阅参考资料),但是它们都不像我期望的那么简单,因为这实际上是数据预处理中的常见任务.谢谢. 最简单的意思是as.data.frame(aa)(如果它可以工作的话).因此,R的基本程序包中的一个功能将非常出色. sapply(aa, "length ..
发布时间:2020-05-02 05:06:46 其他开发

在炬管的1000维输出张量中获取特定索引的ImageNet标签

我具有 ResNet模型的Facebook实现带有猫的图片.这是具有分类概率的1000维张量.使用 torch.topk 我可以在输出张量中获得前5个概率及其索引.现在,我想查看那些最可能出现的索引的人类可读标签. 我在网上搜索了标签列表(显然也称为sysnets),却发现了这一点: http://image-net.org/challenges/LSVRC/2015/browse-syns ..
发布时间:2020-04-26 14:44:59 其他开发

R:knnImputation产生错误

在R编码中遇到错误. 在我的Brand_X.xlsx数据集中,我尝试使用KNN插补来计算的NA值很少,但是却低于错误.怎么了谢谢! > library(readxl) > Brand_X str(Brand_X) Classes ‘tbl_df’, ‘tbl’ and 'data.frame': 101 obs. of ..
发布时间:2020-04-26 11:02:52 其他开发

了解KMeans算法的质量

在阅读 KMeans的不平衡因数之后,我试图了解其工作原理.我的意思是,从我的示例中,我可以看到该因子的值越小,KMeans聚类的质量就越好,即其聚类越平衡.但是对此因素的赤裸裸的数学解释是什么?这是已知数量还是什么? 这是我的例子: C1 = 10 C2 = 100 pdd = [(C1,10), (C2, 100)] n = 2 ..

我的训练数据集对我的神经网络而言是否过于复杂?

我是机器学习和堆栈溢出的新手,我试图从我的回归模型中解释两个图. 我的机器学习模型中的训练错误和验证错误 我的情况类似于此人我的建模不合身吗?如果是,我该怎么解决这个问题? 这是我用来解决回归问题的神经网络 def build_model(): model = keras.Sequential([ layers.Dense(128, activation=tf.nn ..
发布时间:2020-04-25 10:29:59 AI人工智能

在Keras中使用sample_weight进行序列标记

我正在处理不平衡类的顺序标签问题,我想使用sample_weight解决不平衡问题.基本上,如果我训练模型约10个时间段,我会得到很好的结果.如果我训练更多的纪元,val_loss会继续下降,但结果会更糟.我猜测该模型只会检测到更多的主导类,从而损害较小的类. 该模型有两个输入,分别用于单词嵌入和字符嵌入,并且输入是从0到6的7种可能的类之一. 使用填充,我用于词嵌入的输入层的形状为( ..
发布时间:2020-04-25 10:08:42 Python