data-science相关内容
我正在分析社交网络中超过6周的用户到userx的距离. 注意:“无路径"表示这两个用户尚未被连接(至少是由朋友的朋友). week1 week2 week3 week4 week5 week6 user1 No path No path No path No path 3 1 user
..
我正在训练数据L1,L2,L3的3个列表.首先,我使用SGDClassifier fit()训练所有一个,然后使用partial_fit()实例进行训练.我用L4,L5测试数据. [列表中的数据是图像数据,L4,L5图像与L2相同. fit()的预测是正确的,这是我对partial_fit()的期望.但是,以下代码的输出显示,无论partial_fit()进行10,000次迭代,两者的行为都
..
我刚接触word2vec.我需要微调我的word2vec模型. 我有2个数据集:data1和data2到目前为止,我所做的是: model = gensim.models.Word2Vec( data1, size=size_v, window=size_w, min_count=min_c, worker
..
我是神经网络的新手,并为初学者讲了MNIST示例. 我目前正试图在Kaggle的另一个没有测试标签的数据集上使用此示例. 如果我在没有相应标签的测试数据集上运行模型,因此无法像MNIST示例中那样计算准确性,我希望能够看到预测.可以以某种方式访问观测值及其预测的标签并很好地打印出来吗? 解决方案 我认为您只需要按照本教程中的说明评估输出张量即可: accuracy =
..
我需要具有MAPE功能,但是无法在标准软件包中找到它....,下面,我对该功能的实现. def mape(actual, predict): tmp, n = 0.0, 0 for i in range(0, len(actual)): if actual[i] 0: tmp += math.fabs(actual[i]-pre
..
从pyspark.ml和管道API开始,我发现自己为典型的预处理任务编写了自定义转换器,以便在管道中使用它们.例子: from pyspark.ml import Pipeline, Transformer class CustomTransformer(Transformer): # lazy workaround - a transformer needs to have t
..
我想将数据分为训练集和测试集,是否应该在拆分之前或之后对数据进行归一化处理?建立预测模型时,它有什么区别吗?预先感谢. 解决方案 您首先需要将数据分为训练和测试集(可能还需要验证集). 请不要忘记测试数据点代表了真实的数据. 说明性(或预测变量)变量的特征归一化(或数据标准化)是一种用于通过减去均值并除以方差来对数据进行居中和归一化的技术.如果您采用整个数据集的均值和方差,则会将未来
..
我拥有包含大量x变量的数据,这些变量主要是分类/标称的,而我的目标变量是一个多类标签.我能够建立几个模型来预测多类变量并比较每个变量的执行情况.我有训练和测试数据.培训和测试数据都给了我很好的结果. 现在,我试图找出“为什么"该模型预测了某些Y变量?表示是否有天气数据:X变量:城市,州,邮政编码,温度,年份; Y变量:雨,太阳,阴天,雪.我想找出模型为什么要预测的“原因":分别是降雨,阳光,
..
我将recursive feature elimination with cross validation (rfecv)用作randomforest classifier的功能选择器,如下所示. X = df[[my_features]] #all my features y = df['gold_standard'] #labels clf = RandomForestClassifi
..
for L,M in laundry1['latitude'],laundry1['longitude']: print('latitude:-') print(L) print('longitude:-') print(M) 我正在尝试遍历数据帧的两列,将值赋给L& M并在其中打印值,但它显示数据集的错误“错误,无法解包(预期为2)的值太多",带有错误视图->
..
我对具有50000 X 370维数据的二元分类问题进行了Logistic回归,我获得了大约90%的准确性,但是当我对数据进行PCA + Logistic时,我的准确性降低到10%,我对此感到非常震惊看到这个结果.谁能解释可能出了什么问题? 解决方案 不能保证PCA会有所帮助,也不会损害学习过程.特别是-如果您使用PCA来减少尺寸量-您正在从数据中删除信息,那么一切都会发生-如果删除的数据是
..
在这里,我有一个包含不同长度向量的列表.我想获取一个data.frame.我已经在SO中看到很多关于它的文章(请参阅参考资料),但是它们都不像我期望的那么简单,因为这实际上是数据预处理中的常见任务.谢谢. 最简单的意思是as.data.frame(aa)(如果它可以工作的话).因此,R的基本程序包中的一个功能将非常出色. sapply(aa, "length
..
我具有 ResNet模型的Facebook实现带有猫的图片.这是具有分类概率的1000维张量.使用 torch.topk 我可以在输出张量中获得前5个概率及其索引.现在,我想查看那些最可能出现的索引的人类可读标签. 我在网上搜索了标签列表(显然也称为sysnets),却发现了这一点: http://image-net.org/challenges/LSVRC/2015/browse-syns
..
Avg.SessionLength TimeonApp TimeonWebsite LengthofMembership Yearly Amount Spent 0 34.497268 12.655651 39.577668 4.082621 587.951054 1 31.926272 11.109461 37.268959 2.664034 392.
..
在R编码中遇到错误. 在我的Brand_X.xlsx数据集中,我尝试使用KNN插补来计算的NA值很少,但是却低于错误.怎么了谢谢! > library(readxl) > Brand_X str(Brand_X) Classes ‘tbl_df’, ‘tbl’ and 'data.frame': 101 obs. of
..
在阅读 KMeans的不平衡因数之后,我试图了解其工作原理.我的意思是,从我的示例中,我可以看到该因子的值越小,KMeans聚类的质量就越好,即其聚类越平衡.但是对此因素的赤裸裸的数学解释是什么?这是已知数量还是什么? 这是我的例子: C1 = 10 C2 = 100 pdd = [(C1,10), (C2, 100)] n = 2
..
我有一个带有键值字符串的R数据集,如下所示: quest
..
我是机器学习和堆栈溢出的新手,我试图从我的回归模型中解释两个图. 我的机器学习模型中的训练错误和验证错误 我的情况类似于此人我的建模不合身吗?如果是,我该怎么解决这个问题? 这是我用来解决回归问题的神经网络 def build_model(): model = keras.Sequential([ layers.Dense(128, activation=tf.nn
..
我已经创建了如下管道(使用 Keras Scikit-Learn API ) estimators = [] estimators.append(('standardize', StandardScaler())) estimators.append(('mlp', KerasRegressor(build_fn=baseline_model, nb_epoch=50, batch_size
..
我正在处理不平衡类的顺序标签问题,我想使用sample_weight解决不平衡问题.基本上,如果我训练模型约10个时间段,我会得到很好的结果.如果我训练更多的纪元,val_loss会继续下降,但结果会更糟.我猜测该模型只会检测到更多的主导类,从而损害较小的类. 该模型有两个输入,分别用于单词嵌入和字符嵌入,并且输入是从0到6的7种可能的类之一. 使用填充,我用于词嵌入的输入层的形状为(
..