machine-learning相关内容
在我的自定义数据集中,一种图像在一个文件夹中,torchvision.datasets.Imagefolder 可以处理,但如何将数据集拆分为训练和测试? 解决方案 您可以使用 torch.utils.data.Subset 将您的 ImageFolder 数据集拆分为基于示例索引的训练和测试. 例如: orig_set = torchvision.datasets.Imagefold
..
所以我想对一些 (3, 50, 50) 图片进行分类.首先,我从没有数据加载器或批处理的文件中加载了数据集,它起作用了.现在,在添加了这两件事之后,我得到了那个错误: RuntimeError: multi-target not supported at/pytorch/aten/src/THCUNN/generic/ClassNLLCriterion.cu:15 我在互联网上找到了很多答案,
..
这里的 x_dat 和 y_dat 只是非常长的一维张量. class FunctionDataset(Dataset):def __init__(self):x_dat, y_dat = data_product()self.length = len(x_dat)self.y_dat = y_datself.x_dat = x_datdef __getitem__(self, index):样
..
我有一个图片张量,想从中随机选择.我正在寻找与 np.random.choice() 等效的东西. 导入火炬图片 = torch.randint(0, 256, (1000, 28, 28, 3)) 假设我想要其中的 10 张图片. 解决方案 torch 没有 np.random.choice() 的等效实现,请参阅讨论
..
我只是想知道,PyTorch 如何跟踪张量上的操作(在 .requires_grad 被设置为 True 之后,它后来如何自动计算梯度.请帮助我理解 autograd 背后的想法.谢谢. 解决方案 这是个好问题!通常,自动微分(AutoDiff)的思想是基于多变量链式法则,即. 这意味着您可以通过“代理"变量 y 表示 x 相对于 z 的导数;事实上,这允许您将几乎所有操作分解为一堆更简
..
我正在尝试使用 PyTorch 构建一个非常简单的 LSTM 自动编码器.我总是用相同的数据训练它: x = torch.Tensor([[0.0], [0.1], [0.2], [0.3], [0.4]]) 我按照这个链接构建了我的模型: inputs = Input(shape=(timesteps, input_dim))编码 = LSTM(latent_dim)(输入)解码 = 重复
..
我想实现以下算法,摘自本书第 13.6 节: 不明白如何在pytorch中实现更新规则(w的规则与theta的规则非常相似). 据我所知,torch 需要 loss.backwward() 的损失. 这个表格似乎不适用于引用的算法. 我仍然确定在 pytorch 中实现此类更新规则的正确方法. 鉴于 V(s,w) 是神经网络的输出,由 w 参数化,非常感谢应该如何更新
..
我有一个数据集.它的一列 - “关键字" - 包含分类数据.我尝试使用的机器学习算法仅采用数字数据.我想将“关键字"列转换为数值 - 我该怎么做?使用自然语言处理?一袋话? 我尝试了以下方法,但我得到了 ValueError: Expected 2D array, got 1D array instead. from sklearn.feature_extraction.text impo
..
我在一些文章(Tomas Mikolov...)中了解到,形成句子向量的更好方法是连接词向量. 但是由于我的数学很笨拙,我仍然不确定细节. 例如 假设词向量的维数为m;并且一个句子有 n 个单词. 连接操作的正确结果是什么? 它是 1 x m*n 的行向量吗?还是一个 m x n 的矩阵? 解决方案 组合嵌入向量至少有三种常用的方法;(a) 求和,(b) 求和
..
在 NLTK 中有一个 nltk.download() 函数来下载 NLP 套件附带的数据集. 在 sklearn 中,它谈到加载数据集(http://scikit-learn.org/stable/datasets/) 并从 http://mldata.org/ 获取数据,但对于其余的数据集,说明是从源下载. 我应该在哪里保存从源代码下载的数据? 将数据保存到正确目录后,我可以从我的
..
我想就分配给我的一个有趣问题提供一些意见.任务是分析成百上千的隐私政策,并确定它们的核心特征.例如,他们是否获取用户的位置?他们是否与第三方共享/销售?等. 我与一些人交谈过,阅读了很多关于隐私政策的内容,并自己思考了这个问题.这是我目前的攻击计划: 首先,阅读大量隐私,找到满足某个特征的主要“线索"或指标.例如,如果数百个隐私政策具有相同的行:“我们将获取您的位置.",则该行可以 1
..
我正在尝试在非英语文本数据集上运行 LDA(潜在狄利克雷分配). 从 sklearn 的教程中,您可以计算输入 LDA 的单词的词频: tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2,max_features=n_features,stop_words='英文') 它具有内置的停用词功能,我认为仅适用于英语.我该如何使用我自己的
..
我没有自然语言处理方面的正式背景,想知道 NLP 方面的人是否可以对此有所了解.我正在使用 NLTK 库,我专门研究了这个包提供的停用词功能: 在 [80] 中:nltk.corpus.stopwords.words('english') 出[80]: ['我', '我', '我的',“我自己",“我们",“我们的",“我们的",“我们自己"、“你们"、“你们的"、“你们的"、“
..
我有一个经典的 NLP 问题,我必须将新闻分类为假新闻或真实新闻. 我创建了两组功能: A) 二元词频-逆文档频率 B) 使用 pattern.en (https://www.clips.uantwerpen.be/pages/pattern-en) 作为文本的主观性、极性、#stopwords、#verbs、#subject、关系语法等...... 将 TFIDF 特征与
..
我目前正在尝试理解这种形式的句子: 问题更多的是机顶盒而不是电视.重启机顶盒解决问题. 我对自然语言处理完全陌生,并开始使用 Python 的 NLTK 包来弄脏我的手.但是,我想知道是否有人可以向我概述实现这一目标所涉及的高级步骤. 我试图做的是确定在这种情况下是什么问题,机顶盒以及所采取的行动是否解决了问题,因此在这种情况下,是的 因为重新启动修复了问题.所以如果所有的句子都
..
我正在尝试从 文本语料库 中获取信息最丰富的特征.从这个回答良好的问题 我知道可以按如下方式完成此任务: def most_informative_feature_for_class(vectorizer,classifier,classlabel,n=10):labelid = list(classifier.classes_).index(classlabel)feature_names =
..
我正在使用 Word2Vec 和大约 11,000,000 个标记的数据集,希望同时进行两个词的相似性(作为下游任务的同义词提取的一部分),但我不太清楚应该与 Word2Vec 一起使用多少维.有没有人根据标记/句子的数量对要考虑的维度范围有很好的启发? 解决方案 典型的间隔在 100-300 之间.我会说你至少需要 50D 才能达到最低的精度.如果您选择较少的维度,您将开始失去高维空间的
..
我已经从 https://github.com/percyliang/brown-cluster 运行了棕色聚类算法还有一个 python 实现 https://github.com/mheilman/tan-clustering.他们都为每个唯一的标记提供某种二进制和另一个整数.例如: 0 610 追 3110狗21110鼠标2个1111猫2 二进制和整数是什么意思? 从第一个 lin
..
背景 我有一些带有一些样本数据的向量,每个向量都有一个类别名称(地点、颜色、名称). ['john','jay','dan','nathan','bob'] ->'名字'['黄色'、'红色'、'绿色'] ->'颜色'['东京'、'北京'、'华盛顿'、'孟买'] ->'地方' 我的目标是训练一个模型,该模型接受一个新的输入字符串并预测它属于哪个类别.例如,如果新输入是“紫色",那么我应该能
..
过去几个小时我一直在查看 SO 上的 nlp 标签,我相信我没有错过任何东西,但如果我错过了,请务必指出问题所在. 与此同时,我将描述我正在尝试做的事情.我在许多帖子中观察到的一个常见概念是语义相似性很难.例如,从这篇帖子中,公认的解决方案建议如下: 首先,无论是从计算的角度语言学和理论语言学都不清楚是什么术语“语义相似性"的含义正是如此.....考虑以下示例:皮特和罗布在车站附近发现了一
..