machine-learning相关内容

如何使用 torchvision.datasets.Imagefolder 将数据拆分为训练集和测试集?

在我的自定义数据集中,一种图像在一个文件夹中,torchvision.datasets.Imagefolder 可以处理,但如何将数据集拆分为训练和测试? 解决方案 您可以使用 torch.utils.data.Subset 将您的 ImageFolder 数据集拆分为基于示例索引的训练和测试. 例如: orig_set = torchvision.datasets.Imagefold ..

pytorch:“不支持多目标";错误信息

所以我想对一些 (3, 50, 50) 图片进行分类.首先,我从没有数据加载器或批处理的文件中加载了数据集,它起作用了.现在,在添加了这两件事之后,我得到了那个错误: RuntimeError: multi-target not supported at/pytorch/aten/src/THCUNN/generic/ClassNLLCriterion.cu:15 我在互联网上找到了很多答案, ..
发布时间:2022-01-06 19:18:53 AI人工智能

Pytorch 的随机选择?

我有一个图片张量,想从中随机选择.我正在寻找与 np.random.choice() 等效的东西. 导入火炬图片 = torch.randint(0, 256, (1000, 28, 28, 3)) 假设我想要其中的 10 张图片. 解决方案 torch 没有 np.random.choice() 的等效实现,请参阅讨论 ..
发布时间:2022-01-06 19:16:16 AI人工智能

PyTorch Autograd 自动微分功能

我只是想知道,PyTorch 如何跟踪张量上的操作(在 .requires_grad 被设置为 True 之后,它后来如何自动计算梯度.请帮助我理解 autograd 背后的想法.谢谢. 解决方案 这是个好问题!通常,自动微分(AutoDiff)的思想是基于多变量链式法则,即. 这意味着您可以通过“代理"变量 y 表示 x 相对于 z 的导数;事实上,这允许您将几乎所有操作分解为一堆更简 ..
发布时间:2022-01-06 19:10:14 AI人工智能

Pytorch:如何创建不来自衍生品的更新规则?

我想实现以下算法,摘自本书第 13.6 节: 不明白如何在pytorch中实现更新规则(w的规则与theta的规则非常相似). 据我所知,torch 需要 loss.backwward() 的损失. 这个表格似乎不适用于引用的算法. 我仍然确定在 pytorch 中实现此类更新规则的正确方法. 鉴于 V(s,w) 是神经网络的输出,由 w 参数化,非常感谢应该如何更新 ..

在 Python 中将分类数据转换为数值数据

我有一个数据集.它的一列 - “关键字" - 包含分类数据.我尝试使用的机器学习算法仅采用数字数据.我想将“关键字"列转换为数值 - 我该怎么做?使用自然语言处理?一袋话? 我尝试了以下方法,但我得到了 ValueError: Expected 2D array, got 1D array instead. from sklearn.feature_extraction.text impo ..
发布时间:2022-01-02 18:01:41 AI人工智能

如何连接词向量形成句子向量

我在一些文章(Tomas Mikolov...)中了解到,形成句子向量的更好方法是连接词向量. 但是由于我的数学很笨拙,我仍然不确定细节. 例如 假设词向量的维数为m;并且一个句子有 n 个单词. 连接操作的正确结果是什么? 它是 1 x m*n 的行向量吗?还是一个 m x n 的矩阵? 解决方案 组合嵌入向量至少有三种常用的方法;(a) 求和,(b) 求和 ..
发布时间:2022-01-02 18:00:48 AI人工智能

如何下载 sklearn 的数据集?- Python

在 NLTK 中有一个 nltk.download() 函数来下载 NLP 套件附带的数据集. 在 sklearn 中,它谈到加载数据集(http://scikit-learn.org/stable/datasets/) 并从 http://mldata.org/ 获取数据,但对于其余的数据集,说明是从源下载. 我应该在哪里保存从源代码下载的数据? 将数据保存到正确目录后,我可以从我的 ..
发布时间:2022-01-02 17:58:59 AI人工智能

有趣的 NLP/机器学习风格项目——分析隐私政策

我想就分配给我的一个有趣问题提供一些意见.任务是分析成百上千的隐私政策,并确定它们的核心特征.例如,他们是否获取用户的位置?他们是否与第三方共享/销售?等. 我与一些人交谈过,阅读了很多关于隐私政策的内容,并自己思考了这个问题.这是我目前的攻击计划: 首先,阅读大量隐私,找到满足某个特征的主要“线索"或指标.例如,如果数百个隐私政策具有相同的行:“我们将获取您的位置.",则该行可以 1 ..

如何为 sklearn CountVectorizer 设置自定义停用词?

我正在尝试在非英语文本数据集上运行 LDA(潜在狄利克雷分配). 从 sklearn 的教程中,您可以计算输入 LDA 的单词的词频: tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2,max_features=n_features,stop_words='英文') 它具有内置的停用词功能,我认为仅适用于英语.我该如何使用我自己的 ..
发布时间:2022-01-02 17:52:20 AI人工智能

为什么这些词被认为是停用词?

我没有自然语言处理方面的正式背景,想知道 NLP 方面的人是否可以对此有所了解.我正在使用 NLTK 库,我专门研究了这个包提供的停用词功能: 在 [80] 中:nltk.corpus.stopwords.words('english') 出[80]: ['我', '我', '我的',“我自己",“我们",“我们的",“我们的",“我们自己"、“你们"、“你们的"、“你们的"、“ ..

从句子中提取“有用"信息?

我目前正在尝试理解这种形式的句子: 问题更多的是机顶盒而不是电视.重启机顶盒解决问题. 我对自然语言处理完全陌生,并开始使用 Python 的 NLTK 包来弄脏我的手.但是,我想知道是否有人可以向我概述实现这一目标所涉及的高级步骤. 我试图做的是确定在这种情况下是什么问题,机顶盒以及所采取的行动是否解决了问题,因此在这种情况下,是的 因为重新启动修复了问题.所以如果所有的句子都 ..
发布时间:2022-01-02 17:46:48 AI人工智能

Word2Vec:维数

我正在使用 Word2Vec 和大约 11,000,000 个标记的数据集,希望同时进行两个词的相似性(作为下游任务的同义词提取的一部分),但我不太清楚应该与 Word2Vec 一起使用多少维.有没有人根据标记/句子的数量对要考虑的维度范围有很好的启发? 解决方案 典型的间隔在 100-300 之间.我会说你至少需要 50D 才能达到最低的精度.如果您选择较少的维度,您将开始失去高维空间的 ..
发布时间:2022-01-02 17:43:40 AI人工智能

使用 word2vec 将单词分类为类别

背景 我有一些带有一些样本数据的向量,每个向量都有一个类别名称(地点、颜色、名称). ['john','jay','dan','nathan','bob'] ->'名字'['黄色'、'红色'、'绿色'] ->'颜色'['东京'、'北京'、'华盛顿'、'孟买'] ->'地方' 我的目标是训练一个模型,该模型接受一个新的输入字符串并预测它属于哪个类别.例如,如果新输入是“紫色",那么我应该能 ..
发布时间:2022-01-02 17:42:35 AI人工智能

估计句子之间“近似"语义相似性的一些好方法是什么?

过去几个小时我一直在查看 SO 上的 nlp 标签,我相信我没有错过任何东西,但如果我错过了,请务必指出问题所在. 与此同时,我将描述我正在尝试做的事情.我在许多帖子中观察到的一个常见概念是语义相似性很难.例如,从这篇帖子中,公认的解决方案建议如下: 首先,无论是从计算的角度语言学和理论语言学都不清楚是什么术语“语义相似性"的含义正是如此.....考虑以下示例:皮特和罗布在车站附近发现了一 ..
发布时间:2022-01-02 17:40:30 AI人工智能