machine-learning 第11页 - IT屋-程序员软件开发技术分享社区

如何使用 torchvision.datasets.Imagefolder 将数据拆分为训练集和测试集?

在我的自定义数据集中，一种图像在一个文件夹中，torchvision.datasets.Imagefolder 可以处理，但如何将数据集拆分为训练和测试? 解决方案您可以使用 torch.utils.data.Subset 将您的 ImageFolder 数据集拆分为基于示例索引的训练和测试. 例如: orig_set = torchvision.datasets.Imagefold ..

发布时间：2022-01-06 19:21:05 machine-learning image-processing computer-vision pytorch AI人工智能

pytorch:“不支持多目标"；错误信息

所以我想对一些 (3, 50, 50) 图片进行分类.首先，我从没有数据加载器或批处理的文件中加载了数据集，它起作用了.现在，在添加了这两件事之后，我得到了那个错误: RuntimeError: multi-target not supported at/pytorch/aten/src/THCUNN/generic/ClassNLLCriterion.cu:15 我在互联网上找到了很多答案， ..

发布时间：2022-01-06 19:18:53 python machine-learning pytorch tensor AI人工智能

PyTorch next(iter(training_loader)) 速度极慢，数据简单，num_workers 不行吗?

这里的 x_dat 和 y_dat 只是非常长的一维张量. class FunctionDataset(Dataset):def __init__(self):x_dat, y_dat = data_product()self.length = len(x_dat)self.y_dat = y_datself.x_dat = x_datdef __getitem__(self, index):样 ..

发布时间：2022-01-06 19:17:52 python performance machine-learning iterator pytorch AI人工智能

Pytorch 的随机选择?

我有一个图片张量，想从中随机选择.我正在寻找与 np.random.choice() 等效的东西. 导入火炬图片 = torch.randint(0, 256, (1000, 28, 28, 3)) 假设我想要其中的 10 张图片. 解决方案 torch 没有 np.random.choice() 的等效实现，请参阅讨论 ..

发布时间：2022-01-06 19:16:16 python python-3.x numpy machine-learning pytorch AI人工智能

PyTorch Autograd 自动微分功能

我只是想知道，PyTorch 如何跟踪张量上的操作(在 .requires_grad 被设置为 True 之后，它后来如何自动计算梯度.请帮助我理解 autograd 背后的想法.谢谢. 解决方案这是个好问题！通常，自动微分(AutoDiff)的思想是基于多变量链式法则，即. 这意味着您可以通过“代理"变量 y 表示 x 相对于 z 的导数；事实上，这允许您将几乎所有操作分解为一堆更简 ..

发布时间：2022-01-06 19:10:14 python machine-learning computer-vision pytorch AI人工智能

LSTM 自动编码器总是返回输入序列的平均值

我正在尝试使用 PyTorch 构建一个非常简单的 LSTM 自动编码器.我总是用相同的数据训练它: x = torch.Tensor([[0.0], [0.1], [0.2], [0.3], [0.4]]) 我按照这个链接构建了我的模型: inputs = Input(shape=(timesteps, input_dim))编码 = LSTM(latent_dim)(输入)解码 = 重复 ..

发布时间：2022-01-06 19:08:28 python machine-learning lstm pytorch AI人工智能

Pytorch:如何创建不来自衍生品的更新规则?

我想实现以下算法，摘自本书第 13.6 节: 不明白如何在pytorch中实现更新规则(w的规则与theta的规则非常相似). 据我所知，torch 需要 loss.backwward() 的损失. 这个表格似乎不适用于引用的算法. 我仍然确定在 pytorch 中实现此类更新规则的正确方法. 鉴于 V(s,w) 是神经网络的输出，由 w 参数化，非常感谢应该如何更新 ..

发布时间：2022-01-06 19:08:22 python machine-learning pytorch reinforcement-learning backpropagation AI人工智能

在 Python 中将分类数据转换为数值数据

我有一个数据集.它的一列 - “关键字" - 包含分类数据.我尝试使用的机器学习算法仅采用数字数据.我想将“关键字"列转换为数值 - 我该怎么做?使用自然语言处理?一袋话? 我尝试了以下方法，但我得到了 ValueError: Expected 2D array, got 1D array instead. from sklearn.feature_extraction.text impo ..

发布时间：2022-01-02 18:01:41 python machine-learning encoding nlp categorical-data AI人工智能

如何连接词向量形成句子向量

我在一些文章(Tomas Mikolov...)中了解到，形成句子向量的更好方法是连接词向量. 但是由于我的数学很笨拙，我仍然不确定细节. 例如假设词向量的维数为m；并且一个句子有 n 个单词. 连接操作的正确结果是什么? 它是 1 x m*n 的行向量吗?还是一个 m x n 的矩阵? 解决方案组合嵌入向量至少有三种常用的方法；(a) 求和，(b) 求和 ..

发布时间：2022-01-02 18:00:48 machine-learning deep-learning nlp word2vec AI人工智能

如何下载 sklearn 的数据集?- Python

在 NLTK 中有一个 nltk.download() 函数来下载 NLP 套件附带的数据集. 在 sklearn 中，它谈到加载数据集(http://scikit-learn.org/stable/datasets/) 并从 http://mldata.org/ 获取数据，但对于其余的数据集，说明是从源下载. 我应该在哪里保存从源代码下载的数据? 将数据保存到正确目录后，我可以从我的 ..

发布时间：2022-01-02 17:58:59 python machine-learning dataset nlp scikit-learn AI人工智能

有趣的 NLP/机器学习风格项目——分析隐私政策

我想就分配给我的一个有趣问题提供一些意见.任务是分析成百上千的隐私政策，并确定它们的核心特征.例如，他们是否获取用户的位置?他们是否与第三方共享/销售?等. 我与一些人交谈过，阅读了很多关于隐私政策的内容，并自己思考了这个问题.这是我目前的攻击计划: 首先，阅读大量隐私，找到满足某个特征的主要“线索"或指标.例如，如果数百个隐私政策具有相同的行:“我们将获取您的位置."，则该行可以 1 ..

发布时间：2022-01-02 17:55:40 language-agnostic artificial-intelligence nlp machine-learning AI人工智能

如何为 sklearn CountVectorizer 设置自定义停用词?

我正在尝试在非英语文本数据集上运行 LDA(潜在狄利克雷分配). 从 sklearn 的教程中，您可以计算输入 LDA 的单词的词频: tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2,max_features=n_features,stop_words='英文') 它具有内置的停用词功能，我认为仅适用于英语.我该如何使用我自己的 ..

发布时间：2022-01-02 17:52:20 python machine-learning scikit-learn nlp AI人工智能

为什么这些词被认为是停用词?

我没有自然语言处理方面的正式背景，想知道 NLP 方面的人是否可以对此有所了解.我正在使用 NLTK 库，我专门研究了这个包提供的停用词功能: 在 [80] 中:nltk.corpus.stopwords.words('english') 出[80]: ['我', '我', '我的',“我自己"，“我们"，“我们的"，“我们的"，“我们自己"、“你们"、“你们的"、“你们的"、“ ..

发布时间：2022-01-02 17:52:13 language-agnostic machine-learning nlp nltk stop-words AI人工智能

如何将 TFIDF 特征与其他特征结合起来

我有一个经典的 NLP 问题，我必须将新闻分类为假新闻或真实新闻. 我创建了两组功能: A) 二元词频-逆文档频率 B) 使用 pattern.en (https://www.clips.uantwerpen.be/pages/pattern-en) 作为文本的主观性、极性、#stopwords、#verbs、#subject、关系语法等...... 将 TFIDF 特征与 ..

发布时间：2022-01-02 17:47:59 machine-learning nlp text-analysis AI人工智能

从句子中提取“有用"信息?

我目前正在尝试理解这种形式的句子: 问题更多的是机顶盒而不是电视.重启机顶盒解决问题. 我对自然语言处理完全陌生，并开始使用 Python 的 NLTK 包来弄脏我的手.但是，我想知道是否有人可以向我概述实现这一目标所涉及的高级步骤. 我试图做的是确定在这种情况下是什么问题，机顶盒以及所采取的行动是否解决了问题，因此在这种情况下，是的因为重新启动修复了问题.所以如果所有的句子都 ..

发布时间：2022-01-02 17:46:48 language-agnostic nlp machine-learning nltk AI人工智能

使用 scikit learn 获取信息量最大的特征有问题吗?

我正在尝试从文本语料库中获取信息最丰富的特征.从这个回答良好的问题我知道可以按如下方式完成此任务: def most_informative_feature_for_class(vectorizer,classifier,classlabel,n=10):labelid = list(classifier.classes_).index(classlabel)feature_names = ..

发布时间：2022-01-02 17:45:57 python pandas machine-learning nlp scikit-learn AI人工智能

Word2Vec:维数

我正在使用 Word2Vec 和大约 11,000,000 个标记的数据集，希望同时进行两个词的相似性(作为下游任务的同义词提取的一部分)，但我不太清楚应该与 Word2Vec 一起使用多少维.有没有人根据标记/句子的数量对要考虑的维度范围有很好的启发? 解决方案典型的间隔在 100-300 之间.我会说你至少需要 50D 才能达到最低的精度.如果您选择较少的维度，您将开始失去高维空间的 ..

发布时间：2022-01-02 17:43:40 machine-learning nlp word2vec AI人工智能

Brown聚类算法的输出是什么意思?

我已经从 https://github.com/percyliang/brown-cluster 运行了棕色聚类算法还有一个 python 实现 https://github.com/mheilman/tan-clustering.他们都为每个唯一的标记提供某种二进制和另一个整数.例如: 0 610 追 3110狗21110鼠标2个1111猫2 二进制和整数是什么意思? 从第一个 lin ..

发布时间：2022-01-02 17:43:09 python algorithm machine-learning nlp cluster-analysis AI人工智能

使用 word2vec 将单词分类为类别

背景我有一些带有一些样本数据的向量，每个向量都有一个类别名称(地点、颜色、名称). ['john','jay','dan','nathan','bob'] ->'名字'['黄色'、'红色'、'绿色'] ->'颜色'['东京'、'北京'、'华盛顿'、'孟买'] ->'地方' 我的目标是训练一个模型，该模型接受一个新的输入字符串并预测它属于哪个类别.例如，如果新输入是“紫色"，那么我应该能 ..

发布时间：2022-01-02 17:42:35 python machine-learning nlp word2vec gensim AI人工智能

估计句子之间“近似"语义相似性的一些好方法是什么?

过去几个小时我一直在查看 SO 上的 nlp 标签，我相信我没有错过任何东西，但如果我错过了，请务必指出问题所在. 与此同时，我将描述我正在尝试做的事情.我在许多帖子中观察到的一个常见概念是语义相似性很难.例如，从这篇帖子中，公认的解决方案建议如下: 首先，无论是从计算的角度语言学和理论语言学都不清楚是什么术语“语义相似性"的含义正是如此.....考虑以下示例:皮特和罗布在车站附近发现了一 ..

发布时间：2022-01-02 17:40:30 python nlp machine-learning data-mining nltk AI人工智能

machine-learning相关内容