machine-learning相关内容

如何进行 NLP 任务以识别意图和插槽

我想编写一个程序来询问有关天气的问题.我应该开始研究哪些算法和技术. 例如:芝加哥这个周末会晴天吗?我想知道意图 = 天气查询,日期 = 这个周末,位置 = 芝加哥. 用户可以用多种形式表达相同的查询. 我想解决一些受限制的形式并寻找有关如何开始的想法.解决方案必须足够好. 解决方案 由于您的输入是自然语言形式,因此最好的方法是开始研究它,首先是解析句子结构.并通过 NE ..

用于情感分析的训练数据

我可以从哪里获得在企业领域中已被归类为正面/负面情绪的文档语料库?我想要大量为公司提供评论的文档,例如分析师和媒体提供的公司评论. 我发现有产品和电影评论的语料库.是否有业务领域的语料库,包括与业务语言相匹配的公司评论? 解决方案 http://www.cs.cornell.edu/home/llee/data/ http://mpqa.cs.pitt.edu/corpora/ ..

word2vec:负采样(外行术语)?

我正在阅读下面的论文,但在理解负采样的概念方面遇到了一些麻烦. http://arxiv.org/pdf/1402.3722v1.pdf 有人可以帮忙吗? 解决方案 word2vec 的想法是最大化出现在一起的单词的向量之间的相似性(点积)(在上下文中)彼此)在文本中,并最小化不相似的单词的相似性.在您链接到的论文的等式 (3) 中,暂时忽略求幂.你有 v_c .v_w-- ..
发布时间:2022-01-02 17:38:53 AI人工智能

nltk:如何将周围的单词词形还原?

以下代码打印出leaf: from nltk.stem.wordnet import WordNetLemmatizerlem = WordNetLemmatizer()打印(lem.lemmatize('叶')) 这可能准确,也可能不准确,具体取决于周围环境,例如玛丽离开房间 vs. 露珠从树叶上落下.我如何告诉 NLTK 在考虑周围上下文的情况下对单词进行词形还原? 解决方案 TL ..
发布时间:2022-01-02 17:36:10 AI人工智能

如何使用新(测试)数据重新创建相同的 DocumentTermMatrix

假设我有基于文本的训练数据和测试数据.更具体地说,我有两个数据集 - 训练和测试 - 它们都有一列包含文本并且对手头的工作感兴趣. 我在 R 中使用了 tm 包来处理训练数据集中的文本列.去除空格、标点符号和停用词后,我提取了语料库,最后创建了一个 1 克的文档术语矩阵,其中包含每个文档中单词的频率/计数.然后我采用了预先确定的截止值,比如 50,只保留那些计数大于 50 的术语. 在 ..
发布时间:2022-01-02 17:30:24 AI人工智能

没有名为“gensim"的模块,但已经安装了它

我遇到了这个错误问题,我在基本(root)环境的 jupyter notebook 中运行了这个脚本,日志说已经安装了 gensim 库,我已经运行了命令 !pip install gensim 在我导入它之前,但它仍然无法导入,错误说 ModuleNotFoundError: No module named 'gensim' !pip install gensim进口原件从 gensim.mo ..

从顺序 Keras 模型中保存特定层

我正在构建一个自动编码器并训练模型,以便目标输出与输入相同. 我使用的是顺序 Keras 模型.当我使用 model.predict 时,我希望它从特定层(Dense256)而不是输出导出数组. 这是我目前的模型: model = Sequential()模型.添加(密集(4096,input_dim = x.shape[1],激活='relu'))模型.添加(密集(2048,激活= ..
发布时间:2021-12-31 17:12:13 AI人工智能

Caffe:如果两层反向传播梯度到同一个底部 blob 会发生什么?

我想知道如果我有一个生成底部 blob 的层,该层会被两个后续层进一步消耗,这两个层都会在反向传播阶段生成一些梯度来填充 bottom.diff.两个梯度会加起来形成最终的梯度吗?或者,只有其中一个可以存活?在我的理解中,Caffe 层需要在用一些计算的梯度填充之前将 bottom.diff 设置为全零,对吗?memset 会清除其他层已经计算的梯度吗?谢谢! 解决方案 使用多个损失层并不 ..

不知道批量大小的 3-D 批量矩阵乘法

我目前正在编写一个 tensorflow 程序,该程序需要将一批二维张量(形状为 [None,...] 的 3-D 张量)与一个二维矩阵相乘W.这需要将 W 转换为 3-D 矩阵,这需要知道批量大小. 我无法做到这一点;tf.batch_matmul 不再可用,x.get_shape().as_list()[0] 返回 None,对于整形无效/平铺操作.有什么建议?我看到有些人使用 conf ..

对于张量流中的二元分类,成本函数总是返回零

我在 tensorflow 中编写了以下二进制分类程序,但有问题.无论输入是什么,成本始终归零.我正在尝试调试一个更大的程序,它没有从数据中学习任何东西.我已经将至少一个错误缩小到成本函数总是返回零.给定的程序正在使用一些随机输入并且有同样的问题.self.X_train 和 self.y_train 原本应该从文件中读取,函数 self.predict() 有更多层形成前馈神经网络. 将 nu ..

tf.keras 损失变为 NaN

我正在 tf.keras 中编写一个 3 层的神经网络.我的数据集是 MNIST 数据集.我减少了数据集中的示例数量,因此运行时间较低.这是我的代码: 将 tensorflow 导入为 tf从 tensorflow.keras 导入层将 numpy 导入为 np将熊猫导入为 pd!git 克隆 https://github.com/DanorRon/data%cd 数据!ls批量大小 = 32 ..
发布时间:2021-12-31 17:09:34 AI人工智能

为什么“softmax_cross_entropy_with_logits_v2"反向传播到标签

我想知道为什么在 Tensorflow 1.5.0 及更高版本中,softmax_cross_entropy_with_logits_v2 默认为反向传播到标签和 logits.在哪些应用/场景中您希望反向传播到标签中? 解决方案 我看到下面的 github issue 提出了同样的问题,你可能想关注它以备将来更新. https://github.com/tensorflow/min ..

Caffe 输出层数精度

我修改了 Caffe MNIST 示例 以对 3 类图片.我注意到的一件事是,如果我将输出层的数量指定为 3,那么我的测试准确度会急剧下降——下降到 40% 的低范围.但是,如果我 +1 并且有 4 个输出层,则结果在 95% 范围内. 我在我的数据集中添加了一个额外的图像类(所以 4 个类)并注意到同样的事情 - 如果输出层的数量与类的数量相同,那么结果是可怕的,如果它是相同的 +1,然后效果 ..

Tensorflow 中的加权训练示例

给定一组用于训练神经网络的训练样例,我们希望对训练中的各种样例赋予或多或少的权重.我们根据示例的“价值"(例如有效性或置信度)的一些标准,将介于 0.0 和 1.0 之间的权重应用于每个示例.这如何在 Tensorflow 中实现,尤其是在使用 tf.nn.sparse_softmax_cross_entropy_with_logits() 时? 解决方案 在最常见的情况下,您使用 log ..

Keras 中的最大随时间池化

我在 Keras 中使用 CNN 来完成 NLP 任务,而不是最大池化,我试图实现随时间推移的最大池化. 关于如何实现这一目标的任何想法/技巧? 我所说的最大值随时间池化的意思是池化最高值,无论它们在向量中的哪个位置 解决方案 假设你的数据形状是 (batch_size, seq_len, features) 你可以申请: seq_model = Reshape((seq_l ..

如何在 Keras 中进行逐点分类交叉熵损失?

我有一个生成 4D 输出张量的网络,其中空间维度(~像素)中每个位置的值将被解释为该位置的类概率.换句话说,输出是(num_batches, height, width, num_classes).我有相同大小的标签,其中真正的类被编码为 one-hot.我想使用它来计算 categorical-crossentropy 损失. 问题 #1:K.softmax 函数需要一个 2D 张量 (n ..