nlp相关内容

如何在没有 IOB 标签的情况下使用 Hugging Face 的转换器管道重建文本实体?

我一直在寻找将 Hugging Face 的管道用于 NER(命名实体识别).但是,它以内-外-开始 (IOB) 格式返回实体标签,但 没有 IOB 标签.所以我无法将管道的输出映射回我的原始文本.此外,输出以 BERT 标记化格式进行屏蔽(默认模型为 BERT-large). 例如: 来自转换器导入管道nlp_bert_lg = 管道('ner')print(nlp_bert_lg('H ..

拆分包含字母和数字的字符串,在 PHP 中不被任何特定的分隔符分隔

目前我正在开发一个 Web 应用程序来获取 Twitter 流并尝试自己创建一个自然语言处理. 由于我的数据来自 Twitter(限制为 140 个字符),因此缩短了许多单词,或者在这种情况下,省略了空格. 例如: “嗨,我叫鲍勃.我 19 岁,身高 170 厘米" 应该被标记为: - 嗨- 我的- 名称- 鲍勃- 一世- 19- 哟- 170- 厘米- 高 注意19和19yo ..
发布时间:2022-01-02 17:55:49 PHP

有趣的 NLP/机器学习风格项目——分析隐私政策

我想就分配给我的一个有趣问题提供一些意见.任务是分析成百上千的隐私政策,并确定它们的核心特征.例如,他们是否获取用户的位置?他们是否与第三方共享/销售?等. 我与一些人交谈过,阅读了很多关于隐私政策的内容,并自己思考了这个问题.这是我目前的攻击计划: 首先,阅读大量隐私,找到满足某个特征的主要“线索"或指标.例如,如果数百个隐私政策具有相同的行:“我们将获取您的位置.",则该行可以 1 ..

在 Python 中口头格式化一个数字

pythonistas 如何将数字打印为单词,类似于 Common Lisp 代码: [3]>(格式 t "~r" 1e25)九千亿、九百九十九千亿、九百九十九千亿、七百七十八亿亿、一千九千六亿、三千八亿、三亿六千一百万、二十万一万六千 解决方案 python 核心中没有,但是有 3rd 方库 num2words >>>从 num2words 导入 num2words>>>num2word ..
发布时间:2022-01-02 17:55:30 Python

字节 vs 字符 vs 单词 - n-gram 的粒度是什么?

至少可以考虑 3 种类型的 n-gram 来表示文本文档: 字节级 n-grams 字符级 n-grams 词级 n-grams 我不清楚哪一个应该用于给定的任务(聚类、分类等).我在某处读到,当文本包含拼写错误时,字符级 n-gram 比单词级 n-gram 更受欢迎,因此“玛丽爱狗"与“玛丽 lpves 狗"保持相似. 在选择“正确"表示时是否还有其他标准需要考虑? ..
发布时间:2022-01-02 17:55:24 AI人工智能

句子分类(Categorization)

我一直在阅读文本分类,发现了几个可以用于分类的Java工具,但我仍然想知道:文本分类和句子分类一样吗! 有没有专注于句子分类的工具? 解决方案 “文本分类"和“句子分类"之间没有形式上的区别.毕竟,句子是一种文本.但一般来说,当人们谈论文本分类时,恕我直言,他们指的是更大的文本单元,例如一篇文章、评论或演讲.将政治家的演讲归类为民主党或共和党比将推文归类要容易得多.当每个实例有大量文 ..
发布时间:2022-01-02 17:55:15 Java开发

统计句子建议模型,如拼写检查

已经有可用的拼写检查模型,可帮助我们根据经过训练的正确拼写语料库找到建议的正确拼写.是否可以将粒度从字母表中增加到“单词",以便我们甚至可以有短语建议,这样如果输入了不正确的短语,那么它应该从正确短语的语料库中建议最接近的正确短语,当然它是从一个有效短语列表. 是否有任何 Python 库已经实现了此功能,或者如何针对现有的大型黄金标准短语语料库进行此操作以获得统计相关的建议? 注意: ..
发布时间:2022-01-02 17:55:03 Python

根据字典数据框替换语料库中的单词

我有兴趣根据由两列数据框组成的字典替换 tm 语料库对象中的所有单词,其中第一列是要匹配的单词,第二列是替换词. 我坚持使用 translate 功能.我看到了 这个答案,但我无法将其转换为要传递给 tm_map 的函数. 请考虑以下 MWE 图书馆(tm)docs ..
发布时间:2022-01-02 17:54:46 其他开发

如何提取文本文件中与正则表达式匹配的行号

我正在做一个关于统计机器翻译的项目,其中我需要从匹配正则表达式(任何带有粒子“out"的非分隔短语动词)的带 POS 标记的文本文件中提取行号,然后写文件的行号(在 python 中). 我有这个正则表达式:'\w*_VB.?\sout_RP' 和我的 POS 标签文本文件:'Corpus.txt'.我想得到一个行号与上述正则表达式匹配的输出文件,并且输出文件每行应该只有一个行号(没有空行) ..
发布时间:2022-01-02 17:54:39 Python

在 Windows 上安装 rasa

我正在尝试在 Windows 10 上安装 rasa.我已经安装了 Python 3.6 &点.当我运行 pip install rasa_nlu 时,出现以下错误: c:\program files (x86)\python36-32\include\pyconfig.h(222):致命错误 C1083:无法打开包含文件:'basetsd.h':没有那个文件或目录错误:命令“C:\\Progr ..
发布时间:2022-01-02 17:54:32 Python

分析句子的意思

是否有任何工具可以分析给定句子的含义?非常感谢您的建议. 提前致谢! 解决方案 Some 自然语言理解工具可以分析句子的意思,包括NLTK 和尝试控制英语.话语表示结构 和 语义解析器 具有类似目的. 还有几个解析器可以用来生成意思表示来自正在解析的文本. ..
发布时间:2022-01-02 17:54:21 其他开发

用 NLTK 检查英语语法

我开始使用NLTK库,我想检查一个英文句子是否正确与否. 示例: “他看到鲍勃" - 不正确 “他看到鲍勃" - 正确 我阅读了这个,但这对我来说很难.我需要一个更简单的例子. 解决方案 语法检查是 NLP 研究的一个活跃领域,因此目前还没有 100% 的答案(甚至可能不是 80% 的答案).最简单的方法(或至少是合理的基线)是 n-gram 语言模型(将 LM 概 ..
发布时间:2022-01-02 17:54:12 其他开发

使用 NLTK 简化法语 POS 标签集

如何简化斯坦福法语词性标注器返回的词性标签?将一个英语句子读入 NLTK,找到每个单词的词性,然后使用 map_tag() 来简化标签集是相当容易的: #!/usr/bin/python# -*- 编码:utf-8 -*-导入操作系统从 nltk.tag.stanford 导入 POSTagger从 nltk.tokenize 导入 word_tokenize从 nltk.tag 导入 map_ ..
发布时间:2022-01-02 17:54:04 Python

从 NLP 中的名词阶段提取名词

谁能告诉我如何从以下输出中只提取名词: 我使用以下过程根据给定的语法对字符串“Give me the review of movie"进行了标记和解析:- sent=nltk.word_tokenize(msg)解析器=nltk.ChartParser(语法)树=parser.nbest_parse(发送)对于树中的树:打印树令牌=find_all_NP(树)token1=nltk.wor ..
发布时间:2022-01-02 17:53:55 Python

TurboParser 的依赖解析输出是什么意思?

我一直在尝试使用由 CMU 的 TurboParser 生成的依赖解析树.它完美无缺.然而,问题是文档很少.我需要准确理解他们解析器的输出.例如,句子“我用统计解决了问题."生成以下输出: 1 I _ PRP PRP _ 2 SUB2 解决了_ VBD VBD _ 0 ROOT3 _ DT DT _ 4 NMOD4 问题 _ NN NN _ 2 OBJ5 带 _ IN IN _ 2 VMOD6 ..
发布时间:2022-01-02 17:53:41 其他开发

我有一个国家代码列表和一个语言代码列表.如何从国家代码映射到语言代码?

当用户访问该网站时,我可以获得他们的国家/地区代码.我想用它来设置默认语言(他们可以稍后在必要时进行修改,只是根据他们所在的国家/地区对他们可能说的语言进行一般猜测). 是否存在从国家/地区代码到语言代码的明确映射?我找不到.我知道在一个特定的国家并不是每个人都说同一种语言,但我只需要一个通用的映射,用户可以稍后手动选择他们的语言. 解决方案 搜索“国家语言映射"会出现这个 按国家/ ..
发布时间:2022-01-02 17:53:27 其他开发

斯坦福解析器多线程使用

从 2.0 版起,Stanford Parser 现在是“线程安全的"> (02.03.2012).我目前正在运行命令行工具,但无法弄清楚如何通过线程化程序来利用我的多核. 过去,这个问题的回答是“Stanford Parser 不是线程安全的",正如常见问题解答中所说的那样.我希望能找到一个成功线程化最新版本的人. 我曾尝试使用 -t 标志(-t10 和 -tLLP),因为这是我在搜 ..
发布时间:2022-01-02 17:53:18 其他开发

动词的过去时如何理解?

获得动词过去时的最有效方法是什么,最好是不使用大量内存的 NLP 框架? 例如 住到:住过 尝试:尝试过 点击:点击 煮沸:煮沸 卖给:出售 我自己写了一些快速的东西(堆栈溢出不会让我自己回答),它似乎适用于规则动词(例如该列表的前 4 个),但不适用于不规则动词:http://pastebin.com/Txh76Dnb edit: 感谢大家的回复,好像没有字典是因 ..
发布时间:2022-01-02 17:53:10 Java开发