如何提取数字(以及比较形容词或范围) [英] How to extract numbers (along with comparison adjectives or ranges)

查看:28
本文介绍了如何提取数字(以及比较形容词或范围)的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在处理两个使用Python语言的NLP项目,它们的任务都类似于从语句中提取数值和比较运算符,如下所示:

"... greater than $10 ... ",
"... weight not more than 200lbs ...",
"... height in 5-7 feets ...",
"... faster than 30 seconds ... "

我找到了两种不同的方法来解决此问题:

如何才能从这样的句子中解析出数值?我认为这是NLP中的常见任务。


所需的输出如下所示:

输入:

"大于10美元"

输出:

{'value': 10, 'unit': 'dollar', 'relation': 'gt', 'position': 3}

推荐答案

我可能会将其视为组块任务,并结合使用nltk的词性标记器及其正则表达式组块。这将允许您基于句子中单词的词性而不是单词本身来定义正则表达式。对于给定的句子,您可以执行以下操作:

import nltk

# example sentence
sent = 'send me a table with a price greater than $100'

我要做的第一件事是稍微修改您的句子,这样您就不会太混淆词性标记器。以下是您可以进行更改的一些示例(使用非常简单的正则表达式),但您可以尝试并查看是否还有其他更改:

$10 -> 10 dollars
200lbs -> 200 lbs
5-7 -> 5 - 7 OR 5 to 7

所以我们得到:

sent = 'send me a table with a price greater than 100 dollars'

现在你可以从你的句子中获得词性:

sent_pos = nltk.pos_tag(sent.split())
print(sent_pos)

[('send', 'VB'), ('me', 'PRP'), ('a', 'DT'), ('table', 'NN'), ('with', 'IN'), ('a', 'DT'), ('price', 'NN'), ('greater', 'JJR'), ('than', 'IN'), ('100', 'CD'), ('dollars', 'NNS')]

我们现在可以创建chunker,它将根据(相对)简单的正则表达式对您的POS标记文本进行分块:

grammar = 'NumericalPhrase: {<NN|NNS>?<RB>?<JJR><IN><CD><NN|NNS>?}'
parser = nltk.RegexpParser(grammar)

这定义了一个语法分析器,该语法将数字短语(我们将称之为您的短语类型)分块。它将数字短语定义为:一个可选名词,后跟一个可选副词,然后是一个比较级形容词、一个介词、一个数字和一个可选名词。 这只是一个关于如何定义短语的建议,但我认为这将比对单词本身使用正则表达式简单得多。

要获取您的短语,您可以执行以下操作:

print(parser.parse(sent_pos))
(S
  send/VB
  me/PRP
  a/DT
  table/NN
  with/IN
  a/DT
  (NumericalPhrase price/NN greater/JJR than/IN 100/CD dollars/NNS))  

或仅获取您可以使用的短语:

print([tree.leaves() for tree in parser.parse(sent_pos).subtrees() if tree.label() == 'NumericalPhrase'])

[[('price', 'NN'),
  ('greater', 'JJR'),
  ('than', 'IN'),
  ('100', 'CD'),
  ('dollars', 'NNS')]]

这篇关于如何提取数字(以及比较形容词或范围)的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆