存在标点符号时,LUIS在发声中插入空格,导致实体被错误地解析 [英] LUIS inserts whitespace in utterances when punctuation present causing entity getting incorrectly parsed

查看:70
本文介绍了存在标点符号时,LUIS在发声中插入空格,导致实体被错误地解析的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我在这里使用路易斯股票代码示例, GitHub MicrosoftBotBuilder示例,它可以很好地工作并且可以识别出发声中的实体,但是世界上有一些股票行情自动收录器,例如 bt.a

I am playing around with the Luis stock ticker example here, GitHub MicrosoftBotBuilder Example, it works well and the entity in the utterances is identified but there are stock tickers in the world that have periods in them such as bt.a

默认情况下,Luis会对在标点符号周围插入断行符的话语进行预处理,因此,"什么是bt的价格."的发音变为"什么是bt的价格". a ",因此路易斯认为该实体是" bt "而不是" bt.a "

Luis by default pre-processes utterances where word breaks are inserted around punctuation characters and therefore an utterance of "what is price of bt.a" becomes "what is price of bt. a" and therefore Luis thinks the entity is "bt" instead of "bt.a"

有人知道如何解决这个问题吗?谢谢

Does anyone know how to get around this? Thx

推荐答案

这是LUIS标记说话的方式,我认为它不会在不久的将来改变. 我认为您可以研究以下两种解决方案之一:

This is how LUIS tokenizes utterances and I don't think it'll change int he near future. I think you can investigate one of the 2 solutions:

  1. 对发声进行预处理,并使用标点符号对实体进行规范化(可能将它们保存在地图中),并在调用LUIS并提取了实体时逆转该过程.
  2. 使用短语列表功能,并以令牌化形式添加LUIS遗漏的实体,以发声方式标记实体令牌,然后重新训练模型(建议您在应用的克隆中尝试这样做,以免丢失当前的任何进展)

这篇关于存在标点符号时,LUIS在发声中插入空格,导致实体被错误地解析的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆