如何使用Bert进行长文本分类? [英] How to use Bert for long text classification?

查看:233
本文介绍了如何使用Bert进行长文本分类?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我们知道BERT有tokens的最大长度限制=512,所以如果一篇文章的长度远远大于512,比如10000个tokens in text如何使用 BERT?

We know that BERT has a max length limit of tokens = 512, So if an article has a length of much bigger than 512, such as 10000 tokens in text How can BERT be used?

推荐答案

你基本上有三个选择:

  1. 您删除了较长的文本,只使用了前 512 个令牌.最初的 BERT 实现(可能还有其他实现)会自动截断较长的序列.对于大多数情况,此选项已足够.
  2. 您可以将文本拆分为多个潜台词,对每个潜台词进行分类并将结果重新组合在一起(例如,选择为大多数潜台词预测的类别).这个选项显然更贵.
  3. 您甚至可以按照 此讨论.

我建议尝试选项 1,并且仅当这还不足以考虑其他选项时.

I would suggest to try option 1, and only if this is not good enough to consider the other options.

这篇关于如何使用Bert进行长文本分类?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆