如何使用Bert进行长文本分类? [英] How to use Bert for long text classification?

查看：233 发布时间：2021/6/7 20:34:18 nlp text-classification bert-language-model

本文介绍了如何使用Bert进行长文本分类?的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我们知道BERT有tokens的最大长度限制=512，所以如果一篇文章的长度远远大于512，比如10000个tokens in text如何使用 BERT?

We know that BERT has a max length limit of tokens = 512, So if an article has a length of much bigger than 512, such as 10000 tokens in text How can BERT be used?

推荐答案

你基本上有三个选择:

您删除了较长的文本，只使用了前 512 个令牌.最初的 BERT 实现(可能还有其他实现)会自动截断较长的序列.对于大多数情况，此选项已足够.
您可以将文本拆分为多个潜台词，对每个潜台词进行分类并将结果重新组合在一起(例如，选择为大多数潜台词预测的类别).这个选项显然更贵.
您甚至可以按照此讨论.

我建议尝试选项 1，并且仅当这还不足以考虑其他选项时.

I would suggest to try option 1, and only if this is not good enough to consider the other options.

这篇关于如何使用Bert进行长文本分类?的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！

查看全文

如何使用Bert进行长文本分类? [英] How to use Bert for long text classification?

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录关闭

如何使用Bert进行长文本分类? [英] How to use Bert for long text classification?

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录 关闭

登录关闭