避免内存溢出错误的训练NER模型 [英] Train NER model avoiding outofmemory error

查看：26 发布时间：2022/4/22 23:11:07 stanford-nlp

本文介绍了避免内存溢出错误的训练NER模型的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我正在尝试使用stanford-nlp library训练NER模型。我有一个所需格式的文件，大小为6 GB。配置文件：

usePrevSequences=true
useClassFeature=true
useTypeSeqs2=true
useSequences=true
wordShape=chris2useLC
useTypeySequences=true
useDisjunctive=true
noMidNGrams=true
serializeTo=ner-model50.ser.gz
maxNGramLeng=6
useNGrams=true
usePrev=true
useNext=true
maxLeft=1
trainFile=trainData
map=word=0,answer=1
useWord=true
useTypeSeqs=true

按照文档中的建议，每句话都用空行分隔。因此，当我使用mx25g运行该命令时：

java -mx25g -cp stanford-ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop config.prop

我收到错误：

线程"main"java.lang.OutOfMemoyError中出现异常：Java堆空间

建议从库的FAQ page将文件拆分为多个文件，以防出现内存错误。

为此，您需要使用trainFileList选项而不是trainFile选项来更改配置文件。现在我有多个文件，每个大小约为250MB。运行同一命令时出现以下错误：

线程"main"java.lang.OutOfMemoyError中的异常：超出GC开销限制

因此，拆分文件似乎无济于事。你认为拆分成更小的文件会有帮助吗？或者这无关紧要？有什么方法可以忽略这个问题吗？任何洞察都是有用的。提前谢谢。

避免内存溢出错误的训练NER模型 [英] Train NER model avoiding outofmemory error

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录关闭

避免内存溢出错误的训练NER模型 [英] Train NER model avoiding outofmemory error

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录 关闭

登录关闭