pylucene相关内容

pylucene的自定义标记生成器,仅基于下划线标记文本(保留空格)

我是pylucene的新手,我正在尝试构建一个自定义分析器,该分析器仅在下划线的基础上对文本进行标记化,即它应保留空白.示例:应将"Hi_this is_awesome"令牌标记为["hi","this is","awesome"]令牌. 从各种代码示例中,我了解到我需要为CustomTokenizer重写increasingToken方法,并编写一个CustomAnalyzer,Token ..
发布时间:2021-05-30 21:44:58 Python

如何从Lucene 8.6.1索引中获取所有令牌的列表?

我看过如何可以从Solr/Lucene索引中获取所有令牌的列表?,但是Lucene 8.6.1似乎没有提供 IndexReader.terms().它是否已被移动或更换?有没有一种比更简单的方法“>这个答案? 解决方案 某些历史记录 你问:我只是想知道 IndexReader.terms() 是否已经移动或被替代品取代. Lucene v3方法 AtomicReader . v ..
发布时间:2021-05-30 21:44:52 Java开发

在Django中使用pylucene时执行initVM和attachCurrentThread的最佳位置在哪里

我在一个基于django的站点中使用pylucene,我想知道是否有人知道启动jvm和附加线程的最佳位置.我不想每次有人加载页面时都不必启动新的jvm,但是当我在搜索时附加线程时,在django中我偶尔会收到一个神秘的“无法导入名称"错误. 将线程附加到views.py中是错误的吗? 编辑:我专门在寻找一种实例化单个jvm并使它运行的方法,因此我可以根据需要将线程连接到它.实例化jvm ..
发布时间:2021-02-14 19:42:46 Python

使用Lucene(PyLucene)查找单个字段术语

我对Lucene的术语向量很陌生-并希望确保我的术语收集工作尽可能高效. 我得到了唯一的术语,然后检索该术语的docFreq()以进行构面. 我正在使用以下方法从索引中收集所有文档术语: lindex = SimpleFSDirectory(File(indexdir)) ireader = IndexReader.open(lindex, True) terms = ireader. ..
发布时间:2020-05-04 07:38:13 Python