tokenize - IT屋-程序员软件开发技术分享社区

加载NLTK资源时出错：请使用NLTK下载程序获取资源： "；

我改编了Susan Li的post中的以下代码，但当代码尝试使用NLTK的资源对文本进行标记化时(或者，从Web加载的“键控向量”可能有问题)，出现错误。错误发生在第5个代码块(见下文，从Web加载可能需要一段时间)：数据-lang=“js”数据-隐藏=“假”数据-控制台=“真”数据-巴贝尔=“假”> ## 1. load packages and data import logg ..

ValueError：TextEncodeInput必须是UNION[TextInputSequence，Tuple[InputSequence，InputSequence]]-标记化BERT/Distilbert错误

def split_data(path): df = pd.read_csv(path) return train_test_split(df , test_size=0.1, random_state=100) train, test = split_data(DATA_DIR) train_texts, train_labels = train['text'].to_list(), ..

发布时间：2022-06-16 10:26:27 tokenize bert-language-model huggingface-transformers huggingface-tokenizers distilbert 其他开发

如何使用正则表达式进行标记化，使"；其他所有内容的正则表达式与"；特殊令牌的正则表达式不匹配？

我有以下类型的文本要标记。文本： Text1 Text2 我想将其标记为三种标记：COMMENT_START、COMMENT_END和OTHER。例如，对于上面的文本，我需要以下输出。 COMMENT_START ..

发布时间：2022-06-16 10:17:15 python regex tokenize Python

如何将精选的两个单词短语作为符号包含在tidyText中？

我正在对一些文本数据进行预处理，以便进一步分析。我使用unnest_tokens()[将文本标记为单数词]，但希望保留某些经常出现的两个单词的短语，如“United States”或“Social Security”。如何使用tidyText执行此操作？ tidy_data % unnest_tokens(word, text) %>% ..

发布时间：2022-06-16 10:06:44 r tokenize tidytext 其他开发

在C++中使用正则表达式对字符串进行标记化并保留分隔符

我想修改给定的正则表达式以生成以下匹配列表。我很难用语言来描述这个问题。我想使用正则表达式来匹配一组“令牌”。具体地说，我希望匹配&&、||、;、(、)，并且任何不包含这些字符的字符串都应该匹配。我遇到的问题是区分一个管道和两个管道。我怎样才能得到想要的火柴呢？非常感谢您的帮助！ Link to this example 表达式： ((&{2})|(|{2})|(()| ..

发布时间：2022-06-16 10:01:18 c++ regex tokenize C/C++开发

ParserError：标记化数据时出错。C错误：第4行应有7个字段，读取CSV文件 pandas 时看到10个错误

我正在尝试使用 pandas 读取csv文件 df1 = pd.read_csv('panda_error.csv', header=None, sep=',') 但我收到此错误： ParserError: Error tokenizing data. C error: Expected 7 fields in line 4, saw 10 为了便于重现，这里是CSV文件pan ..

发布时间：2022-06-16 09:54:40 python pandas dataframe tokenize Python

使用dbplyr将字符串拆分成行

所以我想把一个字符串，在这个例子中的空格上，分成几行。我想使用dbplyr来完成这项工作，事实证明这是一个问题。显然，如果我收集那里的面积，有很多种方法可以做到这一点。尽管我需要在不收钱的情况下这么做。以下是一些虚拟数据，这是收集数据的一种方法，也是不收集数据就无法工作的一种方法 library(dbplyr) library(dplyr) library(tidyr) c ..

发布时间：2022-06-09 15:40:23 r tokenize purrr strsplit dbplyr 其他开发

我尝试将输入字符串xyz拆分成3个标记，然后再拆分成3个整数，分别称为x、y和z。我希望它这样做，这样我就可以进行更少的输入，然后能够将它们用于mc.setblocks(x1, y1, z1, x, y, z, BlockId)的坐标。我如何将它分开，以使它变成3个不同的整数，或者将它们分割成标记来做到这一点？我知道如何在Java中做到这一点，但我不知道如何在Python中做到这一点。它应该如下 ..

发布时间：2022-04-18 16:26:21 python split coordinates tokenize minecraft Python

Nlp：tokenize：TypeError：预期的字符串或类似字节的对象

在标记化之前，我还尝试了.Apply(Str)和.astype(Str)，但得到了TypeError：预期的字符串或类似字节的对象。 data.info() RangeIndex: 8 entries, 0 to 7 Data columns (total 3 columns): # Column ..

发布时间：2022-04-15 11:06:29 python python-3.x nlp chatbot tokenize Python

XQuery-如何在字符第二次出现之前提取一个子字符串？

假设我有这样的字符串："；123_12345_123456"；我想提取第二个&qot；_"；(下划线)之前的所有内容我已尝试： fn:tokenize("123_1234_12345", '_')[position() le 2] 返回： 123 1234 我真正想要的是： 123_1234 如何实现此目标？我正在使用X ..

发布时间：2022-04-02 13:03:26 xslt xquery tokenize 其他开发

我怎样才能把字符串拆分成令牌呢？

如果我有字符串 'x+13.5*10x-4e1' 如何将其拆分为以下令牌列表？ ['x', '+', '13', '.', '5', '*', '10', 'x', '-', '4', 'e', '1'] 我当前使用的是shlex模块： str = 'x+13.5*10x-4e1' lexer = shlex.shlex(str) tokenList = [] for t ..

发布时间：2022-03-07 15:57:28 python token tokenize equation shlex Python

在Java中遍历字符串字符的最简单/最好/最正确的方法是什么?

在 Java 中遍历字符串字符的一些方法是: 使用 StringTokenizer? 将 String 转换为 char[] 并对其进行迭代. 最简单/最好/最正确的迭代方式是什么? 解决方案我使用 for 循环迭代字符串并使用 charAt() 获取每个字符来检查它.由于 String 是用数组实现的，所以 charAt() 方法是一个常数时间的操作. String s ..

发布时间：2022-01-24 11:19:49 java string iteration character tokenize Java开发

使用 Lucene 和 Java 标记、删除停用词

我正在尝试使用 Lucene 从 txt 文件中标记和删除停用词.我有这个: public String removeStopWords(String string) throws IOException {设置stopWords = new HashSet();stopWords.add("a");stopWords.add("an");stopWords.add(" ..

发布时间：2022-01-15 13:13:38 java lucene nlp tokenize stop-words Java开发

如何在 Lucene 中仅标记某些单词

我在我的项目中使用 Lucene，我需要一个自定义分析器. 代码是: public class MyCommentAnalyzer 扩展 Analyzer {@覆盖protected TokenStreamComponents createComponents(String fieldName, Reader reader) {Tokenizer source = new Standard ..

发布时间：2022-01-15 12:57:49 java dictionary lucene tokenize Java开发

无法在 Solr 中使用 ICUTokenizerFactory

..

发布时间：2022-01-15 12:51:15 solr lucene schema tokenize analyzer 其他开发

在 not_analyzed 字段上进行 Elasticsearch 通配符搜索

我有一个类似以下设置和映射的索引； {“设置":{“指数":{“分析":{“分析仪":{“分析器关键字":{“分词器":“关键字"，“过滤器":“小写"}}}}},“映射":{“产品":{“特性":{“名称":{“分析器":“分析器关键字"，“类型":“字符串"，“索引":“未分析"}}}}} 我正在努力实现对 name 字段的通配符搜索.我的示例数据是这样的； [{“名称":“SVF-12 ..

发布时间：2022-01-15 12:50:07 search lucene elasticsearch tokenize 其他开发

电子邮件的 ElasticSearch 分析器和标记器

对于以下情况，我在 Google 或 ES 中都找不到完美的解决方案，希望有人可以在这里提供帮助. 假设“email"字段下存储了五个电子邮件地址: 1.{“电子邮件":“john.doe@gmail.com"}2. {“电子邮件":“john.doe@gmail.com, john.doe@outlook.com"}3. {“电子邮件":“hello-john.doe@outlook.c ..

发布时间：2022-01-15 12:24:12 email elasticsearch lucene tokenize analyzer 其他开发

如何使用 Lucene Analyzer 标记字符串?

有没有一种简单的方法可以使用 Lucene 的 Analyzer 的任何子类来解析/标记 String? 类似: String to_be_parsed = "车窗七";Analyzer 分析器 = new StandardAnalyzer(...);列表tokenized_string = analyzer.analyze(to_be_parsed); 解决方案据我所知， ..

发布时间：2022-01-15 12:23:53 java lucene tokenize analyzer Java开发

使用 JFlex/Java CC 为新的 TokenStream API 生成自定义 Tokenizer

我们目前正在使用 Lucene 2.3.2 并希望迁移到 3.4.0 .我们有自己的自定义 Tokenizer 使用 Java CC 生成，自从我们开始使用 Lucene 以来就一直在使用它，我们希望继续使用相同的行为.我感谢任何资源的指针，这些资源涉及为语法构建新的 TokenStream API 的 Tokenizer. 更新: 我在 http://svn.apache.org/v ..

发布时间：2022-01-15 12:23:22 lucene full-text-search tokenize 其他开发

PHP 命名空间移除/映射和重写标识符

我正在尝试从 PHP 类集合中自动删除命名空间，以使它们与 PHP 5.2 兼容.(共享主机提供商不喜欢流氓 PHP 5.3 安装.不知道为什么.还有问题的代码不使用任何 5.3 功能添加，只是语法.自动转换似乎比手动完成或重新实现代码库更容易.) 为了重写 *.php 脚本，我基本上是在 tokenizer 列表上运行的.标识符搜索+合并已经完成.但是我现在有点困惑如何完成实际的重写. ..

发布时间：2022-01-14 23:51:48 php namespaces tokenize PHP

tokenize相关内容