chunking相关内容

有没有一种优雅的方式来分块处理流?

我的确切场景是批量向数据库插入数据,所以我想累积 DOM 对象,然后每 1000 个,刷新它们. 我通过将代码放入累加器中以检测填充度然后刷新来实现它,但这似乎是错误的 - 刷新控制应该来自调用者. 我可以将流转换为 List,然后以迭代方式使用 subList,但这似乎也很笨重. 是否有一种巧妙的方法可以对每 n 个元素采取行动,然后继续处理流,同时只处理一次流? 解决方 ..
发布时间:2022-01-22 10:13:55 Java开发

分块、处理和在 Pandas/Python 中合并数据集

有一个大数据集,包含一个字符串.我只想通过 read_fwf 使用宽度打开它,如下所示: 宽度 = [3, 7, ..., 9, 7]tp = pandas.read_fwf(文件,宽度=宽度,标题=无) 这将有助于我标记数据,但系统崩溃(适用于 nrows=20000).然后我决定按块(例如 20000 行)来做,像这样: cs = 20000对于 pd.read_fwf 中的块(文件,宽 ..
发布时间:2022-01-21 13:36:02 Python

NLTK 中没有 pos_tag 的 ne_chunk

我正在尝试在 nltk 中使用 ne_chunk 和 pos_tag 对句子进行分块. from nltk 导入标签从 nltk.tag 导入 pos_tag从 nltk.tree 导入树从 nltk.chunk 导入 ne_chunk句子 =“迈克尔和约翰正在雅加达图书馆阅读一本小册子"tagged_sent = pos_tag(sentence.split())print_chunk = [ ..
发布时间:2022-01-05 18:26:03 Python

用于序列的 F# array_chunk

我在制作序列时遇到了一些麻烦.基本上我需要将一个序列切割成一个数组序列.Seq.windowed 几乎做到了,但我不想要重复的元素. 我可以通过先将所有内容读入数组来得到我想要的东西,但我更愿意使用序列. 让 array_chunk s (a:int[]) =Array.init(a.Length/s) (好玩 i -> Array.sub a(i * s) s)一些序列|>Seq.to_ ..
发布时间:2022-01-05 09:59:26 其他开发

如何避免 Clojure 对我想要短路的惰性序列的分块行为?

我有一个很长的、懒惰的序列,我想减少它并懒惰地测试.只要两个顺序元素不是 =(或其他一些谓词)彼此,我就想停止使用列表,因为它的生成成本很高.是的,这听起来像 take-while,但请进一步阅读. 我想写一些像这样简单而优雅的东西(假装every?像reduce一样工作): (every? = (range 100000000)) 但这不会懒惰地工作,因此它挂在无限序列上.我发现这几乎 ..
发布时间:2022-01-02 22:29:40 其他开发

什么是自然语言处理中的chunker?

有谁知道在文本处理的上下文中什么是chunker以及它的用途是什么? 解决方案 根据这些幻灯片,分块是解析的替代方法,它提供了一个句子的部分句法结构,具有有限的树深度,而不是完整的解析. 它比完整解析更有限,但在提取或忽略信息时就足够了,因此被多次使用,因为它比解析更快、更健壮. 幻灯片中提供了更多信息. 更多链接: 更多幻灯片 纽约大学讲座笔记 ..
发布时间:2022-01-02 17:51:49 其他开发

分块下载文件 (Windows Phone)

在我的应用程序中,我可以从网络下载一些媒体文件.通常我使用 WebClient.OpenReadCompleted 方法来下载、解密文件并将其保存到隔离存储.它运行良好,看起来像这样: private voiddownloadedSong_OpenReadCompleted(object sender, OpenReadCompletedEventArgs e, SomeOtherValues ..
发布时间:2021-12-30 12:00:19 C#/.NET

文件上传;如何利用“分块"?

我(仍在)尝试使用 php 通过 html 表单上传 在我对此进行研究的过程中,我遇到了“分块"一词,我明白这个过程可以将文件分解成方便的大小,例如 5mb,然后在服务器端将它们重新组合成完整的文件. 我的问题似乎是我可以从哪里开始?我似乎无法通过谷歌搜索找到正确的资源(或者我可能不知道要搜索哪些术语). 所以我今天希望有机会用基础知识来教育自己,看看会很有帮助的方向.我真的不想下载 ..
发布时间:2021-12-24 10:51:31 PHP

用于重复距离矩阵计算和超大距离矩阵分块的高效(内存方式)函数

我想知道是否有人可以查看以下代码和最小示例并提出改进建议 - 特别是在处理非常大的数据集时代码的效率. 该函数采用一个 data.frame 并通过分组变量(因子)对其进行拆分,然后计算每组中所有行的距离矩阵. 我不需要保留距离矩阵 - 只有一些统计数据,即均值、直方图 ..,然后它们可以被丢弃. 我对内存分配等不太了解,我想知道这样做的最佳方法是什么,因为我将处理每组 10.0 ..
发布时间:2021-12-19 08:18:27 其他开发

使用 Actionscript 解码分块 HTTP

我已通过套接字成功连接到带有 ActionScript 3 的 HTTP 服务器.唯一的问题是,服务器正在发送分块的 HTTP.是否有任何其他语言的通用函数可以清楚地显示如何解码分块?我很确定这里没有 ActionScript 库. 解决方案 HTTP 1.1规范(或来自W3C)提供了如何解码分块传输编码: 长度:= 0读取块大小、块扩展(如果有)和 CRLF而(块大小> 0){读取块数 ..
发布时间:2021-12-17 10:33:20 其他开发

在第 N 次出现分隔符时拆分文件

在每 N 次出现 分隔符之后,是否有一个单行将文本文件拆分为多个片段/块? 示例:下面的分隔符是“+" 条目 1多一点+条目 2多一点更+条目 3多一点+条目 4多一点+... 有几百万个条目,因此在每次出现分隔符“+"时进行拆分是一个坏主意.例如,我想拆分分隔符“+"的第 50,000 个实例. Unix 命令 "split" 和 "csplit" 似乎没有这样做...... ..
发布时间:2021-12-15 08:13:46 服务器开发

如何在恒定大小的块中拆分可迭代对象

可能的重复: 如何将列表平均拆分Python 中的大小块? 我很惊讶我找不到一个“批处理"函数,它将一个可迭代对象作为输入并返回一个可迭代对象. 例如: for i in batch(range(0,10), 1): 打印 i[0][1]...[9] 或: for i in batch(range(0,10), 3): 打印 i[0,1,2][3,4,5][6,7,8][9] ..
发布时间:2021-12-06 19:55:20 Python

我如何在块中使用 File.ReadAllBytes

我正在使用此代码 string location1 = textBox2.Text;byte[] bytes = File.ReadAllBytes(location1);字符串文本 = (Convert.ToBase64String(bytes));richTextBox1.Text = 文本; 但是当我使用一个太大的文件时,我会出现内存不足的异常. 我想在块中使用 File.Rea ..
发布时间:2021-11-18 04:45:37 C#/.NET

使用“但是"这个词和 RegEx 分块句子

我试图在单词“但是"(或任何其他并列连词)上使用正则表达式对句子进行分块.它不起作用... sentence = nltk.pos_tag(word_tokenize("没有大集合,但存在椎管狭窄."))结果 = nltk.RegexpParser(grammar).parse(sentence)DigDug = nltk.RegexpParser(r'CHUNK: {.*.*}')对于 Dig ..
发布时间:2021-06-07 20:43:17 Python

Python:使用 Spacy 等对名词短语以外的其他短语(例如介词)进行分块

自从有人告诉我 Spacy 是用于自然语音处理的如此强大的 Python 模块,我现在正在拼命寻找一种方法来将单词组合在一起,而不是名词短语,最重要的是,介词短语.我怀疑是否有一个 Spacy 函数,但我猜这将是最简单的方法(SpacySpaCy 导入已在我的项目中实现).尽管如此,我对短语识别/分块的任何可能性持开放态度. 解决方案 这是获得 PP 的解决方案.通常,您可以使用 subt ..
发布时间:2021-06-07 20:36:10 Python

Spring批处理,读取器如何工作?如果结果集发生变化?

我是springBatch分块的新手。我想了解阅读器的工作原理 这里是这种情况:实现清除用户帐户 块处理器: 有一个读取所有内容的阅读器与清除条件匹配的用户帐户(顺序)。 处理器:根据一些计算为每个用户帐户,它可能会创建一个新的用户帐户并更改当前记录(例如将其标记为已清除) 问题:读者如何工作?说我有5000个用户帐户。如果我的块大小为1000 读者将读取1000条记录,然 ..
发布时间:2020-06-08 18:44:47 其他开发

如何使用PHP连接从Dropzone.js上传的分块文件?

我正在使用Dropzone.js拍摄各种类型的文件(包括图像和非图像,例如PDF),并将它们以1mb的大小上传到我们的服务器。然后,我尝试使用PHP连接文件,然后将它们上传到我们公司的FileMaker数据库中。 到目前为止,我已经能够将文件上传到块,因为他们应该。我将它们全部存储在一个具有相同“代号”的临时“上载”文件夹中,并在每个名称的末尾附加“ -INDEX#”(INDEX#是要上传的 ..
发布时间:2020-06-08 18:44:44 PHP

python中的不均匀分块

给出块大小的列表,如何将可迭代对象划分为可变长度的块?我试图哄骗 itertools.islice 却没有成功。 对于chunk_list中的chunk_size: foo(iter,chunk_size) 解决方案 您需要创建一个可迭代的 iter 对象,以便可以使用特定的对象对其调用 islice 大小,然后从下一次迭代中停下来的地方开始。这是生成器函数的完美用法: ..
发布时间:2020-06-08 18:44:40 Python