data-processing - IT屋-程序员软件开发技术分享社区

大规模数据处理 Hbase vs Cassandra

在对大规模数据存储解决方案进行研究后，我差点就加入了 Cassandra.但一般来说，Hbase 是更适合大规模数据处理和分析的解决方案. 虽然两者都是相同的键/值存储，并且都/可以运行(最近 Cassandra)Hadoop 层，但是当需要对大数据进行处理/分析时，是什么让 Hadoop 成为更好的候选者. 我还在http://ria101.wordpress.com/2010/02 ..

发布时间：2021-12-31 17:31:52 nosql hadoop cassandra hbase data-processing 其他开发

Big Query - 将数组转置为列

我们在 Big Query 中有一个表，如下所示. 输入表: 名称 |兴趣-----+------------鲍勃 |[“一个"]苏|[“a"，“b"]乔|[“b"，“c"] 我们希望将上表转换为以下格式，使其对 BI/可视化友好. 目标/必填表: +-------------------+|姓名 |一个|乙 |c |+-----------------+|鲍勃 |1 |0 ..

发布时间：2021-12-30 23:16:31 sql google-cloud-platform google-bigquery data-processing 其他开发

模型没有学习

我正在尝试对来自我的网络摄像头的图像训练 Tensor-flow js 模型.基本上我正在尝试重新创建吃豆人张量流游戏.该模型没有收敛，并且在训练后几乎毫无用处.我有一种感觉，就是我准备数据的方式. 从画布中抓取图像 function takePhoto(label) {let canv = document.getElementById("canv")let cont = canv.ge ..

发布时间：2021-12-09 22:30:34 tensorflow image-processing data-processing tensorflow.js 其他开发

如何在 32 位系统上读取 4GB 文件

就我而言，我有不同的文件，假设我有 > 4GB 的数据文件.我想逐行读取该文件并处理每一行.我的限制之一是必须在 32 位 MS Windows 或具有少量 RAM(最少 4GB)的 64 位上运行 soft.您还可以假设这些行的处理不是瓶颈. 在当前的解决方案中，我通过 ifstream 读取该文件并复制到某个字符串.这是它的外观片段. std::ifstream 文件(filename ..

发布时间：2021-11-26 14:08:48 c++ boost large-files 32-bit data-processing C/C++开发

如何在 32 位系统上读取 4GB 文件

就我而言，我有不同的文件，假设我有 > 4GB 的数据文件.我想逐行读取该文件并处理每一行.我的限制之一是必须在 32 位 MS Windows 或具有少量 RAM(最少 4GB)的 64 位上运行 soft.您还可以假设这些行的处理不是瓶颈. 在当前的解决方案中，我通过 ifstream 读取该文件并复制到某个字符串.这是它的外观片段. std::ifstream 文件(filename ..

发布时间：2021-11-24 22:54:26 c++ boost large-files 32-bit data-processing C/C++开发

Apache NiFi:使用映射值将列添加到 csv

使用 GetFile 处理器将 csv 带入 NiFi 工作流程.我有一个由“id"组成的列.每个 id 表示一个特定的字符串.大约有3个id.例如，如果我的 csv 包含姓名、年龄、身份证约翰,10,Y杰克，55，N芬兰人，23，C 我知道 Y 表示约克，N 表示旧，C 表示猫.我想要一个标题为“nick"的新列，并且每个 id 都有相应的昵称. 姓名、年龄、身份证、昵称约翰,10,Y, ..

发布时间：2021-11-12 03:57:46 apache-nifi data-processing 其他开发

实践中(非理论)小批量与实时流之间有什么区别?理论上，我理解小批量是在给定的时间范围内进行批量处理，而实时流更像是在数据到达时做一些事情，但我最大的问题是为什么不使用带有 epsilon 时间范围(例如一毫秒)的小批量或我想了解为什么一个方法比其他方法更有效? 我最近遇到了一个示例，其中小批量 (Apache Spark) 用于欺诈检测，实时流 (Apache Flink) 用于欺诈预防.有 ..

发布时间：2021-11-12 01:01:04 apache-spark batch-processing apache-flink data-processing stream-processing 其他开发

扩展中的 TYPO3 FAL 图像

我在这里阅读了很多关于 TYPO3 中的 FAL 图像的帖子. 我已经更新到 TYPO3 v10，现在我需要用 FAL 渲染我的图像. 我找不到从零开始工作的解决方案. 我在自定义 Fluid+Extbase 扩展中使用它. 我拥有的是 FlexForm: Headerbild内联 ..

发布时间：2021-09-12 18:48:28 typo3 data-processing fal typo3-10.x 其他开发

用因子替换范围内的数字

给定一个数据框列，它是一系列整数(年龄)，我想将整数范围转换为序数变量. 我当前的代码不起作用，我该怎么做? df 解决方案使用cut一步完成: dfc 一旦您对 breaks 的正确指定感到满意，您还可以使用 labels 参数来重新标记级别: dfc ..

发布时间：2021-06-30 19:56:31 r data-processing r-factor 其他开发

我应该如何使用 Pandas 处理时间序列数据中的重复时间?

作为更大数据集的一部分，我从 API 调用中返回了以下内容: {'时间': datetime.datetime(2017, 5, 21, 18, 18, 1,tzinfo=tzutc()), '价格':'0.052600'} {'时间': datetime.datetime(2017, 5, 21, 18, 18, 1, tzinfo=tzutc()),'价格':'0.052500'} ..

发布时间：2021-06-13 20:45:57 python pandas time-series data-processing Python

重新啮合锯齿状的测试数据

背景我有4组有刷直流电动机的数据全部是从同一实验中收集的: 扭矩与速度(T与w) 转矩与效率(T与n) 转矩与输入功率(T与引脚) 转矩与输出功率(T与Pout) 但是，每个数据集都有: 第一个和最后一个数据对的x值略有不同(每个数据集之间的T_0和T_N不匹配) 每个数据点之间的间距不同(所有集合的dT都不相同) 不同大小("T vs w"比"T vs Pin ..

发布时间：2021-05-16 19:46:21 python interpolation data-processing Python

大查询-将数组转置为列

我们在Big Query中有一个表格，如下所示. 输入表: 名称|兴趣爱好----- + ----------鲍勃|["a"]苏|["a"，"b"]乔|["b"，"c"] 我们希望将上表转换为以下格式，使其对BI/可视化友好. 目标/必需表: + ------------------ +|姓名|一个|b |c |+ ------------------ +|鲍勃|1 |0 | ..

发布时间：2021-05-12 18:31:26 sql google-cloud-platform google-bigquery data-processing 其他开发

如果发现重复行，则打印整行

这是我输入的片段: DGD3 SOL10DGD53 SOL15DGD100 SOL15DGD92 SOL20DGD41 SOL22DGD62 SOL35DGD13 SOL40DGD13 SOL40 我的预期输出 DGD53 SOL15DGD100 SOL15DGD13 SOL40DGD13 SOL40 在我的数据中，有时我会有SOL重复项(不超过两次重复，例如文件中某些SOL的三倍 ..

发布时间：2021-05-09 20:53:05 awk data-processing 其他开发

优化python程序以同时解析两个大文件

我正在尝试同时使用Python3解析两个大文件.如此处所示: dict = {}行= {}将open(file1，"r")设为f1，将open(file2，"r")设为f2:压缩= zip(f1，f2)对于line_f1，已压缩的line_f2:#解析行并将行信息保存在字典中行= {"ID_1":line_f1 [0]，"ID_2":line_f2 [0]，...}#每次大约花费0.0005s ..

发布时间：2021-04-22 19:45:04 python optimization cluster-computing large-data data-processing Python

Apache NiFi:使用映射值将列添加到csv

使用GetFile处理器将csv带入NiFi工作流程.我有一列由"id"组成.每个id表示一个特定的字符串.大约有3个ID.例如，如果我的csv由组成名称，年龄，ID约翰(Y)10杰克，55，NFinn，23，C 我知道Y表示York，N表示Old，C表示Cat.我想要一个标题为"nick"的新列，并为每个id都具有相应的昵称. 名称，年龄，id，昵称约翰10，Y，约克Jake，55 ..

发布时间：2021-04-08 19:14:19 apache-nifi data-processing 其他开发

如何在浏览器控制台中记录使用jQuery AJAX运行的PHP文件?

我有一个进行数据处理的PHP文件.它由 $.ajax()运行，有时在需要较长时间处理的大文件上运行.我需要在浏览器控制台中记录一些有关正在进行的进程的信息，这些信息在运行中显示为，而不仅仅是在PHP文件运行完毕时. 从我所做的研究中，我发现有两个困难: 让PHP在完成之前吐出一些东西获取jQuery/JS以便随时随地显示它为解决#1问题，我已经尝试过: echo“开始 ..

发布时间：2021-04-02 19:45:21 javascript php ajax xmlhttprequest data-processing PHP

模型不学习

我正在尝试在来自我的网络摄像头的图像上训练Tensor-flow js模型.基本上，我正在尝试重新创建pac-man张量流游戏.该模型无法收敛，经过训练后几乎没有用.我感觉到它是如何准备数据的. 从画布上抓取图像 function takePhoto(label) { let canv = document.getElementById("canv") let cont = c ..

发布时间：2020-11-27 02:21:04 tensorflow image-processing data-processing tensorflow.js 其他开发

Spark foreachPartition仅在主服务器上运行

我有一个DataProc集群，其中有一个主机和4个工人. 我有这份出色的工作: JavaRDD rdd_data = javaSparkContext.parallelize(my_data, 8); rdd_data.foreachPartition(partitionOfRecords -> { println("Items in partition-" + p ..

发布时间：2020-11-18 02:13:27 java apache-spark google-cloud-dataproc data-processing Java开发

包含在Apache免费标记中

我下面的对象由特定函数返回 {"count":3, "items":[ { "organizationCode": "FP1", "organizationName": "FTE Process Org" }, { "organizationCode": "T11", " ..

发布时间：2020-11-10 22:16:43 regex freemarker data-processing 其他开发

Excel:在“命令文本"中发送多个值

位于“数据>连接>属性>定义(选项卡)>命令文本"中，我具有以下内容: {Call SP_calculo_algo(?)} 当前该函数仅通过其唯一参数接收一个值，有人告诉我说它由问号(?)字符表示. 我需要通过该函数发送两(2)个值，因为我有SQL查询，该查询返回的数据引用了两个日期之间的范围.例如:开始日期(参数1)和结束日期(参数2). 你能帮我吗? 解决方案确 ..

发布时间：2020-11-01 04:30:59 sql excel data-processing 其他开发

data-processing相关内容