bigdata相关内容

Python + Beam + Flink

我一直在尝试让 Apache Beam 可移植性框架与 Python 和 Apache Flink 一起工作,但我似乎找不到一套完整的说明来使环境正常工作.是否有任何参考资料包含使简单的 Python 管道正常工作的先决条件和步骤的完整列表? 解决方案 总体而言,对于本地便携式运行器 (ULR),参见维基,引用自那里: 运行 Python-SDK 管道: 将容器编译为本地构建: ..
发布时间:2021-11-11 22:34:17 Python

在 Python 中优化数据处理的最佳方法

我在 Python 3.8 中有以下数据处理管道: 大约 1.3TB 的原始数据存储在 SSD 上,细分为大约 80 个不同的独立类别,进一步细分为单独的 300mb 压缩 csv.gz 3 个主要类,一个将原始数据清理为可读格式,第二个聚合所述数据并进行我需要的数学运算,第三个导入前 2 个,读取每个 csv,运行所有这些进程并保存结果,遍历 csvs.我有约束,因为它是时间序列数据,所 ..
发布时间:2021-06-04 20:21:21 Python

HRegionServer显示“告诉错误主机我们已经启动".显示套接字异常:无效的参数

我正在尝试在3个centos机器中创建一个hbase集群.Hadoop(v-2.8.0)已启动并在顶部运行我配置了HBase(v-1.2.5).Hbase启动很好,它启动了HMaster和Region服务器,但仍然显示区域服务器和HMaster日志中的以下错误它显示没有签入任何区域服务器. 2017-04-20 19:30:33,950警告[regionserver/localhost/127 ..
发布时间:2021-05-13 20:19:48 服务器开发

Python在& gt; 20GB文本文件中替换一行

我完全知道有很多解决此问题的方法. 我需要的是一个简单的Python脚本,它将只替换大文本文件中的1行. 始终是从头开始的第四行. 由于文件(实际上是文件)大于20GB,因此我不想将其加载到内存或创建副本,只需高效地替换一行即可. 在这方面的任何帮助,我都会很高兴. A. PS.我知道vi可以做到,但是我需要它作为脚本,这样不兼容vi的人也可以做到这一点. ..
发布时间:2021-05-07 18:48:33 Python

如何使用熊猫解析CSV文件?

现在我有了一个.csv文件,其中有一列时间,例如"20140203 00:00:03.132",我该如何有效地将秒数部分(“:03.132")放下?数据量巨大,我尝试使用sed预处理数据,但是速度太慢了! 我现在正在尝试解析熊猫中的.csv文件.无论如何,我可以有效地处理吗?也欢迎使用除熊猫以外的方法! 解决方案 有一个方便的时间戳解析库:日期时间: 导入日期时间x ='20140 ..
发布时间:2021-04-15 19:26:29 Python

通过单词出现表创建向量

我需要找到一种自动方法来获取原始矢量,并将每个单词(无论其在矢量中的位置如何)都转换为新的矢量.每个新矢量都反映了其基词在原始矢量的每个元素中的存在. 我需要打开它: OriginalVector ..
发布时间:2021-04-15 19:26:26 其他开发

派生列的配置单元(hql)并找到总数

请您指导 我有一个方案,其中credit_Date,debit_date和loan_date可以具有不同的date值或相同的值.输出表具有以下列 日期:应将credit_date,debit_date和loan_date组合在一起(credit_date,debit_date和loan_date可以相同(或具有不同的日期)) 贷方付款:查找给定贷方日期,实体,货币,所有者的贷方金 ..
发布时间:2021-04-15 19:26:23 其他开发

用最少的内存损耗在python中记录实时数据的最快方法是什么

在循环的每一步中,我都有一些要保存到硬盘中的数据. 一种方法: list = []对于范围内的我(1e10):list.append(numpy_array_i)pickle.dump(list,open(self.save_path,"wb"),protocol = 4) 但是我担心:1_由于列表的原因,我的内存不足了.2_如果发生崩溃,所有数据都将丢失.因此,我还想到了一种实时保 ..
发布时间:2021-04-15 19:26:17 Python

从大文件读取几行数据的最快方法是什么

我的应用程序需要从300GB左右的大型csv文件中读取数千行,其中包含十亿行,每行包含多个数字.数据如下: 1,34,56,67,678,23462,...2、3、6、8、34、523,547,648,34657 ......... 我尝试过 fget 在c中逐行读取文件,但是即使在Linux中使用 wc -l 时,它也确实花费了非常长的时间,只是为了读取所有线,花了相当长的时间. ..
发布时间:2021-04-15 19:26:14 其他开发

如何在Python中随机播放磁盘上的文本文件

我正在使用大约12 * 10 ^ 6行的文本文件,该文件存储在我的硬盘上.该文件的结构为: data | data | data | ... | data \ n数据|数据|数据| ... |数据\ n数据|数据|数据| ... |数据\ n...数据|数据|数据| ... |数据\ n 没有标题,也没有ID来唯一标识行. 由于我想将其用于机器学习,因此我需要确保文本文件中没有顺序可 ..
发布时间:2021-04-15 19:26:10 Python

Postgres无法在Python中获取数据

我正在将Python与 psycopg2 模块一起使用,以从Postgres数据库获取数据. 数据库很大(数十GB). 一切似乎都正常,我正在根据获取的数据创建对象.但是,在创建了约160000个对象之后,出现以下错误: '... cookie_id = \'{} \''.format(cookie) 因此,您最终遇到了一些不太清晰的问题,并且也失败了(尽管由于特定的错误,我 ..
发布时间:2021-04-15 19:26:07 Python

为什么布尔字段在Hive中不起作用?

我的配置单元表中有一列,其数据类型为布尔值.当我尝试从csv导入数据时,它存储为NULL. 这是我的示例表: 创建表(如果不存在)Engineanalysis(EngineModel字符串,EnginePartNo字符串,位置字符串,位置字符串,InspectionReq布尔值)行格式已定界以','结尾的字段以'\ n'结尾的行; 我的样本数据: AB01,AS01-IT01,AI ..
发布时间:2021-04-15 19:26:04 其他开发

获取按分组描述的列

我很感兴趣地从熊猫的数据集中获取描述数据.数据指的是不同人的假期. 此外,访问的地点数存储在该城市中. 城市名称的地方0西雅图爱丽丝101西雅图鲍勃112波特兰马洛里73西雅图马洛里54孟菲斯·鲍勃65波特兰马洛里96孟菲斯爱丽丝17孟菲斯爱丽丝208西雅图爱丽丝149西雅图鲍勃10 我想从DataFrame.describe()获取数据 新的数据框应如下所示. 名称城市计数平 ..
发布时间:2021-04-15 19:25:58 Python

滚动平均值随大型数据集的窗口大小而变化

我想计算向量上的滚动平均值,由此窗口随向量中的每个条目而增长.基本上,我希望所有元素的均值一直到第 i 个, i + 1 -个, i + 2 -个等等. 为了更加清楚,我将提供一个示例和一个解决方案,该示例和解决方案适用于较小的数据集,但无法很好地扩展: 库(zoo)# 数据:x <-1:100# 解决方案:Rolling_average ..
发布时间:2021-04-15 19:25:55 其他开发

有没有办法在HBase上进行硬删除(真实删除)?

我知道hbase从不对记录进行真正的删除,它只是设置了一个逻辑删除标记.但是,如果数据量越来越大,又有一天您想通过对某些选定的行进行硬删除(实际删除)来减小大小,该怎么办? 解决方案 在大型压实过程中,删除了标记和删除的单元格.次要压缩只会将较小的HFiles合并为较大的HFile.您可以使用以下命令手动触发主要压缩: major_compact“表名" 紧凑(次要和主要)是在线操 ..
发布时间:2021-04-15 19:25:47 其他开发