bigdata 第8页 - IT屋-程序员软件开发技术分享社区

Python + Beam + Flink

我一直在尝试让 Apache Beam 可移植性框架与 Python 和 Apache Flink 一起工作，但我似乎找不到一套完整的说明来使环境正常工作.是否有任何参考资料包含使简单的 Python 管道正常工作的先决条件和步骤的完整列表? 解决方案总体而言，对于本地便携式运行器 (ULR)，参见维基，引用自那里: 运行 Python-SDK 管道: 将容器编译为本地构建: ..

我有一个名为“allvoice"的集合.其结构如下: {“_id": ObjectId(“612599bb1cff80e6fc5cbf38"),“subscriber_id":“e3365edb9c781a561107242a81c1a92b4269ef9a"，“被叫号码":“559198e6f8814773551a457e53a614d603f9deab"，“原始时间戳":“202001130 ..

发布时间：2021-10-26 17:51:13 mongodb mongoose aggregation-framework bigdata query-optimization 其他开发

Dask 复制 Pandas 值在 Groupby 上计数

我想做的是在dask中复制panda的值计数+ idxmax函数，因为我有很多数据.这是一个示例数据框: partner_num cust_id item_id revw_ratg_num revw_dt item_qty0 100 01 5 05/30/2000 00 100 03 5 05/30/2000 00 100 02 5 05/30/2000 01 200 13 4 04/01/20 ..

发布时间：2021-06-13 20:39:43 python pandas dataframe dask bigdata Python

在 Python 中优化数据处理的最佳方法

我在 Python 3.8 中有以下数据处理管道: 大约 1.3TB 的原始数据存储在 SSD 上，细分为大约 80 个不同的独立类别，进一步细分为单独的 300mb 压缩 csv.gz 3 个主要类，一个将原始数据清理为可读格式，第二个聚合所述数据并进行我需要的数学运算，第三个导入前 2 个，读取每个 csv，运行所有这些进程并保存结果，遍历 csvs.我有约束，因为它是时间序列数据，所 ..

发布时间：2021-06-04 20:21:21 python multithreading multiprocessing bigdata joblib Python

HRegionServer显示“告诉错误主机我们已经启动".显示套接字异常:无效的参数

我正在尝试在3个centos机器中创建一个hbase集群.Hadoop(v-2.8.0)已启动并在顶部运行我配置了HBase(v-1.2.5).Hbase启动很好，它启动了HMaster和Region服务器，但仍然显示区域服务器和HMaster日志中的以下错误它显示没有签入任何区域服务器. 2017-04-20 19:30:33,950警告[regionserver/localhost/127 ..

发布时间：2021-05-13 20:19:48 apache hadoop hbase centos7 bigdata 服务器开发

Python在& gt; 20GB文本文件中替换一行

我完全知道有很多解决此问题的方法. 我需要的是一个简单的Python脚本，它将只替换大文本文件中的1行. 始终是从头开始的第四行. 由于文件(实际上是文件)大于20GB，因此我不想将其加载到内存或创建副本，只需高效地替换一行即可. 在这方面的任何帮助，我都会很高兴. A. PS.我知道vi可以做到，但是我需要它作为脚本，这样不兼容vi的人也可以做到这一点. ..

发布时间：2021-05-07 18:48:33 python file replace line bigdata Python

如果在Apache Cassandra中进行写操作期间协调器节点发生故障，会发生什么情况?

标题差不多，但是我意识到这里有很多不同的情况，但是我不知何故找不到可靠的消息来源. 解决方案如果协调器在请求中途失败，则cassandra驱动程序旨在通过可配置的重试策略来处理这种情况. 更多详细信息 ..

发布时间：2021-04-15 19:26:32 cassandra bigdata 其他开发

如何使用熊猫解析CSV文件?

现在我有了一个.csv文件，其中有一列时间，例如"20140203 00:00:03.132"，我该如何有效地将秒数部分(“:03.132")放下?数据量巨大，我尝试使用sed预处理数据，但是速度太慢了！我现在正在尝试解析熊猫中的.csv文件.无论如何，我可以有效地处理吗?也欢迎使用除熊猫以外的方法！解决方案有一个方便的时间戳解析库:日期时间: 导入日期时间x ='20140 ..

发布时间：2021-04-15 19:26:29 python pandas csv bigdata Python

通过单词出现表创建向量

我需要找到一种自动方法来获取原始矢量，并将每个单词(无论其在矢量中的位置如何)都转换为新的矢量.每个新矢量都反映了其基词在原始矢量的每个元素中的存在. 我需要打开它: OriginalVector ..

发布时间：2021-04-15 19:26:26 r string vector bigdata 其他开发

派生列的配置单元(hql)并找到总数

请您指导我有一个方案，其中credit_Date，debit_date和loan_date可以具有不同的date值或相同的值.输出表具有以下列日期:应将credit_date，debit_date和loan_date组合在一起(credit_date，debit_date和loan_date可以相同(或具有不同的日期)) 贷方付款:查找给定贷方日期，实体，货币，所有者的贷方金 ..

发布时间：2021-04-15 19:26:23 hadoop hive subquery bigdata derived-column 其他开发

包装过程中出错:glm()函数中尚不支持长向量

我在 Stackoverflow 上发现了与此主题相关的几个问题(其中一些问题没有任何答案)，但到目前为止(与该回归错误无关). 我正在 r 中运行一个概率模型，并且(我猜测)有太多的固定影响(年份和位置): myprobit ..

发布时间：2021-04-15 19:26:20 r bigdata out-of-memory glm 其他开发

用最少的内存损耗在python中记录实时数据的最快方法是什么

在循环的每一步中，我都有一些要保存到硬盘中的数据. 一种方法: list = []对于范围内的我(1e10):list.append(numpy_array_i)pickle.dump(list，open(self.save_path，"wb")，protocol = 4) 但是我担心:1_由于列表的原因，我的内存不足了.2_如果发生崩溃，所有数据都将丢失.因此，我还想到了一种实时保 ..

发布时间：2021-04-15 19:26:17 python database logging save bigdata Python

从大文件读取几行数据的最快方法是什么

我的应用程序需要从300GB左右的大型csv文件中读取数千行，其中包含十亿行，每行包含多个数字.数据如下: 1，34，56，67，678，23462，...2、3、6、8、34、523,547，648，34657 ......... 我尝试过 fget 在c中逐行读取文件，但是即使在Linux中使用 wc -l 时，它也确实花费了非常长的时间，只是为了读取所有线，花了相当长的时间. ..

发布时间：2021-04-15 19:26:14 c csv bigdata ram fgets 其他开发

如何在Python中随机播放磁盘上的文本文件

我正在使用大约12 * 10 ^ 6行的文本文件，该文件存储在我的硬盘上.该文件的结构为: data | data | data | ... | data \ n数据|数据|数据| ... |数据\ n数据|数据|数据| ... |数据\ n...数据|数据|数据| ... |数据\ n 没有标题，也没有ID来唯一标识行. 由于我想将其用于机器学习，因此我需要确保文本文件中没有顺序可 ..

发布时间：2021-04-15 19:26:10 python text-files bigdata shuffle Python

Postgres无法在Python中获取数据

我正在将Python与 psycopg2 模块一起使用，以从Postgres数据库获取数据. 数据库很大(数十GB). 一切似乎都正常，我正在根据获取的数据创建对象.但是，在创建了约160000个对象之后，出现以下错误: '... cookie_id = \'{} \''.format(cookie) 因此，您最终遇到了一些不太清晰的问题，并且也失败了(尽管由于特定的错误，我 ..

发布时间：2021-04-15 19:26:07 python postgresql bigdata psycopg2 Python

为什么布尔字段在Hive中不起作用?

我的配置单元表中有一列，其数据类型为布尔值.当我尝试从csv导入数据时，它存储为NULL. 这是我的示例表: 创建表(如果不存在)Engineanalysis(EngineModel字符串，EnginePartNo字符串，位置字符串，位置字符串，InspectionReq布尔值)行格式已定界以'，'结尾的字段以'\ n'结尾的行；我的样本数据: AB01，AS01-IT01，AI ..

发布时间：2021-04-15 19:26:04 hive boolean bigdata hiveql 其他开发

获取按分组描述的列

我很感兴趣地从熊猫的数据集中获取描述数据.数据指的是不同人的假期. 此外，访问的地点数存储在该城市中. 城市名称的地方0西雅图爱丽丝101西雅图鲍勃112波特兰马洛里73西雅图马洛里54孟菲斯·鲍勃65波特兰马洛里96孟菲斯爱丽丝17孟菲斯爱丽丝208西雅图爱丽丝149西雅图鲍勃10 我想从DataFrame.describe()获取数据新的数据框应如下所示. 名称城市计数平 ..

发布时间：2021-04-15 19:25:58 python pandas bigdata Python

滚动平均值随大型数据集的窗口大小而变化

我想计算向量上的滚动平均值，由此窗口随向量中的每个条目而增长.基本上，我希望所有元素的均值一直到第 i 个， i + 1 -个， i + 2 -个等等. 为了更加清楚，我将提供一个示例和一个解决方案，该示例和解决方案适用于较小的数据集，但无法很好地扩展: 库(zoo)# 数据:x ＜-1:100# 解决方案:Rolling_average ..

发布时间：2021-04-15 19:25:55 r bigdata rollapply 其他开发

CSS3转换:转换最大值?

我创建了一个实验，无限滚动Pi的前十亿位数以查找/创建一个具有大量数据集的高性能滚动解决方案.我开始使用 iScroll 进行测试，然后遇到问题. ..

发布时间：2021-04-15 19:25:52 css google-chrome infinite-scroll bigdata 前端开发

有没有办法在HBase上进行硬删除(真实删除)?

我知道hbase从不对记录进行真正的删除，它只是设置了一个逻辑删除标记.但是，如果数据量越来越大，又有一天您想通过对某些选定的行进行硬删除(实际删除)来减小大小，该怎么办? 解决方案在大型压实过程中，删除了标记和删除的单元格.次要压缩只会将较小的HFiles合并为较大的HFile.您可以使用以下命令手动触发主要压缩: major_compact“表名" 紧凑(次要和主要)是在线操 ..

发布时间：2021-04-15 19:25:47 hbase bigdata database nosql 其他开发

bigdata相关内容