bigdata相关内容

Python-根据每个项目的位置将文本解析为多个列

巴西证券交易所(Bovespa)提供了一个文件,其中包含一个时间框架内的所有报价。文件太大,每一行都类似于这个真实的示例: 数据-lang=“js”数据-隐藏=“假”数据-控制台=“真”数据-巴贝尔=“假”> 012016010402AAPL34 010APPLE DRN R$ 00000000041500000000004220000000000 ..
发布时间:2022-08-04 14:35:15 Python

大数据如何计算R中的距离集?

问题:我们需要一种大数据方法来计算点之间的距离。我们在下面用五个观测数据框概述我们想要做的事情。但是,由于行数变大(>;100万),这种特定的方法是不可行的。在过去,我们使用SAS来进行这种分析,但如果可能的话,我们更倾向于使用R。(注意:我不打算显示代码,因为虽然我在下面概述了一种在较小的数据集上执行此操作的方法,但这基本上不可能用于我们规模的数据。) 我们从商店的数据帧开始,每个商店 ..
发布时间:2022-08-04 14:26:14 其他开发

在python中批处理非常大的文本文件

我正在尝试将一个非常大的文本文件(大约150 GB)批处理成几个较小的文本文件(大约10 GB)。 我的一般流程为: # iterate over file one line at a time # accumulate batch as string --> # given a certain count that correlates to the size of my curr ..
发布时间:2022-08-04 14:18:13 Python

在R中的ompr包中,我如何重新表述我的目标/约束/变量,以避免问题太大?

我正在尝试使用我的同事以前使用CPLEX/GAMS拟合的ompr包(具体地说,这里描述的Haight et al. 2021))来学习在R中拟合一个线性整数规划优化模型。我在我的大学的一台Linux超级计算服务器上运行我的实施,该服务器有248 GB的内存,我认为这足以完成这项工作。 以下是来自服务器的故障报告的代码和输出: #Read in the necessary pre-gen ..
发布时间:2022-07-20 14:12:22 其他开发

基于子串匹配的蜂窝/猪连接

我有一个要求,我需要使用人名加入twets表,比如过滤包含任何人名的tweet。我有以下数据: 推文表:(7000万条记录存储为一个配置单元表) id 推文 1 克里斯蒂亚诺·罗纳尔多有史以来最伟大的 2 布拉德·皮特电影 3 无人名的随机推文 人名:(160万个姓名以.tsv文件形式存储在HDFS上) id PERSON_NAME 1 克里斯蒂亚诺·罗纳尔多 2 ..
发布时间:2022-03-01 18:34:57 其他开发

OpenRefining:如何使用第一个单元格中的描述值填充空白单元格?

如何使用第一个单元格中的描述值填充空单元格? A列 B列 Col C.&Quot;N; 选项1 A、B、C、D 选项1属性 选项1 选项1属性 选项1 选项1属性 选项1 选项1属性 选项2 C,D,F 选项2属性 选项2 选项2属性 选项2 选项2属性 选项3 D,J,Z 选项3属性 选项3 选项3属性 选项3 选项3属性 变为 A列 B列 Col C.&Q ..
发布时间:2022-03-01 18:32:45 其他开发

到主机端口22的SSH连接被拒绝

我使用的是VMware虚拟化系统。我的操作系统是Centos Release 7。我安装了hadoop2.7.1。在安装Hadoop之后,我运行了命令:#hdfs namenode -format,它运行成功。但是当我运行命令:#./start-all.sh时,它给出错误。我尝试了在互联网上看到的几个建议,但问题仍然存在 [root@MASTER sbin]# ./start-all.sh ..
发布时间:2022-03-01 18:26:48 其他开发

Google Sheets最大单元格限制和缓解

我在网上读到Google Sheets的最大单元格限制是500万个单元格。我当前正在处理的工作表已超过该限制(包括空白单元格)。 新限制是什么? 我还手动检查了我使用了多少个单元格。有没有 我可以用来开支票的函数或脚本? 我正在处理的工作表只会变得更大,而且它已经严重滞后了。我想要一些建议,关于下一步我可以转移到哪个平台来处理这样的大数据。选择如此之多,令人难以置信。我使用Google ..

如何使用使用两个数据集的Bigstatsr R包来估计参数?

我有独立和依赖的数据集。我想测试因变量和自变量之间所有可能的关系。在我之前的帖子(How to replicate a function using mapply with multiple arguments to calculate the power of a method?)中,我想使用模拟数据进行功耗分析。现在,我想使用相同的函数分析实际数据。问题是test_function需要更多时间 ..
发布时间:2022-03-01 18:19:44 其他开发

在SHINY中的用户会话之间共享反应性数据集

我有一个相当大的反应性数据集,它来自轮询一个文件,然后以预定义的时间间隔读取该文件。数据更新频繁,需要不断重新加载。诚然,重新加载可以递增进行并附加到R中的现有对象,但不是这样。但是,目前,此操作是针对闪亮应用的每个用户执行的,尽管数据在各个会话之间是相同的。 我想出一个周而复始的解决方案的唯一方法是确定会话是否是第一个,并使该会话成为通过轮询更新数据的主会话。如果仍然存在master,则后续会 ..
发布时间:2022-03-01 18:12:25 其他开发

h5py写入:如何高效地将数百万个.npy数组写入.hdf5文件?

我必须将大图像的子样本存储为.npy大小为(20,20,5)的数组。为了在训练分类模型时统一采样,我正在寻找一种有效的方法来存储近1000万个子样本,这样就可以做到这一点。 如果我将它们存储为整个图像,则训练期间的采样不能代表分布。我有存储空间,但尝试存储那么多小文件时会用完inode。h5py/写入hdf5文件是解决我问题的自然答案,但是这个过程非常慢。运行一个程序一天半的时间不足以编写所 ..
发布时间:2022-03-01 18:08:56 Python

如何在Python字典中存储大数据集?

我有几TB的数据要存储,并且能够快速查找。当然,我不能简单地使用python字典,因为它的大小受我的RAM大小的限制。 我尝试使用DBM python:https://docs.python.org/3/library/dbm.html,但对我的应用程序来说太慢了。 推荐答案 查看Neueda在https://github.com/blu-corner/heliumdb所做的工作 ..
发布时间:2022-03-01 18:06:37 Python

在一台计算机上运行Hadoop群集

我是Hadoop环境的新手。 我想知道是否可以使用虚拟机在单个计算机上运行群集(包含2个或3个节点)。 欢迎任何澄清。 谢谢您。 推荐答案 来自Virtual Hadoop Wiki: 需要分别检查云和虚拟化,但在所有情况下,答案都是“是的,您可以虚拟化,是的,您可以部署到云,但您需要了解后果并制定相应的计划”。 此维基页面是您开始考虑如何在虚拟机上设置Hado ..