bigdata 第9页 - IT屋-程序员软件开发技术分享社区

在R中使用大型csv文件

任何帮助将不胜感激. 我使用以下代码分解了较大的csv文件(4gb)，现在我试图将第2、3rd ...部分保存到csv中.但是，我只能访问我的数据的第一块. 我的代码有什么问题吗?如何将第二部分数据保存到csv中? rgfile ..

发布时间：2021-04-15 19:25:45 r bigdata large-files 其他开发

Elasticsearch独奏vs Couchbase + Elasticsearch

让我描述一下这个问题.现在我处于架构变更阶段.我曾经将Elasticsearch用作聚合和搜索工具，但现在我正在考虑将其用作主数据库.我读到，不建议将Elasticsearch用作主要数据库，而仅用作索引.因此，我阅读了有关与Couchbase连接的演示文稿: elasticsearch指南说您可以手动刷新索引，但是说不要在生产中这样做. ...每次在生产环境中为文档编制索引时，都不要 ..

发布时间：2021-04-15 19:25:41 elasticsearch bigdata couchbase 其他开发

如何在hadoop 2.x中并行运行MapReduce任务?

我想要我的地图并减少任务以并行运行.但是，尽管尝试了各种技巧，但它们仍按顺序运行.我从如何在Elastic MapReduce上的Hadoop 2.4.0中设置每个节点的并发运行任务的最大精确数量，使用以下公式，可以设置并行运行的任务数量. min(yarn.nodemanager.resource.memory-mb/mapreduce.[map | reduce] .memory.mb，y ..

发布时间：2021-04-15 19:25:38 java hadoop mapreduce bigdata cloudera-cdh Java开发

如何并行化对“大数据"的计算?列表字典?

我在这里有一个关于在python字典上进行计算的问题-在这种情况下，字典有数百万个键，并且列表也很长.在这里是否可以使用并行化似乎存在分歧，因此在这里我将更明确地提出问题.这是原始问题: 优化大型python字典的解析，多线程这是一个玩具(小)python字典: example_dict1 = {'key1':[367，30，847，482，887，654，347，504，413 ..

发布时间：2021-04-15 19:25:35 python multithreading dictionary parallel-processing bigdata Python

大型图上的社区检测

我有一个非常大的有向图(一个社交网络图)，约有800万个节点.我想在同一社区上运行社区检测算法(它可以是重叠的或不重叠的). 我看过InfoMap，但是对于这样的图形来说，它太慢了-我可能要花几周的时间.BIGCLAM是斯坦福SNAP中的另一种实现，但仅适用于无向图. 我可以使用一台服务器，该服务器具有40个内核和128GB RAM(磁盘上的网络约为60GB).是否有任何实施或研究可以 ..

发布时间：2021-04-15 19:25:31 social-networking bigdata 其他开发

非常大和非常稀疏的非负矩阵分解

我有一个非常大且稀疏的矩阵(531K x 315K)，总细胞数约为1670亿.非零值仅为1s.非零值的总数约为45K.是否有有效的NMF软件包来解决我的问题?我知道有几个软件包，它们仅适用于较小的数据矩阵.任何想法都可以.预先感谢. 解决方案输出: X-shape:(531000，315000)X nnzs:45000类型(X): ..

发布时间：2021-04-15 19:25:28 python bigdata sparse-matrix matrix-factorization nmf Python

有没有比fread()更快的方法来读取大数据?

嗨，首先我已经在堆栈和google上搜索了，发现了这样的帖子:快速读取非常大的表作为数据框.尽管这些内容很有帮助且得到了很好的回答，但我正在寻找更多信息. 我正在寻找最佳的方式来读取/导入可容纳50-60GB的“大"数据.我目前正在使用 data.table 中的 fread()函数，该函数是目前我所知道的最快的函数.我正在工作的PC/服务器具有良好的cpu(工作站)和32 GB的RAM，但 ..

发布时间：2021-04-15 19:25:25 r data.table bigdata fread 其他开发

来自数据框熊猫的数据的多线程

我正在努力使用多线程来计算购物篮上有不同购物商品的客户列表之间的相关性.所以我有一个由1,000个客户组成的熊猫数据框，这意味着我必须计算100万次相关性，而且处理时间太长数据框的示例如下: ID项目1个香蕉1个苹果2橙色2个香蕉2番茄3苹果3番茄3橙这是代码的简化版本: 将pandas导入为pddef相关性(customer1，customer2):#做一些计算来衡量客户之间 ..

发布时间：2021-04-15 19:25:22 python multithreading dataframe bigdata Python

Hadoop中的减速器数量

我正在学习Hadoop，我发现减速器的数量非常令人困惑: 1)减速器的数量与分区的数量相同. 2)减速器的数量为0.95或1.75乘以(节点数)*(每个节点的最大容器数). 3)减速器的数量由 mapred.reduce.tasks 设置. 4)减速器的数量最接近:块大小的倍数*任务时间在5到15分钟之间*创建尽可能少的文件. 我很困惑，我们是否明确设置了reduce ..

发布时间：2021-04-15 19:25:18 hadoop mapreduce hadoop2 reducers bigdata 其他开发

如何在Hive中使用NOT IN

假设我有2个表格，如下所示.现在，如果我想获得sql将给出的结果，请插入ID不在其中的B(从A中选择ID)它将在表B中插入 3 George . 如何在配置单元中实现这一点? 表A id名称1拉胡尔2克沙夫(Keshav)3乔治表B id名称1拉胡尔2克沙夫(Keshav)4酸奶具有不相关子查询的WHERE子句中的解决方案禁止进入是 ..

发布时间：2021-04-15 19:25:15 hadoop hive bigdata 其他开发

Python共享内存字典用于映射大数据

我一直很难使用大型字典(〜86GB，17.5亿个键)来通过Python中的多处理来处理大型数据集(2TB). 上下文:将字符串映射到字符串的字典从已腌制的文件加载到内存中.加载后，将创建工作进程(最好为32个以上)，这些工作进程必须在字典中查找值，但不修改其内容，以便处理〜2TB数据集.该数据集需要并行处理，否则该任务将花费一个月的时间. 这是两个三个四个五个六个七个八九 ..

发布时间：2021-04-15 19:25:12 python dictionary bigdata python-multiprocessing Python

sklearn和大型数据集

我有一个22 GB的数据集.我想在笔记本电脑上处理它.当然，我无法将其加载到内存中. 我使用了很多sklearn，但是用于更小的数据集. 在这种情况下，经典方法应该类似于. 仅读取部分数据->部分训练您的估算器->删除数据->读取数据的其他部分->继续训练您的估算器. 我已经看到某些sklearn算法具有部分拟合方法，该方法应允许我们使用数据的各种子样本来训练估计量. ..

发布时间：2021-04-15 19:25:09 python bigdata scikit-learn Python

如何有效保存和加载大清单

免责声明:你们中的许多人都指出了重复的帖子，我知道了，但是我认为这不是一个公平的重复，因为某些保存/加载方式对于数据框和列表可能有所不同.例如，包 fst 和 feather 可以在数据框架上使用，但不能在列表上使用. 我的问题仅针对列表. 我有一个约5000万个元素列表，我想将其保存到文件中以在不同的R会话之间共享. 我知道保存R的本机方法( save ， save.image ..

发布时间：2021-04-15 19:25:06 r list save bigdata 其他开发

配置单元查询派生列并查找派生列的总数

我有一个方案，其中credit_Date，debit_date和loan_date可以相同.输出表具有以下列日期:应结合credit_date，debit_date和loan_date(credit_date，debit_date和loan_date可以相同(或为null) 贷方付款:查找给定贷方日期，实体，货币，所有者的贷方金额之和借方付款:查找给定借方日期，实体，货币，所 ..

发布时间：2021-04-15 19:25:03 hadoop hive subquery bigdata derived-column 其他开发

从具有相同ID的行创建列

我有这样的df: Id用户名年龄1迈克尔.346.迈克.65岁7.斯蒂芬妮.141. Mikael.346.米克.65岁如您所见，对于相同的ID，用户名的写法不同.我想将所有用户名重新分组到同一行: Id用户名username_2年龄1迈克尔.mikael.346.迈克.米克65岁7.斯蒂芬妮.14 谢谢. 解决方案您可以通过 ..

发布时间：2021-04-15 19:25:00 python pandas bigdata Python

超过最大递归深度.堆栈溢出异常

我目前正在编写一种算法来分析排序算法.我有很多输入，从1000个数字到1000000个输入.目前，我在使用快速排序功能时遇到了一些问题.由于我输入了100万个相似的数字(1-10之间的数字)，因此此代码将引发错误(0xC00000FD)(似乎是堆栈溢出异常).现在，我不知道该如何减少递归调用的数量或如何增加堆栈，以便可能会有多个递归调用.我正在附上“快速排序"的代码. void swap(in ..

发布时间：2021-04-15 19:24:56 c recursion bigdata stack-overflow quicksort 其他开发

使用awk处理多个文件

我必须使用awk处理许多txt文件(每个文件有1600万行).例如，我必须阅读十个文件: 文件1: en sample_1 200en.n sample_2 10zh sample_3 10 文件#2: en sample_1 10zh sample_3 67 文件#3: en sample_1 1en.n sample_2 10zh sample_4 20 ... ..

发布时间：2021-04-14 20:21:08 linux bash unix awk bigdata 服务器开发

如何删除大量数组中的重复条目(javascript)

我正在尝试使用Kendo UI绘制巨大的数据集(约160万点).这个数字太大了，但是我发现很多问题都是重复的.数据当前以以下格式存储:[[x，y]，[x，y]，[x，y] ...]每个x和y是一个数字，因此每个子数组都是一个点.我想到的方法是创建第二个空数组，然后遍历非常长的原始数组，并且仅在未找到新点的情况下才将其推入新点. 我尝试使用jQuery.inArray()，但它似乎不适用于我在 ..

发布时间：2021-04-12 18:53:00 javascript asynchronous bigdata 前端开发

大于RAM的NumPy阵列:写入磁盘还是内核外解决方案?

我有以下工作流程，借此将数据附加到一个空的熊猫系列对象.(此空数组也可以是NumPy数组，甚至是基本列表.) in_memory_array = pd.Series([])对于list_of_pandas_dataframes中的df:new = df.apply(lambda row:compute_something(row)，axis = 1)## new是一个熊猫.Seriesin_m ..

发布时间：2021-04-09 20:26:35 python arrays numpy memory bigdata Python

在“结构"列上进行聚合

我有一个struct数组，我试图找到struct列的计数，总和和不同的值. 创建表temp(regionkey smallint，名称字符串，注释字符串，国家/地区数组>)行格式已定界以'|'结尾的字段映射键以'，'终止；当我尝试运行查询时选择名称，count(n ..

发布时间：2021-04-09 20:26:18 arrays hadoop struct hive bigdata 其他开发

bigdata相关内容