combiners - IT屋-程序员软件开发技术分享社区

如何在 R 中合并同一数据框中的行(基于特定列下的重复值)?

df 中 2 个(组成)示例行的示例: userid Facultyid courseid schoolid167 265 北美 1678167 71111 301 不适用假设我有几百个重复的用户 ID，就像上面的例子一样.但是，绝大多数 userid 具有不同的值. 除非第一个值为 NA(在这种情况下，NA 将重新填充任何值)从第二行开始)? 本质上，从上面的示例中得出，我的理 ..

发布时间：2022-01-22 11:45:34 r duplicates append combiners 其他开发

组合器和减速器可以不同吗?

在许多 MapReduce 程序中，我看到一个 reducer 也被用作组合器.我知道这是因为这些程序的特殊性质.但我想知道它们是否可以不同. 解决方案是的，combiner 可以不同于 Reducer，尽管您的 Combiner 仍将实现 Reducer 接口.组合器只能用于依赖于工作的特定情况.Combiner 将像 Reducer 一样运行，但仅作用于每个 Mapper 输出的 K ..

发布时间：2022-01-13 23:38:32 mapreduce reducers combiners 其他开发

组合器实施和内部工作

我想在我的 MR 代码中使用组合器，比如 WordCount. 我应该如何实现它? 什么样的数据从组合器传递给reducer? 如果你们中的任何人都可以提供Combiner 和Reducer 的代码，那就太好了. 如果你能解释一下组合器的工作原理会更好我是 mapreduce 的新手，我正处于学习阶段. 提前致谢:) 解决方案一个Combiner，也 ..

发布时间：2022-01-13 23:31:37 hadoop mapreduce combiners 其他开发

mapreduce 框架在什么基础上决定是否启动组合器

根据定义，“在 mapper 和 reducer 之间的每个键上，Combiner 可能被调用 0、1 或多次." 我想知道mapreduce框架在什么基础上决定了cobiner的启动次数. 解决方案只是溢出到磁盘的次数.MapOutputBuffer 填满后进行排序，同时进行合并. 您可以使用参数io.sort.mb、io.sort.spill.percent、io.sor ..

发布时间：2022-01-13 23:23:32 hadoop mapreduce combiners 其他开发

mapreduce框架基于什么决定是否启动combiner

根据定义“可以在映射器和化简器之间的每个键上调用组合器 0、1 或多次." 我想知道mapreduce框架是根据什么来决定cobiner的启动次数的. 解决方案只是溢出到磁盘的数量.MapOutputBuffer 填满后进行排序，同时进行合并. 您可以使用参数io.sort.mb、io.sort.spill.percent、io.sort 调整溢出到磁盘的数量.record. ..

发布时间：2021-12-15 19:09:06 hadoop mapreduce combiners 其他开发

如何在 R 中组合同一数据框中的行(基于特定列下的重复值)?

df 中 2 个(虚构的)示例行的示例: useridfacultyid courseid schoolid167 265 不适用 1678167 71111 301 不适用假设我有几百个重复的用户 ID，就像上面的例子一样.但是，绝大多数用户 ID 具有不同的值. 如何将行与重复的用户 ID 组合在一起，以便坚持第一个(第 2 个)行中的列值，除非第一个值是 NA(在这种情况下，NA ..

发布时间：2021-11-16 19:36:00 r duplicates append combiners 其他开发

将列与 NA 组合

我有一个数据框 data 看起来像这样: a x y z1 A 1 NA NA2 B 2 不适用不适用3 C 不适用 3 不适用4 数字 NA NA 45 E NA NA NA 我希望得到这样的数据: a N1 一个 12 乙 23 C 34 D 45 E NA 谢谢！解决方案使用 coalesce 的 dplyr 解决方案. 库(dplyr)数据%>%变异(N ..

发布时间：2021-06-02 20:22:32 r merge combiners 其他开发

随机播放阶段和组合器阶段有什么区别?

我对MapReduce框架非常困惑.我对此感到困惑，来自不同来源的阅读.顺便说一句，这是我对MapReduce作业的想法 1.Map()->发出2.分区程序(可选)->划分映射器的中间输出，并将它们分配给不同的减速器3.随机播放阶段，用于进行以下操作:4.组合器，像微型减速器一样使用的组件，可以执行一些操作对数据进行操作，然后将这些数据传递给减速器.合并器 ..

发布时间：2021-05-13 20:16:55 hadoop mapreduce combiners partitioner 其他开发

部分聚合与组合器哪个更快?

有关级联/缩放的优化方式的通知地图端评估他们使用所谓的部分聚合. 实际上是比合并器更好的方法吗?在某些常见的Hadoop任务(例如字数统计)上是否有性能比较? 如果是这样，那么hadoop将来会支持吗? 解决方案在实践中，部分聚合比使用组合器具有更多的好处. 组合器有用的情况是有限的.此外，组合器还优化了任务所需的吞吐量，而不是减少的数量-这是一个微妙的区别，它会导致明显的性能差 ..

发布时间：2020-11-22 02:15:24 hadoop cascading hadoop-plugins combiners 其他开发

将2个文本框内容与定界符组合

我有一个问题。可以说我有2个文本框，其中一个带有以下内容： Win 输掉您好再见在右侧，显示以下信息：一个两个三个四个现在，在按下按钮时，我想将这两个文本框与冒号分隔在一起，因此它将输出如下：胜利：一个失败：两个你好：三个再见：四个有什么想法可以做到吗？到目前为止，我没有尝试过任何方法。这是我当前的 ..

发布时间：2020-10-20 02:09:37 c# file textbox delimiter combiners C#/.NET

谁有机会先执行合并器或分区器?

阅读以下有关Hadoop的文章(权威指南第4版(第204页))后，我感到困惑在写入磁盘之前，线程首先将数据划分为最终将与减速器相对应的分区发给. 在每个分区中，后台线程执行按键在内存中排序，如果有组合器功能，则运行该功能在排序的输出上. 运行组合器功能可以使映射输出更加紧凑，因此要写入本地磁盘的数据更少并转移到减速器上. 这是我的疑问: 1)谁将执行第一 ..

发布时间：2020-05-05 15:42:49 hadoop mapreduce hadoop-streaming hadoop-partitioning combiners 其他开发

“合并者" Mapreduce作业中的课程

组合器在Mapper之后运行，在Reducer之前运行，它将接收给定节点上Mapper实例发出的所有数据作为输入.然后将输出发送到Reducers. 而且，如果归约函数既是可交换的又是关联的，则可以将其用作组合器. 我的问题是，在这种情况下，" 可交换和关联 "是什么意思? 解决方案假设您有一个数字列表，即1 2 3 4 5 6. 这里的“关联"意味着您可以进行操作 ..

发布时间：2020-05-05 15:36:21 hadoop mapreduce reducers combiners 其他开发

Java 8 Stream - Reduce函数的组合器没有被执行

我正在使用一个带有三个参数的简单reduce方法。身份，累加器和组合器。这是我的代码...... 整数ageSumComb =人 .stream（） .reduce（0，（sum，p） - > { System.out.println（“累加器：Sum =”+ sum +“Person =”+ p）; 返回金额+ = p.age; }，（sum1，sum2） - > { ..

发布时间：2019-01-14 11:22:23 java java-8 java-stream reduce combiners Java开发

两个相同的组合键不能达到相同的缩减器

我只在输入和输出中使用文本键和值。我使用MapReduce框架在Java中制作Hadoop应用程序。我使用一个组合器来执行额外的计算步骤，然后再减少到最终输出。但我遇到的问题是按键不能使用同一个缩减器。我在组合器中创建并添加这样的键/值对： public static class Step4Combiner extends Reducer ..

发布时间：2018-05-31 19:40:14 java hadoop mapreduce combiners Java开发

为什么组合器输入记录的数量多于地图输出的数量？

组合器在Mapper之后和Reducer之前运行，它将接收由Mapper实例在给定节点上发出的所有数据。然后它将输出发送到减速器。所以组合器输入的记录应该小于地图输出。 12/08/29 13:38:49信息mapred .JobClient：Map-Reduce Framework 12/08/29 13:38:49信息mapred.JobClient：减少输入组= 8649 ..

发布时间：2018-05-31 19:32:51 hadoop mapreduce combiners 分布式计算/Hadoop

组合器和减速器可以不同？

在很多MapReduce程序中，我看到一个reducer也被用作组合器。我知道这是因为这些计划的具体性质。但我想知道他们是否会有所不同。解决方案是的，组合器可以与Reducer不同，但Combiner仍然会实现Reducer接口。合并器只能用于需要依赖工作的特定情况。组合器将像减速器一样运行，但只能在每个映射器的键/值输出的子集上运行。 Combiner具有的一个约束条件与Red ..

发布时间：2018-05-31 18:44:50 hadoop mapreduce combiners 分布式计算/Hadoop

合并器实施和内部工作

我想在我的MR代码中使用组合器，例如WordCount。我应该如何实现它？从组合器传递给reducer的数据是什么？如果有人你可以为我提供Combiner和Reducer的代码。如果你能解释组合器的工作方式会更好我是mapreduce的新手，我处于学习阶段。预先感谢：） p> 解决方案一个组合器，也称为半缩减器。组合器的主要功能是使 ..

发布时间：2018-05-31 18:40:09 hadoop mapreduce combiners 分布式计算/Hadoop

基于mapreduce框架决定是否启动组合器

按照定义“组合器可能在映射器和缩减器之间的每个键上被调用0次，1次或多次”。我想知道，基于mapreduce框架决定cobiner将被启动多少次。解决方案简单地说，泄漏到磁盘的数量。排序发生在 MapOutputBuffer 填满之后，同时进行组合。您可以调整使用参数 io.sort.mb ， io.sort.spill.percent ， io.sort.record ..

发布时间：2018-05-31 18:34:06 hadoop mapreduce combiners 分布式计算/Hadoop

如果组合至少5个ID，则根据变量ID组合观察值

上周我发布了以下问题。这个想法是通过随机组合基于变量“id”的观察结果来循环确定数据库的内容。例如：数据集1：id 1,2的组合， 3，4，5，6，7，8 ... 数据集2：id 1，2，3的组合数据集3： id 2，3，4，5的组合数据集4：第5,6,7,8,9,10，...的组合我得到了一个完美的答案： for（i in 2：max（o $ id））{ ..

发布时间：2017-03-26 04:13:01 r loops dataframe combiners 其他开发

我怎样才能在R上的相同的数据帧中结合行（基于重复值的特定列下）？

样品2（虚构的）的DF例如行：用户ID facultyid courseid schoolid 167 265 1678 NA 167 71111 301 NA 假设我有几百重复的userid象在上面的例子。然而，绝大多数的用户标识有不同的值。如何可以在这样的方式粘在列值中的行（2）的第1结合有重复的用户ID的行，除非该第一值是NA（在这种情况下，不适用下面将任何值来重新填充从第二行）？ ..

发布时间：2016-05-25 21:39:30 r duplicates append combiners 其他开发

combiners相关内容