distributed-cache - IT屋-程序员软件开发技术分享社区

关于Hadoop分布式缓存的困惑

分发缓存实际上是什么意思?在分布式缓存中拥有一个文件意味着它在每个数据节点中都可用，因此该数据将没有节点间通信，或者这是否意味着该文件在每个节点的内存中?如果没有，我可以通过什么方式在整个工作的内存中保存一个文件?这可以为 map-reduce 和 UDF 完成吗.. (特别是有一些配置数据，相对较小，我想保留在内存中，因为 UDF 应用于 hive 查询......?) 谢谢和问候， ..

发布时间：2021-12-28 23:30:24 caching hadoop hive distributed-cache 其他开发

Hadoop - 分布式缓存中的大文件

我有一个 4 GB 的文件，我试图通过分布式缓存在所有映射器之间共享.但我观察到地图任务尝试开始的显着延迟.具体来说，在我提交作业(通过 job.waitForCompletion())和第一张地图开始之间存在显着延迟. 我想知道在 DistributedCache 中有大文件的副作用是什么.分布式缓存上的文件复制了多少次?集群中的节点数对此有影响吗? (我的集群有大约 13 个节点运 ..

发布时间：2021-12-15 19:01:28 hadoop distributed-cache 其他开发

Apache Traffic Server集群无法正常工作

我在运行在两个不同物理根节点上的Debian Squeeze上的两个openvz容器上编译了trafficserver-4.1.2.除群集外，包括缓存在内的所有内容都可以正常工作.我在两个节点上都添加了相同的名称， traffic_line -s proxy.config.proxy_name -v fetest 配置为在端口80上运行 traffic_line -s proxy. ..

发布时间：2020-06-11 19:48:11 caching distributed-caching distributed-cache apache-traffic-server 其他开发

Hadoop分布式缓存:使用-libjars:如何在代码中使用外部jar

好的，我能够使用ilibjars路径将外部jar添加到我的代码中. 现在如何在我的代码中使用这些外部jar.说我有一个在罐子上定义的函数，该函数对String进行操作.如何使用它. 使用context.getArchiveClassPaths()，我可以获取到它的路径，但是我不知道如何实例化该对象. 这是我要导入的示例jar类 package replace; public clas ..

发布时间：2020-06-11 19:48:08 java hadoop mapreduce distributed-cache Java开发

Hadoop:从DistributedCache获取文件时，FileNotFoundExcepion

我有2个节点集群(v1.04)，分别是主节点和从节点.在主服务器上，在Tool.run()中，我们使用addCacheFile()将两个文件添加到DistributedCache中. HDFS中确实存在文件. 在Mapper.setup()中，我们要使用从缓存中检索那些文件. FSDataInputStream fs = FileSystem.get( context.getConfigur ..

发布时间：2020-06-11 19:48:04 hadoop distributed-cache 其他开发

Hazelcast-OperationTimeoutException

我正在使用Hazelcast版本3.3.1. 我有一个使用c3.2xlarge服务器在AWS上运行的9节点群集. 我正在使用分布式执行程序服务和分布式映射. 分布式执行程序服务使用单个线程. 分布式映射被配置为没有复制且没有近缓存，并使用Kryo序列化程序存储了大约一百万个大小为1-2kb的对象. 我的用例如下: 所有9个节点在分布式执行程序服务上不断执行同步远程操作，并每秒产生约2万 ..

发布时间：2020-06-11 19:48:02 hazelcast distributed-cache 其他开发

“真实"分布式缓存中的对象引用?

我个人致力于.net分布式缓存解决方案，但我认为这个问题在所有平台上都很有趣. 是否存在一种分布式缓存解决方案(或通用策略)，该解决方案可以将两个对象都存储在缓存中，同时保持它们之间引用的完整性? 举例说明-假设我有一个引用对象Bar bar的对象Foo foo和一个引用相同Bar bar的对象Foo foo2.如果将foo加载到缓存中，则会同时存储bar的副本.如果我也将foo2加载 ..

发布时间：2020-06-11 19:48:00 distributed-cache 其他开发

Spark中的Hadoop DistributedCache功能

我正在寻找类似于Spark中Hadoop分布式缓存的功能.我需要在所有节点中都存在一个相对较小的数据文件(带有一些索引值)，以便进行一些计算.有什么方法可以在Spark中实现这一目标吗? 到目前为止，我的解决方法是作为正常处理分发和减少索引文件，这在我的应用程序中大约需要10秒钟.之后，我将指示其为广播变量的文件保留为以下内容: JavaRDD indexFile = ..

发布时间：2020-06-11 19:47:08 hadoop apache-spark distribute distributed-cache 其他开发

如何在分布式缓存中使用MapReduce输出

假设我有一个MapReduce作业正在创建输出文件part-00000，并且在完成此作业后还有一个作业正在运行. 如何将分布式缓存中第一个作业的输出文件用于第二个作业. 解决方案以下步骤可能会对您有所帮助，将第一个作业的输出目录路径传递给第二个作业的驱动程序课. 使用路径过滤器列出以part-*开头的文件.请参考下面的代码片段作为您的第二个作业驱动程序类， ..

发布时间：2020-05-05 15:53:29 hadoop mapreduce distributed-cache 其他开发

Infinispan运营模式

我最近开始将Infinispan作为我们的缓存层。在阅读Infinispan中的操作模式后，如下所述。嵌入模式：这是在与应用程序相同的JVM中启动Infinispan的时候。客户端 - 服务器模式：这是当您启动远程Infinispan实例并使用各种不同协议连接到它时。首先，我现在很困惑，最适合我上述两种模式的申请。我有一个非常简单的用例，我们有一个客户端代码，它将使用服 ..

发布时间：2018-12-29 19:45:42 java caching infinispan distributed-cache Java开发

使用分布式缓存访问Hadoop中的Maxmind Geo API

我正在编写MapReduce作业来分析网络日志。我的代码旨在将IP地址映射到地理位置，并且我使用Maxmind Geo API（ https：// github.com/maxmind/geoip-api-java ）。我的代码有一个LookupService方法需要数据库文件与ip到位置匹配。我正尝试使用分布式缓存传递此数据库文件。我尝试了两种不同的方式来完成这项工作：从HDFS传递文件，但它 ..

发布时间：2018-06-01 12:44:31 hadoop mapreduce geoip distributed-cache 分布式计算/Hadoop

Hadoop 2.x中的DistributedCache

我在Hadoop 2.x中的DistributedCache中遇到了一个新API，我发现有些人在解决这个问题，但它并不能解决我的问题。 / hadoop-2-distributedcache-deprecated-and-doesnt-work-is-there-a-replacement / 20480460＃20480460“>示例此解决方案因为我在尝试检索DistributedCac ..

发布时间：2018-06-01 12:36:01 java hadoop mapreduce distributed-cache Java开发

getCacheFiles（）和getLocalCacheFiles（）是一样的吗？

正如 getLocalCacheFiles （）已被弃用，我试图找到一个替代方案。 getCacheFiles（）似乎是一个，但我怀疑它们是否相同。当您调用 addCacheFile（），HDFS中的文件将被下载到每个节点并使用 getLocalCacheFiles（）本地化文件路径，并且可以从本地文件系统读取它。但是， getCacheFiles（）返回的是HDFS中文件的URI。如果你 ..

发布时间：2018-05-31 19:37:45 hadoop mapreduce hdfs distributed-cache 分布式计算/Hadoop

java.lang.IllegalArgumentException：FS错误：，expected：hdfs：// localhost：9000

我试图实现减少边连接，并使用mapfile reader来查找分布式缓存，但在stderr中检查时没有查找值，它显示以下错误，lookupfile文件已存在于hdfs中，似乎正如在标准输出中看到的那样正确加载到缓存中。 java.lang.IllegalArgumentException：错误的FS：文件：/ app / hadoop / tmp / mapred / local / t ..

发布时间：2018-05-31 19:33:16 java hadoop mapreduce distributed-cache Java开发

Hadoop MapReduce log4j - 将消息记录到userlogs / job_ dir中的自定义文件中？

对于我来说，我不清楚如何在工作级别配置Hadoop MapReduce log4j。有人可以帮我回答这些问题。 1）如何从客户端机器添加支持log4j日志记录。即我想在客户端机器上使用log4j属性文件，因此不想干扰群集中的Hadoop log4j设置。我会认为在项目/ jar中的属性文件应该就足够了，hadoop的分布式缓存应该会继续传输map-reduce jar。 2）如何记录消 ..

发布时间：2018-05-31 19:28:58 hadoop mapreduce log4j distributed-cache 分布式计算/Hadoop

文件没有正确放入分布式缓存

我使用以下代码将文件添加到分布式缓存中：配置conf2 = new Configuration（）; job = new Job（conf2）; job.setJobName（“加入缓存”）; DistributedCache.addCacheFile（新的URI（“hdfs：// server：port / FilePath / part-r-00000”），conf2）; ..

发布时间：2018-05-31 19:08:09 hadoop distributed-cache 分布式计算/Hadoop

对Hadoop中分布式缓存的困惑

分发缓存实际上意味着什么？在分布式缓存中有一个文件意味着它在每个datanode中都可用，因此该数据不会进行节点间通信，还是这意味着该文件在每个节点的内存中？如果没有，通过什么方法可以为整个工作在内存中存储一个文件？这可以为map-reduce和UDF都完成。（特别是有一些配置数据，我想保留的配置数据比较小在内存中作为UDF适用于蜂巢查询...？）感谢和问候， Dhruv ..

发布时间：2018-05-31 18:56:40 caching hadoop hive distributed-cache 分布式计算/Hadoop

在Hadoop分布式缓存中重用文件

我想知道是否有人可以解释分布式缓存如何在Hadoop中工作。我正在多次运行一项工作，每次运行后，我都注意到每个节点上的本地分布式缓存文件夹的大小都在增加。有没有办法让多个工作重新使用分布式缓存中的同一个文件？或者分布式缓存只对任何单个作业的生命周期有效？我感到困惑的原因是Hadoop文档提到“DistributedCache跟踪缓存的修改时间戳文件“，所以这导致我相信，如果时间戳没 ..

发布时间：2018-05-31 18:47:33 hadoop hdfs distributed-cache 分布式计算/Hadoop

Hadoop - 分布式缓存中的大文件

我有一个4 GB的文件，我试图通过分布式缓存跨所有映射器共享。但我正在观察地图任务尝试启动的重大延迟。具体来说，我提交工作的时间（通过job.waitForCompletion（））和第一张地图开始的时间之间存在显着的延迟。我想知道在DistributedCache中有大文件的副作用。复制分布式缓存上的文件多少次？集群中的节点数量是否对此产生影响？（我的集群有大约13个节点在非常强 ..

发布时间：2018-05-31 18:32:04 hadoop distributed-cache 分布式计算/Hadoop

distributed-cache相关内容