distributed-cache相关内容

关于Hadoop分布式缓存的困惑

分发缓存实际上是什么意思?在分布式缓存中拥有一个文件意味着它在每个数据节点中都可用,因此该数据将没有节点间通信,或者这是否意味着该文件在每个节点的内存中?如果没有,我可以通过什么方式在整个工作的内存中保存一个文件?这可以为 map-reduce 和 UDF 完成吗.. (特别是有一些配置数据,相对较小,我想保留在内存中,因为 UDF 应用于 hive 查询......?) 谢谢和问候, ..
发布时间:2021-12-28 23:30:24 其他开发

Hadoop - 分布式缓存中的大文件

我有一个 4 GB 的文件,我试图通过分布式缓存在所有映射器之间共享.但我观察到地图任务尝试开始的显着延迟.具体来说,在我提交作业(通过 job.waitForCompletion())和第一张地图开始之间存在显着延迟. 我想知道在 DistributedCache 中有大文件的副作用是什么.分布式缓存上的文件复制了多少次?集群中的节点数对此有影响吗? (我的集群有大约 13 个节点运 ..
发布时间:2021-12-15 19:01:28 其他开发

Apache Traffic Server集群无法正常工作

我在运行在两个不同物理根节点上的Debian Squeeze上的两个openvz容器上编译了trafficserver-4.1.2.除群集外,包括缓存在内的所有内容都可以正常工作.我在两个节点上都添加了相同的名称, traffic_line -s proxy.config.proxy_name -v fetest 配置为在端口80上运行 traffic_line -s proxy. ..

Hadoop分布式缓存:使用-libjars:如何在代码中使用外部jar

好的,我能够使用ilibjars路径将外部jar添加到我的代码中. 现在如何在我的代码中使用这些外部jar.说我有一个在罐子上定义的函数,该函数对String进行操作.如何使用它. 使用context.getArchiveClassPaths(),我可以获取到它的路径,但是我不知道如何实例化该对象. 这是我要导入的示例jar类 package replace; public clas ..
发布时间:2020-06-11 19:48:08 Java开发

Hazelcast-OperationTimeoutException

我正在使用Hazelcast版本3.3.1. 我有一个使用c3.2xlarge服务器在AWS上运行的9节点群集. 我正在使用分布式执行程序服务和分布式映射. 分布式执行程序服务使用单个线程. 分布式映射被配置为没有复制且没有近缓存,并使用Kryo序列化程序存储了大约一百万个大小为1-2kb的对象. 我的用例如下: 所有9个节点在分布式执行程序服务上不断执行同步远程操作,并每秒产生约2万 ..
发布时间:2020-06-11 19:48:02 其他开发

“真实"分布式缓存中的对象引用?

我个人致力于.net分布式缓存解决方案,但我认为这个问题在所有平台上都很有趣. 是否存在一种分布式缓存解决方案(或通用策略),该解决方案可以将两个对象都存储在缓存中,同时保持它们之间引用的完整性? 举例说明-假设我有一个引用对象Bar bar的对象Foo foo和一个引用相同Bar bar的对象Foo foo2.如果将foo加载到缓存中,则会同时存储bar的副本.如果我也将foo2加载 ..
发布时间:2020-06-11 19:48:00 其他开发

Spark中的Hadoop DistributedCache功能

我正在寻找类似于Spark中Hadoop分布式缓存的功能.我需要在所有节点中都存在一个相对较小的数据文件(带有一些索引值),以便进行一些计算.有什么方法可以在Spark中实现这一目标吗? 到目前为止,我的解决方法是作为正常处理分发和减少索引文件,这在我的应用程序中大约需要10秒钟.之后,我将指示其为广播变量的文件保留为以下内容: JavaRDD indexFile = ..
发布时间:2020-06-11 19:47:08 其他开发

如何在分布式缓存中使用MapReduce输出

假设我有一个MapReduce作业正在创建输出文件part-00000,并且在完成此作业后还有一个作业正在运行. 如何将分布式缓存中第一个作业的输出文件用于第二个作业. 解决方案 以下步骤可能会对您有所帮助, 将第一个作业的输出目录路径传递给第二个作业的驱动程序 课. 使用路径过滤器列出以part-*开头的文件.请参考下面的代码片段作为您的第二个作业驱动程序类, ..
发布时间:2020-05-05 15:53:29 其他开发

Infinispan运营模式

我最近开始将Infinispan作为我们的缓存层。在阅读Infinispan中的操作模式后,如下所述。 嵌入模式:这是在与应用程序相同的JVM中启动Infinispan的时候。 客户端 - 服务器模式:这是当您启动远程Infinispan实例并使用各种不同协议连接到它时。 首先,我现在很困惑,最适合我上述两种模式的申请。 我有一个非常简单的用例,我们有一个客户端代码,它将使用服 ..
发布时间:2018-12-29 19:45:42 Java开发

使用分布式缓存访问Hadoop中的Maxmind Geo API

我正在编写MapReduce作业来分析网络日志。我的代码旨在将IP地址映射到地理位置,并且我使用Maxmind Geo API( https:// github.com/maxmind/geoip-api-java )。我的代码有一个LookupService方法需要数据库文件与ip到位置匹配。我正尝试使用分布式缓存传递此数据库文件。我尝试了两种不同的方式来完成这项工作: 从HDFS传递文件,但它 ..
发布时间:2018-06-01 12:44:31 分布式计算/Hadoop

Hadoop 2.x中的DistributedCache

我在Hadoop 2.x中的DistributedCache中遇到了一个新API,我发现有些人在解决这个问题,但它并不能解决我的问题。 / hadoop-2-distributedcache-deprecated-and-doesnt-work-is-there-a-replacement / 20480460#20480460“>示例 此解决方案因为我在尝试检索DistributedCac ..
发布时间:2018-06-01 12:36:01 Java开发

getCacheFiles()和getLocalCacheFiles()是一样的吗?

正如 getLocalCacheFiles ()已被弃用,我试图找到一个替代方案。 getCacheFiles()似乎是一个,但我怀疑它们是否相同。 当您调用 addCacheFile(),HDFS中的文件将被下载到每个节点并使用 getLocalCacheFiles()本地化文件路径,并且可以从本地文件系统读取它。但是, getCacheFiles()返回的是HDFS中文件的URI。如果你 ..
发布时间:2018-05-31 19:37:45 分布式计算/Hadoop

java.lang.IllegalArgumentException:FS错误:,expected:hdfs:// localhost:9000

我试图实现减少边连接,并使用mapfile reader来查找分布式缓存,但在stderr中检查时没有查找值,它显示以下错误,lookupfile文件已存在于hdfs中,似乎正如在标准输出中看到的那样正确加载到缓存中。 java.lang.IllegalArgumentException:错误的FS: 文件:/ app / hadoop / tmp / mapred / local / t ..
发布时间:2018-05-31 19:33:16 Java开发

Hadoop MapReduce log4j - 将消息记录到userlogs / job_ dir中的自定义文件中?

对于我来说,我不清楚如何在工作级别配置Hadoop MapReduce log4j。有人可以帮我回答这些问题。 1)如何从客户端机器添加支持log4j日志记录。即我想在客户端机器上使用log4j属性文件,因此不想干扰群集中的Hadoop log4j设置。我会认为在项目/ jar中的属性文件应该就足够了,hadoop的分布式缓存应该会继续传输map-reduce jar。 2)如何记录消 ..
发布时间:2018-05-31 19:28:58 分布式计算/Hadoop

对Hadoop中分布式缓存的困惑

分发缓存实际上意味着什么?在分布式缓存中有一个文件意味着它在每个datanode中都可用,因此该数据不会进行节点间通信,还是这意味着该文件在每个节点的内存中? 如果没有,通过什么方法可以为整个工作在内存中存储一​​个文件?这可以为map-reduce和UDF都完成。 (特别是有一些配置数据,我想保留的配置数据比较小在内存中作为UDF适用于蜂巢查询...?) 感谢和问候, Dhruv ..
发布时间:2018-05-31 18:56:40 分布式计算/Hadoop

在Hadoop分布式缓存中重用文件

我想知道是否有人可以解释分布式缓存如何在Hadoop中工作。我正在多次运行一项工作,每次运行后,我都注意到每个节点上的本地分布式缓存文件夹的大小都在增加。 有没有办法让多个工作重新使用分布式缓存中的同一个文件?或者分布式缓存只对任何单个作业的生命周期有效? 我感到困惑的原因是Hadoop文档提到“DistributedCache跟踪缓存的修改时间戳文件“,所以这导致我相信,如果时间戳没 ..
发布时间:2018-05-31 18:47:33 分布式计算/Hadoop

Hadoop - 分布式缓存中的大文件

我有一个4 GB的文件,我试图通过分布式缓存跨所有映射器共享。但我正在观察地图任务尝试启动的重大延迟。具体来说,我提交工作的时间(通过job.waitForCompletion())和第一张地图开始的时间之间存在显着的延迟。 我想知道在DistributedCache中有大文件的副作用。复制分布式缓存上的文件多少次?集群中的节点数量是否对此产生影响? (我的集群有大约13个节点在非常强 ..
发布时间:2018-05-31 18:32:04 分布式计算/Hadoop