distributed-cache相关内容
分发缓存实际上是什么意思?在分布式缓存中拥有一个文件意味着它在每个数据节点中都可用,因此该数据将没有节点间通信,或者这是否意味着该文件在每个节点的内存中?如果没有,我可以通过什么方式在整个工作的内存中保存一个文件?这可以为 map-reduce 和 UDF 完成吗.. (特别是有一些配置数据,相对较小,我想保留在内存中,因为 UDF 应用于 hive 查询......?) 谢谢和问候,
..
我有一个 4 GB 的文件,我试图通过分布式缓存在所有映射器之间共享.但我观察到地图任务尝试开始的显着延迟.具体来说,在我提交作业(通过 job.waitForCompletion())和第一张地图开始之间存在显着延迟. 我想知道在 DistributedCache 中有大文件的副作用是什么.分布式缓存上的文件复制了多少次?集群中的节点数对此有影响吗? (我的集群有大约 13 个节点运
..
我在运行在两个不同物理根节点上的Debian Squeeze上的两个openvz容器上编译了trafficserver-4.1.2.除群集外,包括缓存在内的所有内容都可以正常工作.我在两个节点上都添加了相同的名称, traffic_line -s proxy.config.proxy_name -v fetest 配置为在端口80上运行 traffic_line -s proxy.
..
好的,我能够使用ilibjars路径将外部jar添加到我的代码中. 现在如何在我的代码中使用这些外部jar.说我有一个在罐子上定义的函数,该函数对String进行操作.如何使用它. 使用context.getArchiveClassPaths(),我可以获取到它的路径,但是我不知道如何实例化该对象. 这是我要导入的示例jar类 package replace; public clas
..
我有2个节点集群(v1.04),分别是主节点和从节点.在主服务器上,在Tool.run()中,我们使用addCacheFile()将两个文件添加到DistributedCache中. HDFS中确实存在文件. 在Mapper.setup()中,我们要使用 从缓存中检索那些文件. FSDataInputStream fs = FileSystem.get( context.getConfigur
..
我正在使用Hazelcast版本3.3.1. 我有一个使用c3.2xlarge服务器在AWS上运行的9节点群集. 我正在使用分布式执行程序服务和分布式映射. 分布式执行程序服务使用单个线程. 分布式映射被配置为没有复制且没有近缓存,并使用Kryo序列化程序存储了大约一百万个大小为1-2kb的对象. 我的用例如下: 所有9个节点在分布式执行程序服务上不断执行同步远程操作,并每秒产生约2万
..
我个人致力于.net分布式缓存解决方案,但我认为这个问题在所有平台上都很有趣. 是否存在一种分布式缓存解决方案(或通用策略),该解决方案可以将两个对象都存储在缓存中,同时保持它们之间引用的完整性? 举例说明-假设我有一个引用对象Bar bar的对象Foo foo和一个引用相同Bar bar的对象Foo foo2.如果将foo加载到缓存中,则会同时存储bar的副本.如果我也将foo2加载
..
我正在寻找类似于Spark中Hadoop分布式缓存的功能.我需要在所有节点中都存在一个相对较小的数据文件(带有一些索引值),以便进行一些计算.有什么方法可以在Spark中实现这一目标吗? 到目前为止,我的解决方法是作为正常处理分发和减少索引文件,这在我的应用程序中大约需要10秒钟.之后,我将指示其为广播变量的文件保留为以下内容: JavaRDD indexFile =
..
假设我有一个MapReduce作业正在创建输出文件part-00000,并且在完成此作业后还有一个作业正在运行. 如何将分布式缓存中第一个作业的输出文件用于第二个作业. 解决方案 以下步骤可能会对您有所帮助, 将第一个作业的输出目录路径传递给第二个作业的驱动程序 课. 使用路径过滤器列出以part-*开头的文件.请参考下面的代码片段作为您的第二个作业驱动程序类,
..
我最近开始将Infinispan作为我们的缓存层。在阅读Infinispan中的操作模式后,如下所述。 嵌入模式:这是在与应用程序相同的JVM中启动Infinispan的时候。 客户端 - 服务器模式:这是当您启动远程Infinispan实例并使用各种不同协议连接到它时。 首先,我现在很困惑,最适合我上述两种模式的申请。 我有一个非常简单的用例,我们有一个客户端代码,它将使用服
..
我正在编写MapReduce作业来分析网络日志。我的代码旨在将IP地址映射到地理位置,并且我使用Maxmind Geo API( https:// github.com/maxmind/geoip-api-java )。我的代码有一个LookupService方法需要数据库文件与ip到位置匹配。我正尝试使用分布式缓存传递此数据库文件。我尝试了两种不同的方式来完成这项工作: 从HDFS传递文件,但它
..
我在Hadoop 2.x中的DistributedCache中遇到了一个新API,我发现有些人在解决这个问题,但它并不能解决我的问题。 / hadoop-2-distributedcache-deprecated-and-doesnt-work-is-there-a-replacement / 20480460#20480460“>示例 此解决方案因为我在尝试检索DistributedCac
..
正如 getLocalCacheFiles ()已被弃用,我试图找到一个替代方案。 getCacheFiles()似乎是一个,但我怀疑它们是否相同。 当您调用 addCacheFile(),HDFS中的文件将被下载到每个节点并使用 getLocalCacheFiles()本地化文件路径,并且可以从本地文件系统读取它。但是, getCacheFiles()返回的是HDFS中文件的URI。如果你
..
我试图实现减少边连接,并使用mapfile reader来查找分布式缓存,但在stderr中检查时没有查找值,它显示以下错误,lookupfile文件已存在于hdfs中,似乎正如在标准输出中看到的那样正确加载到缓存中。 java.lang.IllegalArgumentException:错误的FS: 文件:/ app / hadoop / tmp / mapred / local / t
..
对于我来说,我不清楚如何在工作级别配置Hadoop MapReduce log4j。有人可以帮我回答这些问题。 1)如何从客户端机器添加支持log4j日志记录。即我想在客户端机器上使用log4j属性文件,因此不想干扰群集中的Hadoop log4j设置。我会认为在项目/ jar中的属性文件应该就足够了,hadoop的分布式缓存应该会继续传输map-reduce jar。 2)如何记录消
..
我使用以下代码将文件添加到分布式缓存中: 配置conf2 = new Configuration(); job = new Job(conf2); job.setJobName(“加入缓存”); DistributedCache.addCacheFile(新的URI(“hdfs:// server:port / FilePath / part-r-00000”),conf2);
..
分发缓存实际上意味着什么?在分布式缓存中有一个文件意味着它在每个datanode中都可用,因此该数据不会进行节点间通信,还是这意味着该文件在每个节点的内存中? 如果没有,通过什么方法可以为整个工作在内存中存储一个文件?这可以为map-reduce和UDF都完成。 (特别是有一些配置数据,我想保留的配置数据比较小在内存中作为UDF适用于蜂巢查询...?) 感谢和问候, Dhruv
..
我想知道是否有人可以解释分布式缓存如何在Hadoop中工作。我正在多次运行一项工作,每次运行后,我都注意到每个节点上的本地分布式缓存文件夹的大小都在增加。 有没有办法让多个工作重新使用分布式缓存中的同一个文件?或者分布式缓存只对任何单个作业的生命周期有效? 我感到困惑的原因是Hadoop文档提到“DistributedCache跟踪缓存的修改时间戳文件“,所以这导致我相信,如果时间戳没
..
我有一个4 GB的文件,我试图通过分布式缓存跨所有映射器共享。但我正在观察地图任务尝试启动的重大延迟。具体来说,我提交工作的时间(通过job.waitForCompletion())和第一张地图开始的时间之间存在显着的延迟。 我想知道在DistributedCache中有大文件的副作用。复制分布式缓存上的文件多少次?集群中的节点数量是否对此产生影响? (我的集群有大约13个节点在非常强
..