Datastax Cassandra PIG 仅运行一张 MAP [英] Datastax Cassandra PIG Running only one MAP

查看:21
本文介绍了Datastax Cassandra PIG 仅运行一张 MAP的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在使用带有两个节点的 Datastax Cassandra 3.1.4.我正在使用 CqlStorage() 运行 Pig,表中有 1200 万行,但我发现只有一个 map 运行一个简单的 pig 命令.

I am using Datastax Cassandra 3.1.4 with two nodes. I am running pig with CqlStorage() with 12million rows in the table, but I find there is only one map running for a simple pig command.

我尝试在我的猪关系中更改 split_size 但没有奏效.

I tried changing split_size in my pig relation but it didn't worked.

这是我的示例查询.

x = load'cql://Mykeyspace/MyCF?split_size=1000' using CqlStorage();
y = limit x 500;
dump y

我在 mapred-site.xml 中没有找到 input.split.size 属性我假设默认的分割大小是 64*1024

I didn't find input.split.size property in my mapred-site.xml I am assuming default split size is 64*1024

我试过 set pig.splitCombination false;

现在任何记录都需要 513 张地图,我从 Hive 尝试了同样的事情

Now its taking 513 maps for any no.of records, I tried same thing from Hive

我已经从 Hive 连接到 Cassandra,并给出了一个简单的 select all 查询,其中 col1>value 这个表只有 10 条记录,但仍然运行 513 个映射.

I have connected to Cassandra from Hive and gave a simple select all query with where col1>value this table have only 10 records but still this is running 513 maps.

请帮我解决这个问题

谢谢

推荐答案

试试这个设置:

set pig.splitCombination false;

默认情况下,pig 会将它认为的小分割组合成一张地图.

By default, pig will combine what it considers small splits into a single map.

这篇关于Datastax Cassandra PIG 仅运行一张 MAP的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆