apache-pig相关内容

如何使用pig将UTC时间转换为IST

我有一个机器数据进入hdfs如下,第8个字段是UTC时间(060037),我需要将其转换为IST,并将时间格式设置为hh:mm:ss使用pig VTS,01,0097,9739965515,NM,GP,20,060037,V,0000.0000,N,00000.0000,E,0.0,0.0,061114, 0068,00,4000,00,999,149,9594 VTS,01,0097 ..
发布时间:2017-04-08 16:46:00 其他开发

在猪/蜂巢中操作数据结构

我不太确定如何解决这个问题,所以请重新定位我,如果这个问题有一个更好的地方。 现在我有一个数据结构,或多或少组织如下: 我希望我的数据看起来像这样: 对于图像,显然我不能使用markdown来做这些! 我意识到我的问题类似于这一个,但理想情况下,我希望能够在猪,但知道如何在Hive,R,Python或Excel / LibreCalc中执行此操作也将是有用的/有趣的。 ..
发布时间:2017-04-03 15:46:15 其他开发

猪在grunt模式

我在windows中安装了cygwin,hadoop和pig。配置似乎确定,因为我可以批处理和嵌入式模式运行猪脚本。 当我尝试在grunt模式下运行猪,发生奇怪的事情。让我解释。 我尝试运行一个简单的命令,如 grunt> A = load'passwd'using PigStorage(':'); 当我按Enter键时,没有任何反应。光标移动到下一行,并且 gr ..
发布时间:2017-03-09 21:11:09 Linux/Unix

如何处理一个平面文件,JSON字符串作为每一行的一部分,转换为CSV文件使用PIG Loader?

我在HDFS中有一个档案为 44,UK,{“names”:{“name1”:“John” “name2”:“marry”,“name3”:“stuart”},“fruits”:{“fruit1”:“apple”,“fruit2”:“orange”}},31-07-2016 b $ b 91,INDIA,{“names”:{“name1”:“Ram”,“name2”:“Sam”},“fru ..
发布时间:2017-02-26 15:41:57 Office

Hadoop Pig - 删除csv标题

我的csv文件在第一行有标题。将它们加载到pig中会对任何后续函数(如SUM)造成混乱。截至今天,我首先对加载的数据应用过滤器,以删除包含标题的行: affaires = load'affaires。 csv'使用PigStorage(',')as(NU_AFFA:chararray,date:chararray); affaires =按日期过滤的会员符合'../../ ..'; ..
发布时间:2017-02-24 20:16:30 Office

在hadoop中使用正则表达式

我有一个包含用户(tweetid,tweets,userid)的CSV文件。 396124436476092416,“想想你的生活livin但不要以为这么辛苦它伤害生命是一个真正的礼物,但同样是一个诅se“,Obey_Jony09 396124436740317184,”“@ BleacherReport:万圣节给了我们这个惊人的Derrick Rose照片(通过@ amandakas ..
发布时间:2017-02-24 19:17:28 Office

在Pig中提取CSV文件的第一行

我有几个CSV文件,标题总是文件中的第一行。在Pig中将该行作为字符串从CSV文件中获取的最好方法是什么?预处理与sed,awk等不是一个选项。 我试图加载文件与普通PigStorage和Piggy bank CsvLoader,但它不清楚我怎么I可以得到第一行,如果有的话。 我可以写一个UDF,如果这是需要的。 解决方案 如果你的CSV符合Excel 2007的CSV约定,你 ..
发布时间:2017-02-24 18:51:31 Office

csv在pig中读取,csv文件包含逗号

所以我的数据看起来像这样 asdf,asdf,“adsf,qwef”,asdf 当我使用读取猪数据时 PigStorage(',') 它将“adsf,qwef”两个数据,并存储为 {“adsf} {qwef”} 我想将引号视为单个数据。 我该怎么办? 解决方案 / div> 您应该使用CSVLoad ..
发布时间:2017-02-24 18:05:46 Office

从猪出口到CSV

我有很多麻烦把数据从猪和CSV中,我可以使用在Excel或SQL(或R或SPSS等),而没有很多操作... 我试过使用以下函数: STORE pig_object INTO'/ Users / Name /Folder/pig_object.csv' 使用CSVExcelStorage(',','NO_MULTILINE','WINDOWS'); 它创建了一个带有很 ..
发布时间:2017-02-24 16:38:34 Office

在文本消息中字符串的计数出现

我有两个文件 - venues.csv和tweets.csv。我想计算每个场地的次数发生在推文消息从tweets文件。 我已经导入csv文件在HCatalog。 我到目前为止做了什么: 我知道如何过滤 text 字段,并获得包含'Shell'的tweet消息的这些元组。我想做同样的,但不是硬编码的 Shell ,而是名称从 venuesNames 包。我该怎么办?此外,如何正确使 ..
发布时间:2017-01-12 18:41:34 其他开发

比较猪中的datetime

在pig 11中,是否有比较datetime类型的支持?例如:date1:​​datetime 并且过滤条件:date1> = ToDate('1999-01-01') 这个比较是否返回正确的结果? 解决方案 日期比较可以被视为数值比较。 例如: cat date1.txt 1999-01-01 2011-03 -19 2011-02-24 2011- ..
发布时间:2016-12-21 14:43:08 其他开发

复合键在Cassandra与猪

我们有一个CQL表,看起来像这样: CREATE表数据b $ b seqnumber int, existtimems bigint, unique bigint, 字段映射, 主键seqnumber),occurtimems,unique) ) $ c> cqlsh 像这样: select * from data where seqnumber = ..
发布时间:2016-11-13 15:43:07 其他开发

如何使用Cassandra的地图缩小与或w / o猪?

有人可以解释MapReduce如何与Cassandra .6一起工作吗?我已经阅读了字数计数的例子,但我不完全按照卡桑德拉结束与“客户端”结束发生了什么。 https://svn.apache.org/repos/asf/cassandra/trunk/contrib / word_count / 例如,假设我使用Python和Pycassa,我如何加载一个新的map reduce函数 ..
发布时间:2016-11-13 14:30:39 其他开发

猪& Cassandra& DataStax拆分控制

我一直使用Pig与我的Cassandra数据做各种惊人的专长,几乎不可能写入命令。我使用DataStax的集成Hadoop&卡桑德拉,我不得不说,这是相当令人印象深刻。对那些家伙来说吧! 我有一个非常小的沙箱集群(2节点),我通过一些测试让这个系统。我有一个CQL表有约53M行(约350字节的ea。),我注意到,Mapper以后需要很长的时间磨通过这53M行。我开始在日志周围戳,我可以看到地 ..

如何在猪中使用XPath提取XML属性?

我想提取属性形成用隐语的XML。 这是XML文件的样本 <目录和GT; <书籍及GT; <职称考试=“测试1”>的Hadoop Defnitive向导及LT; / TITLE> <作者>汤姆白色< /作者> <&COUNTRY GT;美国和LT; /国家> <公司+ GT; Cloudera的< / COMPANY& ..
发布时间:2016-07-21 22:10:31 其他开发

Hadoop的猪加入任何匹配的元组值

我是新来的猪,并试图用它来处理的数据集。我有一组记录,看起来像 元素的id -------------- 1 [“一”,“B”,“C”] 2 [“一”,“F”,“G”] 3 [“F”,“G”,“H”] 的想法是,我要创建有​​任何重叠元素的元素的元组。如果元素只是一个单一的项目,而不是阵列,我可以做一个简单连接,如: A = LOAD'MYDATA“...... B = FOREACH一个G ..
发布时间:2016-06-03 22:22:01 其他开发

星火SQL二次过滤和分组

问题:我有一个数据集A {filed1,场2,FIELD3 ...},我想先A组由比方说,字段1 ,然后在每个所产生的群体,我愿做一堆的子查询,例如,数着有字段2 ==真的行数,或计数不同的 FIELD3 有字段4 ==“SOME_VALUE”和字段5 =数量= FALSE 等 我能想到的一些替代方案:我可以写定义聚合函数的自定义用户的需要,计算过滤条件的功能,但这种方式我要为每一个创建它的一个 ..
发布时间:2016-05-22 15:47:22 其他开发

在火花加盟,确实表顺序事象猪?

要星火相关 - 加入2 PairRDD元素 在做一个常规连接猪,在加入不带入内存,但通过代替流,因此,如果有每个键和B大的基数小的基数,是显著更好地做到加入A,B 比经B加入A ,从性能的角度来看(避免溢出和OOM) 是否有火花类似的概念?我没有看到任何这样的建议,并想知道它是如何可能的?实现在我看来pretty大致相同的猪: ..
发布时间:2016-05-22 15:37:57 其他开发