bigdata相关内容

存储大量数据最聪明的方式

我想用REST请求访问Flickr的API和下载大约元数据。 1神达照片(也许更多)。 我想将它们存储在一个.csv文件,并将其导入然后进入MySQL数据库进行进一步的处理。 我想知道什么是处理这种大数据的最聪明的方式。什么我不知道的是如何将它们存储访问网站的Python中,将它们传递给.csv文件,并从那里到数据库后。那是一个很大的问号。 请告诉我现在发生的事情(我的理解,见code以下) ..
发布时间:2016-08-05 19:14:02 Python

Azure的4分钟超时在Web应用程序

我的项目是一个ASP.NET MVC 4项目。 而当我在Azure中承载它在本地主机正常工作 我得到在拿4分多钟的Ajax调用超时。 我相信这个问题是因为蔚蓝不要紧我在服务器正在做。 甚至只是设置视频下载(300000)我收到了超时。 我读: 的https://azure.microsoft.com/en-us/blog/new-configurable-idle-timeout-fo ..
发布时间:2016-06-07 21:09:21 C#/.NET

在Python和numpy的大数据工作,没有足够的RAM,如何保存到光盘部分结果?

我想实现算法的1000维数据与蟒蛇200K +数据点。我想用numpy的,SciPy的,sklearn,networkx和其他有用的库。我想对所有点进行,如所有点之间的成对距离操作,做集群。我已经实现了执行什么,我想以合理的复杂性,但是当我试图扩大他们我所有的数据,我用完了公羊工作的算法。我当然知道,在200K +数据创建成对距离矩阵需要的内存很多。 下面来渔获:我真的想这样做与少量的RAM蹩脚 ..
发布时间:2016-05-30 21:33:44 Python

星火 - 加入2 PairRDD元素

喜有JavaRDDPair有2个元素: (“类型A”,列表与LT; jsonTypeA>)(“类型B”,列表与LT; jsonTypeB>) 我需要在2对组合成1对类型:(“TypeA_B”名单,LT; jsonCombinedAPlusB>) 我需要2个列表组合成1列表,其中每个2 jsons(A型1和B型1)有一些共同的领域我可以加入上。 考虑类型A的该列表比其他显 ..
发布时间:2016-05-22 16:49:28 其他开发

错误的色调运行李维火花服务器

当我运行以下命令 色相livy_server 显示跟随误差 无法运行火花提交可执行文件:java.io.IOException异常:不能运行程序“火花提交”:错误= 2,没有这样的文件或目录 我已经设置SPARK_HOME = /家庭/爱玛/火花 解决方案 如果您在本地模式运行李维将除了发现在其环境中的火花提交脚本。检查你的shell PATH变量。 ..
发布时间:2016-05-22 16:35:35 其他开发

在是否火花flatMap导致洗牌?

请问flatMap火花表现得像地图功能,因此不会引起洗牌呢,还是引发洗牌。我怀疑它会造成洗牌。有人可以证实吗? 解决方案 有没有与任何地图或flatMap洗牌。导致洗牌的操作是: 重新分区操作: 重新分区: 合并: ByKey操作(除计数): GroupByKey: ReduceByKey: 加入的操作: 协同组: 加入 虽然集新混洗数据的每 ..
发布时间:2016-05-22 16:30:31 其他开发

为什么星火快时字数?

测试用例:字计数在6G数据20+秒星火 我理解的麻preduce 的 FP 的和的流的编程模型,但想不出单词统计是如此惊人快速。 我认为这是在这种情况下,I / O密集​​型计算,它是不可能在扫描超过20秒6G文件。我想有类似Lucene的不字计数之前进行索引。魔术应该在 RDD (弹性分布式数据集)设计,我不明白不够好。 我AP preciate如果有人能解释的 RDD 作为字计数情况。谢 ..
发布时间:2016-05-22 16:12:24 其他开发

无法指望用reduceByKey字((V1,V2)=> V1 + V2)斯卡拉功能火花

我刚开始学习的火花。在独立模式下使用火花试图做字数在Scala中。我观察到的问题是reduceByKey()不分组的话预期。空阵列被打印。我也跟着步骤如下... 创建一个文本文件,其中包括用空格分隔一些话。 在火花贝壳我执行下面的命令。 斯卡拉>进口org.apache.spark.SparkContext 进口org.apache.spark.SparkContext斯卡拉>进 ..
发布时间:2016-05-22 16:09:10 其他开发

星火数据类型猜测器UDAF

要拍这样的事情 https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java 并创建一个蜂巢UDAF创建一个返回数据类型的猜测聚合函数。 星火是否有这样的事情已经内置? 将是非常有用的新的大型数据集探索数据。将是ML也有帮助,例如决定分类VS数值变量。 你通常如何确定星火数据类型? P.S。像H ..

如何在pyspark mapPartitions功能工作?

所以我想学习使用Python(Pyspark)的火花。我想知道如何在功能 mapPartitions 的工作。这就是输入需要它给什么输出。我无法从网上找到任何合适的例子。比方说,我有一个包含列表,如低于RDD对象。 [[1,2,3],[3,2,4],[5,2,7]] 和我想从所有列表中删除元素2,我怎么会实现,使用 mapPartitions 。 解决方案 mapPartition应 ..
发布时间:2016-05-22 16:03:03 Python

其作用火花所使用的按键两结合RDDS

让我们说,我有以下两个RDDS,具有以下密钥对的值。 RDD1集= [(键1,[值1,值]),(键2,[值3,值4])] 和 RDD2 = [(键1,[值5,value6]),(键2,[value7])] 现在,我想通过键值加入他们,所以比如我想返回以下 RET = [(键1,[值1,值2,值5,value6]),(键2,[值3,值4,value7])] 我如何我能做到这一点,火花 ..
发布时间:2016-05-22 15:58:42 Python

如何将一个分类变量星火成一组列codeD作为{0,1}?

我想对包含分类变量的数据集执行逻辑回归(LogisticRegressionWithLBFGS)与星火MLlib(使用Scala)。我发现星火无法与类型的变量工作。 在R里面有一个简单的方法来处理那样的问题:我改造变量因子(类别),以r创建一组列codeD,因为{0,1}指针变量 我如何与星火执行此? 解决方案 如果我正确理解你不想为1类别列在多个虚拟列转换。你想激发明白,列分类,而不 ..

会引发unpersist的RDD本身,当它意识到它不会再被使用?

我们可以坚持一个RDD到内存和/或磁盘,当我们要使用它不止一次。但是,我们是否要unpersist它自己以后,还是不星火时不再需要某种垃圾收集RDD和unpersist呢?我注意到,如果我叫unpersist功能我自己,我得到性能下降。 解决方案 是的,它的垃圾回收时的Apache星火将unpersist的RDD。 在 ..
发布时间:2016-05-22 15:51:00 其他开发

如何从火花HBase的表中提取所有数据

我在HBase的一大桌的名字是UserAction,它有三个列族(歌曲,专辑,歌手)。我需要从“歌”列族提取所有数据作为JavaRDD对象。我试试这个code,但它的效率不高。有没有更好的解决办法做到这一点? 静态SparkConf sparkConf =新SparkConf()。setAppName(“测试”)。setMaster( “本地[4]”); 静态JavaSparkC ..
发布时间:2016-05-22 15:50:06 Java开发

马preduce或火花?

我已经测试过Hadoop和马preduce与Cloudera的,我发现它pretty冷静,我认为我是最近和最相关的BigData解决方案。但前几天,我发现这一点: https://spark.incubator.apache.org/ 一个“快如闪电集群计算系统”,能够在Hadoop集群的顶部工作,显然能粉碎马preduce。我看到它在RAM比马preduce工作更多。 我认为,马predu ..
发布时间:2016-05-22 15:49:17 其他开发

快速Hadoop的分析(Cloudera的黑斑羚VS星火/鲨鱼VS阿帕奇钻)

我要对在HDFS中的数据做一些“近实时”的数据分析(OLAP样)。结果 我的研究表明,上述三个框架的类似Apache蜂巢报告显著的性能提升。有没有人有那些任何一个部分的实践经验?不仅涉及性能,而且对于稳定? 解决方案 蜂房和黑斑羚或比较星火或钻有时听起来不合适我。背后开发蜂房,这些工具的目标是不同的。蜂房从未进行实时开发,在内存中处理,并基于马preduce。它是专为脱机批处理有点儿东西 ..
发布时间:2016-05-22 15:49:14 其他开发

在火花加盟,确实表顺序事象猪?

要星火相关 - 加入2 PairRDD元素 在做一个常规连接猪,在加入不带入内存,但通过代替流,因此,如果有每个键和B大的基数小的基数,是显著更好地做到加入A,B 比经B加入A ,从性能的角度来看(避免溢出和OOM) 是否有火花类似的概念?我没有看到任何这样的建议,并想知道它是如何可能的?实现在我看来pretty大致相同的猪: ..
发布时间:2016-05-22 15:37:57 其他开发

阿帕奇星火与Apache的风暴

什么是阿帕奇星火并的 Apache的风暴?什么是适合的用例为每一个? 解决方案 阿帕奇Spark是在内存中的分布式数据分析平台 - 主要针对加快批次分析工作,反复学习机作业,交互式查询和图形处理。 一个火花的主要区别是其使用RDDS或弹性分布式数据集。 RDDS是伟大的用于计算的并行流水线操作,并根据定义,不可改变的,这使得星火根据谱系信息的容错独特的形式。如果您有兴趣,例如,执行Had ..
发布时间:2016-05-22 15:28:08 其他开发