bigdata 第34页 - IT屋-程序员软件开发技术分享社区

存储大量数据最聪明的方式

我想用REST请求访问Flickr的API和下载大约元数据。 1神达照片（也许更多）。我想将它们存储在一个.csv文件，并将其导入然后进入MySQL数据库进行进一步的处理。我想知道什么是处理这种大数据的最聪明的方式。什么我不知道的是如何将它们存储访问网站的Python中，将它们传递给.csv文件，并从那里到数据库后。那是一个很大的问号。请告诉我现在发生的事情（我的理解，见code以下） ..

发布时间：2016-08-05 19:14:02 python database web-scraping beautifulsoup bigdata Python

Azure的4分钟超时在Web应用程序

我的项目是一个ASP.NET MVC 4项目。而当我在Azure中承载它在本地主机正常工作我得到在拿4分多钟的Ajax调用超时。我相信这个问题是因为蔚蓝不要紧我在服务器正在做。甚至只是设置视频下载（300000）我收到了超时。我读：的https://azure.microsoft.com/en-us/blog/new-configurable-idle-timeout-fo ..

发布时间：2016-06-07 21:09:21 asp.net asp.net-mvc-4 azure bigdata iis-8 C#/.NET

如何让我没有跑出来一个大的内存阵列3D？

我有以下方式：公共静态无效createGiantArray（INT大小）{ INT [] [] [] = giantArray新INT [大小] [SIZE] [SIZE] } 当我与一个大小为10,000像这样称呼它： createGiantArray（10000）; 我收到以下错误：异常线程“main”java.lang.OutOfMemoryError：Java堆空间 ..

发布时间：2016-06-03 21:54:58 java arrays multidimensional-array out-of-memory bigdata Java开发

在Python和numpy的大数据工作，没有足够的RAM，如何保存到光盘部分结果？

我想实现算法的1000维数据与蟒蛇200K +数据点。我想用numpy的，SciPy的，sklearn，networkx和其他有用的库。我想对所有点进行，如所有点之间的成对距离操作，做集群。我已经实现了执行什么，我想以合理的复杂性，但是当我试图扩大他们我所有的数据，我用完了公羊工作的算法。我当然知道，在200K +数据创建成对距离矩阵需要的内存很多。下面来渔获：我真的想这样做与少量的RAM蹩脚 ..

发布时间：2016-05-30 21:33:44 python arrays numpy scipy bigdata Python

星火 - 加入2 PairRDD元素

喜有JavaRDDPair有2个元素：（“类型A”，列表与LT; jsonTypeA＆GT;）（“类型B”，列表与LT; jsonTypeB＆GT;）我需要在2对组合成1对类型：（“TypeA_B”名单，LT; jsonCombinedAPlusB＆GT;）我需要2个列表组合成1列表，其中每个2 jsons（A型1和B型1）有一些共同的领域我可以加入上。考虑类型A的该列表比其他显 ..

发布时间：2016-05-22 16:49:28 hadoop bigdata apache-spark 其他开发

错误的色调运行李维火花服务器

当我运行以下命令色相livy_server 显示跟随误差无法运行火花提交可执行文件：java.io.IOException异常：不能运行程序“火花提交”：错误= 2，没有这样的文件或目录我已经设置SPARK_HOME = /家庭/爱玛/火花解决方案如果您在本地模式运行李维将除了发现在其环境中的火花提交脚本。检查你的shell PATH变量。 ..

发布时间：2016-05-22 16:35:35 apache-spark bigdata hue 其他开发

在是否火花flatMap导致洗牌？

请问flatMap火花表现得像地图功能，因此不会引起洗牌呢，还是引发洗牌。我怀疑它会造成洗牌。有人可以证实吗？解决方案有没有与任何地图或flatMap洗牌。导致洗牌的操作是：重新分区操作：重新分区：合并： ByKey操作（除计数）： GroupByKey： ReduceByKey：加入的操作：协同组：加入虽然集新混洗数据的每 ..

发布时间：2016-05-22 16:30:31 scala apache-spark bigdata 其他开发

为什么星火快时字数？

测试用例：字计数在6G数据20+秒星火我理解的麻preduce 的 FP 的和的流的编程模型，但想不出单词统计是如此惊人快速。我认为这是在这种情况下，I / O密集型计算，它是不可能在扫描超过20秒6G文件。我想有类似Lucene的不字计数之前进行索引。魔术应该在 RDD （弹性分布式数据集）设计，我不明白不够好。我AP preciate如果有人能解释的 RDD 作为字计数情况。谢 ..

发布时间：2016-05-22 16:12:24 parallel-processing streaming apache-spark bigdata rdd 其他开发

无法指望用reduceByKey字（（V1，V2）=＆GT; V1 + V2）斯卡拉功能火花

我刚开始学习的火花。在独立模式下使用火花试图做字数在Scala中。我观察到的问题是reduceByKey（）不分组的话预期。空阵列被打印。我也跟着步骤如下... 创建一个文本文件，其中包括用空格分隔一些话。在火花贝壳我执行下面的命令。斯卡拉＆GT;进口org.apache.spark.SparkContext 进口org.apache.spark.SparkContext斯卡拉＆GT;进 ..

发布时间：2016-05-22 16:09:10 scala hadoop apache-spark bigdata 其他开发

星火数据类型猜测器UDAF

要拍这样的事情 https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java 并创建一个蜂巢UDAF创建一个返回数据类型的猜测聚合函数。星火是否有这样的事情已经内置？将是非常有用的新的大型数据集探索数据。将是ML也有帮助，例如决定分类VS数值变量。你通常如何确定星火数据类型？ P.S。像H ..

发布时间：2016-05-22 16:09:07 apache-spark machine-learning hive bigdata apache-spark-mllib AI人工智能

如何在pyspark mapPartitions功能工作？

所以我想学习使用Python（Pyspark）的火花。我想知道如何在功能 mapPartitions 的工作。这就是输入需要它给什么输出。我无法从网上找到任何合适的例子。比方说，我有一个包含列表，如低于RDD对象。 [[1，2，3]，[3，2,4]，[5,2，7]] 和我想从所有列表中删除元素2，我怎么会实现，使用 mapPartitions 。解决方案 mapPartition应 ..

发布时间：2016-05-22 16:03:03 python scala bigdata apache-spark Python

其作用火花所使用的按键两结合RDDS

让我们说，我有以下两个RDDS，具有以下密钥对的值。 RDD1集= [（键1，[值1，值]），（键2，[值3，值4]）] 和 RDD2 = [（键1，[值5，value6]），（键2，[value7]）] 现在，我想通过键值加入他们，所以比如我想返回以下 RET = [（键1，[值1，值2，值5，value6]），（键2，[值3，值4，value7]）] 我如何我能做到这一点，火花 ..

发布时间：2016-05-22 15:58:42 python scala bigdata apache-spark Python

如何将一个分类变量星火成一组列codeD作为{0,1}？

我想对包含分类变量的数据集执行逻辑回归（LogisticRegressionWithLBFGS）与星火MLlib（使用Scala）。我发现星火无法与类型的变量工作。在R里面有一个简单的方法来处理那样的问题：我改造变量因子（类别），以r创建一组列codeD，因为{0,1}指针变量我如何与星火执行此？解决方案如果我正确理解你不想为1类别列在多个虚拟列转换。你想激发明白，列分类，而不 ..

发布时间：2016-05-22 15:54:56 scala apache-spark bigdata apache-spark-mllib categorical-data 其他开发

会引发unpersist的RDD本身，当它意识到它不会再被使用？

我们可以坚持一个RDD到内存和/或磁盘，当我们要使用它不止一次。但是，我们是否要unpersist它自己以后，还是不星火时不再需要某种垃圾收集RDD和unpersist呢？我注意到，如果我叫unpersist功能我自己，我得到性能下降。解决方案是的，它的垃圾回收时的Apache星火将unpersist的RDD。在 ..

发布时间：2016-05-22 15:51:00 hadoop apache-spark bigdata rdd 其他开发

如何从火花HBase的表中提取所有数据

我在HBase的一大桌的名字是UserAction，它有三个列族（歌曲，专辑，歌手）。我需要从“歌”列族提取所有数据作为JavaRDD对象。我试试这个code，但它的效率不高。有没有更好的解决办法做到这一点？静态SparkConf sparkConf =新SparkConf（）。setAppName（“测试”）。setMaster（ “本地[4]”）; 静态JavaSparkC ..

发布时间：2016-05-22 15:50:06 java mapreduce hbase bigdata apache-spark Java开发

马preduce或火花？

我已经测试过Hadoop和马preduce与Cloudera的，我发现它pretty冷静，我认为我是最近和最相关的BigData解决方案。但前几天，我发现这一点： https://spark.incubator.apache.org/ 一个“快如闪电集群计算系统”，能够在Hadoop集群的顶部工作，显然能粉碎马preduce。我看到它在RAM比马preduce工作更多。我认为，马predu ..

发布时间：2016-05-22 15:49:17 hadoop mapreduce bigdata apache-spark 其他开发

快速Hadoop的分析（Cloudera的黑斑羚VS星火/鲨鱼VS阿帕奇钻）

我要对在HDFS中的数据做一些“近实时”的数据分析（OLAP样）。结果我的研究表明，上述三个框架的类似Apache蜂巢报告显著的性能提升。有没有人有那些任何一个部分的实践经验？不仅涉及性能，而且对于稳定？解决方案蜂房和黑斑羚或比较星火或钻有时听起来不合适我。背后开发蜂房，这些工具的目标是不同的。蜂房从未进行实时开发，在内存中处理，并基于马preduce。它是专为脱机批处理有点儿东西 ..

发布时间：2016-05-22 15:49:14 apache-spark bigdata impala apache-drill 其他开发

在火花加盟，确实表顺序事象猪？

要星火相关 - 加入2 PairRDD元素在做一个常规连接猪，在加入不带入内存，但通过代替流，因此，如果有每个键和B大的基数小的基数，是显著更好地做到加入A，B 比经B加入A ，从性能的角度来看（避免溢出和OOM）是否有火花类似的概念？我没有看到任何这样的建议，并想知道它是如何可能的？实现在我看来pretty大致相同的猪： ..

发布时间：2016-05-22 15:37:57 hadoop apache-spark apache-pig bigdata 其他开发

阿帕奇星火与Apache的风暴

什么是阿帕奇星火并的 Apache的风暴？什么是适合的用例为每一个？解决方案阿帕奇Spark是在内存中的分布式数据分析平台 - 主要针对加快批次分析工作，反复学习机作业，交互式查询和图形处理。一个火花的主要区别是其使用RDDS或弹性分布式数据集。 RDDS是伟大的用于计算的并行流水线操作，并根据定义，不可改变的，这使得星火根据谱系信息的容错独特的形式。如果您有兴趣，例如，执行Had ..

发布时间：2016-05-22 15:28:08 bigdata apache-storm apache-spark 其他开发

如何计算与Apache星火精确的中间？

..

发布时间：2016-05-22 15:18:16 scala hadoop bigdata apache-spark 其他开发

bigdata相关内容