bigdata 第31页 - IT屋-程序员软件开发技术分享社区

Bigtable表现会影响专栏家庭

我们目前正在研究使用多个列族对我们的bigtable查询性能的影响。我们发现将列拆分成多个列族不会提高性能。有没有人有过类似的经历？关于基准设置的更多细节。此时，我们生产表中的每行包含大约5列，每列包含0.1到1 KB的数据。所有列都存储在一个列族中。在执行行键范围过滤器（平均返回340行）并应用列正则表达式过滤器（每行只返回1列）时，查询平均需要23,3ms。我们创建了一些测试表，我们将 ..

发布时间：2018-05-10 13:36:24 bigdata google-cloud-platform google-cloud-bigtable 其他开发

在Google bigquery中转换数据 - 提取文本，将其拆分为多个列并旋转数据

我有一些大型查询中的博客数据，我需要进行转换以使其更易于使用和查询。数据如下所示： > 我想在结果{... ..} （彩色蓝色）之后提取并转换数据内的曲线括号。数据的形式为'（\d +（（PQ）|（KL））+ \ d +）'，结果数组中可以有1-20 +条目。我只对前16个条目感兴趣。我已经能够使用Substr和regext_extract将卷曲括号内的数据提取到新列中。但我无 ..

发布时间：2018-05-07 17:38:16 sql regex bigdata google-bigquery google-cloud-storage 其他开发

Google BigQuery查询速度很慢

我正在使用Google BigQuery，并且正在执行一些来自PHP的简单查询。（例如SELECT * from emails WHERE email='mail@test.com'）我只是检查电子邮件是否存在于表格中。表格“emails”是现在空了。但PHP脚本仍然需要大约4分钟的时间来检查一张空桌子上的175封电子邮件。我希望将来这张桌子将会被填满，并且将会有50万封邮件，那么我估计 ..

发布时间：2018-05-07 17:37:57 php sql google-app-engine bigdata google-bigquery PHP

BigQuery：是否可以在UDF内执行另一个查询？

我有一张表格，每天为每个独特用户记录一行，并在当天为该用户汇总一些统计信息，而且我需要生成一份报告，告诉我每天的信息。包括当天在过去30天内的唯一用户数。例如。 8月31日，它将计算8月2日至8月31日的唯一用户数量。对于8月30日，它将计算8月1日至8月30日的独特用户数。 ... 我看了一些相关的问题，但他们不是我所需要的 - 如果用户在过去30天内登录多天，他应该只计算一 ..

发布时间：2018-05-07 17:37:34 google-bigquery user-defined-functions sliding-window bigdata 其他开发

查询失败错误：查询执行过程中资源超限：查询无法在分配的内存中执行

我使用的是标准SQL。尽管它的基本查询仍然存在错误。任何建议请 SELECT fullVisitorId， CONCAT（CAST（fullVisitorId AS字符串），CAST（visitId AS字符串））AS会话，日期， visitStartTime， hits.time， hits.page.pagepath FROM `XXXXXXXXXX.ga_sess ..

发布时间：2018-05-07 17:32:19 google-bigquery standard-sql bigdata 其他开发

如何从Big Query中的一列值中获取第一个非空值？

我试图从基于时间戳的值列中提取第一个非空值。有人可以分享你的想法。 FIRST_VALUE （列）OVER（PARTITION BY ID ORDER BY timestamp）输入： id，列，时间戳 1，NULL ，上午10点30分 1，NULL，10：31 am 1，'xyz'，10：32 am 1，'def'，10：33 am 2 ，NULL，11：3 ..

发布时间：2018-05-07 17:30:42 sql bigdata google-bigquery 其他开发

查找数据集中出现在多行中的所有两个单词短语

我们想运行一个查询，返回出现在两行以上的两个单词。因此对于例如采取字符串“数据忍者”。由于它出现在我们数据集的多行中，所以查询应该返回。查询应查找数据集中所有行的所有这些短语，方法是查询数据集中行中的两个相邻单词组合（形成短语）。这两个相邻的单词组合应该来自我们加载到BigQuery中的数据集我们如何在Google BigQuery中编写此查询？数据集只是一长串英文句子。解析方案 ..

发布时间：2018-05-07 17:23:51 data-mining bigdata google-bigquery data-analysis n-gram AI人工智能

斯卡拉immutable地图缓慢

当我创建一个地图时，我有一段代码： val map = gtfLineArr（8）.split （k，v）=>（k，v）} .toMap 然后我使用这张图创建我的对象： case class MyObject（val attribute1：String，val attribute2：Map [String：String]）我是读取数以百万计的行 ..

发布时间：2018-04-18 15:51:17 java performance scala functional-programming bigdata Java开发

在大数据框架中优化循环

我有一个大的数据框（600万行），一行为入口时间，下一行为同一单位（id）的退出时间。我需要把它们放在一起。原始数据如下所示（请注意，id = 1的情况下，某些“id”可能会进入和退出两次）： df 我需要的输出： id entry exit 1 15/12/2014 06:30 15/12/2014 06:31 2 15/12 / 2014 06: ..

发布时间：2018-01-28 13:53:26 r for-loop optimization bigdata 其他开发

我试图在浏览器中使用URL：hdfs：// localhost：8020 / user / input / Summary.txt打开一个文件（位于HDFS位置：/user/input/Summary.txt），但是我在我的firefox浏览器中出现错误： $ b $ Firefox不知道如何打开这个地址，因为协议（hdfs）不是如果我将协议从 hdfs 更改为 c $ c> http （理想情 ..

发布时间：2017-11-16 21:08:51 firefox hadoop hdfs bigdata 其他开发

是`ls -f |当使用POSIX / Unix系统（大数据）时，grep -c。是目录中最快的方法吗？

我曾经做过 ls path-to-whatever | wc -l ，直到我发现它实际上消耗了大量的内存。然后我转到查找路径到任意名称“*”| wc -l ，这似乎消耗了大量的内存，不管有多少文件。然后我知道ls大部分由于对结果进行分类，所以速度慢，内存效率低。通过使用 ls -f | grep -c。，会得到非常快的结果;唯一的问题是文件名可能有“换行符”。然而，对于大多数用例来说，这是 ..

发布时间：2017-11-06 21:52:06 unix filesystems bigdata 服务器开发

数据存储大型天体物理模拟数据

我是天体物理学的研究生。我使用十多年来大部分人开发的代码来运行大型的模拟。有关这些代码的示例，您可以查看小工具 http：//www.mpa-garching.mpg .de / gadget / 和enzo http://code.google.com/p/enzo / 。这些绝对是两个最成熟的代码（它们使用不同的方法）。这些模拟的输出是巨大的。根据你的代码，你的数据有点不一样，但总是大 ..

发布时间：2017-11-04 21:45:50 database file-io filesystems bigdata 其他开发

阅读大文本文件的n行

我所拥有的最小的文件有> 850k行，每行都是未知的长度。目标是在浏览器中从该文件中读取 n 行。以下是HTML 和JS我有： var n = 10; var reader = new FileReader（）; reader.onload = function（progressEvent） ..

发布时间：2017-11-03 19:19:43 javascript html file io bigdata 前端开发

如何确定我的HBase表的大小？有没有命令这样做？

我的Hbase shell上有多个表，我想将其复制到我的文件系统上。一些桌子超过100gb。但是，我的本地文件系统中只剩下55gb的可用空间。因此，我想知道我的hbase表的大小，以便我只能导出小尺寸的表。谢谢， gautham 解决方案 p>尝试 hdfs dfs -du -h / hbase / data / default / （或/ hbase /取决于您使用的hbase版 ..

发布时间：2017-10-05 15:07:53 hadoop export hbase bigdata 开发方法

在Hadoop 2上运行作业时无法初始化集群异常

问题与我之前的问题相关所有守护进程都在运行，jps显示： 6663 JobHistoryServer 7213 ResourceManager 9235 Jps 6289 DataNode 6200 NameNode 7420 NodeManager 但 wordcount 示例不断与以下异常： ERROR security.UserGrou ..

发布时间：2017-09-29 10:20:47 java exception hadoop bigdata yarn Java开发

为什么我们需要一个粗量化器？

在最近邻搜索的产品量化中，涉及到第IV.A节，它说他们会使用一个粗略的量化器（我们感觉到它只是一个更小的产品量化器，较小的wrt k 的质心）。我真的不明白为什么这有助于搜索过程，原因可能是我觉得我没有得到他们使用的方式。解决方案如“非排除性搜索”部分所述，产品量化器近似最近邻搜索很快，大大降低了存储描述符的的内存需求。然而，搜索是穷尽的。粗量化 ..

发布时间：2017-08-17 00:21:06 algorithm encoding bigdata nearest-neighbor quantization 开发方法

这个桶的一部分可能包含部分数据 - kibana问题

我正在面对问题，同时可视化kibana的图表，因为它不显示我的桶中的所有项目，并发出警告如下此桶的一部分可能包含部分数据。这里是相同的屏幕截图。不知道我在做错什么请帮助解决。解决方案你已经要求Kibana使用“年”作为x轴。自2016年以来尚未完成，1/1的数据现在将处于“2016”级别，但“尚未完成”。有意义吗？ ..

发布时间：2017-08-07 03:34:30 hadoop elasticsearch bigdata logstash kibana 分布式计算/Hadoop

如何加入Elasticsearch - 或在Lucene级别

我有一个具有两个大表的SQL设置：人员和项目。一个人可以拥有许多项目。 Person和Item行都可以更改（即更新）。我必须运行按个人和项目的方面进行过滤的搜索。在弹性搜索中，您可以将Person作为嵌套文档项目，然后使用 has_child 。但是：如果你更新一个人，我想你需要更新他们拥有的每个项目（这可能是很多）。是正确的吗？有没有一个很好的方式来解决这个 ..

发布时间：2017-08-07 00:34:40 join lucene nosql elasticsearch bigdata 分布式计算/Hadoop

什么时候启动其他弹性搜索节点？

我正试图用Elasticsearch替换Solr设置。这是一个新的设置，尚未看到生产，所以我有很多空间来解决事情，让他们工作得很好。我有非常非常大的数据量。我正在索引一些实时数据并持有它7天（通过使用_ttl字段）。我不在索引中存储任何数据（并禁用_source字段）。我期望我的指数稳定在 200亿行。我将这个数据放在2-3个命名的索引中。到目前为止，搜索性能达数十亿行是完全可以接受的，但 ..

发布时间：2017-08-07 00:10:37 elasticsearch sharding bigdata 分布式计算/Hadoop

从数据框中删除重复单元

我正在研究一个具有n个协变量的大型数据集。许多行都是重复的。为了识别重复项，我需要使用协变量子集来创建一个标识变量。也就是说，（n-x）协变量是无关紧要的。我想连接x协变量上的值，以唯一地识别观察值并消除重复。 set.seed（1234） UNIT ..

发布时间：2017-07-20 23:23:58 r duplicates bigdata duplicate-removal 其他开发

bigdata相关内容