bigdata相关内容

Bigtable表现会影响专栏家庭

我们目前正在研究使用多个列族对我们的bigtable查询性能的影响。我们发现将列拆分成多个列族不会提高性能。有没有人有过类似的经历? 关于基准设置的更多细节。此时,我们生产表中的每行包含大约5列,每列包含0.1到1 KB的数据。所有列都存储在一个列族中。在执行行键范围过滤器(平均返回340行)并应用列正则表达式过滤器(每行只返回1列)时,查询平均需要23,3ms。我们创建了一些测试表,我们将 ..

在Google bigquery中转换数据 - 提取文本,将其拆分为多个列并旋转数据

我有一些大型查询中的博客数据,我需要进行转换以使其更易于使用和查询。数据如下所示: > 我想在结果{... ..} (彩色蓝色)之后提取并转换数据内的曲线括号。数据的形式为'(\d +((PQ)|(KL))+ \ d +)',结果数组中可以有1-20 +条目。我只对前16个条目感兴趣。 我已经能够使用Substr和regext_extract将卷曲括号内的数据提取到新列中。但我无 ..
发布时间:2018-05-07 17:38:16 其他开发

Google BigQuery查询速度很慢

我正在使用Google BigQuery,并且正在执行一些来自PHP的简单查询。 (例如SELECT * from emails WHERE email='mail@test.com')我只是检查电子邮件是否存在于表格中。 表格“emails”是现在空了。但PHP脚本仍然需要大约4分钟的时间来检查一张空桌子上的175封电子邮件。我希望将来这张桌子将会被填满,并且将会有50万封邮件,那么我估计 ..
发布时间:2018-05-07 17:37:57 PHP

BigQuery:是否可以在UDF内执行另一个查询?

我有一张表格,每天为每个独特用户记录一行,并在当天为该用户汇总一些统计信息,而且我需要生成一份报告,告诉我每天的信息。包括当天在过去30天内的唯一用户数。 例如。 8月31日,它将计算8月2日至8月31日的唯一用户数量。 对于8月30日,它将计算8月1日至8月30日的独特用户数。 ... 我看了一些相关的问题,但他们不是我所需要的 - 如果用户在过去30天内登录多天,他应该只计算一 ..

查找数据集中出现在多行中的所有两个单词短语

我们想运行一个查询,返回出现在两行以上的两个单词。因此对于例如采取字符串“数据忍者”。由于它出现在我们数据集的多行中,所以查询应该返回。查询应查找数据集中所有行的所有这些短语,方法是查询数据集中行中的两个相邻单词组合(形成短语)。这两个相邻的单词组合应该来自我们加载到BigQuery中的数据集 我们如何在Google BigQuery中编写此查询? 数据集只是一长串英文句子。解析方案 ..

在大数据框架中优化循环

我有一个大的数据框(600万行),一行为入口时间,下一行为同一单位(id)的退出时间。我需要把它们放在一起。 原始数据如下所示(请注意,id = 1的情况下,某些“id”可能会进入和退出两次): df 我需要的输出: id entry exit 1 15/12/2014 06:30 15/12/2014 06:31 2 15/12 / 2014 06: ..
发布时间:2018-01-28 13:53:26 其他开发

在浏览器中打开一个HDFS文件

我试图在浏览器中使用URL:hdfs:// localhost:8020 / user / input / Summary.txt打开一个文件(位于HDFS位置:/user/input/Summary.txt),但是我在我的firefox浏览器中出现错误: $ b $ Firefox不知道如何打开这个地址,因为协议(hdfs)不是如果我将协议从 hdfs 更改为 c $ c> http (理想情 ..
发布时间:2017-11-16 21:08:51 其他开发

是`ls -f |当使用POSIX / Unix系统(大数据)时,grep -c。是目录中最快的方法吗?

我曾经做过 ls path-to-whatever | wc -l ,直到我发现它实际上消耗了大量的内存。然后我转到查找路径到任意名称“*”| wc -l ,这似乎消耗了大量的内存,不管有多少文件。 然后我知道ls大部分由于对结果进行分类,所以速度慢,内存效率低。通过使用 ls -f | grep -c。,会得到非常快的结果;唯一的问题是文件名可能有“换行符”。然而,对于大多数用例来说,这是 ..
发布时间:2017-11-06 21:52:06 服务器开发

数据存储大型天体物理模拟数据

我是天体物理学的研究生。我使用十多年来大部分人开发的代码来运行大型的模拟。有关这些代码的示例,您可以查看小工具 http://www.mpa-garching.mpg .de / gadget / 和enzo http://code.google.com/p/enzo / 。这些绝对是两个最成熟的代码(它们使用不同的方法)。 这些模拟的输出是巨大的。根据你的代码,你的数据有点不一样,但总是大 ..
发布时间:2017-11-04 21:45:50 其他开发

阅读大文本文件的n行

我所拥有的最小的文件有> 850k行,每行都是未知的长度。目标是在浏览器中从该文件中读取 n 行。 以下是HTML 和JS我有: var n = 10; var reader = new FileReader(); reader.onload = function(progressEvent) ..
发布时间:2017-11-03 19:19:43 前端开发

如何确定我的HBase表的大小?有没有命令这样做?

我的Hbase shell上有多个表,我想将其复制到我的文件系统上。一些桌子超过100gb。但是,我的本地文件系统中只剩下55gb的可用空间。因此,我想知道我的hbase表的大小,以便我只能导出小尺寸的表。谢谢, gautham 解决方案 p>尝试 hdfs dfs -du -h / hbase / data / default / (或/ hbase /取决于您使用的hbase版 ..
发布时间:2017-10-05 15:07:53 开发方法

为什么我们需要一个粗量化器?

在最近邻搜索的产品量化中,涉及到第IV.A节,它说他们会使用一个粗略的量化器(我们感觉到它只是一个更小的产品量化器,较小的wrt k 的质心)。 我真的不明白为什么这有助于搜索过程,原因可能是我觉得我没有得到他们使用的方式。 解决方案 如“非排除性搜索”部分所述, 产品量化器近似最近邻搜索 很快,大大降低了存储描述符的 的内存需求。 然而,搜索是穷尽的。 粗量化 ..

这个桶的一部分可能包含部分数据 - kibana问题

我正在面对问题,同时可视化kibana的图表,因为它不显示我的桶中的所有项目,并发出警告如下 此桶的一部分可能包含部分数据。 这里是相同的屏幕截图。不知道我在做错什么请帮助解决。 解决方案 你已经要求Kibana使用“年”作为x轴。自2016年以来尚未完成,1/1的数据现在将处于“2016”级别,但“尚未完成”。有意义吗? ..
发布时间:2017-08-07 03:34:30 分布式计算/Hadoop

如何加入Elasticsearch - 或在Lucene级别

我有一个具有两个大表的SQL设置:人员和项目。 一个人可以拥有许多项目。 Person和Item行都可以更改(即更新)。 我必须运行按个人和项目的方面进行过滤的搜索。 在弹性搜索中,您可以将Person作为嵌套文档项目,然后使用 has_child 。 但是:如果你更新一个人,我想你需要更新他们拥有的每个项目(这可能是很多)。 是正确的吗? 有没有一个很好的方式来解决这个 ..
发布时间:2017-08-07 00:34:40 分布式计算/Hadoop

什么时候启动其他弹性搜索节点?

我正试图用Elasticsearch替换Solr设置。这是一个新的设置,尚未看到生产,所以我有很多空间来解决事情,让他们工作得很好。 我有非常非常大的数据量。我正在索引一些实时数据并持有它7天(通过使用_ttl字段)。我不在索引中存储任何数据(并禁用_source字段)。我期望我的指数稳定在 200亿行。我将这个数据放在2-3个命名的索引中。到目前为止,搜索性能达数十亿行是完全可以接受的,但 ..
发布时间:2017-08-07 00:10:37 分布式计算/Hadoop

从数据框中删除重复单元

我正在研究一个具有n个协变量的大型数据集。许多行都是重复的。为了识别重复项,我需要使用协变量子集来创建一个标识变量。也就是说,(n-x)协变量是无关紧要的。我想连接x协变量上的值,以唯一地识别观察值并消除重复。 set.seed(1234) UNIT ..
发布时间:2017-07-20 23:23:58 其他开发