bigdata相关内容

在“from_delayed"JSON 文件中发现 DASK 元数据不匹配

我刚刚从 DASK 开始我的冒险,并且我正在学习一个 json 格式的示例数据集.我知道对于初学者来说这不是世界上最简单的数据格式:) 我有一个 json 格式的数据集.我通过 dd.read_json 将数据加载到数据框,一切顺利.例如,compute() 或 len() 函数会出现问题. 我收到此错误: ValueError:在 `from_delayed` 中发现元数据不匹配. ..
发布时间:2022-01-21 13:39:13 Python

何时使用 dynamoDB -UseCases

我试图找出最适合 Amazon dynamoDB 的用例. 当我在谷歌上搜索时,大多数博客都说 DyanmoDb 将仅用于大量数据 (BigData). 我有关系数据库的背景.NoSQL DB 对我来说是新的.所以当我试图将它与正常的关系数据库知识联系起来时. 与 DynamoDb 相关的大部分概念是使用分区键/排序键创建无模式表.并尝试根据键来查询它们.另外,没有存储过程的概念 ..
发布时间:2022-01-15 17:40:25 其他开发

如何在 Elasticsearch 中加入 - 或在 Lucene 级别

在 Elasticsearch 中执行相当于 SQL 联接的最佳方法是什么? 我有一个包含两个大表的 SQL 设置:Persons 和 Items.一个人可以拥有许多项.Person 和 Item 行都可以更改(即更新).我必须运行搜索,根据人和项目的各个方面进行过滤. 在 Elasticsearch 中,您可以将 Person 设为 Item 的嵌套文档,然后使用 has_child ..
发布时间:2022-01-15 13:16:59 其他开发

如何从spark中的hbase表中获取所有数据

我在 hbase 中有一个名为 UserAction 的大表,它具有三个列族(歌曲、专辑、歌手).我需要从“歌曲"列族中获取所有数据作为 JavaRDD 对象.我尝试了这段代码,但效率不高.有更好的解决方案吗? static SparkConf sparkConf = new SparkConf().setAppName("test").setMaster(“本地[4]");静态 JavaSp ..
发布时间:2022-01-14 08:04:42 Java开发

如何在hadoop中按值对字数进行排序?

嗨,我想学习如何在 hadoop 中按值对字数进行排序.我知道 hadoop 采用排序键,但不是按值. 我知道要对值进行排序,我们必须有一个分区器、分组比较器和一个排序比较器 但我在将这些概念一起应用以按值对字数进行排序时有点困惑. 我们是否需要另一个 map reduce 作业来实现相同的目的,或者需要一个组合器来计算出现次数,然后在这里排序并将相同的结果发送到 reducer ..
发布时间:2022-01-13 23:43:15 其他开发

在 Map reduce java 中跳过 .csv 的第一行

由于 mapper 函数对每一行都运行,我可以知道如何跳过第一行吗?对于某些文件,它包含我想忽略的列标题 解决方案 在mapper中读取文件时,数据以键值对的形式读入.关键是下一行开始的字节偏移量.对于第 1 行,它始终为零.所以在映射器函数中执行以下操作 @Override公共无效映射(LongWritable 键,文本值,上下文上下文)抛出 IOException {尝试 {if ..
发布时间:2022-01-13 23:41:43 Java开发

jobconf 和 job 之间的基本区别是什么?

嗨,我想知道jobconf和job对象之间的基本区别,目前我正在提交我的工作 JobClient.runJob(jobconf); 我看到了像这样提交工作的其他方式 配置 conf = getConf();Job job = new Job(conf, "二级排序");作业.waitForCompletion(true);返回0; 如何使用 jobconf 为作业指定 sortcompar ..
发布时间:2022-01-13 23:40:19 其他开发

hbase和hive有什么区别?(Hadoop)

据我了解,Hbase 是 Hadoop 数据库,Hive 是数据仓库. Hive 允许创建表并在其中存储数据,您还可以将现有的 HBase 表映射到 Hive 并对其进行操作. 如果 hive 做所有这些,为什么我们应该使用 hbase?我们可以单独使用蜂巢吗?我很困惑:( 解决方案 简单来说,使用 hive,您可以在表上触发类似 SQL 的查询(有一些例外),并用于批处理操作 ..
发布时间:2022-01-13 13:45:27 其他开发

是否有类似 Redis DB 的东西,但不受 RAM 大小的限制?

我正在寻找符合这些条件的数据库: 可能是非持久性的; 几乎所有 DB 的密钥都需要在 3-6 小时内更新一次(100M+ 密钥,总大小为 100Gb) 能够通过键(或主键)快速选择数据 这需要是一个 DBMS(所以 LevelDB 不适合) 写入数据时,数据库集群必须能够提供查询服务(但可以阻止单个节点) 不在内存中 - 我们的数据集将超出 RAM 限制 水平扩展和复制 支持全 ..
发布时间:2022-01-13 13:28:55 其他开发

由 Azure 数据仓库提供支持的 Power BI 中基于时间的向下钻取

我设计了一个简单的 Azure 数据仓库,我想在其中定期跟踪我的产品库存.此外,我希望能够查看按月、周、日和小时分组的数据,并能够从上到下向下钻取.我定义了 3 个维度: DimDate昏暗时间昏暗产品 我还定义了一个事实表来跟踪产品库存: FactStocks- 日期键(20160510、20160511 等)- 时间键(0..23)- 产品密钥(产品 1、产品 2)- StockValu ..
发布时间:2022-01-10 16:38:55 其他开发

访问 ConcurrentHashMap<Element, Boolean> 的每个元素的可扩展方式恰好一次

我有 32 个机器线程和一个 ConcurrentHashMapmap,其中包含很多键.Key 定义了一个公共方法 visit().我想visit() 使用我可用的处理能力以及可能的某种线程池,只对 map 的每个元素进行一次. 我可以尝试的事情: 我可以使用 map.keys() 方法.生成的 Enumeration 可以使用 nextElement() 进行迭 ..
发布时间:2022-01-08 14:35:17 Java开发

将大量数据从 Cassandra 导出到 CSV

我使用 Cassandra 2.0.9 在一个列族中存储大量数据,比如 100Gb.我想以快速的方式将此数据导出到 CSV.我试过了: sstable2json - 它产生相当大的 json 文件,难以解析 - 因为工具将数据放在一行中并使用复杂的模式(例如 300Mb 数据文件 = ~2Gb json),它需要一个很多时间转储,Cassandra 喜欢根据其内部机制更改源文件名 COPY ..
发布时间:2021-12-31 17:35:42 其他开发

查询失败错误:查询执行期间资源超出:无法在分配的内存中执行查询

我使用的是标准 SQL.即使它是一个基本查询,它仍然会抛出错误.任何建议请 SELECT完整的访客 ID,CONCAT(CAST(fullVisitorId AS string),CAST(visitId AS string)) AS 会话,日期,访问开始时间,点击时间,点击数.page.pagepath从`XXXXXXXXXXX.ga_sessions_*`,UNNEST(hits) AS 命 ..
发布时间:2021-12-30 22:54:11 其他开发

查找出现在数据集中多于一行的所有两个词组

我们想运行一个查询,该查询返回出现在多行中的两个词组.所以例如取字符串“数据忍者".由于它出现在我们数据集中的不止一行,查询应该返回它.通过查询数据集中的行中的两个相邻单词组合(形成一个短语),查询应该从我们数据集中的所有行中找到所有这样的短语.这两个相邻的单词组合应该来自我们加载到 BigQuery 的数据集 我们如何在 Google BigQuery 中编写此查询? 数据集只是一长 ..