bigdata 第2页 - IT屋-程序员软件开发技术分享社区

Hive 查询派生列并找到派生列的总数

我有一个场景，其中 credit_Date、debit_date 和 loan_date 可以相同.输出表有以下几列日期:应结合credit_date、debit_date和loan_date(credit_date、debit_date和loan_date可以相同(或)为空) Credit_payment:查找给定credit_date、实体、货币、所有者的信用金额总和 De ..

发布时间：2022-01-23 15:57:44 hadoop hive subquery bigdata derived-column 其他开发

在“from_delayed"JSON 文件中发现 DASK 元数据不匹配

我刚刚从 DASK 开始我的冒险，并且我正在学习一个 json 格式的示例数据集.我知道对于初学者来说这不是世界上最简单的数据格式:) 我有一个 json 格式的数据集.我通过 dd.read_json 将数据加载到数据框，一切顺利.例如，compute() 或 len() 函数会出现问题. 我收到此错误: ValueError:在 `from_delayed` 中发现元数据不匹配. ..

发布时间：2022-01-21 13:39:13 python dataset bigdata dask Python

何时使用 dynamoDB -UseCases

我试图找出最适合 Amazon dynamoDB 的用例. 当我在谷歌上搜索时，大多数博客都说 DyanmoDb 将仅用于大量数据 (BigData). 我有关系数据库的背景.NoSQL DB 对我来说是新的.所以当我试图将它与正常的关系数据库知识联系起来时. 与 DynamoDb 相关的大部分概念是使用分区键/排序键创建无模式表.并尝试根据键来查询它们.另外，没有存储过程的概念 ..

发布时间：2022-01-15 17:40:25 nosql bigdata amazon-dynamodb 其他开发

我正在尝试查询我的 dynamodb 表以获取 feed_guid 和 status_id = 1.但它返回 Query key condition not supported 错误.请找到我的表架构和查询. $result =$dynamodbClient->createTable(array('表名' =>'喂养'，'属性定义' =>大批(array('AttributeName' => ' ..

发布时间：2022-01-15 16:55:56 amazon-web-services bigdata amazon-dynamodb 其他开发

如何在 Elasticsearch 中加入 - 或在 Lucene 级别

在 Elasticsearch 中执行相当于 SQL 联接的最佳方法是什么? 我有一个包含两个大表的 SQL 设置:Persons 和 Items.一个人可以拥有许多项.Person 和 Item 行都可以更改(即更新).我必须运行搜索，根据人和项目的各个方面进行过滤. 在 Elasticsearch 中，您可以将 Person 设为 Item 的嵌套文档，然后使用 has_child ..

发布时间：2022-01-15 13:16:59 join lucene nosql elasticsearch bigdata 其他开发

Hive ParseException - 无法识别“结束"“字符串"附近的输入

尝试从现有 DynamoDB 表创建 Hive 表时出现以下错误: NoViableAltException(88@[])在 org.apache.hadoop.hive.ql.parse.HiveParser_IdentifiersParser.identifier(HiveParser_IdentifiersParser.java:9123)在 org.apache.hadoop.hive. ..

发布时间：2022-01-14 08:08:32 hadoop mapreduce hive bigdata amazon-dynamodb 其他开发

如何从spark中的hbase表中获取所有数据

我在 hbase 中有一个名为 UserAction 的大表，它具有三个列族(歌曲、专辑、歌手).我需要从“歌曲"列族中获取所有数据作为 JavaRDD 对象.我尝试了这段代码，但效率不高.有更好的解决方案吗? static SparkConf sparkConf = new SparkConf().setAppName("test").setMaster(“本地[4]")；静态 JavaSp ..

发布时间：2022-01-14 08:04:42 java mapreduce hbase bigdata apache-spark Java开发

如何在 hadoop 中序列化对象(在 HDFS 中)

我有一个 HashMap .我想将我的 HashMap 对象(hmap)序列化到 HDFS 位置，然后在 Mapper 和 Reducers 将其反序列化以使用它. 为了在 HDFS 上序列化我的 HashMap 对象，我使用了如下的普通 java 对象序列化代码，但出现错误(权限被拒绝) 试试{FileOutputStream fileOut =new FileOu ..

发布时间：2022-01-13 23:57:47 java hadoop serialization mapreduce bigdata Java开发

如何在hadoop中按值对字数进行排序?

嗨，我想学习如何在 hadoop 中按值对字数进行排序.我知道 hadoop 采用排序键，但不是按值. 我知道要对值进行排序，我们必须有一个分区器、分组比较器和一个排序比较器但我在将这些概念一起应用以按值对字数进行排序时有点困惑. 我们是否需要另一个 map reduce 作业来实现相同的目的，或者需要一个组合器来计算出现次数，然后在这里排序并将相同的结果发送到 reducer ..

发布时间：2022-01-13 23:43:15 hadoop mapreduce bigdata partitioner 其他开发

在 Map reduce java 中跳过 .csv 的第一行

由于 mapper 函数对每一行都运行，我可以知道如何跳过第一行吗?对于某些文件，它包含我想忽略的列标题解决方案在mapper中读取文件时，数据以键值对的形式读入.关键是下一行开始的字节偏移量.对于第 1 行，它始终为零.所以在映射器函数中执行以下操作 @Override公共无效映射(LongWritable 键，文本值，上下文上下文)抛出 IOException {尝试 {if ..

发布时间：2022-01-13 23:41:43 java mapreduce bigdata Java开发

jobconf 和 job 之间的基本区别是什么?

嗨，我想知道jobconf和job对象之间的基本区别，目前我正在提交我的工作 JobClient.runJob(jobconf); 我看到了像这样提交工作的其他方式配置 conf = getConf();Job job = new Job(conf, "二级排序");作业.waitForCompletion(true);返回0；如何使用 jobconf 为作业指定 sortcompar ..

发布时间：2022-01-13 23:40:19 hadoop mapreduce bigdata 其他开发

hbase和hive有什么区别?(Hadoop)

据我了解，Hbase 是 Hadoop 数据库，Hive 是数据仓库. Hive 允许创建表并在其中存储数据，您还可以将现有的 HBase 表映射到 Hive 并对其进行操作. 如果 hive 做所有这些，为什么我们应该使用 hbase?我们可以单独使用蜂巢吗?我很困惑:( 解决方案简单来说，使用 hive，您可以在表上触发类似 SQL 的查询(有一些例外)，并用于批处理操作 ..

发布时间：2022-01-13 13:45:27 hadoop hive hbase bigdata nosql 其他开发

是否有类似 Redis DB 的东西，但不受 RAM 大小的限制?

我正在寻找符合这些条件的数据库: 可能是非持久性的；几乎所有 DB 的密钥都需要在 3-6 小时内更新一次(100M+ 密钥，总大小为 100Gb) 能够通过键(或主键)快速选择数据这需要是一个 DBMS(所以 LevelDB 不适合) 写入数据时，数据库集群必须能够提供查询服务(但可以阻止单个节点) 不在内存中 - 我们的数据集将超出 RAM 限制水平扩展和复制支持全 ..

发布时间：2022-01-13 13:28:55 database redis nosql bigdata 其他开发

由 Azure 数据仓库提供支持的 Power BI 中基于时间的向下钻取

我设计了一个简单的 Azure 数据仓库，我想在其中定期跟踪我的产品库存.此外，我希望能够查看按月、周、日和小时分组的数据，并能够从上到下向下钻取.我定义了 3 个维度: DimDate昏暗时间昏暗产品我还定义了一个事实表来跟踪产品库存: FactStocks- 日期键(20160510、20160511 等)- 时间键(0..23)- 产品密钥(产品 1、产品 2)- StockValu ..

发布时间：2022-01-10 16:38:55 azure data-warehouse powerbi azure-sqldw bigdata 其他开发

如何在 laravel 上插入大数据?

我正在使用 laravel 5.6 我插入大数据的脚本是这样的: ...$插入数据 = [];foreach ($json['value'] as $value) {$posting_date = Carbon::parse($value['Posting_Date']);$posting_date = $posting_date->format('Y-m-d');$数据 = ['item ..

发布时间：2022-01-09 12:23:36 laravel laravel-5 insert bigdata laravel-5.6 其他开发

访问 ConcurrentHashMap<Element, Boolean> 的每个元素的可扩展方式恰好一次

我有 32 个机器线程和一个 ConcurrentHashMapmap，其中包含很多键.Key 定义了一个公共方法 visit().我想visit() 使用我可用的处理能力以及可能的某种线程池，只对 map 的每个元素进行一次. 我可以尝试的事情: 我可以使用 map.keys() 方法.生成的 Enumeration 可以使用 nextElement() 进行迭 ..

发布时间：2022-01-08 14:35:17 java concurrency hashmap bigdata java.util.concurrent Java开发

将大量数据从 Cassandra 导出到 CSV

我使用 Cassandra 2.0.9 在一个列族中存储大量数据，比如 100Gb.我想以快速的方式将此数据导出到 CSV.我试过了: sstable2json - 它产生相当大的 json 文件，难以解析 - 因为工具将数据放在一行中并使用复杂的模式(例如 300Mb 数据文件 = ~2Gb json)，它需要一个很多时间转储，Cassandra 喜欢根据其内部机制更改源文件名 COPY ..

发布时间：2021-12-31 17:35:42 csv cassandra bigdata cassandra-2.0 其他开发

cassandra 的 cqlsh 控制台中的操作超时错误

我有一个三节点的 Cassandra 集群，我创建了一个包含超过 2,000,000 行的表. 当我在 cqlsh 中执行此 (select count(*) from userdetails) 查询时，出现此错误: OperationTimedOut: errors={}, last_host=192.168.1.2 当我为更少的行或限制为 50,000 运行计数函数时，它工作 ..

发布时间：2021-12-31 17:20:33 java cassandra bigdata datastax cqlsh Java开发

查询失败错误:查询执行期间资源超出:无法在分配的内存中执行查询

我使用的是标准 SQL.即使它是一个基本查询，它仍然会抛出错误.任何建议请 SELECT完整的访客 ID，CONCAT(CAST(fullVisitorId AS string),CAST(visitId AS string)) AS 会话，日期，访问开始时间，点击时间，点击数.page.pagepath从`XXXXXXXXXXX.ga_sessions_*`，UNNEST(hits) AS 命 ..

发布时间：2021-12-30 22:54:11 google-bigquery bigquery-standard-sql bigdata 其他开发

查找出现在数据集中多于一行的所有两个词组

我们想运行一个查询，该查询返回出现在多行中的两个词组.所以例如取字符串“数据忍者".由于它出现在我们数据集中的不止一行，查询应该返回它.通过查询数据集中的行中的两个相邻单词组合(形成一个短语)，查询应该从我们数据集中的所有行中找到所有这样的短语.这两个相邻的单词组合应该来自我们加载到 BigQuery 的数据集我们如何在 Google BigQuery 中编写此查询? 数据集只是一长 ..

发布时间：2021-12-30 22:53:06 data-mining bigdata google-bigquery data-analysis n-gram AI人工智能

bigdata相关内容