apache-drill相关内容

将 HL7 v2 转换为 JSON

我希望将 HL7 v2(旧的 EDI 格式)消息转换为 JSON,这样我可以使它们在 Apache Drill 下可处理并在 Parquet 下可压缩. 我查看了 HAPI,但我没有找到实用程序非 XML HL7 到 JSON 的转换. 有人对图书馆有建议或参考吗? 解决方案 只需使用 HAPI 转换为 XML.下面的代码需要 Saxon,因为 XML-to-JSON 需要 X ..
发布时间:2022-01-19 09:03:57 其他开发

寻找一个非云 RDBMS 来导入分区表(CSV 格式)及其目录结构

上下文:我一直在研究 Cloudera/Impala,以便使用大型数据库并创建更易于管理的“聚合".包含更少信息的表格.这些更易于管理的表的数量级为数十到数百 GB,大约有两打表.我正在查看大约 500 GB 的数据,这些数据可以放在我实验室的一台计算机上. 问题:我希望使用非云 RDBMS,以便在我的实验室本地进一步处理这些表.原始 Impala 表(其中大部分按日期分区)已导出为 CSV ..
发布时间:2021-07-03 18:50:18 其他开发

基于时间的目录结构 Apache Drill

我有如下按日期和时间组织的 CSV 文件 日志/YYYY/MM/DD/CSV 文件... 我已设置 Apache Drill 以在这些 CSV 文件之上执行 SQL 查询.由于有很多CSV文件;可以利用文件的组织来优化性能.例如, SELECT * from data where trans>='20170101' AND trans 在此 SQL 中,应扫描目录 logs/2017/01 ..
发布时间:2021-06-21 18:38:33 其他开发

Apache-Drill 不理解 Pandas datetime64[ns]

我正在使用 Pyarrow、Pyarrow.Parquet 以及 Pandas.当我将 Pandas datetime64[ns] 系列发送到 Parquet 文件并通过钻取查询再次加载它时,查询显示一个整数,如:1467331200000000,这似乎不是 UNIX 时间戳. 查询如下所示: SELECT workspace.id-column AS id-column,worksp ..
发布时间:2021-06-14 19:23:53 Python

Apache Drill 对 SQL Server 的性能不佳

我尝试使用 apache-drill 运行一个简单的 join-aggregate 查询,但速度并不是很好.我的测试查询是: SELECT p.Product_Category, SUM(f.sales)来自事实 f在 f.pkey = p.pkey 上加入产品 pGROUP BY p.Product_Category 其中事实大约有 422,000 行,产品大约有 600 行.分组返回 4 ..
发布时间:2021-06-14 19:23:19 其他开发

Apache Drill - 首次启动时间很长

我正在使用 Drill 在 MongoDB 后端运行 SQL.我的响应时间约为 500 毫秒.但大部分时间都花在“首次启动"阶段.钻探中的实际处理时间要少得多(~50ms).为什么“第一次开始"需要这么多时间?我想知道在该阶段进行了哪些练习,并在可能的情况下对其进行优化. 片段配置文件 运营商简介 解决方案 在第一次查询后 Drill 创建了很多缓存对象以改进进一步的工作,参见 ..
发布时间:2021-06-03 20:21:25 其他开发

无法为Mysql Apache Drill创建存储插件

在文档的帮助下: http://drill.apache.org/docs/rdbms-storage-plugin/我一直试图在Apache Drill中为Mysql创建存储插件,我尝试了多种jdbc驱动程序: mysql-connector-java-5.1.39-bin , sqlserverjdbc ,但我总是收到错误: 请重试:错误(无法创建/更新存储) 我的配置如下: {"t ..
发布时间:2021-05-20 18:41:37 数据库

在Apache Drill中使用TO_DATE将UNIXTIMESTAMP转换为人类可读的时间格式

我的JSON文件有一个时间戳字段,该字段是UNIX上载时间戳格式,例如 1501580484655 .它将转换为GMT: 01-08-2017 9:41:24.655 AM 我尝试将此时间戳转换为人类可读的时间格式,直到毫秒不起作用. 到目前为止,我一直在尝试以下方法: 1- 从(VALUES(1))中选择TO_DATE(1501580484655); O/P是 2017- ..
发布时间:2021-05-13 20:21:41 其他开发

集成Apache Superset和Apache Drill

我通过 Drill文档中的链接安装了Apache Drill.>.Apache Drill工作正常.我还安装了Apache Superset并使其使用docker运行.超级集也可以很好地工作. 但是我的目标是将Superset和Drill集成在一起.我唯一能找到的教程是 Dataist教程.遵循本教程时,他们会要求我们添加数据库. 由于我在本地计算机上同时运行了Drill和Supers ..
发布时间:2021-04-24 18:36:33 其他开发

如果apache Drill可以执行更新,删除,插入操作

我们知道apache演练可以轻松查询,但是我有以下一些问题: 第一: 如果apache Drill可以在HDFS上执行更新,删除,插入操作. 第二个: 如果第一个问题的答案是肯定的,我该如何使用apache Drill进行更新,删除或在HDFS上插入数据. 解决方案 Apache Drill无法插入,更新或删除HDFS当前存在的数据. 您可以执行创建表AS(C ..
发布时间:2020-11-22 02:34:49 服务器开发

将Apache Drill连接到Google Cloud

如何将Google云存储桶连接到Apache Drill.我想将Apache Drill连接到Google云存储存储桶,并从存储在这些存储桶中的文件中获取数据. 我可以在core-site.xml中指定访问ID和密钥,以便连接到AWS.有没有类似的方法可以将Drill连接到Google Cloud. 解决方案 我在这里找到了有用的答案:在Google Cloud Dataproc上, ..
发布时间:2020-11-18 23:01:33 其他开发

使用Google Cloud Storage的Apache Drill

Apache Drill功能列表提到它可以从Google Cloud Storage查询数据,但是我找不到有关如何执行此操作的任何信息.我可以在S3上正常工作,但是怀疑我在Google Cloud Storage方面缺少了一些非常简单的东西. 有人有Google Cloud Storage的示例存储插件配置吗? 谢谢 M 解决方案 这是一个很老的问题,所以我想您要么找到了 ..
发布时间:2020-11-18 22:32:48 其他开发

如何在Cassandra中使用Apache Drill

我正在尝试使用Apache Drill查询Cassandra。我可以在这里找到唯一的连接器: http://www.confusedcoders.com/bigdata/apache-drill/sql-on-cassandra-querying-cassandra-via-apache-drill 但这不会建立。它带有一个未找到工件的错误。我还有另一个更精通这些工具的开发人员对此take ..
发布时间:2020-09-29 19:55:32 其他开发

Apache Drill与Spark

我对Apache Spark和Spark-SQL有一定的了解.最近,我找到了Apache Drill项目.您能形容我之间最大的优点/不同之处是什么?我已经看过了 快速Hadoop分析(Cloudera Impala与Spark/Shark vs Apache Drill) 但是这个话题对我来说还不清楚. 解决方案 这是我碰到的一篇文章,其中讨论了一些SQL技术:钻探在用户体验和体系结构上根 ..
发布时间:2020-09-04 05:48:38 其他开发

将HL7 v2转换为JSON

我希望将HL7 v2(旧的EDI格式)消息转换为JSON,因此我可以使其在Apache Drill下可处理,在Parquet下可压缩. 我调查了 HAPI ,但是我没有运气非XML HL7到JSON的转换. 有人对图书馆有建议或参考吗? 解决方案 只需使用HAPI即可转换为XML.下面的代码需要Saxon,因为XML到JSON需要XSLT 2.0,但是如果您已经有一种将XML转 ..
发布时间:2020-09-03 06:18:20 其他开发