apache-drill相关内容
我希望将 HL7 v2(旧的 EDI 格式)消息转换为 JSON,这样我可以使它们在 Apache Drill 下可处理并在 Parquet 下可压缩. 我查看了 HAPI,但我没有找到实用程序非 XML HL7 到 JSON 的转换. 有人对图书馆有建议或参考吗? 解决方案 只需使用 HAPI 转换为 XML.下面的代码需要 Saxon,因为 XML-to-JSON 需要 X
..
我想在钻头中为 oracle jdbc 创建存储插件.我将 ojdbc7.jar 复制到 apache-drill-1.3.0/jars/3rdparty 路径并添加 drill.exec.sys.store.provider.local.path= "/mypath" 到 dill.override.conf.当我想使用以下配置创建一个新的存储插件时: {“类型":“jdbc",“启用":真
..
我想根据使用 Apache Drill 对 CSV 数据(在 HDFS 上)执行的查询结果创建一个 Spark SQL DataFrame.我成功配置了 Spark SQL 使其通过 JDBC 连接到 Drill: MapconnectionOptions = new HashMap();connectionOptions.put("url", args[0]);connectionOption
..
上下文:我一直在研究 Cloudera/Impala,以便使用大型数据库并创建更易于管理的“聚合".包含更少信息的表格.这些更易于管理的表的数量级为数十到数百 GB,大约有两打表.我正在查看大约 500 GB 的数据,这些数据可以放在我实验室的一台计算机上. 问题:我希望使用非云 RDBMS,以便在我的实验室本地进一步处理这些表.原始 Impala 表(其中大部分按日期分区)已导出为 CSV
..
我有如下按日期和时间组织的 CSV 文件 日志/YYYY/MM/DD/CSV 文件... 我已设置 Apache Drill 以在这些 CSV 文件之上执行 SQL 查询.由于有很多CSV文件;可以利用文件的组织来优化性能.例如, SELECT * from data where trans>='20170101' AND trans 在此 SQL 中,应扫描目录 logs/2017/01
..
我正在使用 Pyarrow、Pyarrow.Parquet 以及 Pandas.当我将 Pandas datetime64[ns] 系列发送到 Parquet 文件并通过钻取查询再次加载它时,查询显示一个整数,如:1467331200000000,这似乎不是 UNIX 时间戳. 查询如下所示: SELECT workspace.id-column AS id-column,worksp
..
我尝试使用 apache-drill 运行一个简单的 join-aggregate 查询,但速度并不是很好.我的测试查询是: SELECT p.Product_Category, SUM(f.sales)来自事实 f在 f.pkey = p.pkey 上加入产品 pGROUP BY p.Product_Category 其中事实大约有 422,000 行,产品大约有 600 行.分组返回 4
..
我正在使用 Drill 在 MongoDB 后端运行 SQL.我的响应时间约为 500 毫秒.但大部分时间都花在“首次启动"阶段.钻探中的实际处理时间要少得多(~50ms).为什么“第一次开始"需要这么多时间?我想知道在该阶段进行了哪些练习,并在可能的情况下对其进行优化. 片段配置文件 运营商简介 解决方案 在第一次查询后 Drill 创建了很多缓存对象以改进进一步的工作,参见
..
在文档的帮助下: http://drill.apache.org/docs/rdbms-storage-plugin/我一直试图在Apache Drill中为Mysql创建存储插件,我尝试了多种jdbc驱动程序: mysql-connector-java-5.1.39-bin , sqlserverjdbc ,但我总是收到错误: 请重试:错误(无法创建/更新存储) 我的配置如下: {"t
..
我的JSON文件有一个时间戳字段,该字段是UNIX上载时间戳格式,例如 1501580484655 .它将转换为GMT: 01-08-2017 9:41:24.655 AM 我尝试将此时间戳转换为人类可读的时间格式,直到毫秒不起作用. 到目前为止,我一直在尝试以下方法: 1- 从(VALUES(1))中选择TO_DATE(1501580484655); O/P是 2017-
..
我通过 Drill文档中的链接安装了Apache Drill.>.Apache Drill工作正常.我还安装了Apache Superset并使其使用docker运行.超级集也可以很好地工作. 但是我的目标是将Superset和Drill集成在一起.我唯一能找到的教程是 Dataist教程.遵循本教程时,他们会要求我们添加数据库. 由于我在本地计算机上同时运行了Drill和Supers
..
我想在钻探中为oracle jdbc创建存储插件.我将ojdbc7.jar复制到apache-drill-1.3.0/jars/3rdparty路径,并将drill.exec.sys.store.provider.local.path = "/mypath"添加到dill.override.conf. 当我想使用以下配置创建新的存储插件时: { "type": "jdbc", "e
..
我正在尝试为Hadoop(hdfs)和Apache Drill创建存储插件. 其实我很困惑,我不知道将什么设置为hdfs://连接的端口,以及什么设置为位置. 这是我的插件: { "type": "file", "enabled": true, "connection": "hdfs://localhost:54310", "workspaces": { "root": {
..
我们知道apache演练可以轻松查询,但是我有以下一些问题: 第一: 如果apache Drill可以在HDFS上执行更新,删除,插入操作. 第二个: 如果第一个问题的答案是肯定的,我该如何使用apache Drill进行更新,删除或在HDFS上插入数据. 解决方案 Apache Drill无法插入,更新或删除HDFS当前存在的数据. 您可以执行创建表AS(C
..
如何将Google云存储桶连接到Apache Drill.我想将Apache Drill连接到Google云存储存储桶,并从存储在这些存储桶中的文件中获取数据. 我可以在core-site.xml中指定访问ID和密钥,以便连接到AWS.有没有类似的方法可以将Drill连接到Google Cloud. 解决方案 我在这里找到了有用的答案:在Google Cloud Dataproc上,
..
Apache Drill功能列表提到它可以从Google Cloud Storage查询数据,但是我找不到有关如何执行此操作的任何信息.我可以在S3上正常工作,但是怀疑我在Google Cloud Storage方面缺少了一些非常简单的东西. 有人有Google Cloud Storage的示例存储插件配置吗? 谢谢 M 解决方案 这是一个很老的问题,所以我想您要么找到了
..
我正在尝试使用Apache Drill导出.csv文件. 此其他问题表示已实现通过: use dfs.tmp; alter session set `store.format`='csv'; create table dfs.tmp.my_output as select * from cp.`employee.json`; 我尝试在Apache Drill Web界面中同时运行此块(
..
我正在尝试使用Apache Drill查询Cassandra。我可以在这里找到唯一的连接器: http://www.confusedcoders.com/bigdata/apache-drill/sql-on-cassandra-querying-cassandra-via-apache-drill 但这不会建立。它带有一个未找到工件的错误。我还有另一个更精通这些工具的开发人员对此take
..
我对Apache Spark和Spark-SQL有一定的了解.最近,我找到了Apache Drill项目.您能形容我之间最大的优点/不同之处是什么?我已经看过了 快速Hadoop分析(Cloudera Impala与Spark/Shark vs Apache Drill) 但是这个话题对我来说还不清楚. 解决方案 这是我碰到的一篇文章,其中讨论了一些SQL技术:钻探在用户体验和体系结构上根
..
我希望将HL7 v2(旧的EDI格式)消息转换为JSON,因此我可以使其在Apache Drill下可处理,在Parquet下可压缩. 我调查了 HAPI ,但是我没有运气非XML HL7到JSON的转换. 有人对图书馆有建议或参考吗? 解决方案 只需使用HAPI即可转换为XML.下面的代码需要Saxon,因为XML到JSON需要XSLT 2.0,但是如果您已经有一种将XML转
..