使用pyspark在Jupyter Notebook中读取Avro文件时遇到问题 [英] Trouble reading avro files in Jupyter notebook using pyspark

查看:123
本文介绍了使用pyspark在Jupyter Notebook中读取Avro文件时遇到问题的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在尝试使用pyspark在Jupyter笔记本中读取avro文件.当我读取文件时,出现错误.

I am trying to read an avro file in Jupyter notebook using pyspark. When I read the file i am getting an error.

我已经下载了spark-avro_2.11:4.0.0.jar,我不确定应该在我的代码中的哪个位置插入avro软件包.任何建议都会很棒.

I have downloaded spark-avro_2.11:4.0.0.jar, i am not sure where in my code I should be inserting the avro package. Any suggestions would be great.

这是我用来读取avro文件的代码的示例

This is an example of the code I am using to read the avro file

df_avro_example = sqlContext.read.format("com.databricks.spark.avro").load("example_file.avro")

这是我得到的错误

AnalysisException:'未能找到数据源:com.databricks.spark.avro.请在 http://spark.apache.org/third-party- projects.html ;'

推荐答案

将jar下载到某个位置,并在pyspark应用中使用以下代码段

download the jar to a location and use the following code snippet in your pyspark app

import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--jars /path/tojar/spark-avro_2.11:4.0.0.jar pyspark-shell' 

这篇关于使用pyspark在Jupyter Notebook中读取Avro文件时遇到问题的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆