databricks 第7页 - IT屋-程序员软件开发技术分享社区

Databricks Connect:无法连接到 azure 上的远程集群，命令:“databricks-connect test"停止

我尝试设置 Databricks Connect，以便能够与已在 Azure 上的 Workspace 上运行的远程 Databricks 集群一起使用.当我尝试运行命令时:'databricks-connect test' 它永远不会结束. 我遵循官方文档. 我已经在 3.7 版中安装了最新的 Anaconda.我已经创建了本地环境:畅达创建 --name dbconnect pyt ..

发布时间：2021-06-24 20:41:13 azure apache-spark pyspark databricks azure-databricks 其他开发

加入 Spark Dataframe 时出现意外失败的断言错误 - 发现重复的重写属性

当我运行下面的代码时，出现错误java.lang.AssertionError:断言失败:发现重复的重写属性.在更新我们的数据块运行时之前，它运行顺利. top10_df 是列表groups中具有唯一键的数据的数据框. res_df 是 top10_df 中具有最小和最大日期的唯一键的聚合. 一旦 res_df 被创建并持久化，它就会重新加入到组中唯一键的 top10_df 中. ..

发布时间：2021-06-24 20:41:10 apache-spark pyspark databricks 其他开发

获取文件上次修改日期和文件名 pyspark 的脚本

我有一个挂载点位置，它指向我们有多个文件的 blob 存储.我们需要找到文件的最后修改日期以及文件名.我正在使用以下脚本和文件列表如下: /mnt/schema_id=na/184000-9.jsonl/mnt/schema_id=na/185000-0.jsonl/mnt/schema_id=na/185000-22.jsonl/mnt/schema_id=na/185000-25.jsonl ..

发布时间：2021-06-24 20:36:05 python pyspark databricks azure-databricks Python

如何查看Databricks中的所有数据库和表

发布时间：2021-06-24 20:35:27 python azure pyspark databricks azure-databricks Python

使用SparkR创建的数据帧和使用Sparklyr创建的数据帧之间有什么区别?

我正在读取Azure数据砖中的实木复合地板文件:使用SparkR>read.parquet()使用Sparklyr>spark_read_parquet()这两个数据帧是不同的，是否有任何方法可以将SparkR数据帧转换为sparklyr数据帧，反之亦然? 解决方案 sparklyr创建tbl_spark.从本质上讲，这只是用Spark SQL编写的惰性查询.SparkR创建一个Spark ..

发布时间：2021-04-28 20:44:45 r parquet databricks sparkr sparklyr 其他开发

通过JDBC连接将本地SQL Server数据库连接到数据块时出错

基本上，我正在尝试使用JDBC连接从数据块连接到本地计算机上的SQL Server数据库.我正在按照但是我遇到了这个错误 IllegalArgumentException:要求失败:驱动程序无法打开JDBC连接.检查URL:jdbc:mysql://localhost:3306/TestDB 谁能解释为什么会这样?如何解决此错误? 解决方案通常用于MySQL数据库的 ..

发布时间：2021-04-28 20:44:42 sql-server apache-spark pyspark databricks sqljdbc 数据库

如何在数据块上的ML运行时环境中启用GPU可见?

我正在尝试在数据砖/GPU(p2.xlarge)上以以下环境运行一些TensorFlow(2.2)示例代码: 6.6 ML，spark 2.4.5，GPU，Scala 2.11Keras版本:2.2.5英伟达NVIDIA-SMI 440.64.00驱动程序版本:440.64.00 CUDA版本:10.2 我已经检查了但是，我有例外. 如何启用GPU，以便TF代码可以在其上运行 ..

发布时间：2021-04-28 20:44:40 python-3.x tensorflow keras gpu databricks 其他开发

如何在Cassandra中存储6位精度的双精度数字/浮点数字/十进制数?

我正在尝试在cassandra表中存储数据帧的某些字符串.我尝试使用定义为float/double/decimal的cassandra表列. 但是每种类型仅存储2个精度，即8.00005作为8.00存储69.345和69.34一样，cassandra表出了什么问题?为什么它不保存所有精度数字.如何解决这个问题?让我知道是否需要有关该问题的更多信息. 解决方案此问题似乎与cqlsh的 ..

发布时间：2021-04-28 20:44:37 cassandra datastax-enterprise databricks 其他开发

从Azure Databricks中的Azure Datalake Gen2读取.nc文件

尝试读取Azure Databricks中的.nc(netCDF4)文件. 从未使用过.nc文件所有必需的.nc文件都在Azure Datalake Gen2中将上述文件安装到"/mnt/eco_dailyRain "处的Databricks中可以使用 dbutils.fs.ls("/mnt/eco_dailyRain")列出安装的内容输出: Out [76]:[Fi ..

发布时间：2021-04-28 20:44:34 python databricks netcdf netcdf4 azure-data-lake-gen2 Python

使用ANSI编码读取pyspark中的CSV文件

我正在尝试读取一个要求使用ANSI编码读取的csv/文本文件.但是，这是行不通的.有什么想法吗? mainDF = spark.read.format("csv")\.option("encoding"，"ANSI")\.option("header"，"true")\.option("maxRowsInMemory"，1000)\.option("inferSchema"，"false")\ ..

发布时间：2021-04-28 20:44:31 pyspark pyspark-sql databricks 其他开发

根据databrick上另一个pyspark数据框的某些列，在大型pyspark数据框的列上执行用户定义的功能

我的问题与我以前的问题有关，网址为 lower(x))")) 第2步:使用 arrays_overlap df3 = df2.join(broadcast(df1)，expr("arrays_overlap(terms，tokens)")，"left") 第3步:使用 aggregate 函数从 terms ， termWeights 和 tokens 计算 matched_sum ..

发布时间：2021-04-28 20:44:25 python dataframe apache-spark pyspark databricks Python

通过Tuple2的键将作为地图的Tuple2的值部分合并为单个地图分组

我正在Scala和Spark中这样做. 我有一个 Tuple2 的 Dataset 作为 Dataset [(String，Map [String，String])] . 下面是数据集中值的示例. (A，{1-> 100，2-> 200，3-> 100})(B，{1-> 400，4-> 300，5-> 900})(C，{6-＞ 100，4-＞ 200，5-＞ 100})(B，{1-> ..

发布时间：2021-04-28 20:44:22 scala dataframe apache-spark dataset databricks 其他开发

在Databricks/Spark中记录附加的群集信息

我想对Databricks进行一些性能测试.为此，我想记录测试期间我使用的群集(VM类型，例如Standard_DS3_v2)(我们可以假设驱动程序节点和工作程序节点相同).我知道我可以记录工作者的数量，内核(至少在驱动程序上)和内存(至少在驱动程序上)的数量.但是，我想知道VM的类型，因为我希望能够确定我是否使用过例如存储优化或通用集群.除了VM Type，此信息也可以.理想情况下，我可以在笔记 ..

发布时间：2021-04-28 20:44:19 python scala apache-spark databricks Python

DATABRICKS connect 6.4无法再与服务器通信

我在MacBook上运行Pycharm. 客户端设置:Python解释器->Python 3.7(dtabricks-connect-6.4) 集群设置:Databricks运行时版本->6.4(包括Apache Spark 2.4.5，Scala 2.11) 几个月以来它一直运行良好，但是突然之间，没有进行任何更新，我无法再将Pycharm的python脚本针对databric ..

发布时间：2021-04-28 20:44:15 pyspark databricks databricks-connect 其他开发

使用Spark从Oracle导入数据

在Databricks中，我正在使用以下代码从Oracle中提取数据. ％scalaval empDF = spark.read.format("jdbc").option("url"，"jdbc:oracle:thin:username/password//hostname:port/sid").option("dbtable"，"EMP").option(“用户"，“用户名").option ..

发布时间：2021-04-28 20:44:11 oracle scala apache-spark databricks 数据库

Flatten Json在Pyspark

my_data = [{'stationCode':'NB001'，'summary':[{'period':{'year':2017}，'rainfall':449}，{'period':{'year':2018}，'rainfall':352.4}，{'period':{'year':2019}，'rainfall':253.2}，{'period':{'year':2020}，'rainf ..

发布时间：2021-04-28 20:44:09 json python-3.x pyspark databricks 其他开发

从Numpy结果分配考拉列

尝试在Databricks-Koalas中复制熊猫功能在熊猫中: df = pd.DataFrame({'a':[450，1，26]，'b':[1，450，70]，})thresh = [x for range in(26)中的x]#创建一个列表1到25df ["c"] = np.where(((df.a.isin(thresh)| df.b.isin(thresh))，1，0)#查找阈值和标 ..

发布时间：2021-04-28 20:44:06 python pandas numpy databricks Python

databricks:直接将spark数据框写入excel

是否有任何方法可以直接将spark数据帧写入xls/xlsx格式???? 网络中的大多数示例都显示了有关熊猫数据框的示例. 但是我想使用spark数据框来处理我的数据.有什么主意吗? 解决方案我假设由于您具有"databricks"标签，因此您想在databricks文件存储中创建一个.xlsx文件，并且您正在其中运行代码databrick笔记本.我还要假设您的笔记本正在运行 ..

发布时间：2021-04-28 20:44:02 databricks 其他开发

如何以控制台格式打印结构化流

我正在学习使用Databricks的结构化流，并且正在使用DataStreamWriter控制台模式. 我的程序: 模拟文件流式传输到达文件夹"monitoring_dir"(每10秒从"source_dir"传输一个新文件). 使用DataStreamReader用每个新文件的内容填充Unbounded DataFrame"inputUDF". 使用DataStreamWrite ..

发布时间：2021-04-28 20:44:01 python spark-streaming databricks spark-structured-streaming Python

根据值在PySpark中出现的次数进行过滤

我有一个文件，其中的列包含ID.通常，一个ID仅出现一次，但有时它们与多个记录相关联.我想计算给定ID出现了多少次，然后分成两个单独的df，以便可以在两个文件上运行不同的操作.一个df应该是ID只能出现一次的地方，而一个df应该是ID可以出现多次的地方. 通过对ID进行分组并将计数重新添加到原始df上，我能够成功计算ID出现的实例数，就像这样: newdf = df.join(df.gr ..

发布时间：2021-04-28 20:43:58 python pyspark databricks Python

databricks相关内容