dataframe 第7页 - IT屋-程序员软件开发技术分享社区

如何在R中重塑成两两匹配的矩阵并创建相关热图？

我希望有人能帮我这个忙。我有这个数据帧，它是dunnTest()的输出，它包含成对比较和p值。dunnTest()的示例输出如下所示。我尝试做的是将数据帧重塑为矩阵，并创建热图曲线图或关联曲线图平铺图，以可视化哪些组彼此之间有显著差异。输出应如下图所示。但是，块内的数据不是相关值，而是dunnTest() 中的p值我试图完成的问题与此link中发布的问题类似，但没有给出任何答案。 ..

发布时间：2022-04-14 19:49:50 r dataframe ggplot2 matrix heatmap 其他开发

从r中的多个列表生成二进制(存在/不存在)数据矩阵

我有一系列不同长度的独立变量列表(字符串)。我想将它们合并到一个数据帧中，以形成存在(1)/不存在(0)矩阵。考虑到它们的长度不同，我甚至想不出如何创建初始数据框。下面是我的例子： data1 ..

发布时间：2022-04-14 19:32:25 r dataframe matrix binary heatmap 其他开发

在对 pandas 的两列进行分组后应用合并

发布时间：2022-04-14 17:37:41 python pandas numpy dataframe nan Python

pandas ：删除所有列中的所有NaN值

我有一个包含许多空记录的数据框： Col_1 Col_2 Col_3 10 5 2 22 7 7 3 9 5 4 NaN NaN 5 NaN NaN 6 4 NaN 7 ..

发布时间：2022-04-14 17:26:12 python pandas dataframe nan Python

如何根据另一列的特定值从一列中删除NaN

不知道如何根据另一个特定列的值从特定列中删除NaN值。部分数据帧(df)： vol. group 1186 10,448,898 1 1187 nan 0 1188 35,047,520 1 ... 8329 1 ..

发布时间：2022-04-14 17:19:26 python pandas dataframe nan drop Python

pandas 根据不是常量的第三列的值将值从一列复制到另一列

我有一个很大的数据集，它是一个巨大的表，实际上应该是许多表。标题隐藏在子集的行中。我的目标是将这些标题拉出到一个新列中，这样我就可以根据该列进行筛选以获得我想要的数据(一次一个标题)。我为此创建了一个空标题列。在SCORE列中总是有一系列3个NaN值，其中NAME列中的第一个值是HEADER我想要的。因此，我认为这种关系的某些方面可以被利用。当前 pandas 数据框的结构为： ..

发布时间：2022-04-14 17:01:09 python pandas dataframe nan Python

为什么带两组括号的.loc赋值会在Pandas.DataFrame中生成NaN？

我有一个DataFrame：名称年龄 0 保罗 25 1 约翰 27 2 账单 23 我知道如果我输入： df[['name']] = df[['age']] 我会得到以下信息：名称年龄 0 25 25 1 27 27 2 23 23 但我希望命令得到相同的结果： df.loc[:, ['name']] = df.loc[:, ['age ..

发布时间：2022-04-14 16:59:09 python pandas dataframe nan series Python

正在尝试使用DASK在系列对象的DataFrame；切片副本上设置值(&Q)？

我正在测试DaskDataFrames的apply()方法，并且正在运行以下代码： import pandas as pd import dask.dataframe as dd import time def enrich_str(str): val1 = f'{str}_1' val2 = f'{str}_2' val3 = f'{str}_ ..

发布时间：2022-04-14 16:29:25 python pandas dataframe dask Python

将数据分散到任务集群工作进程：未知地址方案'；网关'；

我正在遵循the accepted answer to this SO question上找到的代码(&q；块，然后是散布部分)，但在尝试将 pandas 散布给工作人员时遇到奇怪的错误。DataFrame。如果重要的话，我正在使用jupyter笔记本电脑。我不确定此错误是什么意思，它非常隐晦，因此如果有任何帮助，我们将不胜感激。 from dask_gateway impo ..

发布时间：2022-04-14 16:24:09 python dataframe jupyter-notebook dask dask-distributed Python

DASK DataFrame：`set_index`可以将单个索引放入多个分区吗？

根据经验，无论何时在DaskDataFrame上set_index，Dask都会将具有相等索引的行放入单个分区中，即使这会导致严重的分区不平衡。这里有一个演示： import pandas as pd import dask.dataframe as dd users = [1]*1000 + [2]*1000 + [3]*1000 df = pd.DataFrame({'use ..

发布时间：2022-04-14 16:13:34 python dataframe indexing dask Python

如何在DaskDataFrame中创建唯一索引？

假设我有来自read_csv的DaskDataFrame或以其他方式创建的DataFrame。如何为DaskDataFrame创建唯一索引？注意： reset_index在每个分区中构建单调升序索引。这意味着(0，1，2，3，4，5，...)对于分区1， (0，1，2，3，4，5，...)对于分区2，(0，1，2，3，4，5，...)分区3，依此类推。我希望数据帧中的每一 ..

发布时间：2022-04-14 15:46:16 python pandas dataframe dask Python

使用DASK导入大型CSV文件

我正在使用Dask680 GB导入一个非常大的CSV文件，然而，输出并不是我所期望的。我的目标是只选择一些列(6/50)，并可能过滤它们(这一点我不确定，因为似乎没有数据？)： import dask.dataframe as dd file_path = "/Volumes/Seagate/Work/Tickets/Third ticket/Extinction/species_all. ..

发布时间：2022-04-14 15:37:12 python dataframe dask dask-dataframe vaex Python

pandas 数据帧到PostgreSQL表中使用的是没有SQLAlChemy的心理复制2吗？

我要将Pandas数据帧写入PostgreSQL表，而不使用SQLAlChemy。表名应与PANDAS变量名对应，如果已存在，则替换该表。数据类型也需要匹配。出于几个原因，我希望避免使用SQLAlChemy的TO_SQL函数。 import pandas as pd from getpass import getpass import psycopg2 your_pass ..

发布时间：2022-04-14 13:16:49 python postgresql pandas dataframe psycopg2 Python

Spark Scala Cassandra连接器删除所有行失败，出现IllegalArgumentException要求失败异常

创建表格- CREATE TABLE test.word_groups (group text, word text, count int,PRIMARY KEY (group,word)); 插入数据- INSERT INTO test.word_groups (group , word , count ) VALUES ( 'A-group', 'raj', 0) ; INSE ..

发布时间：2022-04-13 19:58:15 dataframe apache-spark cassandra rdd spark-cassandra-connector 其他开发

使用Python使用稀疏CSV数据填充Pandas Dataframe

我有如下文本文件，如下所示： foo_14:14896|foo_23:17988|foo_16:1611|foo_5:14729|foo_6:13008|foo_2:19548|foo_8:2565 foo_18:13236|foo_17:6127|foo_14:5996 foo_4:12561|foo_24:20010|foo_15:20227|foo_6:3489|foo_8:19129 ..

发布时间：2022-04-13 10:27:53 python-3.x pandas dataframe csv sparse-matrix Python

将.dta导入到R

我当前正在尝试将数据从.dta导入到R。该数据也以.tab格式提供。如何将变量作为标签导入？我使用的代码： data ..

发布时间：2022-04-11 21:58:32 r dataframe stata 其他开发

如何在pyspark-dataframe中将月份名称更改为其他语言

我正在尝试使用以下配置为数据库上的"；date"；创建表： # Get date range dateFrom = dbutils.widgets.get("date_from") dateTo = dbutils.widgets.get("date_to") dateDF_TESTE = spark.sql("SELECT sequence(to_date('{0}'), ..

发布时间：2022-04-11 15:57:32 dataframe pyspark settings databricks 其他开发

《数据库：如何从R Dataframe切换到Pandas Dataframe》(R到Pandas Dataframe)

我正在数据库笔记本中编写R代码，该笔记本在R中执行几个操作。一旦清理了数据帧，我想使用‘%python’在一个python单元中调用它，从而使用python代码继续对该数据帧进行操作。因此，我想在python块中将R Dataframe转换为Pandas DataFrame。有人知道怎么做吗？谢谢！推荐答案我认为在数据库中不同内核之间的命名空间是分开的。因此，即使在同一个笔记本 ..

发布时间：2022-04-11 15:10:34 python r pandas dataframe databricks Python

如何在Pyspark中添加带有MIN和MAX函数的新列，并按数据分组？

PySpark Dataframe：adbel DF 向数据框添加新列： from pyspark.sql.window import Window from pyspark.sql import functions as f adobeDF_new = adobeDF.withColumn('start_date', f.col('Date')).withColumn('end_da ..

发布时间：2022-04-11 14:58:04 python python-3.x dataframe pyspark databricks Python

在Pandas DataFrame中将数字转换为特定的字符串格式

我需要运行一个可以通过循环完成的任务，但我想有一种更有效、更漂亮的方法来实现这一点。我有一个DataFrame，它有一个整型列，我想将其转换为4位字符串表示形式。也就是说，3应转换为‘0003’，234应转换为‘0234’。我正在寻找一个向量操作，可以一次对列中的所有条目执行此操作，使用简单的代码快速。推荐答案可以使用Series.str.zfill()方法： df['col ..

发布时间：2022-04-10 17:10:33 python python-3.x pandas dataframe string-formatting Python

dataframe相关内容