data-analysis 第3页 - IT屋-程序员软件开发技术分享社区

如何在熊猫中进行数据框的交集

我有一个如下数据框: ASIN FBAStock ..

将列设置为列索引熊猫数据框

假设我拥有此数据集，并用于分析每个州城乡地区男女识字率之间的趋势.我需要将索引设置为 Name 我可以做的- df.set_index('Name'，inplace = True) 现在我想将我的数据分为 Rural和Urban 并期望输出为- 解决方案您可以在这里查看: Matplotlib条形图，显示了x值对于男性和女性您将拥有:农村和城市，而不是男性和女性. ..

发布时间：2021-04-28 19:46:38 python pandas dataframe data-analysis Python

检查键是否以子串的形式存在于行中

我有字典 myDict = {'apple':'FULL FORM'，'ball':'NEW'} 然后是一个数据框: myCol..新苹果无挡板篮球你好我想遍历col myCol 的所有行以及字典的所有键，以查看我的任何键是否在行值中作为子字符串出现.如果是，我想获取键值并将其附加到列表中.例如，键值"apple"作为子行出现在我的第一行“新苹果"中，因此我想提取键值"apple ..

发布时间：2021-04-28 19:46:35 python python-3.x pandas dataframe data-analysis Python

当我在BigQuery中使用数据透视功能时，下面的代码段 CALL fhoffa.x.pivot('bigquery-public-data.ghcn_d.ghcnd_2019'#源表，'fh-bigquery.temp.test_pivotted'#目标表格，['id'，'date']#row_ids，'element'#ivot_col_name，'值'#ivot_col_value，30 ..

发布时间：2021-04-28 19:46:33 sql google-bigquery data-science data-analysis 其他开发

Python脚本对文件夹中的所有文件运行命令

为了将pdf转换为文本，我使用以下命令: pdf2txt.py -o text.txt example.pdf#它将example.pdf转换为text.txt 但是我有1000多个pdf文件，我需要先将其转换为文本文件，然后再进行分析. 有没有一种方法可以使用此命令遍历pdf文件并转换所有文件? 解决方案我建议您使用shell脚本: f的 (* .pdf){pdf ..

发布时间：2021-04-28 19:46:29 python pdf text data-analysis pdfminer Python

使用Python以JSON格式提取/格式化数据的最佳方法?

我正在尝试对批量专利数据进行一些数据分析(数据通常在此处找到，但目前已关闭- https://ped.uspto.gov/peds/). 这是JSON文件中的第一项: {"PatentBulkData":[{"patentCaseMetadata":{"applicationNumberText":{“值":"15733015"，"electronicText":"15733015"；} ..

发布时间：2021-04-28 19:46:26 python json pandas data-analysis Python

删除非英语数据

我的数据中有一些非英语单词/句子.我标记了我的文字，并尝试使用 nltk.corpus.words.words()，但它并没有真正的帮助，因为它还会删除品牌名称，公司名称(例如NLTK等).我需要一些可靠的解决方案目的. 这是我尝试过的: def removeNonEnglishWordsFunct(x):单词=集合(nltk.corpus.words.words())filteredS ..

发布时间：2021-04-28 19:46:22 pandas pyspark data-science data-analysis data-cleaning Python

为什么GridSearchCV模型结果与我手动调整的模型不同?

这是我在这里的第一个问题，希望我做对了，我正在研究在kaggle上很流行的泰坦尼克号数据集，如果您想检查数据科学框架:实现99％的准确性第5.2部分介绍了如何进行网格搜索和调整超参数.让我对您的问题特别了解之前，先与您分享相关代码；这正在使用GridSearchCV调整模型: cv_split = model_selection.ShuffleSplit(n_split ..

发布时间：2021-04-28 19:46:19 python machine-learning scikit-learn data-analysis grid-search AI人工智能

熊猫-等同于熊猫查询中的str.contains()

使用满足以下条件的子集创建数据框 subset_df = df_eq.loc [(df_eq ['place'].str.contains('Chile'))&(df_eq ['mag']> 7.5)，['time'，'latitude'，'longitude'，'mag'，'place']] 想在Pandas中使用query()复制上述子集，但是不确定如何在Pandas查询中复制str. ..

发布时间：2021-04-28 19:46:16 python pandas data-analysis Python

在熊猫中向我现有的数据框添加新行时出现错误

我有以下数据框. df3 = pd.DataFrame(columns = ["Devices"，"months"]) 我正在从循环中获取行值排，打印(数据) 设备月份1个Powerbank 2月当我将此数据行添加到df3时，出现错误. df3.loc [len(df3)] =数据 ValueError:无法设置列不匹配的行解决方案使用 df3 = pd.c ..

发布时间：2021-04-28 19:46:13 python pandas dataframe data-analysis Python

回归问题:如何解决高十进制输入功能的问题

我具有以下输入数据结构: X1 |X2 |X3 |... |输出(标签)118.12341 |118.12300 |118.12001 |... |[0到0之间的值；1]，例如0.423645 我在哪里使用 tensorflow 来解决这里的回归问题，即预测 Output 变量的未来值.为此，我建立了一个前馈神经网络，该网络具有三个具有 relu 激活功能的隐藏层，以及一个最终输出层，具有 ..

发布时间：2021-04-28 19:46:11 tensorflow machine-learning keras neural-network data-analysis AI人工智能

以熊猫为单位的连续时间戳记中的值计数

小时站点01/08/2020 00:00 A01/08/2020 00:00 B01/08/2020 00:00 C01/08/2020 00:00 D01/08/2020 01:00 A01/08/2020 01:00 B01/08/2020 01:00 E01/08/2020 01:00楼01/08/2020 02:00 A01/08/2020 02:00 E01/08/2020 03:00 ..

发布时间：2021-04-28 19:46:08 python pandas data-analysis Python

根据熊猫的日期范围计算定性值

我正在学习使用熊猫库，需要进行分析并绘制下面的犯罪数据集.每行代表一次犯罪.date_rep列包含一年的每日日期. 我遇到的问题是，犯罪列中的数据是定性的，我只是无法在线找到可以帮助我解决此问题的资源！我一直在阅读groupby和不同的排序方法，但是最有效的方法是什么?预先谢谢你！解决方案要复制某些数据: 在[29]中:df = pd.DataFrame({'date_ ..

发布时间：2021-04-28 19:46:05 python pandas data-analysis Python

使用熊猫在for循环中读取csv

inp_file = os.getcwd()files_comp = pd.read_csv(inp_file，"B00234 * .csv"，na_values =缺少值，nrows = 10)对于files_comp中的f:df_calculated = pd.read_csv(f，na_values = missing_values，nrows = 10)col_length = len( ..

发布时间：2021-04-28 19:46:02 python pandas data-analysis Python

计算pandas DataFrame中的成对的列的减法

我使用尺寸很大(48K行，最多数十列)的DataFrame.在操作它们的某个时刻，我需要对列值进行成对减法，我想知道是否有比我正在做的方法更有效的方法(见下文). 我当前的代码: #矩阵是包含所有数据的pandas DataFramecomparison_df = pandas.DataFrame(index = matrix.index)组合= itertools.product(gro ..

发布时间：2021-04-28 19:45:58 python pandas data-analysis Python

熊猫:条件转移

有没有一种方法可以根据其他两个列上的条件来移动数据框列?像这样: df ["cumulated_closed_value"] = df.groupby("user").['close_cumsum'].shiftWhile(df ['close_time']> df ['open_time]) 我想出了一种方法来做，但是效率很低: 1)加载数据并创建要移动的列 df = pd.r ..

发布时间：2021-04-28 19:45:55 python pandas datetime data-analysis Python

使用数据透视表熊猫后如何摆脱多级索引?

我有以下数据帧(实际数据帧比该数据帧大得多): sale_user_id sale_product_id计数1 1 11 8 11 52 11 312 51 315 1 然后使用以下代码对其进行重塑，以将sale_product_id中的值作为列标题移动: reshaped_df = id_product_count.pivot(index ='sale_user_id'，column ..

发布时间：2021-04-28 19:45:52 python pandas dataframe pivot-table data-analysis Python

如何在python中找到事件的开始时间和结束时间?

我有一个由第1列即事件组成的数据框，第2列是日期时间: 样本数据事件时间0 2020-02-12 11:00:000 2020-02-12 11:30:002 2020-02-12 12:00:001 2020-02-12 12:30:000 2020-02-12 13:00:000 2020-02-12 13:30:000 2020-02-12 14:00:001 2020-02-12 ..

发布时间：2021-04-28 19:45:49 python pandas python-requests data-science data-analysis Python

将自定义功能应用于vaex中的groupby

我想对 groupby 获得的每个单独的组应用一些自定义逻辑.在大熊猫中很容易做到.如何在vaex中将某些自定义功能应用于groupby创建的组? 例如，假设我要查找每个组的最小索引和最大索引，然后基于该索引，对该组中存在的行进行一些操作.vaex有可能吗? 解决方案我认为vaex现在有意不支持此功能，例如，请参见此github问题 https://github.com/vaexi ..

发布时间：2021-04-28 19:45:46 python-3.x pandas-groupby data-analysis vaex 其他开发

如何计算两个熊猫柱之间的时差

我的df看起来像开始停止0 2015-11-04 10:12:00 2015-11-06 06:38:001 2015-11-04 10:23:00 2015-11-05 08:30:002 2015-11-04 14:01:00 2015-11-17 10:34:004 2015-11-19 01:43:00 2015-12-21 09:04:00打印(time_df.dtypes)开始da ..

发布时间：2021-04-28 19:45:43 python pandas dataframe data-analysis Python

data-analysis相关内容