data-analysis相关内容

将列设置为列索引熊猫数据框

假设我拥有此数据集,并用于分析每个州城乡地区男女识字率之间的趋势.我需要将索引设置为 Name 我可以做的- df.set_index('Name',inplace = True) 现在我想将我的数据分为 Rural和Urban 并期望输出为- 解决方案 您可以在这里查看: Matplotlib条形图,显示了x值对于男性和女性 您将拥有:农村和城市,而不是男性和女性. ..
发布时间:2021-04-28 19:46:38 Python

检查键是否以子串的形式存在于行中

我有字典 myDict = {'apple':'FULL FORM','ball':'NEW'} 然后是一个数据框: myCol..新苹果无挡板篮球你好 我想遍历col myCol 的所有行以及字典的所有键,以查看我的任何键是否在行值中作为子字符串出现.如果是,我想获取键值并将其附加到列表中.例如,键值"apple"作为子行出现在我的第一行“新苹果"中,因此我想提取键值"apple ..
发布时间:2021-04-28 19:46:35 Python

BigQuery中的枢纽

当我在BigQuery中使用数据透视功能时,下面的代码段 CALL fhoffa.x.pivot('bigquery-public-data.ghcn_d.ghcnd_2019'#源表,'fh-bigquery.temp.test_pivotted'#目标表格,['id','date']#row_ids,'element'#ivot_col_name,'值'#ivot_col_value,30 ..
发布时间:2021-04-28 19:46:33 其他开发

Python脚本对文件夹中的所有文件运行命令

为了将pdf转换为文本,我使用以下命令: pdf2txt.py -o text.txt example.pdf#它将example.pdf转换为text.txt 但是我有1000多个pdf文件,我需要先将其转换为文本文件,然后再进行分析. 有没有一种方法可以使用此命令遍历pdf文件并转换所有文件? 解决方案 我建议您使用shell脚本: f的 (* .pdf){pdf ..
发布时间:2021-04-28 19:46:29 Python

删除非英语数据

我的数据中有一些非英语单词/句子.我标记了我的文字,并尝试使用 nltk.corpus.words.words(),但它并没有真正的帮助,因为它还会删除品牌名称,公司名称(例如NLTK等).我需要一些可靠的解决方案目的. 这是我尝试过的: def removeNonEnglishWordsFunct(x):单词=集合(nltk.corpus.words.words())filteredS ..
发布时间:2021-04-28 19:46:22 Python

为什么GridSearchCV模型结果与我手动调整的模型不同?

这是我在这里的第一个问题,希望我做对了, 我正在研究在kaggle上很流行的泰坦尼克号数据集,如果您想检查数据科学框架:实现99%的准确性 第5.2部分介绍了如何进行网格搜索和调整超参数.让我对您的问题特别了解之前,先与您分享相关代码; 这正在使用GridSearchCV调整模型: cv_split = model_selection.ShuffleSplit(n_split ..

熊猫-等同于熊猫查询中的str.contains()

使用满足以下条件的子集创建数据框 subset_df = df_eq.loc [(df_eq ['place'].str.contains('Chile'))&(df_eq ['mag']> 7.5),['time','latitude','longitude','mag','place']] 想在Pandas中使用query()复制上述子集,但是不确定如何在Pandas查询中复制str. ..
发布时间:2021-04-28 19:46:16 Python

回归问题:如何解决高十进制输入功能的问题

我具有以下输入数据结构: X1 |X2 |X3 |... |输出(标签)118.12341 |118.12300 |118.12001 |... |[0到0之间的值;1],例如0.423645 我在哪里使用 tensorflow 来解决这里的回归问题,即预测 Output 变量的未来值.为此,我建立了一个前馈神经网络,该网络具有三个具有 relu 激活功能的隐藏层,以及一个最终输出层,具有 ..

根据熊猫的日期范围计算定性值

我正在学习使用熊猫库,需要进行分析并绘制下面的犯罪数据集.每行代表一次犯罪.date_rep列包含一年的每日日期. 我遇到的问题是,犯罪列中的数据是定性的,我只是无法在线找到可以帮助我解决此问题的资源! 我一直在阅读groupby和不同的排序方法,但是最有效的方法是什么?预先谢谢你! 解决方案 要复制某些数据: 在[29]中:df = pd.DataFrame({'date_ ..
发布时间:2021-04-28 19:46:05 Python

使用熊猫在for循环中读取csv

inp_file = os.getcwd()files_comp = pd.read_csv(inp_file,"B00234 * .csv",na_values =缺少值,nrows = 10)对于files_comp中的f:df_calculated = pd.read_csv(f,na_values = missing_values,nrows = 10)col_length = len( ..
发布时间:2021-04-28 19:46:02 Python

计算pandas DataFrame中的成对的列的减法

我使用尺寸很大(48K行,最多数十列)的DataFrame.在操作它们的某个时刻,我需要对列值进行成对减法,我想知道是否有比我正在做的方法更有效的方法(见下文). 我当前的代码: #矩阵是包含所有数据的pandas DataFramecomparison_df = pandas.DataFrame(index = matrix.index)组合= itertools.product(gro ..
发布时间:2021-04-28 19:45:58 Python

熊猫:条件转移

有没有一种方法可以根据其他两个列上的条件来移动数据框列?像这样: df ["cumulated_closed_value"] = df.groupby("user").['close_cumsum'].shiftWhile(df ['close_time']> df ['open_time]) 我想出了一种方法来做,但是效率很低: 1)加载数据并创建要移动的列 df = pd.r ..
发布时间:2021-04-28 19:45:55 Python

将自定义功能应用于vaex中的groupby

我想对 groupby 获得的每个单独的组应用一些自定义逻辑.在大熊猫中很容易做到.如何在vaex中将某些自定义功能应用于groupby创建的组? 例如,假设我要查找每个组的最小索引和最大索引,然后基于该索引,对该组中存在的行进行一些操作.vaex有可能吗? 解决方案 我认为vaex现在有意不支持此功能,例如,请参见此github问题 https://github.com/vaexi ..
发布时间:2021-04-28 19:45:46 其他开发