data-analysis相关内容
我有一个如下数据框: ASIN FBAStock
..
假设我拥有此数据集,并用于分析每个州城乡地区男女识字率之间的趋势.我需要将索引设置为 Name 我可以做的- df.set_index('Name',inplace = True) 现在我想将我的数据分为 Rural和Urban 并期望输出为- 解决方案 您可以在这里查看: Matplotlib条形图,显示了x值对于男性和女性 您将拥有:农村和城市,而不是男性和女性.
..
我有字典 myDict = {'apple':'FULL FORM','ball':'NEW'} 然后是一个数据框: myCol..新苹果无挡板篮球你好 我想遍历col myCol 的所有行以及字典的所有键,以查看我的任何键是否在行值中作为子字符串出现.如果是,我想获取键值并将其附加到列表中.例如,键值"apple"作为子行出现在我的第一行“新苹果"中,因此我想提取键值"apple
..
当我在BigQuery中使用数据透视功能时,下面的代码段 CALL fhoffa.x.pivot('bigquery-public-data.ghcn_d.ghcnd_2019'#源表,'fh-bigquery.temp.test_pivotted'#目标表格,['id','date']#row_ids,'element'#ivot_col_name,'值'#ivot_col_value,30
..
为了将pdf转换为文本,我使用以下命令: pdf2txt.py -o text.txt example.pdf#它将example.pdf转换为text.txt 但是我有1000多个pdf文件,我需要先将其转换为文本文件,然后再进行分析. 有没有一种方法可以使用此命令遍历pdf文件并转换所有文件? 解决方案 我建议您使用shell脚本: f的 (* .pdf){pdf
..
我正在尝试对批量专利数据进行一些数据分析(数据通常在此处找到,但目前已关闭- https://ped.uspto.gov/peds/). 这是JSON文件中的第一项: {"PatentBulkData":[{"patentCaseMetadata":{"applicationNumberText":{“值":"15733015","electronicText":"15733015";}
..
我的数据中有一些非英语单词/句子.我标记了我的文字,并尝试使用 nltk.corpus.words.words(),但它并没有真正的帮助,因为它还会删除品牌名称,公司名称(例如NLTK等).我需要一些可靠的解决方案目的. 这是我尝试过的: def removeNonEnglishWordsFunct(x):单词=集合(nltk.corpus.words.words())filteredS
..
这是我在这里的第一个问题,希望我做对了, 我正在研究在kaggle上很流行的泰坦尼克号数据集,如果您想检查数据科学框架:实现99%的准确性 第5.2部分介绍了如何进行网格搜索和调整超参数.让我对您的问题特别了解之前,先与您分享相关代码; 这正在使用GridSearchCV调整模型: cv_split = model_selection.ShuffleSplit(n_split
..
使用满足以下条件的子集创建数据框 subset_df = df_eq.loc [(df_eq ['place'].str.contains('Chile'))&(df_eq ['mag']> 7.5),['time','latitude','longitude','mag','place']] 想在Pandas中使用query()复制上述子集,但是不确定如何在Pandas查询中复制str.
..
我有以下数据框. df3 = pd.DataFrame(columns = ["Devices","months"]) 我正在从循环中获取行值排,打印(数据) 设备月份1个Powerbank 2月 当我将此数据行添加到df3时,出现错误. df3.loc [len(df3)] =数据 ValueError:无法设置列不匹配的行 解决方案 使用 df3 = pd.c
..
我具有以下输入数据结构: X1 |X2 |X3 |... |输出(标签)118.12341 |118.12300 |118.12001 |... |[0到0之间的值;1],例如0.423645 我在哪里使用 tensorflow 来解决这里的回归问题,即预测 Output 变量的未来值.为此,我建立了一个前馈神经网络,该网络具有三个具有 relu 激活功能的隐藏层,以及一个最终输出层,具有
..
小时站点01/08/2020 00:00 A01/08/2020 00:00 B01/08/2020 00:00 C01/08/2020 00:00 D01/08/2020 01:00 A01/08/2020 01:00 B01/08/2020 01:00 E01/08/2020 01:00楼01/08/2020 02:00 A01/08/2020 02:00 E01/08/2020 03:00
..
我正在学习使用熊猫库,需要进行分析并绘制下面的犯罪数据集.每行代表一次犯罪.date_rep列包含一年的每日日期. 我遇到的问题是,犯罪列中的数据是定性的,我只是无法在线找到可以帮助我解决此问题的资源! 我一直在阅读groupby和不同的排序方法,但是最有效的方法是什么?预先谢谢你! 解决方案 要复制某些数据: 在[29]中:df = pd.DataFrame({'date_
..
inp_file = os.getcwd()files_comp = pd.read_csv(inp_file,"B00234 * .csv",na_values =缺少值,nrows = 10)对于files_comp中的f:df_calculated = pd.read_csv(f,na_values = missing_values,nrows = 10)col_length = len(
..
我使用尺寸很大(48K行,最多数十列)的DataFrame.在操作它们的某个时刻,我需要对列值进行成对减法,我想知道是否有比我正在做的方法更有效的方法(见下文). 我当前的代码: #矩阵是包含所有数据的pandas DataFramecomparison_df = pandas.DataFrame(index = matrix.index)组合= itertools.product(gro
..
有没有一种方法可以根据其他两个列上的条件来移动数据框列?像这样: df ["cumulated_closed_value"] = df.groupby("user").['close_cumsum'].shiftWhile(df ['close_time']> df ['open_time]) 我想出了一种方法来做,但是效率很低: 1)加载数据并创建要移动的列 df = pd.r
..
我有以下数据帧(实际数据帧比该数据帧大得多): sale_user_id sale_product_id计数1 1 11 8 11 52 11 312 51 315 1 然后使用以下代码对其进行重塑,以将sale_product_id中的值作为列标题移动: reshaped_df = id_product_count.pivot(index ='sale_user_id',column
..
我有一个由第1列即事件组成的数据框,第2列是日期时间: 样本数据 事件时间0 2020-02-12 11:00:000 2020-02-12 11:30:002 2020-02-12 12:00:001 2020-02-12 12:30:000 2020-02-12 13:00:000 2020-02-12 13:30:000 2020-02-12 14:00:001 2020-02-12
..
我想对 groupby 获得的每个单独的组应用一些自定义逻辑.在大熊猫中很容易做到.如何在vaex中将某些自定义功能应用于groupby创建的组? 例如,假设我要查找每个组的最小索引和最大索引,然后基于该索引,对该组中存在的行进行一些操作.vaex有可能吗? 解决方案 我认为vaex现在有意不支持此功能,例如,请参见此github问题 https://github.com/vaexi
..
我的df看起来像 开始停止0 2015-11-04 10:12:00 2015-11-06 06:38:001 2015-11-04 10:23:00 2015-11-05 08:30:002 2015-11-04 14:01:00 2015-11-17 10:34:004 2015-11-19 01:43:00 2015-12-21 09:04:00打印(time_df.dtypes)开始da
..