data-science相关内容
新的Macbook M1是否适合数据科学? 数据科学python库(例如pandas,numpy,sklearn等)是否可以在macbook m1(苹果硅)芯片上工作,并且与上一代基于intel的macbook相比有多快? 解决方案 此GitHub存储库包含有关Python中的Apple M1芯片和数据科学的许多有用信息
..
希望获得数据帧的连续滚动平均值. df看起来像这样 指数价格0 41 62 103 12 希望获得连续的价格 目标是让它看起来像所有价格的移动平均值. 指数均价0 4 41 6 52 10 6.673 12 8 先谢谢您! 解决方案 您可以使用扩展: df ['mean'] = df.price.expanding().mean()df指数均价0 4 4.000
..
具有多项式内核的Kernel Ridge(来自sklearn.kernel_ridge)与使用PolynomialFeatures + Ridge(来自sklearn.linear_model)有什么区别? 解决方案 差异在于特征计算. PolynomialFeatures 显式计算输入要素之间的多项式组合达到所需的程度,同时“>> KernelRidge(kernel ='poly')
..
我目前正尝试在python中使用sklearn训练线性模型,但不以均方误差(MSE)作为误差度量-但以平均绝对误差(MAE).我特别需要大学教授提出的具有MAE的线性模型. 我研究了 sklearn.linear_model.LinearRegression ,由于它是OLS回归器,因此无法提供其他错误度量. 因此,我检查了其他可用的回归变量,偶然发现了 sklearn.linear_
..
我需要知道0.4的一致性得分是好还是坏?我使用LDA作为主题建模算法. 在这种情况下,平均相干分数是多少. 解决方案 相干性衡量主题中单词之间的相对距离.C_V有两种主要类型,典型的是0≤C_V.x <1和uMass -14
..
我想使用 sklearn 的 StandardScaler .可以将其应用于某些功能列,但不能应用于其他功能列吗? 例如,假设我的数据是: data = pd.DataFrame({'Name':[3,4,6],'Age':[18,92,98],'Weight':[68,59,49]})年龄姓名体重0 18 3 681 92 4 592 98 6 49col_names = ['名称',
..
好的,这很有趣.我执行了相同的代码几次,每次得到不同的 accuracy_score .我发现在 train_test拆分时,我没有使用任何 random_state 值.因此我使用了 random_state = 0 并获得了82%的一致 Accuracy_score .但...然后我想尝试使用不同的 random_state 数字,然后将 random_state = 128 设置为 Accu
..
如何每2行从CSV文件中获取数据? 例如,如果我有一个看起来像这样的文件 0 10 23 341 45 452 78 163 110 784 48 145 76 236 55 337 12 138 18 76 如何迭代并提取第二行以获得类似的内容并追加到新的数据框中? 0 23 342 78 164 48 146 55 338 18 76 谢谢! 解决方案 您可以使用
..
我的任务: 对于下一组问题,我们将使用来自美国人口普查局的人口普查数据.县是美国各州的政治和地理分区.该数据集包含2010年至2015年美国各县和州的人口数据.
..
我想在绘图中添加误差条,以显示每个绘图的最小最大值.拜托,任何人都可以帮助我.预先感谢. 最小最大值如下: 延迟=(53.46(最小0,最大60),36.22(最小12,最大70),83(最小21,最大54),17(最小12,最大70))延迟=(38(最小2,最大70),44(最小12,最大87),53(最小9,最大60),10(最小11,最大77)) 将matplotlib.pyp
..
如果我有一些时间序列数据:(补一些) 将numpy导入为np将熊猫作为pd导入np.random.seed(11)行,列= 50000,2数据= np.random.rand(行,列)tidx = pd.date_range('2019-01-01',period = rows,freq ='H')df = pd.DataFrame(数据,列= ['温度','值'],索引= tidx) 如何
..
我能够使用强制使用默认主题 将plotly.io导入为piopio.templates.default ='plotly_white' 但是我正在努力设置默认的调色板. 有什么想法可以改变这一点吗? 谢谢 解决方案 您可以将新项目添加到 pio.templates . 将plotly.io导入为pio随地导入plotly.graph_objectspio.templat
..
这是用于特征缩放的代码,其中我正在使用 fit_transform()和 transform(): ##功能缩放从sklearn.preprocessing导入StandardScalersc_x = StandardScaler()X_train = sc_x.fit_transform(X_train)X_test = sc_x.transform(X_test) 解决方案 fit
..
我有一个数据框 total_year ,其中包含三列( year , action , comedy ). 总年 我想在x轴上绘制 year 列,然后 action &y轴上都是喜剧. 如何在y轴上绘制两列( action 和 comedy )? 我的代码在y轴上仅绘制一列. total_year [-15:].plot(x ='year',y ='action',fi
..
我有一个需要过滤的87288点数据集.数据集的过滤字段是X位置和Y位置(以经度和纬度表示).绘制数据如下所示: 我已经知道如何在Pandas DF中过滤数据,但是鉴于路径不是线性的,我需要一种有效的策略来以一定的精度清除所有嘈杂的数据(由于数据集非常大,需要手动进行选点不是一种选择.) 这是一些示例数据.唯一重要的列分别是“纬度"和“经度",分别是Y和X. Sesion,Tiemp
..
当我在BigQuery中使用数据透视功能时,下面的代码段 CALL fhoffa.x.pivot('bigquery-public-data.ghcn_d.ghcnd_2019'#源表,'fh-bigquery.temp.test_pivotted'#目标表格,['id','date']#row_ids,'element'#ivot_col_name,'值'#ivot_col_value,30
..
我的数据中有一些非英语单词/句子.我标记了我的文字,并尝试使用 nltk.corpus.words.words(),但它并没有真正的帮助,因为它还会删除品牌名称,公司名称(例如NLTK等).我需要一些可靠的解决方案目的. 这是我尝试过的: def removeNonEnglishWordsFunct(x):单词=集合(nltk.corpus.words.words())filteredS
..
我有一个由第1列即事件组成的数据框,第2列是日期时间: 样本数据 事件时间0 2020-02-12 11:00:000 2020-02-12 11:30:002 2020-02-12 12:00:001 2020-02-12 12:30:000 2020-02-12 13:00:000 2020-02-12 13:30:000 2020-02-12 14:00:001 2020-02-12
..
我有一个很大的数据集,当我尝试运行此代码时,出现内存错误. user_by_movie = user_items.groupby(['user_id','movie_id'])['rating'].max().unstack() 这是错误: ValueError:未堆叠的DataFrame太大,导致int32溢出 我已经在另一台机器上运行它,并且运行良好!我该如何解决该错误?
..
我有一个很小的数据帧(大约100MB),并且我想为每一行执行一个昂贵的计算.它不是可向量化的计算;它需要对每一行进行一些解析和数据库查找. 因此,我决定尝试使用Dask并行处理任务.该任务是“令人尴尬的并行"任务.执行顺序或重复执行是没有问题的.但是,由于某些未知的原因,内存使用量可能会激增至约100GB. 这是有问题的代码示例: 将熊猫作为pd导入将numpy导入为np将dask.
..