data-science相关内容

Macbook M1和python库

新的Macbook M1是否适合数据科学? 数据科学python库(例如pandas,numpy,sklearn等)是否可以在macbook m1(苹果硅)芯片上工作,并且与上一代基于intel的macbook相比有多快? 解决方案 此GitHub存储库包含有关Python中的Apple M1芯片和数据科学的许多有用信息 ..
发布时间:2021-04-29 18:43:51 Python

如何获得大熊猫的连续滚动平均值?

希望获得数据帧的连续滚动平均值. df看起来像这样 指数价格0 41 62 103 12 希望获得连续的价格 目标是让它看起来像所有价格的移动平均值. 指数均价0 4 41 6 52 10 6.673 12 8 先谢谢您! 解决方案 您可以使用扩展: df ['mean'] = df.price.expanding().mean()df指数均价0 4 4.000 ..
发布时间:2021-04-29 18:43:45 Python

具有多项式特征的内核岭和简单岭

具有多项式内核的Kernel Ridge(来自sklearn.kernel_ridge)与使用PolynomialFeatures + Ridge(来自sklearn.linear_model)有什么区别? 解决方案 差异在于特征计算. PolynomialFeatures 显式计算输入要素之间的多项式组合达到所需的程度,同时“>> KernelRidge(kernel ='poly') ..
发布时间:2021-04-29 18:43:42 Python

在Python中使用sklearn使用MAE训练线性模型

我目前正尝试在python中使用sklearn训练线性模型,但不以均方误差(MSE)作为误差度量-但以平均绝对误差(MAE).我特别需要大学教授提出的具有MAE的线性模型. 我研究了 sklearn.linear_model.LinearRegression ,由于它是OLS回归器,因此无法提供其他错误度量. 因此,我检查了其他可用的回归变量,偶然发现了 sklearn.linear_ ..
发布时间:2021-04-29 18:43:39 Python

连贯分数0.4是什么意思?是好还是坏?

我需要知道0.4的一致性得分是好还是坏?我使用LDA作为主题建模算法. 在这种情况下,平均相干分数是多少. 解决方案 相干性衡量主题中单词之间的相对距离.C_V有两种主要类型,典型的是0≤C_V.x <1和uMass -14 ..
发布时间:2021-04-29 18:43:33 其他开发

Random_state对准确性的贡献

好的,这很有趣.我执行了相同的代码几次,每次得到不同的 accuracy_score .我发现在 train_test拆分时,我没有使用任何 random_state 值.因此我使用了 random_state = 0 并获得了82%的一致 Accuracy_score .但...然后我想尝试使用不同的 random_state 数字,然后将 random_state = 128 设置为 Accu ..
发布时间:2021-04-29 18:43:27 AI人工智能

如何每隔一行读取CSV文件

如何每2行从CSV文件中获取数据? 例如,如果我有一个看起来像这样的文件 0 10 23 341 45 452 78 163 110 784 48 145 76 236 55 337 12 138 18 76 如何迭代并提取第二行以获得类似的内容并追加到新的数据框中? 0 23 342 78 164 48 146 55 338 18 76 谢谢! 解决方案 您可以使用 ..
发布时间:2021-04-29 18:43:24 Python

查找具有最大行数的索引

我的任务: 对于下一组问题,我们将使用来自美国人口普查局的人口普查数据.县是美国各州的政治和地理分区.该数据集包含2010年至2015年美国各县和州的人口数据. ..
发布时间:2021-04-29 18:43:21 Python

如何将误差线添加到分组的柱状图中?

我想在绘图中添加误差条,以显示每个绘图的最小最大值.拜托,任何人都可以帮助我.预先感谢. 最小最大值如下: 延迟=(53.46(最小0,最大60),36.22(最小12,最大70),83(最小21,最大54),17(最小12,最大70))延迟=(38(最小2,最大70),44(最小12,最大87),53(最小9,最大60),10(最小11,最大77)) 将matplotlib.pyp ..
发布时间:2021-04-29 18:43:18 Python

如何根据距已知参考轨迹的距离过滤出位置数据?

我有一个需要过滤的87288点数据集.数据集的过滤字段是X位置和Y位置(以经度和纬度表示).绘制数据如下所示: 我已经知道如何在Pandas DF中过滤数据,但是鉴于路径不是线性的,我需要一种有效的策略来以一定的精度清除所有嘈杂的数据(由于数据集非常大,需要手动进行选点不是一种选择.) 这是一些示例数据.唯一重要的列分别是“纬度"和“经度",分别是Y和X. Sesion,Tiemp ..
发布时间:2021-04-28 20:45:02 Python

BigQuery中的枢纽

当我在BigQuery中使用数据透视功能时,下面的代码段 CALL fhoffa.x.pivot('bigquery-public-data.ghcn_d.ghcnd_2019'#源表,'fh-bigquery.temp.test_pivotted'#目标表格,['id','date']#row_ids,'element'#ivot_col_name,'值'#ivot_col_value,30 ..
发布时间:2021-04-28 19:46:33 其他开发

删除非英语数据

我的数据中有一些非英语单词/句子.我标记了我的文字,并尝试使用 nltk.corpus.words.words(),但它并没有真正的帮助,因为它还会删除品牌名称,公司名称(例如NLTK等).我需要一些可靠的解决方案目的. 这是我尝试过的: def removeNonEnglishWordsFunct(x):单词=集合(nltk.corpus.words.words())filteredS ..
发布时间:2021-04-28 19:46:22 Python

达斯克(Dask):为什么内存使用量激增?

我有一个很小的数据帧(大约100MB),并且我想为每一行执行一个昂贵的计算.它不是可向量化的计算;它需要对每一行进行一些解析和数据库查找. 因此,我决定尝试使用Dask并行处理任务.该任务是“令人尴尬的并行"任务.执行顺序或重复执行是没有问题的.但是,由于某些未知的原因,内存使用量可能会激增至约100GB. 这是有问题的代码示例: 将熊猫作为pd导入将numpy导入为np将dask. ..
发布时间:2021-04-28 19:35:25 Python