data-science 第7页 - IT屋-程序员软件开发技术分享社区

Macbook M1和python库

新的Macbook M1是否适合数据科学? 数据科学python库(例如pandas，numpy，sklearn等)是否可以在macbook m1(苹果硅)芯片上工作，并且与上一代基于intel的macbook相比有多快? 解决方案此GitHub存储库包含有关Python中的Apple M1芯片和数据科学的许多有用信息 ..

发布时间：2021-04-29 18:43:51 python pandas scikit-learn data-science apple-silicon Python

如何获得大熊猫的连续滚动平均值?

希望获得数据帧的连续滚动平均值. df看起来像这样指数价格0 41 62 103 12 希望获得连续的价格目标是让它看起来像所有价格的移动平均值. 指数均价0 4 41 6 52 10 6.673 12 8 先谢谢您！解决方案您可以使用扩展: df ['mean'] = df.price.expanding().mean()df指数均价0 4 4.000 ..

发布时间：2021-04-29 18:43:45 python pandas dataframe data-science Python

具有多项式特征的内核岭和简单岭

具有多项式内核的Kernel Ridge(来自sklearn.kernel_ridge)与使用PolynomialFeatures + Ridge(来自sklearn.linear_model)有什么区别? 解决方案差异在于特征计算. PolynomialFeatures 显式计算输入要素之间的多项式组合达到所需的程度，同时“>> KernelRidge(kernel ='poly') ..

发布时间：2021-04-29 18:43:42 python scikit-learn data-science Python

在Python中使用sklearn使用MAE训练线性模型

我目前正尝试在python中使用sklearn训练线性模型，但不以均方误差(MSE)作为误差度量-但以平均绝对误差(MAE).我特别需要大学教授提出的具有MAE的线性模型. 我研究了 sklearn.linear_model.LinearRegression ，由于它是OLS回归器，因此无法提供其他错误度量. 因此，我检查了其他可用的回归变量，偶然发现了 sklearn.linear_ ..

发布时间：2021-04-29 18:43:39 python scikit-learn data-science Python

连贯分数0.4是什么意思?是好还是坏?

我需要知道0.4的一致性得分是好还是坏?我使用LDA作为主题建模算法. 在这种情况下，平均相干分数是多少. 解决方案相干性衡量主题中单词之间的相对距离.C_V有两种主要类型，典型的是0≤C_V.x ＜1和uMass -14 ..

发布时间：2021-04-29 18:43:33 data-science 其他开发

将StandardScaler应用于数据集的一部分

我想使用 sklearn 的 StandardScaler .可以将其应用于某些功能列，但不能应用于其他功能列吗? 例如，假设我的数据是: data = pd.DataFrame({'Name':[3，4,6]，'Age':[18，92,98]，'Weight':[68，59,49]})年龄姓名体重0 18 3 681 92 4 592 98 6 49col_names = ['名称'， ..

发布时间：2021-04-29 18:43:30 python pandas scikit-learn scale data-science Python

好的，这很有趣.我执行了相同的代码几次，每次得到不同的 accuracy_score .我发现在 train_test拆分时，我没有使用任何 random_state 值.因此我使用了 random_state = 0 并获得了82％的一致 Accuracy_score .但...然后我想尝试使用不同的 random_state 数字，然后将 random_state = 128 设置为 Accu ..

发布时间：2021-04-29 18:43:27 python machine-learning scikit-learn data-science AI人工智能

如何每隔一行读取CSV文件

如何每2行从CSV文件中获取数据? 例如，如果我有一个看起来像这样的文件 0 10 23 341 45 452 78 163 110 784 48 145 76 236 55 337 12 138 18 76 如何迭代并提取第二行以获得类似的内容并追加到新的数据框中? 0 23 342 78 164 48 146 55 338 18 76 谢谢！解决方案您可以使用 ..

发布时间：2021-04-29 18:43:24 python pandas numpy data-science Python

查找具有最大行数的索引

我的任务: 对于下一组问题，我们将使用来自美国人口普查局的人口普查数据.县是美国各州的政治和地理分区.该数据集包含2010年至2015年美国各县和州的人口数据. ..

发布时间：2021-04-29 18:43:21 python pandas data-science Python

如何将误差线添加到分组的柱状图中?

我想在绘图中添加误差条，以显示每个绘图的最小最大值.拜托，任何人都可以帮助我.预先感谢. 最小最大值如下: 延迟=(53.46(最小0，最大60)，36.22(最小12，最大70)，83(最小21，最大54)，17(最小12，最大70))延迟=(38(最小2，最大70)，44(最小12，最大87)，53(最小9，最大60)，10(最小11，最大77)) 将matplotlib.pyp ..

发布时间：2021-04-29 18:43:18 python pandas matplotlib data-science Python

熊猫如何对时间序列数据进行"get_dummies"

如果我有一些时间序列数据:(补一些) 将numpy导入为np将熊猫作为pd导入np.random.seed(11)行，列= 50000,2数据= np.random.rand(行，列)tidx = pd.date_range('2019-01-01'，period = rows，freq ='H')df = pd.DataFrame(数据，列= ['温度'，'值']，索引= tidx) 如何 ..

发布时间：2021-04-29 18:43:15 python pandas time-series data-science Python

Plotly/如何在Plotly中更改默认颜色的调色板?

我能够使用强制使用默认主题将plotly.io导入为piopio.templates.default ='plotly_white' 但是我正在努力设置默认的调色板. 有什么想法可以改变这一点吗? 谢谢解决方案您可以将新项目添加到 pio.templates . 将plotly.io导入为pio随地导入plotly.graph_objectspio.templat ..

发布时间：2021-04-29 18:43:10 python plotly data-science plotly-python Python

scikit_learn中的fit()，fit_transform()和transform()有什么区别?

这是用于特征缩放的代码，其中我正在使用 fit_transform()和 transform(): ##功能缩放从sklearn.preprocessing导入StandardScalersc_x = StandardScaler()X_train = sc_x.fit_transform(X_train)X_test = sc_x.transform(X_test) 解决方案 fit ..

发布时间：2021-04-29 18:43:07 python machine-learning scikit-learn data-science AI人工智能

如何在折线图的Y轴上绘制多个熊猫列

我有一个数据框 total_year ，其中包含三列( year ， action ， comedy ). 总年我想在x轴上绘制 year 列，然后 action &y轴上都是喜剧. 如何在y轴上绘制两列( action 和 comedy )? 我的代码在y轴上仅绘制一列. total_year [-15:].plot(x ='year'，y ='action'，fi ..

发布时间：2021-04-29 18:43:04 python pandas matplotlib plot data-science Python

如何根据距已知参考轨迹的距离过滤出位置数据?

我有一个需要过滤的87288点数据集.数据集的过滤字段是X位置和Y位置(以经度和纬度表示).绘制数据如下所示: 我已经知道如何在Pandas DF中过滤数据，但是鉴于路径不是线性的，我需要一种有效的策略来以一定的精度清除所有嘈杂的数据(由于数据集非常大，需要手动进行选点不是一种选择.) 这是一些示例数据.唯一重要的列分别是“纬度"和“经度"，分别是Y和X. Sesion，Tiemp ..

发布时间：2021-04-28 20:45:02 python pandas gps data-science data-cleaning Python

BigQuery中的枢纽

当我在BigQuery中使用数据透视功能时，下面的代码段 CALL fhoffa.x.pivot('bigquery-public-data.ghcn_d.ghcnd_2019'#源表，'fh-bigquery.temp.test_pivotted'#目标表格，['id'，'date']#row_ids，'element'#ivot_col_name，'值'#ivot_col_value，30 ..

发布时间：2021-04-28 19:46:33 sql google-bigquery data-science data-analysis 其他开发

删除非英语数据

我的数据中有一些非英语单词/句子.我标记了我的文字，并尝试使用 nltk.corpus.words.words()，但它并没有真正的帮助，因为它还会删除品牌名称，公司名称(例如NLTK等).我需要一些可靠的解决方案目的. 这是我尝试过的: def removeNonEnglishWordsFunct(x):单词=集合(nltk.corpus.words.words())filteredS ..

发布时间：2021-04-28 19:46:22 pandas pyspark data-science data-analysis data-cleaning Python

如何在python中找到事件的开始时间和结束时间?

我有一个由第1列即事件组成的数据框，第2列是日期时间: 样本数据事件时间0 2020-02-12 11:00:000 2020-02-12 11:30:002 2020-02-12 12:00:001 2020-02-12 12:30:000 2020-02-12 13:00:000 2020-02-12 13:30:000 2020-02-12 14:00:001 2020-02-12 ..

发布时间：2021-04-28 19:45:49 python pandas python-requests data-science data-analysis Python

Python:未堆叠的DataFrame太大，导致int32溢出

我有一个很大的数据集，当我尝试运行此代码时，出现内存错误. user_by_movie = user_items.groupby(['user_id'，'movie_id'])['rating'].max().unstack() 这是错误: ValueError:未堆叠的DataFrame太大，导致int32溢出我已经在另一台机器上运行它，并且运行良好！我该如何解决该错误? ..

发布时间：2021-04-28 19:45:40 python pandas data-science data-analysis Python

达斯克(Dask):为什么内存使用量激增?

我有一个很小的数据帧(大约100MB)，并且我想为每一行执行一个昂贵的计算.它不是可向量化的计算；它需要对每一行进行一些解析和数据库查找. 因此，我决定尝试使用Dask并行处理任务.该任务是“令人尴尬的并行"任务.执行顺序或重复执行是没有问题的.但是，由于某些未知的原因，内存使用量可能会激增至约100GB. 这是有问题的代码示例: 将熊猫作为pd导入将numpy导入为np将dask. ..

发布时间：2021-04-28 19:35:25 python pandas data-science dask Python

data-science相关内容