linear-regression相关内容
我正在尝试使用线性回归计算 pandas 数据帧中的缺失值 ` for index in [missing_data_df.horsepower.index]: i = 0 if pd.isnull(missing_data_df.horsepower[index[i]]): #linear regression equation
..
我见过像this one这样的类似帖子,它们说收到错误消息说:Coefficients: (1 not defined because of singularities)是因为lm()调用中使用的预测值之间几乎完全相关。 但在我的例子中,预测值之间没有近乎完美的相关性,但在lm()的输出中仍有一个系数(X_wthn_outcome)返回NA。 我想知道返回NA的系数有什么问题?
..
我有一个执行引导的数据集,以便仅替换两个主要因素Replicate/Level内的值。 replicate level high.density low.density 1 low 14 36 1 low 54 31 1 mid 82 10 1 mid
..
我想知道是否有办法在线性回归模型中包含误差项: r = lm(y ~ x1+x2) 推荐答案 代码r = lm(y ~ x1+x2)意味着我们将y建模为x1和x2的线性函数。由于模型不会是完美的,所以会有剩余项(即模型无法拟合的剩余项)。 在数学中,正如Rob Hyndman在评论中指出的,y = a + b1*x1 + b2*x2 + e,其中a、b1和b2是常量,e是残差
..
似乎是一个基本问题,但我需要在使用梯度下降的线性回归实现中使用特征缩放(取每个特征值,减去平均值,然后除以标准差)。在我完成之后,我想要将权重和回归线重新缩放到原始数据。我只用了一个功能,外加y-截取术语。使用缩放数据获取权重后,如何更改权重,使其应用于原始的未缩放数据? 推荐答案 假设您的回归是y = W*x + b与x缩放数据,与原始数据为 y = W/std * x0 +
..
使用matplotlib在Python中绘制单变量函数非常简单。但我正在尝试向散点图添加第三个轴,这样我就可以可视化我的多变量模型。 这里有一个示例代码片段,有30个输出: import numpy as np np.random.seed(2) ## generate a random data set x = np.random.randn(30, 2) x[:, 1] = x[:
..
p=(-50:50)^2 y=c(p, 2500+10*(1:99), p+1000) plot(seq_along(y), y+100*rnorm(length(y))) 假设我有一个类似上面的数据集,其中只有一部分数据是线性的。像R中的lm()这样的普通线性回归无法智能地找出适合线性拟合的区域(在本例中为100到200)。 如何找出数据的哪一部分是线性的,并仅在此数据集中执行拟合?欢迎使
..
我想从单个数据帧中的多个组的线性回归中预测值。 我找到了下面这篇博文,它几乎满足了我的所有需求:https://www.r-bloggers.com/2016/09/running-a-model-on-separate-groups/ 但是,我不能将其与带有newdata的recast()函数结合使用。 对于一个组,我使用以下内容: m
..
我已经开发了一个算法来遍历15个变量,并为每个变量生成一个简单的OLS。然后,算法再循环11次,以产生相同的15个OLS回归,但X变量的滞后每次增加一个。我选择r^2最高的自变量,并对3、4或5个变量使用最佳滞后 即 Y_t+1 - Y_t = B ( X_t+k - X_t) + e 我的数据集如下所示: Regression = pd.DataFrame(np.rando
..
使用以下小数据集: bill = [34,108,64,88,99,51] tip = [5,17,11,8,14,5] 我(手工)计算了一条最适合的回归线。 yi = 0.1462*x - 0.8188 #yi = slope(x) + intercept 我已经使用Matplotlib绘制了我的原始数据,如下所示: plt.scatter(bill,tip, c
..
我有六个固定因素:F,以及一个随机因素R。我想使用语言R测试线性项、纯二次项和双向交互。因此,我构建了完全线性混合模型,并尝试使用drop1: 测试其项 full.model
..
我有一个包含类别变量(二进制)和连续变量的数据集。我正在尝试应用线性回归模型来预测一个连续变量。有人能告诉我如何检查分类变量和连续目标变量之间的相关性吗? 当前编码: import pandas as pd df_hosp = pd.read_csv('C:UsersLAPPY-2DesktopLengthOfStay.csv') data = df_hosp[['lengthofs
..
尝试对多大的系统进行线性回归才是合理的? 具体地说:我有一个具有大约300K样本点和大约1200个线性项的系统。这在计算上可行吗? 推荐答案 您可以将其表示为矩阵方程: 其中矩阵为300K行1200列,系数向量为1200x1,RHS向量为1200x1。 如果将两边乘以矩阵的转置,就会得到未知数的方程组,即1200x1200。您可以使用LU分解或任何其他您想要求解的系数算法。(
..
我有以下数据: 2019-08-28,384 2019-08-29,394 2019-08-30,406 2019-08-31,424 2019-09-01,439 2019-09-02,454 2019-09-03,484 和gnplot脚本: set title "test" set terminal png truecolor size 960,720 background
..
我想知道如何在 ggplot 上添加回归线方程和 R^2.我的代码是: 库(ggplot2)df 我们将不胜感激. 解决方案 这里有一个解决方案 # 将方程和 R 平方作为字符串# 来源:https://groups.google.com/forum/#!topic/ggplot2/1TgH-kG5XMAlm_eqn
..
我正在尝试对根据另一个变量分组的大量变量运行简单的单一线性回归.以 mtcars 数据集为例,我想在 mpg 和其他变量(mpg ~ disp、mpg ~ hp 等)之间运行单独的线性回归,并按另一个变量(例如 cyl)分组. 在每个变量上独立运行 lm 可以很容易地使用 purrr::map (从这个伟大的教程修改 - https://sebastiansauer.github.io/ED
..
我有以下 R 代码 库(预测)值
..
我有一个如下的DataFrame: 代码日期关闭0 ADBE 2016-02-16 78.881 ADBE 2016-02-17 81.852 ADBE 2016-02-18 80.533 ADBE 2016-02-19 80.874 ADBE 2016-02-22 83.805 ADBE 2016-02-23 83.07 ...等等.Date 列是问题所在.我正在尝试使用 Close 列获
..
我有一个包含 21 列的单个国家/地区的出口贸易数据集.第一列表示年份(1962-2014),而其他 20 个是贸易伙伴.我正在尝试对年列和其他列进行线性回归.我已经尝试过这里推荐的方法:运行多个简单的线性回归来自 R 中需要使用的数据框 combn(names(DF), 2, function(x){lm(DF[, x])}, 简化 = FALSE) 然而,这只会产生每对的截距,这对我来说不
..
我正在尝试使用一些成反比的数据执行普通最小二乘回归,但似乎拟合结果是错误的? 导入 statsmodels.formula.api 作为 sm将 numpy 导入为 np导入 matplotlib.pyplot 作为 plty = np.arange(100, 0, -1)x = np.arange(0, 100)结果 = sm.OLS(y, x).fit()图, ax = plt.subplo
..