スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

線形単回帰分析

今日は線形単回帰分析。

線形回帰分析:説明変数(x)を用いて目的変数(y)を説明する統計モデル(y=f(x))をデータから求める分析手法。
例えば、「車のスピード(x)」と「ブレーキをかけた後に止まるまでの距離(y)」の関係を数式(y=f(x))で表すことが出来る。この関係を数式で表すことにより、時速50kmで車が走ってきたときに約何mくらいで止まるのかという予測が出来るようになる。

■処理ステップ


線形回帰分析は大まかに下記の5ステップで実施。
1.説明変数と目的変数の相関関係を確認
2.回帰式の算出
3.回帰式の精度を確認
4.回帰係数の検定
5.信頼区間と予測区間の算出

で、線形回帰分析の概念自体は特に難しい話ではないので、実際にRに標準で用意されているデータセットcarsを使って線形回帰分析に挑戦。

1.説明変数と目的変数の相関関係を確認


無相関のデータに対して線形回帰をやっても意味がないので、「車のスピード(x)」と「ブレーキをかけた後に止まるまでの距離(y)」相関係数を算出。
cor(cars$speed, cars$dist)


▼cor(cars$speed, cars$dist)の結果
0.8068949

0.8なので、「車のスピード(x)」と「ブレーキをかけた後に止まるまでの距離(y)」の間には強い正の相関があることを確認。

2.回帰式の算出


cars.lm <- lm(dist~speed, data=cars)
summary(cars.lm)

lm()は線形回帰分析の関数で「dist~speed」は目的変数distを説明変数speedで説明することを表しています。「data = cars」は分析対象のデータセットはcarsであることを表しています。

▼summary(cars.lm)の結果
Call:
lm(formula = dist ~ speed, data = cars)

Residuals:
Min 1Q Median 3Q Max
-29.069 -9.525 -2.272 9.215 43.201

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -17.5791 6.7584 -2.601 0.0123 *
speed 3.9324 0.4155 9.464 1.49e-12 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 15.38 on 48 degrees of freedom
Multiple R-squared: 0.6511, Adjusted R-squared: 0.6438
F-statistic: 89.57 on 1 and 48 DF, p-value: 1.49e-12

「Residuals」は残差の最小値、第1四分位数、中央値、第3四分位数、最大値がそれぞれ表示されています。ちなみに、残差は回帰直線とデータとの誤差のこと。
t値とp値は係数が回帰モデルにやくだっているかどうかに関する統計量で、p値が大きいほどその係数が役にたっていないことを表している。いろいろと出てきているが一番知りたいのは作成した予測モデルがどれだけフィットしているか。で、それを表すのが決定係数、調整済み決定係数。これが1に近づくほどフィットしているとこを表します。
この回帰直線はy=3.9324x-17.5791のモデルで表現できるようです。

値だけでみててもよくわからんので、とりあえず散布図を作成。

plot(cars) # 散布図の作成
abline(cars.lm, lwd=2) # 回帰直線の作成

▼散布図と回帰直線
Rplot01.png
それらしい回帰直線が引かれている。

3.回帰式の精度を確認


残差を視覚的に分析するために、回帰診断図を表示する。
par(mfrow=c(2,2)) # 2x2のマトリックスで回帰診断図を表示
plot(cars.lm) # 回帰診断図を描画

▼回帰診断図
回帰診断図

よくわからない図が出現。。。図の見方を調べてみる。

■残差とフィット値のプロット(左上)
横軸が予測値、縦軸が残差をあらわしており、残差の全体像を外観するときに使用。

■残差の正規Q-Qプロット(右上)
データの正規性を確認するための図。Q-Qプロットはデータが正規分布に従うと点が直線上に並ぶ。回帰分析では、残差が標準正規分布に従うことを仮定しているため、Q-Qプロットを使用することで

■残差の平方根プロット(左下)
残差の変動状況を考察するための図。

■残差と影響力プロット(右下)
モデルの当てはまりへの影響力を測るための図。横軸は梃子値で、縦軸は標準化した残差。点線でクックの距離0.5を示している。クックの距離が0.5を超えると影響力あり、1を超えると特異に大きい。


■参考
分かって使う統計学 -相関と回帰分析-


スポンサーサイト

コメントの投稿

非公開コメント

プロフィール

HitTips

Author:HitTips
FC2ブログへようこそ!

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QR
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。