スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

統計学の復習(擬似相関と層別解析)

■擬似相関と偏相関係数
擬似相関とは、変数Aと変数B、変数Aと変数Cの間に相関関係があるとき、実際には相関関係がないにも関わらず変数Bと変数Cの間にも相関関係が生じること。擬似相関が生じていると判断を誤ってしまうことがあるので注意が必要です。
擬似相関については、このサイトにいい例とRのコードが記載されてました。擬似相関、統計的消去について非常にわかりやすくかかれているので参考にしてください。
上記サイトの例では、変数Aと変数Bの残差、変数Aと変数Cの残差をそれぞれ算出して残差同士の相関を確認していますが、偏相関係数を使用すると統計的消去を行い、直接変数間の相関関係を算出することが出来ます。
上記サイトで使用しているデータをお借りして偏相関係数を算出。

#上記サイトで使用しているデータをお借りします。
data <- read.table("http://dl.dropboxusercontent.com/u/432512/20130708/SchoolChildrensMaths.txt", header = TRUE)
#偏相関係数を使用するため、ソースの読み込みを行う
source("http://aoki2.si.gunma-u.ac.jp/R/src/partial_cor.R", encoding="euc-jp")
#相関係数を算出
cor(data)
#偏相関係数を算出
partial.cor(data)

▼結果
> cor(data)

AMA YEARS HGT
AMA 1.0000000 0.9915810 0.9799811
YEARS 0.9915810 1.0000000 0.9889419
HGT 0.9799811 0.9889419 1.0000000

> partial.cor(data)

Var 1 Var 2 Var 3
Var 1 NA 0.7598976 -0.03306099
Var 2 0.75989764 NA 0.66762606
Var 3 -0.03306099 0.6676261 NA

普通に相関係数を算出した場合だとすべての変数間で非常に高い相関値が算出されているのに対して、偏相関係数を算出した場合は擬似相関を除いた相関値が出力されていることがわかります。

■層別解析
お次は層別解析。層別解析とは、データをグループ別に分けて解析すること。解析対象のデータに正確が異なるいくつかの部分集団を含んでいる場合全体では相関関係は現れないが、グループ別に分析すると相関関係が洗われることがあるため、データの相関関係をみる際にはあらかじめ注意して行う必要がある。
Rではby()関数を使用することで、層別解析を行うことが出来る。

#データの読み込み
data<-read.csv("http://fileman.rakurakuhp.net/UserFiles/40164/File/1199162168.csv")
#変数のアタッチ
attach(data)
#全データの要約統計量の算出
summary(data)
#性別ごとの要約統計量の算出
by(data, SEX, summary)

▼結果
> summary(data)
     SUBJID    SEX         AGE       ARMCD     WEIGHT         HEIGHT   
Min. :101 F:15 Min. :20.0 A:8 Min. : 8.0 Min. :146
1st Qu.:108 M:16 1st Qu.:27.5 B:8 1st Qu.:65.0 1st Qu.:158
Median :116 Median :35.0 C:8 Median :75.0 Median :167
Mean :116 Mean :35.0 D:7 Mean :69.9 Mean :169
3rd Qu.:124 3rd Qu.:42.5 3rd Qu.:78.0 3rd Qu.:178
Max. :131 Max. :50.0 Max. :98.0 Max. :198

> by(data, SEX, summary)
SEX: F
SUBJID SEX AGE ARMCD WEIGHT HEIGHT
Min. :102 F:15 Min. :21 A:0 Min. :58.0 Min. :146
1st Qu.:109 M: 0 1st Qu.:28 B:8 1st Qu.:70.5 1st Qu.:162
Median :116 Median :35 C:0 Median :76.0 Median :167
Mean :116 Mean :35 D:7 Mean :76.6 Mean :168
3rd Qu.:123 3rd Qu.:42 3rd Qu.:82.5 3rd Qu.:176
Max. :130 Max. :49 Max. :98.0 Max. :186
--------------------------------------------------------
SEX: M
SUBJID SEX AGE ARMCD WEIGHT HEIGHT
Min. :101 F: 0 Min. :20.0 A:8 Min. : 8.0 Min. :148
1st Qu.:108 M:16 1st Qu.:27.5 B:0 1st Qu.:55.5 1st Qu.:158
Median :116 Median :35.0 C:8 Median :67.0 Median :167
Mean :116 Mean :35.0 D:0 Mean :63.7 Mean :169
3rd Qu.:124 3rd Qu.:42.5 3rd Qu.:76.0 3rd Qu.:180
Max. :131 Max. :50.0 Max. :87.0 Max. :198


by()関数一発で、性別ごとの要約統計量を得ることが出来ました。これは便利!

■参考
偏相関係数
ほくそ笑む
学びing
スポンサーサイト

コメントの投稿

非公開コメント

プロフィール

HitTips

Author:HitTips
FC2ブログへようこそ!

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QR
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。