スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

統計学の復習(度数分布とヒストグラム)

久しぶりに統計学の教科書を開いたらいろいろと忘れていたので、一から復習をすることにします。
統計学の本をもとにRを使って実践しつつ基本をおさらいしていきます。

教科書はこの本。


■基本用語
ヒストグラム:度数分布表をもとに作成した柱状グラフ。調査や実験に使用するデータセットが手に入ったらまずは基礎統計量ヒストグラムを作成して全体のデータの分布状況を確認する。
階級値:階級を代表する値のこと。階級の上限値と下限値の中間値を階級値とするのが一般的
相対度数:全体の大きさを1とした時の各階級に属する観測値の個数の全体中での割合。正規かされた値なので、データの大きさが異なる複数のデータの分布の比較を行う時に有効。

■スタージェスの公式
度数分布表やヒストグラムを作成する時に注意するべき点は階級数階級幅の問題。特に階級数は多すぎても少なすぎても得られるヒストグラムから読み取れることを変わってきてしまうので、身長に階級数を決定する必要がある。階級数をどうやって決めるかはルール化されていないが、スタージェスの公式というものを使えばデータセットから最適な階級数を算出してくれる。

Rの標準のデータセット「airmiles」を使って最適な階級数を確認。
#データセットの設定
data(airmiles)
airmiles
#スタージェスの公式による階級数の確認
nclass.Sturges(airmiles)

▼結果
[1] 6

上記の結果から「airmiles」のデータセットだと、6刻みで階級数を決定するのがいいらしい。


■Rでのヒストグラムの作成方法
Rではヒストグラムの横幅はデフォルトでは スタージェスアルゴリズムによって決められるらしい。横幅を変更する場合は、breaks オプションに分割数、横幅のサイズまたはアルゴリズムを指定する。アルゴリズムを指定するとき、Sturges、Scott、FD、Freedman-Diacoins のを設定する。


#ヒストグラムの作成
hist(airmiles)

▼結果
histgram of airmiles

なるほど、ちゃんとスタージェスの公式で算出した通り6分割でヒストグラムが作成されているのがわかります。

■参考
バイオスタティスティクス
R tips
ほくそ笑む
スポンサーサイト

コメントの投稿

非公開コメント

プロフィール

HitTips

Author:HitTips
FC2ブログへようこそ!

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QR
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。