オーロラさんの勉強帳

IT企業勤務。データベース、Excel、Excel VBA、ネットワーク、LinuxなどIT関連のことを主に書いていきます。少しでもお役に立てたら幸いです。

【統計・データ分析】【基本】データのばらつきを調べる 分散・標準偏差について

 

分散・標準偏差とは

分散、標準偏差は、データのばらつきの度合いを表す数値です。

分散、標準偏差は必ず0以上の値になります。全てのデータが同じ場合は、0になります。

 

分散とは

データ全体のばらつきを表す数値です。

平均との差(偏差)の2乗の和を、データの総数で割って求めます。

※(各データー平均)の2乗の和をデータの件数で割って求めます。

Excelでは「VAR.P」で求めることができます。

 

標準偏差の2乗=分散 

 

確立分布のばらつき具合を表すのに分散は使われることが多いです。

分散は計算の都合で2乗した数値なので、標準偏差(平方根で元に戻した数値)の方が扱いやすい、理解しやすいと思います。

 

 

標準偏差とは

分散の平方根の数値です。

Excelでは「STDEV.P」もしくは「STDEV.S」で求めることができます。

標準偏差が大きいと平均値と離れたデータが多く、ばらつきが大きいデータになります。標準偏差が小さいとその逆になります。

 

単位が元データと同じなので、データのばらつき具合を表すのには標準偏差を用いられることが多いです。

 

実際のデータで分散、標準偏差を求めてデータを分析しよう

以下のように本社と大阪支店の売上表があります。平均値を見ると本社の方が大阪支店より48多いことが分かります。

f:id:auroralights:20201122023104p:plain

 

本社、大阪支店の売上を折れ線グラフにしてみます。

大阪支店に比べ本社は売上が多い日と少ない日の差が大きいことが分かります。

f:id:auroralights:20201122023402p:plain

分散の求め方

次に本社と大阪支店の分散を求めます。

1.「平均との差(偏差)」列に各日のデータ-平均値の数値を求めます
例:10月1日の本社は350-591=-241

2.「平均との差の2乗」列に偏差の2乗の数値を求めます
例:10月1日の本社は-241*-241=58081

3.「平均との差の2乗」の和を求めます。

4.「「平均との差の2乗の和」を件数で割ります。
※今回は10日分のデータなので、10で割ります。

f:id:auroralights:20201122023755p:plain

分散

上記で求めた数値が「分散」になります。

本社が43849、大阪支社が10101となります。

 

Excelでは「VAR.P(セル範囲)」で簡単に分散を求めることができますが、考え方を覚えるためにあえて計算してみました。

 

標準偏差の求め方

標準偏差は分散の平方根になります。

f:id:auroralights:20201122024522p:plain

Excel平方根を計算するには、SQRT(分散の値)で求める方法や「分散の値^0.5」で求める方法などがあります。

 

Excelでは「STDEV.P(セル範囲)」もしくは「STDEV.S(セル範囲)」で標準偏差を求めることができます。

 

分散・標準偏差からばらつきを見る

分散、標準偏差で本社、大阪支店を比較して、本社の方がばらつきがあることが分かります。

f:id:auroralights:20201122024522p:plain

 

 

標準偏差を平均値で割って求める変動係数は、以下の記事で紹介しています。

auroralights.hatenablog.com