オーロラさんの勉強帳

SESのロースキル客先常駐勤務。データベース、Excel、Excel VBA、ネットワーク、LinuxなどIT関連のことを主に書いていきます。

【統計・データ分析】【基本】四分位数(しぶんいすう)、四分位範囲、四分位偏差とは

 

四分位数(読み方:しぶんいすう)とは

四分位数とは、データを小さい順に並べて4等分したときの境界(区切り)となる値のことです。

四分位数には、第1、第2、第3四分位数があり、それぞれの値は以下のようになっています。

 

  • 第1四分位数:中央値よりも小さいデータ(中央値は含まない)の中で中央になる値
  • 第2四分位数:中央値
  • 第3四分位数:中央値よりも大きいデータ(中央値は含まない)の中で中央になる値

 

市場調査などのデータで元のデータを複数のグループに分割するために用いられます。

データのばらつきを表し、非対称なデータや突出した値にも影響を受けにくい特徴があります。

 

四分位数の求め方

データ数が偶数か奇数の場合の例を見てみましょう。

 

データ数が奇数の場合の四分位数の求め方

以下のようなデータで四分位数を考えてみます。

f:id:auroralights:20201205114041p:plain

Dが中央値のため、第2四分位数になります。

中央値を含まない下位のデータ郡の中でBが真ん中の値のため第1四分位数になります。

中央値を含まない上位のデータ郡の中でFが真ん中の値のため第3四分位数になります。

f:id:auroralights:20201205114136p:plain

 

データが5個しかない場合は、下位グループが2個、上位グループが2個のデータになるので、下位グループの平均値を第1四分位数、上位グループの平均値を第3四分位数とします。

 

データ数が偶数の場合の四分位数の求め方

SとDの平均値が第2四分位数(中央値)となります。

Bが第1四分位数、Eが第3四分位数となります。

f:id:auroralights:20201205115334p:plain

 

四分位範囲について

四分位範囲は第3四分位数から第1四分位数の差になります。

データの真ん中50%の範囲が四分位範囲です。

以下のデータでは、第3四分位数の55.8から第1四分位数の39.2を引いて16.6を求めています。

f:id:auroralights:20201205122050p:plain

 

四分位範囲はデータのばらつきを表す指標です。値が大きいほどばらつきが大きいデータと言えます。

同じデータのばらつきを表す標準偏差や分散よりも突出した値に影響されにくい特徴があります。

 

 

四分位偏差について

四分位偏差は四分位数の第1四分位数、第3四分位数の差から求める四分位範囲を2で割ることで求めることができます。

データのばらつきを表す指標で、四分位範囲を1/2した値です。

 

f:id:auroralights:20201205120919p:plain

※Q3:第3四分位数、Q1:第1四分位数