データの分布の傾向(説明ページ)
概要
データの分布の傾向の範囲では、覚えないといけない用語が多く登場します。
まずは用語を覚えるところから始めましょう。
最大値・最小値
最大値とは、与えられた集合や範囲の中で、最も大きな値を指します。
最小値とは、与えられた集合や範囲の中で、最も小さな値を指します。
範囲
範囲とは最大値と最小値の差を指します。
つまり、「範囲=最大値ー最小値」です。
平均値
平均値とはデータ内のすべての値を合計し、その値をデータ数で割ったものを指します。
中央値
中央値とはデータ内の値を大きさ順に並べたとき、ちょうど中央に位置する値を指します。
なお、データが偶数の場合は、中央にある2つの値の平均値が中央値となります。
最頻値
最頻値とはデータ内で最も多く出てくる値を指します。
代表値
代表値とはデータの特徴を表す値を指します。
具体的には、平均値、中央値、最頻値などのことです。
度数分布表
度数分布表とは、データの傾向や分布を整理するために用いられる以下のような表のことを指します。
具体的には、以下要素から構成されています。
- 階級:データをグループ化するための区間や範囲です。(0以上5未満、5以上10未満、など)
- 度数:各階級に含まれるデータの数を示します。(0以上5未満の階級には、1と3の2つのデータが含まれているので、度数は2です。)
- 累積度数:各階級までの度数の合計、つまり、各階級までのデータの数を示します。(10未満の累積度数は「0以上5未満の度数=2」「5以上10未満の度数=4」の合計の6です。つまり、10未満のデータの数は6つである、という意味です。)
相対度数
相対度数とは、各階級の度数を全体のデータ数で割った値を指します。
より簡単に式に表すと、以下のようになります。
相対度数を求めたいものの個数(回数)全体の個数(回数)また、相対度数の合計は、その定義から1になります。
累積相対度数
累積相対度数とは、各階級までの相対度数の合計を示します。(10未満の累積相対度数は「0以上5未満の相対度数=0.2」「5以上10未満の相対度数=0.4」の合計の0.6です。つまり、10未満のデータは全体の0.6=60%である、という意味です。)
ヒストグラム
ヒストグラムとは、データの分布を視覚化するために用いられる以下のようなグラフのことを指します。
横軸は階級、縦軸は度数を表します。
例えば、一番右の棒をみることで、
「10以上15未満の数字が4つある」
ということが分かります。
度数分布多角形(度数折れ線)
度数分布多角形(度数折れ線)とはデータの分布を視覚化するために用いられる以下のようなグラフのことを指します。
ヒストグラムの一つ一つの棒を線分で結んだ折れ線グラフです。