【pandas】DataFrameの代表値（平均値・中央値・最頻値）を求める方法

2021年11月20日
2023年10月7日
pandas
average, mean, median, mode

pandas

Pythonのpandasで平均値や中央値、最頻値を求める方法を紹介します。

今回紹介するメソッドは引数が似ているので使いやすいと思います。

平均値と中央値では以下のDataFrameを使います。

import pandas as pd

df1 = pd.DataFrame(
    data={'列1': [10, 20, 30, 40], 
          '列2': [50, 60, 70, 80],
          '列3': [1.2, 3.7, 4.8, 12],
          '列4': ['A', 'B', 'C', 'D'],
          '列5': [True, True, False, False]}
)

df1

import pandas as pd

df1 = pd.DataFrame(

data={'列1': [10, 20, 30, 40],

'列2': [50, 60, 70, 80],

'列3': [1.2, 3.7, 4.8, 12],

'列4': ['A', 'B', 'C', 'D'],

'列5': [True, True, False, False]}

)

df1

1 平均値：mean
- 1.1 行や列の平均を求める
- 1.2 numeric_onlyの役割
2 中央値：median
- 2.1 行や列の中央値を求める
- 2.2 bool値の処理
3 最頻値：mode
- 3.1 数値だけで最頻値を求める
- 3.2 dropnaの役割
4 まとめ

平均値：mean

引数	デフォルト値	内容
`axis`	`0`	デフォルトで列方向に計算 1で行方向に計算
`skipna`	`True`	Naやnullを除外して計算する
`level`	`None`	マルチインデックスのレベルを指定
`numeric_only`	`None`	Trueでint、float、boolの行や列のみ計算 bool値の列はTureの割合を返す。 Falseですべての行や列で計算（エラーの可能性有）

pandas.DataFrame.meanの公式ページ

averageとmeanの違い: 一般にaverageもmeanも平均（算術平均：合計を個数で割る平均）と言う意味。
統計学では、averageは他の平均（幾何平均、調和平均など）をまとめての「平均」で、
meanは単なる算術平均としての「平均」として区別されています。
averageは代表値（平均値・中央値・最頻値）と訳されることがあります。
参考：統計WEB「平均」のこと

行や列の平均を求める

#列ごとの平均（数値だけで計算される）
df1.mean(axis=0) #axis=0は無くてもOK

##出力結果
列1    25.000
列2    65.000
列3     5.425
列5     0.500
dtype: float64
#########################


#行ごとの平均（数値だけで計算される）
df1.mean(axis=1)

##出力結果
0    20.400000
1    27.900000
2    34.933333
3    44.000000
dtype: float64

#列ごとの平均（数値だけで計算される）

df1.mean(axis=0) #axis=0は無くてもOK

##出力結果

列1 25.000

列2 65.000

列3 5.425

列5 0.500

dtype: float64

#########################

#行ごとの平均（数値だけで計算される）

df1.mean(axis=1)

##出力結果

0 20.400000

1 27.900000

2 34.933333

3 44.000000

dtype: float64

列5はbool値になっています。（'列5': [True, True, False, False]）

このとき、Tureの割合を平均として返します。（列5の場合は半分がTrueなので0.5）

numeric_onlyの役割

#数値の列だけで計算（なくてもOK）
df1.mean(numeric_only=True)

##出力結果
列1    25.000
列2    65.000
列3     5.425
列5     0.500
dtype: float64
#########################


#すべての列で計算（文字列があるとエラー）
df1.mean(numeric_only=False)

##出力結果
TypeError: Could not convert ['ABCD'] to numeric

#数値の列だけで計算（なくてもOK）

df1.mean(numeric_only=True)

##出力結果

列1 25.000

列2 65.000

列3 5.425

列5 0.500

dtype: float64

#########################

#すべての列で計算（文字列があるとエラー）

df1.mean(numeric_only=False)

##出力結果

TypeError: Could not convert ['ABCD'] to numeric

numeric_onlyなしでも数値だけで平均を計算してくれます。

全て数値になっているかどうかのチェックに使えそうですね。

【アイデミー】AIを学んで一発逆転のキャリアチェンジ！

中央値：median

引数は平均（mean）と同じ。
numeric_onlyの役割も平均と同じ。
bool値の列はTrue＝1、False＝0として中央値を計算する。

pandas.DataFrame.meanの公式ページ

行や列の中央値を求める

#列ごとの中央値（数値だけで計算される）
df1.mean(axis=0) #axis=0は無くてもOK

##出力結果
列1    25.000
列2    65.000
列3     5.425
列5     0.750
dtype: float64
###############################


#行ごとの中央値（数値だけで計算される）
df1.median(axis=1)

##出力結果
0     5.60
1    11.85
2    17.40
3    26.00
dtype: float64

#列ごとの中央値（数値だけで計算される）

df1.mean(axis=0) #axis=0は無くてもOK

##出力結果

列1 25.000

列2 65.000

列3 5.425

列5 0.750

dtype: float64

###############################

#行ごとの中央値（数値だけで計算される）

df1.median(axis=1)

##出力結果

0 5.60

1 11.85

2 17.40

3 26.00

dtype: float64

bool値の処理

True＝1、False＝0に変換（例：列3なら「1，1，0，0」）
小さいもの順に並べる（例：列3なら「0，0，1，1」）
真ん中の数値を求める。
1. 列3はデータが偶数個なので2個目と3個目の平均を求めると0.5

df2 = pd.DataFrame(
    data={'列1': [True, True, True, True],     #1,1,1,1
          '列2': [True, True, True, False],    #1,1,1,0
          '列3': [True, True, False, False],   #1,1,0,0
          '列4': [True, False, False, False],  #1,0,0,0
          '列5': [False, False, False, False]} #0,0,0,0
)

#列ごとの中央値（数値だけで計算される）
df2.median(axis=0) #axis=0は無くてもOK

##出力結果
列1    1.0
列2    1.0
列3    0.5
列4    0.0
列5    0.0
dtype: float64

df2 = pd.DataFrame(

data={'列1': [True, True, True, True], #1,1,1,1

'列2': [True, True, True, False], #1,1,1,0

'列3': [True, True, False, False], #1,1,0,0

'列4': [True, False, False, False], #1,0,0,0

'列5': [False, False, False, False]} #0,0,0,0

)

#列ごとの中央値（数値だけで計算される）

df2.median(axis=0) #axis=0は無くてもOK

##出力結果

列1 1.0

列2 1.0

列3 0.5

列4 0.0

列5 0.0

dtype: float64

数値に変換することさえ知っていればOKです。

中央値の計算方法は変わりません。

最頻値：mode

引数はaxis、numeric_only、dropna
- 役割は平均（mean）と同じ
dropna=FalseでNaNも値とみなす（デフォルトはTrue）

pandas.DataFrame.meanの公式ページ

以下のDataFrameをもとに最頻値を求めます。

df3 = pd.DataFrame(
    data={'列1': ['A', 'A', 'A', 'B'], 
          '列2': [1,1,2,3],
          '列3': [0.1, None, 0, None],
          '列4': [True, True, True, False]}
)

df3

df3 = pd.DataFrame(

data={'列1': ['A', 'A', 'A', 'B'],

'列2': [1,1,2,3],

'列3': [0.1, None, 0, None],

'列4': [True, True, True, False]}

)

df3

#列ごとの最頻値
df3.mode(axis=0) #axis=0は無くてもOK

1 2	#列ごとの最頻値 df3.mode(axis=0) #axis=0は無くてもOK

デフォルトではNaNが最頻値としてみなされることはない。

数値だけで最頻値を求める

#数値の列だけで計算
df3.mode(numeric_only=True)

1 2	#数値の列だけで計算 df3.mode(numeric_only=True)

列1は文字列なので無視されています。

dropnaの役割

#NaNを無視
df3.mode(dropna=False)

1 2	#NaNを無視 df3.mode(dropna=False)

デフォルト（dropna=True）ではNaNを無視しますが、Falseにすると最頻値としてみなされることがあります。

まとめ

今回は平均値、中央値、最頻値の求め方をまとめました。

簡単な関数なのですぐに使えると思います。

参考になれば幸いです。

【pandas】DataFrameの最大値・最小値を抽出する方法（max・min・describe）

この記事ではPythonのpandasでDataFrameの最大値や最小値を求める方法を解説していきます。後半には日付データに関することも書いています。以下のDataFrameを使います。 import pandas[…]

月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

【pandas】DataFrameの代表値（平均値・中央値・最頻値）を求める方法

平均値：mean

行や列の平均を求める

numeric_onlyの役割

中央値：median

行や列の中央値を求める

bool値の処理

最頻値：mode

数値だけで最頻値を求める

dropnaの役割

まとめ

pandasの最新記事8件

【pandas】DataFrameの代表値（平均値・中央値・最頻値）を求める方法

【pandas】DataFrameの最大値・最小値を抽出する方法（max・min・describe）

【入門】pandasとは？インストールから基本操作まで解説

【pandas】csvの読み込みと出力（read_csv・to_csvの基本まとめ）

【pandas】csvの日付をDataFrameに読み込む方法（フォーマット・datetime・parse_dates）

【pandas】read_csvの使い方まとめ

【Python】DataFrameの重複を削除する方法（drop_duplicatesの使い方）

【pandas】DataFrameでNaNの行列を削除する方法（dropnaの使い方まとめ）