【pandas】csvの日付をDataFrameに読み込む方法（フォーマット・datetime・parse_dates）

2021年10月5日
2021年10月5日
pandas
csv, datetime, pandas, read_csv

pandas

csvをDataFrameとして読み込むときに日付の処理ができると便利ですよね。

この記事では、Pythonのpandasでread_csv関数の日付に関する処理を紹介してきます。

ほかのread_csv関数の引数は以下の記事にまとめています。

【pandas】read_csvの使い方まとめ

pandasでcsvをDataFrameとして読み込めるととっても便利ですよね。ですが、ただ読み込むだけでなく、indexや読み込む行列を指定したり、欠損値を処理したりいろんなことができるとなお便利です。そこで、この記事で[…]

1 日付処理に使う引数
2 parser_datesの使い方
3 date_parserの使い方
4 まとめ

日付処理に使う引数

引数	デフォルト値	意味
`parse_dates`	`False`	True：indexの解析（indexが日付のときのみ機能します。）列名のリスト：各列を日付データとして解析列名のリストのリスト：結合して日付として解析
`infer_datetime_format`	`False`	`True`のとき`parse_dates`も有効なら処理速度が向上する可能性がある。
`keep_date_col`	`False`	`True`のとき`parse_dates`が複数列の結合を指定しているなら、元の列を削除しない。
`date_parser`	`None`	日付データを処理する関数を渡す。あらかじめ関数を定義しておく必要あり。
`dayfirst`	`False`	Trueにすると、日ー月の順になっているデータも読み込める。
`cache_dates`	`True`	Trueなら一意に変換された日付のキャッシュを使用して、日付時間の変換を行う。

今回はこれらの引数を解説していきます。

解説には以下のcsvファイルを使います。

sample_date ダウンロード

path = 'https://www.self-study-blog.com/wp-content/uploads/2021/10/sample_date.csv'
data = pd.read_csv(path, encoding='utf-8')

display(data)
print(data.dtypes)

path = 'https://www.self-study-blog.com/wp-content/uploads/2021/10/sample_date.csv'

data = pd.read_csv(path, encoding='utf-8')

display(data)

print(data.dtypes)

parser_datesの使い方

parser_dates=True：indexが日付ならdatetimeに変換
parser_dates=['列名','列名']：指定した列をdatetimeに変換
parser_dates=[['列名','列名']]：指定した列を結合してdatetimeに変換
- 結合したい列をリストに入れる。
- 結合した元の列は削除される。
- keep_ate_col=Trueでもとの列は削除されない。
parser_dates={'新列名': ['列名','列名']}：結合した列名を新列名に変更

①indexの日付をdatetimeに変換する

#①indexの日付をdatetimeにする。
data = pd.read_csv(path, encoding='utf-8',
                   index_col='date_hy',
                   parse_dates=True)

display(data)
print(data.index)

#①indexの日付をdatetimeにする。

data = pd.read_csv(path, encoding='utf-8',

index_col='date_hy',

parse_dates=True)

display(data)

print(data.index)

indexに日付が設定されているときにのみ機能します。

index_colを使用するとMultiindexになるので注意が必要です。

②指定した列をdatetimeに変換する

#②指定した列をdatetimeにする。
data = pd.read_csv(
    path, encoding='utf-8',
    parse_dates=['year', 'month', 'day', 'year_month', 'month_day', 'date_hy', 'date_sl', 'date_jp', 'date_time', 'date_dayfirst'])

display(data)
print(data.dtypes)

#②指定した列をdatetimeにする。

data = pd.read_csv(

path, encoding='utf-8',

parse_dates=['year', 'month', 'day', 'year_month', 'month_day', 'date_hy', 'date_sl', 'date_jp', 'date_time', 'date_dayfirst'])

display(data)

print(data.dtypes)

read_csvで日付をdatetimeに変換する — 指定した列をdatetimeに変換

年のデータがある列（year、year_monthなど）はdatetimeに変換されますが、monthとdayのみの列は変換されません。

year列の月日は自動的に1月1日で処理されています。

また、日本語表記（○○年〇月〇日）はdatetimeにはなりません。

一番右の列のように日→月の順のときは以下のようにdayfirstを使うと処理できます。

#②日→月の順になっているときはdayfirstを使う。
data = pd.read_csv(path, encoding='utf-8',
                   parse_dates=['date_dayfirst'],
                   dayfirst=True)

display(data)
print(data.dtypes)

#②日→月の順になっているときはdayfirstを使う。

data = pd.read_csv(path, encoding='utf-8',

parse_dates=['date_dayfirst'],

dayfirst=True)

display(data)

print(data.dtypes)

③複数列を結合してdatetimeに変換する

#③複数列を結合してdatetimeに変換する。
data = pd.read_csv(path, encoding='utf-8',
                   parse_dates=[['year', 'month', 'day']])

display(data)
print(data.dtypes)

#③複数列を結合してdatetimeに変換する。

data = pd.read_csv(path, encoding='utf-8',

parse_dates=[['year', 'month', 'day']])

display(data)

print(data.dtypes)

read_csvで複数列を結合してdatetimeに変換する — 複数列を結合してdatetimeに変換する

複数列を結合することで日付をまとめて処理できます。

このとき元の列は削除されますが、残しておく場合は以下のようにkeep_date_colを使います。

元の列を削除しない

#元の列を削除しないときはkeep_date_colを使う。
data = pd.read_csv(path, encoding='utf-8',
                   parse_dates=[['year', 'month', 'day']],
                   keep_date_col=True)

display(data)
print(data.dtypes)

#元の列を削除しないときはkeep_date_colを使う。

data = pd.read_csv(path, encoding='utf-8',

parse_dates=[['year', 'month', 'day']],

keep_date_col=True)

display(data)

print(data.dtypes)

結合された列名は自動的に決まりますが変更したい場合は以下のようにdictで渡しましょう。

④結合した列名を変更する

#➃結合した列名を変更する。
data = pd.read_csv(path, encoding='utf-8',
                   parse_dates={'年月日': ['year', 'month', 'day']},
                   keep_date_col=True)

display(data)
print(data.dtypes)

#➃結合した列名を変更する。

data = pd.read_csv(path, encoding='utf-8',

parse_dates={'年月日': ['year', 'month', 'day']},

keep_date_col=True)

display(data)

print(data.dtypes)

date_parserの使い方

日付のフォーマットを決めるときに使います。

以下のような関数を使うと日本語表記の日付も処理できます。

#先に日付処理の関数を定義しておく。

def jp2date(x):
  #日本語フォーマットの日付をdatetimeに変換
  from datetime import datetime
  return datetime.strptime(x, '%Y年%m月%d日')


data = pd.read_csv(path, encoding='utf-8',
                   parse_dates=['date_jp'],
                   date_parser=jp2date, #関数名を渡す
                   )

display(data)
print(data.dtypes)

#先に日付処理の関数を定義しておく。

def jp2date(x):

#日本語フォーマットの日付をdatetimeに変換

from datetime import datetime

return datetime.strptime(x, '%Y年%m月%d日')

data = pd.read_csv(path, encoding='utf-8',

parse_dates=['date_jp'],

date_parser=jp2date, #関数名を渡す

)

display(data)

print(data.dtypes)

また、以下のように日本語表記にすることも可能ですが、datetimeに変換されません。

#先に日付処理の関数を定義しておく。

def date2jp(x):
  #日本語のフォーマットで表示する
  from datetime import datetime
  return datetime.strptime(x, '%Y-%m-%d').strftime('%Y年%m月%d日')

data = pd.read_csv(path, encoding='utf-8',
                   parse_dates=['date_hy'],
                   date_parser=date2jp, #関数名を渡す。
                   )

display(data)
print(data.dtypes)

#先に日付処理の関数を定義しておく。

def date2jp(x):

#日本語のフォーマットで表示する

from datetime import datetime

return datetime.strptime(x, '%Y-%m-%d').strftime('%Y年%m月%d日')

data = pd.read_csv(path, encoding='utf-8',

parse_dates=['date_hy'],

date_parser=date2jp, #関数名を渡す。

)

display(data)

print(data.dtypes)

まとめ

今回はread_csv関数の日付を処理する方法を見ていきました。

関数を指定して処理できるのでいろんなことができると思います。

参考になれば幸いです。

月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

【pandas】csvの日付をDataFrameに読み込む方法（フォーマット・datetime・parse_dates）

日付処理に使う引数

parser_datesの使い方

①indexの日付をdatetimeに変換する

②指定した列をdatetimeに変換する

③複数列を結合してdatetimeに変換する

元の列を削除しない

④結合した列名を変更する

date_parserの使い方

まとめ

pandasの最新記事8件

【pandas】DataFrameの代表値（平均値・中央値・最頻値）を求める方法

【pandas】DataFrameの最大値・最小値を抽出する方法（max・min・describe）

【入門】pandasとは？インストールから基本操作まで解説

【pandas】csvの読み込みと出力（read_csv・to_csvの基本まとめ）

【pandas】csvの日付をDataFrameに読み込む方法（フォーマット・datetime・parse_dates）

【pandas】read_csvの使い方まとめ

【Python】DataFrameの重複を削除する方法（drop_duplicatesの使い方）

【pandas】DataFrameでNaNの行列を削除する方法（dropnaの使い方まとめ）