【pandas】100日チャレンジ : 2日目 DataFrame とは?

※この記事は2020年11月3日に更新されました。

ポイント

プログラミング学習が義務教育でも取り入れられるようになり、ほぼすべての人が避けては通れない時代に突入してしまいました。

基本的にはローコードやノーコードテクノロジーが発達し、個人で隅々まで覚える必要はないとも言えますが、やはり自在に操れればまさに100人力とも言えます。

Pythonやpandasの技術があなたがやりたい何かに合致した場合、是非100日でサクッと覚えてしまいましょう。

100日でざっくりと基礎を身に着けられるように構成しています。

【Python】環境構築 Windows 10 (エラー対処法も) (サイト内記事)

【pandas】100日チャレンジ : 1日目 pandas起動 (サイト内記事)

2日目 : データフレームを把握する

1-11-21-3
2-12-22-3
3-13-23-3

データフレームとはラベル付き二次元配列のことを言います。

エクセルなどでもお馴染みですよね。

上の表で見た時の[1-1]~[1-3]までの列を一次元配列と呼びます。

ここに1-1, 2-1, 3-1 が加わり、二次元配列となります。

インデックスとカラム

[1-2]~[1-3]までの部分を[colums(列)]と言います。

[2-1]~[2-3]までの部分を[index(行)]と言います。

[2-2, 2-3, 3-2, 3-3]部分がデータ部分です。

pandasではこれらのcolumsとindexでデータを表現します。

DataFrame 例

前日比前日比(%)1ヶ月利回り変化幅年間利回り変化幅
INDU:INDNYダウ 工業株30種26,925.05+423.45+1.60%-2.74%-1.54%
SPX:INDS&P 500種3,310.24+40.28+1.23%-1.14%+7.93%
CCMP:INDナスダック 総合指数10,957.61+46.02+0.42%-1.06%+30.66%
NYA:INDNYSE 総合指数12,662.17+232.89+1.87%-0.69%-4.80%
SPTSX:INDS&Pトロント総合指数15,696.87+116.23+0.75%-3.10%-5.41%
引用:Bloomberg 

毎日参考にチェックしているアメリカ関連のDataFrameになります。

INDU:INDNYダウ 工業株30種 ~ SPTSX:INDS&Pトロント総合指数までをindexと言います。

値 ~ 年間利回り変化幅までをcolumsと言います。

ナンバリングのルール

Pythonのリストはナンバリングが0から始まりますので(ルールなので覚える)indexとcolumsもそれぞれナンバリングは0からスタートします。

この例で見ると、colums 3 のindex 1のDataは-1.14%となります。

pandasではこのようにDataFrameから特定のデータを抽出したり、表にしたりしてデータの取り扱いが可能になります。

例えば膨大な過去の株価データフレームの中から「過去大統領選挙前日のダウの前日比」のみを抽出と言ったことも一瞬で抽出してくれます。

3日目はpandasを定義してDataFrameを作成してみたいと思います。