【pandas】23日目 DataFrame とは?

※この記事は2020年11月3日に更新されました。

スペイン語100日チャレンジ

インターネットがベースの時代ですので、100日頑張れば日常生活を送れるようになるかも?!
一緒に頑張りましょう。
【注意】
当ブログのスペイン語は南米アルゼンチンでのニュアンスが強く、参考音声もアルゼンチン人が収録しています。
西欧スペイン語とは若干ニュアンスや使い方が違う場合があります。

データフレームを把握する

1-11-21-3
2-12-22-3
3-13-23-3

データフレームとはラベル付き二次元配列のことを言います。

エクセルなどでもお馴染みですよね。

上の表で見た時の[1-1]~[1-3]までの列を一次元配列と呼びます。

ここに1-1, 2-1, 3-1 が加わり、二次元配列となります。

インデックスとカラム

[1-2]~[1-3]までの部分を[colums(列)]と言います。

[2-1]~[2-3]までの部分を[index(行)]と言います。

[2-2, 2-3, 3-2, 3-3]部分がデータ部分です。

pandasではこれらのcolumsとindexでデータを表現します。

DataFrame 例

前日比前日比(%)1ヶ月利回り変化幅年間利回り変化幅
INDU:INDNYダウ 工業株30種26,925.05+423.45+1.60%-2.74%-1.54%
SPX:INDS&P 500種3,310.24+40.28+1.23%-1.14%+7.93%
CCMP:INDナスダック 総合指数10,957.61+46.02+0.42%-1.06%+30.66%
NYA:INDNYSE 総合指数12,662.17+232.89+1.87%-0.69%-4.80%
SPTSX:INDS&Pトロント総合指数15,696.87+116.23+0.75%-3.10%-5.41%
引用:Bloomberg 

毎日参考にチェックしているアメリカ関連のDataFrameになります。

INDU:INDNYダウ 工業株30種 ~ SPTSX:INDS&Pトロント総合指数までをindexと言います。

値 ~ 年間利回り変化幅までをcolumsと言います。

ナンバリングのルール

Pythonのリストはナンバリングが0から始まりますので(ルールなので覚える)indexとcolumsもそれぞれナンバリングは0からスタートします。

この例で見ると、colums 3 のindex 1のDataは-1.14%となります。

pandasではこのようにDataFrameから特定のデータを抽出したり、表にしたりしてデータの取り扱いが可能になります。

例えば膨大な過去の株価データフレームの中から「過去大統領選挙前日のダウの前日比」のみを抽出と言ったことも一瞬で抽出してくれます。

3日目はpandasを定義してDataFrameを作成してみたいと思います。