データサイエンスの歴史をざっくり把握する / Data

この記事について

今、世界はデータが全てでありデータが世界を支配しています。
そして人の感情は裏切りますがデータは裏切りませんし、嘘もつきません。
そんなデータサイエンスの歴史を簡単に見ていきましょう。
代替テキスト

当サイトでも採用しているPythonはデータの解析や処理について特に強いプログラミング言語なので、データサイエンスに興味のある方はまずは環境構築から始めてみてはいかがでしょうか。

M1 Mac以降の Python 環境構築 [完全保存版]

まずはこれだけ Python基礎からサンプルプログラムまで一気に進める記事

Matplotlib と Plotly によるデータの可視化(中級者以降向け)

アルゴリズム取引の歴史をざっくり把握する

1663年~ジョン・グラントの人口統計データ

1620年4月24日– 1674年4月18日(53歳没) / 引用:Wikipedia

1663年、英国の人口学者であるジョン・グラントは、ロンドンの死亡率に関する情報を記録して分析しました。

3つのルールで計算し、ロンドンとイングランドの人口の規模、男性と女性の出生率と死亡率、などについてデータを収集し、特定の病気の広がりなどの警告に使用していました。

John Grauntは「人口統計学の父」としても知られています。

パブリックドメイン

1763年~ベイズの定理

Thomas Bayes – (1701年 – 1761年4月17日59歳没) / 引用:Wikipedia

1763年、トーマスベイズの死後に発表された、ベイズ定理は、現代にも繋がるデータサイエンスの基礎の1つとなっています。

1840年~人類初のコンピュータープログラマー

(1815年12月10日 – 1852年11月27日) / パブリックドメイン

ラブレース伯爵夫人オーガスタ・エイダ・キング(Augusta Ada King, Countess of Lovelace)はプログラミングデータサイエンスにとって非常に重要であり、17世紀にプログラミングを開拓したのは、英国の貴婦人であるエイダラブレスでした。

エイダは母の元で育った。
母のアン・イザベラ・ミルバンクには教養があり、数学者ウィリアム・フレンドに数学を教わったこともありました。
「平行四辺形のプリンセス」とも称された数学者である母の影響で、エイダも数学に興味を持ちはじめました。

1840年、エイダラブレスは、イタリアのエンジニア、ルイージマナブレアが書いた論文の翻訳プロジェクトに取り組んでいました。

この論文でラブレスはベルヌーイ数を計算するためのアルゴリズムを提案しました。

パンチカードを利用したベルヌーイ数を求めるための解析機関用プログラムのコードは、世界初のコンピュータプログラムと言われています。

エイダラブレスの伝記作家でオックスフォード大学コンピューターサイエンスの教授であるアーシュラ・マーティンは、「彼女は、かなり複雑な数値であるベルヌーイ数を計算するプログラムを作成しました。これは、コンピューターが複雑なことを実行できたことを示しています。」

エイダラブレスのアルゴリズムは、データサイエンスに直接関係していませんが、プログラミングの基礎を築いた最初の人物としてデータサイエンス史にとって非常に重要な人物です。

1855年~ナイチンゲールがデータの視覚化を使用

現代看護の創始者としても知られるフローレンス・ナイチンゲールは、統計とデータの視覚化を使用して感染症の蔓延を分析するパイオニアとしても知られていました。

彼女は、1850年代のクリミア戦争時、イギリス兵の死因は、戦闘よりも衛生状態の悪さであることを指摘します。

ナイチンゲールは、その後政府に報告するためキャンプや病院での勤務中のスタッフと共にデータを収集していました。

ナイチンゲールが作成したイギリス軍の兵士の死亡原因データ / 引用:Wikipedia

ナイチンゲールは衛生の重要性について当局を説得するためにも様々なチャートを作成しています。

ナイチンゲールが作成した棒グラフ

視覚化は、ナイチンゲールが好むコミュニケーション方法の1つでした。

“Whenever I am infuriated, I revenge myself with a new diagram.” 

Florence Nightingale

「私が激怒するときはいつも、新しい図で自分自身に復讐します」と言っています。

ナイチンゲールのアイデアは徐々に認められ始め、軍病院や民間病院の患者の衛生状態は改善していきました。

1884年~ホレリスのデータ処理

Herman Hollerith – (1860年2月29日 – 1929年11月17日69歳没) / 引用:Wikipedia

1884年、アメリカの発明家で統計学者のハーマンホレリスが、パンチカード作表機を発明しました。

ホレリスは、現代の自動コンピューティングの父として知られています。

ホレリスが開発したこの集計装置は、1890年の米国国勢調査データを処理するために使用されました。

アメリカ合衆国統計局(当時は国勢調査局)は10年に1度国勢調査を行っており、1880年の国勢調査は集計作業に9年もかかっていました。
ホレリスは大学卒業後、ジョン・ショウ・ビリングス統計部長に誘われて助手として働いていた際にこの大変な作業に直面します。
ホレリスはパンチカード上の各位置に穴があるかどうかを電気的に検知して集計する仕組みを開発。
パンチカードの所定の位置に数値を記録すれば、それを元にカードを機械的にソート、所定の桁位置のデータを集計できると気づきます。
1888年、国勢調査局にはホレリスのシステムが選ばれ、1890年の国勢調査からホレリスのタビュレーティングマシンが大々的に使われることになりました。。

その後、1911年に、彼はComputing-Tabulating-Recording Companyを設立。

後にトーマス・J・ワトソンを社長に迎えると、1924年にIBM (International Business Machines Corporation)に社名を変更しました。

1936年~アランチューリングが「計算可能数」を発表


Alan Mathison Turing – (1912年6月23日 – 1954年6月7日41歳没)/ 引用:Wikipedia

1936年、Alan Turingの論文、On Computable Numbersは、現代のコンピューターのような複雑な計算を実行するユニバーサルマシンを紹介しています。

チューリングマシンや、チューリングテストといった言葉は誰もが一度は耳にしたことがあるでしょうか。

第二次世界大戦時に鉄壁の暗号通信といわれたドイツのエニグマの解読に成功したことはあまりにも有名です。

bombeと呼ばれた暗号解析機はレプリカはブレッチリー・パークに展示されています。

引用:Wikipedia
代替テキスト

映画:イミテーション・ゲーム エニグマと天才数学者の秘密では、アランチューリングに関することや、エニグマ解読プロジェクトについての詳細が描かれています。

1943年~最初のデータ処理機

1943年、英国の郵便局の電子技術者であるTommy Flowersは、理論上のコンピューターであるColossusを設計しました。

Colossusは第二次世界大戦中にナチスのコードを解析するためのデータ処理マシンです。

Colossusは、ブール演算と計算を実行して、膨大なデータセットを分析することができます。

Colossusは、傍受したメッセージのパターンを毎秒5000文字の速度で検索。

解析時間を数週間からわずか数時間に短縮しました。

2003年3月、トニー・セール率いるチームが Colossus Mark II の完全動作するレプリカを作ります。
設計図と実物は破棄されていましたが、当時の技術者のノートなど大量の資料が主にアメリカ合衆国に現存していたため実現しました。

1962年:ジョン・テューキーは電子コンピューティングの影響を予測

John Wilder Tukey (1915年6月16日 – 2000年7月26日(85歳没)/ Wikipedia

John W. Tukeyは、1962年に「データ分析の未来」を執筆しました。

この書籍を機にデータサイエンスは世界的に認知されることになりました。

Tukeyは、「2桁」の短縮形として「ビット」という用語を導入。

Tukeyは「コンピュータの歴史の年表」という本の中で、コンピュータプログラムの基礎となる1と0を表す用語である「2進数」の短縮形である「ビット」という単語が生み出されたきっかけとなった人物としてクレジットされています。

1915年、マサチューセッツ州ニューベッドフォード生まれ。
ブラウン大学で化学の学士号(1936年)と修士号(1937年)を取得。
プリンストン大学で数学の博士号を取得。

1974年~PeterNaurが現代のデータ処理を分析

Peter Naur(1928年10月25日 – 2016年1月3日(88歳没)/ Wikipedia

1974年、Peter Naurは、「データサイエンス」という用語を、「データが確立された後、データを処理する科学であり、データとデータの表現との関係は他の分野や科学に委任されている」と定義しました。

彼はデンマークのコンピュータ科学者で、チューリング賞の受賞者でもあります。

1957年に天文学の博士号を取得。

しかしコンピュータと出会ったことでその後の進路が変わりました。

1969年から1998年まで、ナウアはコペンハーゲン大学の計算機科学の教授を務めました。

主な研究分野はプログラムとアルゴリズムの構造、設計、性能で、ナウアはソフトウェア工学やソフトウェアアーキテクチャといった分野でも先駆的な研究を行った。

彼は「コンピュータ科学」(computer science) という用語を嫌い、datalogy と呼ぶことを提案しています。

このためデンマークとスウェーデンでは計算機科学に相当する分野を datalogi と呼んでいます。

代替テキスト

日本語翻訳はされていませんが、PeterNaur氏の書籍は日本にも個人で取り寄せることができます。

Knowing and the Mystique of Logic and Rules (Amazon)

1977年~IASCが設立

1977年、国際計算機統計学会(IASC)は、第41回会期中にISIのセクションとして設立。

「データを情報と知識に変換するために、従来の統計手法、最新のコンピューターテクノロジー、およびドメインの専門家の知識をリンクすることがIASCの使命です。」と述べています。

会の目的は、統計学者、コンピューティングの専門家、企業、政府、および一般市民の間のさまざまな国際ネットワーキングイベントを通じて、実用的な統計コンピューティングへの世界的な関心を促進し、技術的知識を交換することにあります。

1989年~データマイニングの出現

グレゴリー・シャピロ(1958年4月7日生まれ) / 引用:Wikipedia

1989年、Gregory Piatetsky-Shapiroは、Knowledge Discovery in Databases (KDD)のワークショップを開催し、議長を務めました。

Knowledge Discovery in Databases (KDD)という用語は、GregoryPiattesky-Shapiroによって造られました。

今日、ほとんどすべての業界がデータマイニングを活用してデータを分析し、傾向を特定して、顧客ベースの拡大、価格予測、株価の変動、顧客の需要などのビジネス目標を達成しています。

1997年~ビッグデータという用語が誕生

1997年、NASA、Michael Cox、David Ellsworthの研究者は、論文「アウトオブコア視覚化のためのアプリケーション制御のデマンドページング」で「ビッグデータ」という言葉を最初に使用しました。

ビッグデータとは、通常のソフトウェアツールやコンピューティングシステムでは処理できない膨大なデータセットのことを指します。

2006年~Hadoop0.1.0がリリース

2006年には、オープンソースの非リレーショナルデータベースであるHadoop0.1.0がリリースされました。

Hadoopの立ち上げは、ビッグデータの始まりでもありました。

Hadoopは、ファイルを大きなブロックに分割し、クラスター内のノードに分散することで機能します。

パッケージ化されたコードを複数のノードに転送し、並列データ処理を可能にします。

これにより、データセットのより高速で効率的な処理が可能となりました。

2007年~データサイエンス研究センター設立

2007年、中国の上海にある復旦大学にデータ学とデータサイエンスの研究センターが設立されました。

2009年、同大学の研究者2名であるYangyongZhuとYunXiongは、「データ学とデータ科学の紹介」を発表。

2010年6月22〜23日、中国の復旦大学のデータサイエンスおよびデータサイエンス研究センターは、「データサイエンスおよびデータサイエンスに関する最初の国際ワークショップ」を主催。

「データ学とデータサイエンス」について意見交換を行うため、国内外から30名以上の学者が参加しました。

データサイエンスの分野は2010年から飛躍的に進化し、ほとんどの業界を一気に支配していきました。

データの備蓄は、費用効果が高く効率的なストレージ処理やストレージの進歩のおかげで、指数関数的に増加し続けています。

IDCによると、2025年までに、世界中で175ゼタバイトを超えるデータが存在することになるとされています。

icon image

Kotaro Studioが運営する『青いタンゴ礁』では、アルゼンチンの今を写真や映像でお届けしています。
アルゼンチンに興味がある方、タンゴ大好き、サッカー大好き、牛肉大好きなみなさん集まれー!

現役タンゴピアニストが贈る『青いタンゴ礁』はこちら

Kotaro Studioのおすすめのタンゴ作品はこちら!
アルゼンチンタンゴの伝説の巨匠:ロベルト・アルバレスがゲスト参加した作品!

icon image
収録曲1、Yuyo Verde(ジュジョベルデ)
2、Vida Mía(ビダミーア)
3、Comme il faut(コムイルフォー)
4、Pequeña(ペケーニャ)
5、Tierrita(ティエリータ)
6、Milonga de la humedad(ミロンガデラウメダッド)
7、Flores Negras(フローレスネグラス)
8、Boedo(ボエド)
9、Festejando(フェステハンド)

Kotaro
Kotaro
服部 洸太郎
音大を卒業後ピアニストとして活動。
自身のピアノトリオで活動後北欧スウェーデンにてシンガーアーティストLindha Kallerdahlと声帯とピアノによる即興哲学を研究。
その後ドイツへ渡りケルンにてAchim Tangと共に作品制作。
帰国後、金田式電流伝送DC録音の名手:五島昭彦氏のスタジオ「タイムマシンレコード」にアシスタントとして弟子入りし、録音エンジニアとしての活動開始。
独立後、音楽レーベル「芸術工房Pinocoa(現在はKotaro Studioに統合)」を立ち上げ、タンゴやクラシックなどのアコースティック音楽作品を多数プロデュース。
その後、秋山庄太郎氏後継の写真スタジオ「村上アーカイブス」でサウンドデザイナー兼音響担当として映像制作チームに参加。
村上宏治氏の元で本格的に写真、映像技術を学ぶ。
祖父母の在宅介護をきっかけにプログラムの世界に興味を持ち、介護で使えるプログラムをM5Stackを使って自作。
株式会社 ジオセンスの代表取締役社長:小林一英氏よりプログラムを学ぶ。
現在はKotaro Studioにてアルゼンチンタンゴをはじめとした民族音楽に関する文化の研究、ピアノ音響、さらに432hz周波数を使った癒しのサウンドを研究中。
2022年9月より豊かな暮らしをテーマとしたウェブサイト『レンタルdeクラセル』も発信中〜