私が今、勉強している本に、John W. Tukey(テューキー)のExploratory Data Analysis(探索的データ解析)があります。テューキーはアメリカの数学者、統計学者で、仮説検定ばかりが重視されていた時代に、記述統計学の重要性をうったえ、ロバスト統計学への流れを創った人物です。統計学のピカソと言われているくらい、統計学の様々な分野に業績を残しています。統計学以外の分野にもいくつも業績があり、例えば、高速フーリエ変換なども彼の業績の一つです。このような輝かしい業績の割には、日本ではあまり知られていません。探索的データ解析は700ページ近い大著で、1977年に出版されていますが、未だに翻訳されていないのが残念です。中を見ると、見慣れない手書きのグラフや数字の羅列がやたらと出てきます。箱ひげ図が紹介されたのもこの本です。おもしろいことに、数学的業績の多いテューキーの本とは思えないくらい、難解な数式は一つも出てきません。本の表やグラフで使われているほとんど全ての数値データは実際のデータであり、エネルギー、自動車といった産業界から化学、地理といった学問領域にまで亘っています。こうした広い領域で数値データを見てきたからこそ、探索的データ解析に辿り着いたのではないかと思えるほど、多様性に富んだデータが扱われています。
今日から何回かに分けて、探索的データ解析の本の中からソフトウェア関連の数値データの分析に役立ちそうなものを、このブログで紹介していきたいと思います。1回目の今日は、探索的データ解析の内容ではありませんが、探索的データ解析の手法と比較するために、ヒストグラム(度数分布図)を説明しておきます。以下のデータは、あるソフトウェアシステムの構成要素毎の詳細設計書枚数です。
285, 38, 321, 1060, 501, 1080, 136, 265, 106, 986, 45,
471, 422, 185, 1072, 269, 889, 2453, 82
このデータのヒストグラムを描くには、Excelのアドインにある分析ツールの中のヒストグラムを使います。ヒストグラムを描くときにいつも悩むのは、いくつの区間に分けるかということです。区間の数を決めるための方法として、スタージェスの公式など一般的な方法はいろいろあるようですが、どんなデータでもこの方法でよいといった万能の方法はありません。実際には、理論的な分布が分かっているような場合を除いては、対象とするデータとその特性などを考えながら、データに応じて試行錯誤を繰り返して決めることになると思います。ここでは、とりあえず、100枚を一つの区間としてヒストグラムを描いてみました。
次回は、探索的データ解析の中で紹介されている幹葉図 (stem-and-leaf) を、このヒストグラムと対比する形でご紹介したいと思います。