テューキーの探索的データ解析について(その1)

私が今、勉強している本に、John W. Tukey(テューキー)のExploratory Data Analysis(探索的データ解析)があります。テューキーはアメリカの数学者、統計学者で、仮説検定ばかりが重視されていた時代に、記述統計学の重要性をうったえ、ロバスト統計学への流れを創った人物です。統計学のピカソと言われているくらい、統計学の様々な分野に業績を残しています。統計学以外の分野にもいくつも業績があり、例えば、高速フーリエ変換なども彼の業績の一つです。このような輝かしい業績の割には、日本ではあまり知られていません。探索的データ解析は700ページ近い大著で、1977年に出版されていますが、未だに翻訳されていないのが残念です。中を見ると、見慣れない手書きのグラフや数字の羅列がやたらと出てきます。箱ひげ図が紹介されたのもこの本です。おもしろいことに、数学的業績の多いテューキーの本とは思えないくらい、難解な数式は一つも出てきません。本の表やグラフで使われているほとんど全ての数値データは実際のデータであり、エネルギー、自動車といった産業界から化学、地理といった学問領域にまで亘っています。こうした広い領域で数値データを見てきたからこそ、探索的データ解析に辿り着いたのではないかと思えるほど、多様性に富んだデータが扱われています。

今日から何回かに分けて、探索的データ解析の本の中からソフトウェア関連の数値データの分析に役立ちそうなものを、このブログで紹介していきたいと思います。1回目の今日は、探索的データ解析の内容ではありませんが、探索的データ解析の手法と比較するために、ヒストグラム(度数分布図)を説明しておきます。以下のデータは、あるソフトウェアシステムの構成要素毎の詳細設計書枚数です。

285, 38, 321, 1060, 501, 1080, 136, 265, 106, 986, 45,

471, 422, 185, 1072, 269, 889, 2453, 82

このデータのヒストグラムを描くには、Excelのアドインにある分析ツールの中のヒストグラムを使います。ヒストグラムを描くときにいつも悩むのは、いくつの区間に分けるかということです。区間の数を決めるための方法として、スタージェスの公式など一般的な方法はいろいろあるようですが、どんなデータでもこの方法でよいといった万能の方法はありません。実際には、理論的な分布が分かっているような場合を除いては、対象とするデータとその特性などを考えながら、データに応じて試行錯誤を繰り返して決めることになると思います。ここでは、とりあえず、100枚を一つの区間としてヒストグラムを描いてみました。

次回は、探索的データ解析の中で紹介されている幹葉図 (stem-and-leaf) を、このヒストグラムと対比する形でご紹介したいと思います。

宮崎 幸生 について

みやざき ゆきお
プロセス&メジャメント 代表
■1973年、富士通株式会社入社。アプリケーションパッケージの開発に従事。1976年、黎明期のソフトウェアエンジニアリングの研究・開発に取り組む。以降、ソフトウェアエンジニアリングの中でもソフトウェア測定と分析を中心とした管理手法の分野に一貫して従事。ソフトウェア開発に関わるデータの実態を熟知した上で、1980年代から、ソフトウェアデータの分析にロバストな統計手法を取り入れる。1994年には独自にロバストな回帰分析手法(r最小二乗法)を考案した。2001年、ソフトウェアの見積モデルに関する研究で博士号を取得。2002年、CMMリードアセッサ、続いてCMMIリードアプレイザの資格を取得。現在は、富士通クオリティ・ラボ株式会社と契約をしながら、富士通および関係会社でのデータ分析やプロセス改善に関する教育、講演、コンサルティングを行うと共に、JUAS(日本情報システム・ユーザー協会)、ソフト・リサーチ・センター、日本テクノセンターなどでのセミナーを行っている。
■主な論文/書籍:
“COCOMO Evaluation and Tailoring”, International Conference on Software Engineering(ICSE), 1985
“Software Metrics Using Deviation Value”, ICSE, 1987
“Robust Regression for Developing Software Estimation Models”, The Journal of Systems and Software, 1994
「ソフトウェア品質保証システムの構築と実践」、ソフト・リサーチ・センター、2008
■資格: CMMI® リードアプレイザ、博士(工学)
カテゴリー: 測定と分析, 未分類 タグ: , , , , , , パーマリンク

コメントを残す