赤池先生京都賞受賞おめでとうございます。でも・・・?

下記のような賞が、我が国の偉大な統計家である赤池先生に贈られるそうです。
本当におめでとうございます。でも、こういう賞は、確かにすばらしいと思うんですが、若い自分としては多少意地悪な目で見てもしまうんですよね。。。

第22回(2006) 京都賞受賞者決定
財団法人稲盛財団(理事長・稲盛和夫)は、第22回(2006)京都賞の受賞者を決定発表しました。京都賞は世界の科学、文明の発展、精神的な深化・高揚の面で著しい貢献をされた人、あるいはグループに贈られる国際賞です。授賞式は11月10日に国立京都国際会館で行われ、受賞者にはそれぞれディプロマ、京都賞メダル(20K)および賞金5,000万円(1部門に対し)が贈られます。(2006.6.9)
http://www.inamori-f.or.jp/ja_kp_lau_thi.html

赤池先生のようにすばらしい研究をなさっている方の業績は、その道の研究者には、いまさら賞なんぞ贈らないでも、その業績である論文を読んだだけでわかるものだと思うんですよね。同じように、春の勲章授与とかでも、その業績である作品を見れば凄さはわかると思うんです。だから、私は老人の今までの貢献も含めて尊敬の念を持っている訳なんですが。


なのに、こういう賞はどうして老人達ばかりに与えられる傾向があるのか?
若い人たちの尊敬の念だけでは足りんということか?


若い自分としては、将来日本の研究界を支えるはずの若い人(かつ凄い研究をしている人)に賞を与え、若い人のやる気を喚起する方がが、将来の日本の研究界の底上げをする意味で有益だと思うのですがねぇ。それにお金がないのはいつの時代だって若い人なのだから。老人同士でお金を還流させてどうする。


まぁ、日本国内の賞ごときで吠えても意味がない。
自らの研究がそうした賞に耐えうる内容になるように、研究を進めていくこととしよう。

分析屋さんの立場からのExcel 2007チームに向けた5つ(+2)の改善案

最近では、論文もWord形式で受け付けるところも増えてきて、Microsoftの文書がいかに世の中で広く使われているかということを実感することがあります。

統計ツールにおいても、信頼性でいえば専門のツール(SPSS, SAS)などを用いるのが常套手段ですが、こと統計ツールに入力する前のデータ編集にはMicrosoft Excelが周りでは、よく使われています。確かに解析機能は、専門ツールには劣るのですが、データ編集、そしてその後のグラフを書くということに関していうと、Excelは次の点でかなり便利です。

  • 編集に必要な機能が多くの部分でカバーされている。
    • レコードの条件抽出
    • 条件付きソート
    • 項目(列)の入れ替え
  • グラフ機能がインタラクティブに操作可能である。
    • タイトルの位置調整
    • legend(凡例)の位置調整
    • グラフの色の調整
    • 数値範囲の指定
    • プロット対象の入れ替え
    • データ値に対して動的にプロットが追随

など、普通の統計ツールではこうはいかないだろ?ということが実行可能です。だからでしょうか、多くの統計ツールでは、何らかの形でExcelとの連携機能がついています。

さて、そんな高機能ツールExcelに対して、Juice AnalyticsのChrisさんの記事:

http://www.juiceanalytics.com/weblog/?p=189

では、さらにグラフ機能に対して5点の改善案を出しています。どれも分析屋さんにとっては実現してほしいものばかり。それぞれに対してちょっとした解説と私の意見を織り交ぜて紹介します。

1. (色などに関して)デフォルト設定の向上

Excelのグラフのデフォルト色と形は正直ださいし、見難いのですね。特に印刷する際には線の違いがわかり難くなる色がデフォルトで選択されているので、グラフを書くたびに色と形をかえる必要があり、面倒なのでこれをなんとかしてほしいのです。統計ツールS-PLUSなんかだと、色と形はそこそこ良い選択がされているので、カラープリンタが使えない環境では、このような統計ツールの色に習えばよいです。

2. グラフの種類の選び方のガイドの追加

同じデータに対しても、つかうグラフの種類で、わかりやすさがかわってきます。基本的に時間に対する変化を表すなら折れ線グラフがよいでしょうし、商品に対するシェアを表示するなら円グラフがよいでしょう。こうした、(常識的な)グラフの種類をある程度、教えてほしいということでしょうね。

3. もっと適切なグラフ機能の追加

Excelには多数のグラフ種類がありますが、箱ひげ図や点プロットはありません。これらは読み方さえ覚えれば、強力な図示の方法であるので、搭載してほしいということですね。まぁ、こういうのが必要だったら、普通の統計ツールを使うので私はいらないですけどね。

4. Excelのアドイン機能の共通パッケージングフォーマットを作る

これはよくわからないですけど、アドインの作り方が難しいので、Firefoxのように簡単にアドインを作れるようにしてくれってことみたいですね。まぁ、これがあると、Excelに不足している解析機能が楽に追加できるようになるので、私としても、簡単にアドインが作れるようになってほしいと思います。

5. (グラフ表示に関する)Excelに関するコミュニティーを作る

SASと比べてユーザカンファレンスの参加者が圧倒的に少なかったみたいです。まぁ、専門家としてはExcelで分析やってますってアピールするのはある意味恥ずかしいので参加者も少ないのでしょうねぇ。

以上、グラフ機能5点の改善案でしたが、分析屋さんとしては、Excelは編集と表示というところに特化させた使い方をしているので、私は編集の観点から改善希望を。

6. データの勝手な丸め処理やめて

編集というところで考えると、データを勝手に丸められたりすると、分析結果がかわってきてしまいます。

7. 数値データでない要素の処理

欠損値と無限大、NULLなんかの処理がうまくされていれば、ソートでの並び間違いなどがなくなる。

こんなところの機能が強化されたならば、分析屋さんが使うデータ編集ツールとしてもはや、いうことなしです。

Excelで学ぶ統計解析―統計学理論をExcelでシミュレーションすれば、視覚的に理解できる

Excelで学ぶ統計解析―統計学理論をExcelでシミュレーションすれば、視覚的に理解できる

数式を使わないデータマイニング入門

Web2.0時代に必須の技術を本質から理解するという帯に書かれた文言で、中身を見ずに買ってしまいましたが、特に技術的に新しいこととか、マイニングのとらえ方を書いてあるわけではなく、この点は残念でした。また、使われている言葉も専門家が使う言葉とは少し違うものがあった(例えば「交差妥当化」、これはクロスバリデーションの訳語ですが、普通は交差検証だと思います)ので、注意が必要ですね。

一方で、この本の良いところは、マイニング技術の「説明の仕方」や良い「事例」にあるのかな、と思います。また、分析の結果の解釈は人間がやらなきゃいけませんよ、という説明があり、できないことはできない、と書いてあることも良い点です。

この手の仕事をしていると分析のことを知らないお客さんと会う機会も多いのですが、なかなか分析の本質を知ってもらうことが難しいんですよね。分析でできることには限界があることを説明しても、お客さん的には「分析をすれば、何でもできる」とアントニオ猪木か?と言わんばかりの発言をされることも多々ありますし。

そんなときに、この本の事例を持ち出して説明してあげるとか、この本をお渡しする等して理解を深めてもらう・・・といった活用法がありそうです。

まずは、自分の説明をよりよくして、お客さんにわかってもらう努力をする方が先決だったりもしますけどね。

数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)

数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)

地図情報分析のスゴさ(Google Earth + Unisysデータ)

oriki2006-05-16


Google Earthが登場した当初、地球儀を回して遊ぶがごとくグルグル回して遊び、いつの間にか忘れてしまっていたこのツールをハリケーンの視覚化と分析に活用したスゴいサイトを見て、情報分析の可能性を改めて感じました。

Gulf Impact
"With pump prices on the rise and a busy hurricane season predicted for 2006, The Timoney Group looks back on the impacts of Hurricanes Rita and Katrina on oil and gas production in the Gulf of Mexico in 2005 through a wide variety of Google Earth layers. Using our custom web tools, you can do advanced spatial analysis and even plot your own hypothetical hurricane courses to estimate future impacts."
http://www.gulfimpact.com/

このサイトはThe Timoney Groupという企業により提供されているもので、昨年度、アメリカを襲ったRitaとKatrinaを含むハリケーンの軌跡をGoogle Earth上にマッピングしています。

台風の動きを説明するNHKの天気予報などで、2次元上の天気図よりもCGを使った天気図の方が、より危機感を感じられるのと同様、こうしてリアルな地球の図にデータがマッピングされるだけで、ハリケーンの凄まじさが良くわかります。このデータは元々米Unisysより提供されているのですが、米Unisysのデータ提供サイトにある図(http://weather.unisys.com/hurricane/atlantic/2005/index.html)と比較すると、このあたりの感覚が実感できると思います。

このような地図を使うことで、よりデータの理解が促進される例は既に認識していたものの、地図のコストが非常にかかるので二の足を踏んでいましたが、情報分析結果のプレゼンテーションにリアルな地図を使うことが簡単にできる時代になったので、これからは積極的に活用していきたいなぁと思います。

このサイトには、他にもガスのパイプラインを配置した例などがあるので、GISに興味がある方はご覧になったらいかがでしょうか。

『マネーボール』は情報分析の心構えを示したバイブル

ある方より紹介された『マネーボール』の文庫版を読んだところ、野球という具体例を題材に情報分析の威力がまざまざと記されており、とても素晴らしい本と感じましたので、リサーチャーの立場で感想を紹介したいと思います。

この本は、メジャーリーグの野球チーム・オークランド アスレチックスのゼネラルマネージャー、ビリービーンが、野球というゲームを「27個のアウトを取られるまで終わらない競技」という定義をして、そこからゲームに勝つための要素を分類し、それぞれをデータ分析することにより良い選手の定義を見つけ出し、さらにデータ分析により選手の正しい評価を見積もり、アスレチックスというチームを強化していく課程と結果が書かれております。

データ分析の経験がある方は経験していることかと思いますが、分析をしていくとどうしても分析結果と専門家の常識とに違いが現れることがよくあります。こうしたとき、データ分析家は常識と自らの分析結果の違いに悩みつつも、自らの分析結果を信じて真実を明らかにしていくのです。

なぜ、自らの分析結果を信じるのか。

それは、専門家の常識に客観的な視点からの「一般性」や「良い選手の定義」が欠けているためです。データ分析に基づかない常識による判断というのは、山勘でしかないと考えているからなのです。

例えば、この本では、新人選手のスカウトマンが専門家として登場しますが、良い新人選手を採用しようと考えたとき、常識では、打率がよい、足が早い、肩が強い、体格がよい、という基準は一見異論を挟む余地もなく正しいと思われがちですが、これらの基準は

  • 自己経験の過度な一般化(人間は自分の立場のみで物の判断をしてしまう)
  • 直近の成績の重視(人間は昔のことは忘れてしまう)
  • 目で見た内容における偏見(人間は色眼鏡で物を見てしまう)

という様々なバイアスを含んでいるため、必ずしも正しい判断基準ではない可能性があるのです。ビリービーンはこの専門家の基準に疑いを持ち、よい打者の条件は、出塁率長打率であることを分析結果から明らかにし、スカウトマンの常識通りに選手を獲得した際に良い選手を取りこぼしてしまうという不利益を回避していくのです。

上の例でわかるのは、残念ながら人間の判断というのは、多かれ少なかれ上で挙げた欠点を持っており、正しい判断をする際にはデータ分析の基本

  • 分析の目的の定義
  • 定義より得られる妥当な評価基準
  • 多数のサンプルによる検証
  • 信頼性のあるデータ

が重要になってくるということです。それだけにGoogle

・データが判断をもたらす
グーグルでは、ほとんどの判断というのは、量的分析に基づいている。私たちは、インターネット上の情報だけでなく、社内の情報をも管理するシステムを作り上げている。私たちは、多くのアナリストを抱えており、彼らが業績を解析し、トレンドを描くことで、会社を可能な限りアップトゥデートに保つことができる。

という姿勢は、非常に素晴らしく、また脅威に感じるほどです。マネーボールで紹介されたアスレチックスと同様にGoogleでも独自の評価基準を持っていたりするのかもしれませんね。

いずれにせよ、情報分析のスキルを身につけることは良い判断をするために改めて大切であり、さらに勉強を進めていきたいと感じさせてくれる本でした。

この本にはこれ以外にも固定観念による弊害や問題の定義の具体例などが豊富に記載されており、今後繰り返しよんで、データ分析を進める際の手本にしていきたいと思います。

マネー・ボール (RHブックス・プラス)

マネー・ボール (RHブックス・プラス)

三菱電機の予兆分析技術"DynamicSVD"について一言もの申す。

一応、私もデータマイニング屋さんの端くれとして、マイニング系のニュースに反応してみました。三菱電機により予兆発見の分析技術が開発されたとのことです。

 三菱電機は4月25日、ネットワーク上で、ワーム型ウイルス活動を早期に検知するセキュリティ攻撃予兆分析技術「DynamicSVD」を開発したと発表した。アクセスの「量」ではなく「変化のパターン」を見るため、本格的な攻撃が始まってアクセス量が急増する前に、ウイルス活動を検知できるという。

特許も出願されているということで、IPDLの特許検索から、それらしい特許公報を見つけまして、技術の中身を読み込んでみました。まぁ、SVDの使い方の例としてはいいんじゃないでしょうか。

一方、上で見つけた特許を見ますと、DynamicSVDというのは「インクリメンタル特異値分解」というのに対応しているっぽく、時間経過に伴い分析対象が増えた場合にも、高速に特異値分解のスコアが得られるという方法なのです。が、インクリメンタル特異値分解に限って言えば、既に他でも提案されてますので、アルゴリズム自体にとくに目新しさというのは感じないというところ。例えば、Googleでさくっと引っかかるので言えば、(PDFファイル:http://cswww.essex.ac.uk/staff/udfn/ftp/london2.pdf, http://www.grouplens.org/papers/pdf/sarwar_SVD.pdf)とか。

なんか、勘違いしてるんでしょうか…。もう少し、調べてみることにします。

とはいえ、新しかろうと古かろうと、私にとって情報分析技術が広まるのは喜ばしいことなので、ぜひ実用化に成功してもらいたいものです。

まぁ、インクリメンタル特異値分解であれば、実装するだけならMATLAB等のツールを使えば、30分くらいで実現できそうな感じなので、お休みの日にでも自分で実装して試してみようと思います。あ、でもプロトタイプを作らなきゃ・・・。

【この技術の対抗馬】

SmartSifter(NEC), http://www.labs.nec.co.jp/DTmining/products/smartsifter/index.html

論文2.0プロトタイプを実装中

d:id:jkondo:20060422さんのエントリーを読んだ。

新しい技術を習得したり、時間を掛けて作り上げた結果は、何かのアウトプットとして出さなければほとんど意味がありません。知識や結果を自分の中に残すだけで終わるのは、それを活かしてサービスを作りたくさんの人が使えるようにする事に比べると驚くほどちっぽけな仕事です。

自分もいっぱしの技術者であると思っていたのだが、上の定義からすると読者に満足してもらえる文章を書くというだけでは、もの足りず(まだまだ満足してもらえる文章は書けていませんが。)、サービスまでいかねば、いっぱしの仕事とは言えないか。

先日、論文をWebで共有する仕組みが欲しいとアイデア出ししたわけですが、素直な私としては真に受けて、自分でプロトタイプを作ってみることにしました。

初めてのBlogHackということで、今のところ論文2.0というよりも0.3程度の完成度ですが、作っているうちに、より深く自分のアイデアを掘り下げることができて、良い感じです。さすがにサービスにまで昇華させることはできそうにありませんが、雰囲気だけでも皆と共有できたらと思い、近いうちにどこかに公開しようと思います。