マスタリング・データマイニング
<理論編>

―CRMのアートとサイエンス―

マイケルJ.A.ベリー/ゴードン・リノフ 著
江原淳/金子武久/斉藤史朗/佐藤栄作/
清水聰/寺田英治/守口剛 共訳
A5・360頁・定価(本体3,500円+税)
ISBN4-303-73431-4
初版2002年10月発行

 概 要
本書は2000年にアメリカで発表された『Mastering Data Mining ― The Art and Science of Customer Relationship Management』の邦訳である。原著者のベイリーとリノフは我が国でも前著の『Data Mining Techniques』で有名であり、その邦訳書である『データマイニング手法』は幸いにも好評のうちに版を重ねている(原著は1997年に発表され、邦訳は1999年に出版されている)。

本書はもともとは1冊の本であるが、日本語に翻訳すると大部になってしまうので、便宜的に「理論編」と「事例編」に分けて出版することとした。訳者グループの都合により、原著の順番とは逆に「事例編」を先に出版し、本「理論編」を出すのが後になった。内容的にはそれぞれ独立に読んでも意味は通じるのであるが、両方を通読されることをお薦めする。「理論編」で扱われた問題が「事例編」でより深く掘り下げられ、また、「事例編」における問題点や課題などを明確に理解するためには「理論編」での叙述が大いに参考になるからである。

さて、この本を手に取られた方の中には、前著『データマイニング手法』の読者が数多くいらっしゃるかもしれない。さらに、その多くは、本書が「理論編」と銘打っているがゆえに、前著では語られなかった最新のデータマイニング手法についての記述を期待していらっしゃるのかもしれない。しかし、残念ながら本書はそうした新技術への期待にはあまり応えることができない。本書に記述されている手法はすでに前著で語られたものばかりであって、いわゆる目新しい手法には触れていないからである。

どうしてそれを「理論編」と名付けるのかについて、我々訳者の考えを述べる前に、本書の出版についての著者の考えを聞いてみよう。著者であるベイリーとリノフは、前著において自分たちがデータマイニングに下した定義、「データマイニングは、意味あるパターンやルールを発見するために大量のデータを自動的ないし半自動的に分析および探索するプロセスである」を振り返って、「この定義は、データマイニングはマスターしなければならない技術体系というよりも購入することのできるソフトウェア製品であると多くの人が信じてしまうようにミスリードしてしまった」と記している。

また、本書の別の箇所では、「データマイニングは技術的な問題と考えられるので、人々はデータマイニングを習得するには高度なアルゴリズムを研究し、そのアルゴリズムを適用する技術を学ぶ必要があると理解している。この本をさらに読めば、この技術的な理解は読者が求めるものを習得するにはほんの些細なことであることがわかるだろう」とも書いている。さらにはこうも書いている。「データマイニングが成功するか否かは、ツールやアルゴリズムの選択よりも、適切な環境を作りえたかにかかっている」と。

つまり、著者が『データマイニング手法』に続いて本書を書いたのは、データマイニングを成功に導くために必要な、ツールやアプリケーション、アルゴリズム以外の主要な部分について、それをマスターすべき技術体系として論じる必要があると考えたからなのである。それゆえ、本書の題名も『マスタリング・データマイニング』となっているわけである。

我が国でも多く見られることであるが、データマイニングと言うと、「どのツール(アプリケーション)には、何とかというアルゴリズムが実装されている」ということが最も重要なことで、あとはデータを放りこめば、何か画期的な結果が返って来るという誤解がある。もちろん、アルゴリズムや手法も大切ではある。しかし、実際に何か分析を行った経験がある方ならよくわかるだろうが、そういうことは、最後の10%の段階のことであり、むしろより重要なのはそれ以前のプロセス、どんなデータをどういう方法で集めて来たのか、それら生データからどのように導出(加工)変数を作ったのか、などなど、従来はあまり語られることのなかった部分なのである。著者も本文の中で述べている通り、この部分の出来不出来が、最終的なモデルの出来不出来を決めることになる。使っているアルゴリズムは古い決定木でも、十分に優れた結果を出すことはできるし、逆に最新のアルゴリズムを使っても、こうした泥臭い部分の出来が悪いと、大して良いモデルができないこともある。

しかし、これらのプロセスは、いわば現場のノウハウとして、実際に分析に携わったことのある人間にのみ通じる経験談であり、共有化された知識になりにくいものであった(まさにノウハウであるがゆえに、隠されてきたという一面もあるだろう)。しかし、それを共通の知識として議論し、改良していくフローができない限り、データマイニングという分野に本当の進歩はないだろう。それゆえに、こうしたプロセスの検討は、まさに「理論的」に語られるべき内容なのであり、それを従来の業界用語と関係者の暗黙知の世界から日のあたるところに引っぱり出してきたことに、本書の大きな意義がある。我々訳者一同が、原著の半分を占める本書を「理論編」と名付けたゆえんである。

本書は技術としてのデータマイニングを広範に取り扱い、その叙述も多くの実例に基づいている。一般に言う「理論書」とは趣きが大分異なっているが、しかし、その生々しさゆえに、ビジネスの現場に対するインパクトは非常に大きく、また、実例に基づいたノウハウということで、学問上も大いに参考になると思われる。さらには「事例編」をあわせて読まれることにより、実際のデータマイニングの姿をご覧いただければと願うものである。(「訳者まえがき」より)
 
 各章の内容
第1章の「データマイニングのコンテキスト」では、データマイニングの定義から始まり、関連する諸領域との関連で、本書で扱うべきデータマイニングの位置付けを行っている。中でも、ビジネス上の観点からデータマイニングをどう見るべきなのかという議論は、今後の叙述の指針となっているが、これだけ単独で読んでも、頭の中を整理するのに、たいへん有効である。

続く第2章の「なぜ技術をマスターしなければならないのか」では、データマイニングが、残念なことに未だに完全に自動化されたシステムにはなりえないこと、それゆえにそれはマスターしなければならない技術体系なのであるということが、納得しやすく語られている。ビジネスユーザにとって、とりわけ有用なのは企業ビジネスにおけるデータマイニングへの4つのアプローチを整理してある箇所だろう。あなたの会社のビジネス課題は何なのだろうか? それに応じて、著者の言う4つのアプローチのどれが相応しいのかを考えてみることは、たいへん役に立つだろう。どんなアプリケーションを購入するのか、どんなコンサルタントに発注するのかは、ここを読んでから決定することをお勧めする。

第3章の「データマイニングの方法論:繰り返される好循環」では、以後の叙述の出発点として、データマイニングを中心としたビジネスのワークフローがどのようなものであるかが述べられている。著者らがワークフローの理想とする「好循環」が、あなたの会社では実現されていないと嘆く必要はない(日本の大部分の企業はそうであるから)。それでも、読者諸氏の抱える、いやおうなく独立=孤立したビジネス分野に引き当てても、必ずや有効な記述があることと思われる。何と言っても、ここでは、どうするとせっかくのデータマイニングの成果がビジネスの役に立たなくなってしまうのかが、豊富な例をあげて述べられているのであるから。

第4章の「顧客および彼らのライフサイクル」では、データマイニングをCRMで利用する際のさまざまな注意点が述べられている。この章は、いわば、データマイニングを核としたデータベースマーケティングの解説とも言うべきものであり、これ自体独立した読みものとしても有用である。とくに、章の終わりに記されているキャンペーンマネジメントに関する叙述は、個々のタスクの単独の結果を出して終わりとされていた、従来の分析フローに対して、会社全体としての総合的なキャンペーン管理の必要ばかりか、そのやりかた(ノウハウ)までをも明らかにした、たいへん貴重な叙述であると思われる。

第5章は本書の最も技術的な部分にあたり、「データマイニング技術とアルゴリズム」と題されている。アルゴリズムとしてはk-means法によるクラスタリング、決定木、ニューラルネットワークについて述べられているが、内容的には前著の記述をよりわかりやすくしたものになっている。もっと高度な記述を求められる方は、前著あるいは、そこであげられている参考文献を参照していただきたい。

第6章の「あたり一面のデータ、データ…」では、データ処理、いわゆる前処理のノウハウが詳しく述べられている。異常値や欠測値の扱いなど、他のデータ処理の解説書によく見られるテーマについても、データマイニングの現場で遭遇する問題と解決策が豊富に取り上げられているが、本書の特徴としては、データの出所であるRDBやDWHとの関連、OLAPシステムとの関係などについて、実務的注意点が多く取り上げられているのも、たいへん参考になる。この章でも章末に簡単なケーススタディが載っている。実際にデータマイニングを始めたら、分析部門と情報システム部門とで、どういう意思のすり合わせをしなければならないかについて、たいへん参考になる記述である。

第7章の「有効な予測モデルの構築」では、実際にデータマイニングで、予測モデルを構築するやりかたが述べてある。従来の類似書では、有効とは何を尺度とするのかがあいまいだったり、有効の尺度について述べられていても、どうしたら、より有効にすることができるのかを述べたものは、ほとんどなかったといえる。それに対して、ここでは、モデルの有効性を測る尺度についての詳しい記述により、ビジネスで使うモデルないしはデータマイニングはどうあるべきかを明らかにするとともに、どうすると誤りをなくし、より有効なモデルを作ることができるかのヒントが数多く上げられている(残念ながら、データマイニングはまさに「マスターすべき技術体系」であるがゆえに、「この通りにすれば間違いない」というレシピではない)。著者の経験に基づく叙述は、現在、実際にデータマイニングを行っている方々にも必ずや参考になる部分があるだろうし、これからデータマイニングを始めようという方にはうってつけの指南役となるだろう。

第8章の「データマイニング環境の構築」では、実際に企業活動の中にデータマイニングというダイナモを組み込むためのノウハウが書かれている。「データマイニングは組織が上手く機能したときだけ強力になるもの」である。データマイニングの導入が成果をあげなかった場合でも、ハードウェアやソフトウェアのベンダーは「我々の製品が悪かったわけではない。組織間の問題があったからだ」と言い訳をすることができる。しかし、担当者となったら、そうした言い訳をするわけにはいかない。素晴らしいハードウェアとソフトウェアに高額を支払っても、失敗することはあるのだ。まずは、本章に書かれた4つのケースを熟読して、あなたの会社でデータマイニングを活用するために、どのような環境を整えるべきかの戦略を練る必要があるだろう。ベンダーやコンサルタントを呼ぶのはそれからでも遅くはない。(「訳者まえがき」より)


情報(情報一般)のページへ
トップページ
弊社へ直接ご注文の場合はこちらから