鉱山で大量の土砂を掘り出して、その中から極めて少量の金塊を掘り当てるように、
潜在的な顧客ニーズを採掘する作業であることから
データマイニング(Datamining=データの採掘)と言われている。

データマイニングの利用例として「紙おむつとビール」の話は、
誰しも1度は耳にしたことがあるだろう。

データマイニングの代表的な手法

デシジョンツリー(決定木)

アソシエーションルール(バスケット分析)

ニューラルネットワーク

「統計解析」と「データマイニング」の違いを問われることがあるが、
端的に言うと…

統計解析は、
「データの傾向をとらえ、代表値(パターン)を導き出す手法」であるのに対し、

データマイニングは、
「データを網羅的に探り、有効なパターンを導き出す手法」であり、
根幹の概念が異なる。

網羅的に解析を行う「データマイニング」は、
コンピュータへの処理負荷が非常に高く、
「データマイニング」と言う言葉が使われ始めた90年代後半では、
ビジネスにおいて活用できる環境にはなかった。
その後、コンピューターの進化により、大量データの蓄積・解析が可能となった
"ビッグデータ時代"を迎え、着目されてきた手法である。

データマイニングの活用事例

JRA-VAN(JRAオフィシャルサービス)
"コンピューターレース予測"は、
データマイニングを駆使していた!

 

JRAが提供している情報サービス"JRA-VAN"は、「過去のデータの提供」が主目的であるが、サイト内には[JRA-VAN データマイニング]という記載がある。

「競馬は、レース当日の馬の速さに関係していると思われる客観的なデータをうまく組み合わせることにより、ある程度の予測が可能な現象である」との記載(一部要約)が見つかった。
つまり、JRA-VANで提供している過去の実績データを使って、コンピューターでデータマイニングを行い、"走破タイム予測をしている"という事だ。

さらに、「データマイニングの予測モデルにはいくつかのタイプがあるが、現在運用の予測モデルはニューラルネットワーク(BPN)を利用しています。」と記載されている。JRA-VANで蓄積された過去のデータを利用し、ニューラルネットワークのアルゴリズムで作成した「走破タイム予測ニューロンモデル」により、今後開催されるレースの出走馬の"走破タイムを予測してくれる"というものだ。

ニューラルネットワークのモデルイメージ

ちなみに、ニューラルネットワークは、人間の脳の神経回路網をコンピュータ上でシミュレーションするソフトウェア技術であり、有効な変数の選択や最適な組合を自動的に行い、上の様な関係モデル式を作成する手法。

中間層が存在することにより、非線型な事象についても予測モデルを作成する事ができ、従来の回帰分析に比べて通常は予測精度が高いといわれている。

予測モデルでは、以下のような変数を用いている。

今回情報

>馬体重
>馬体重増減割合
>負担重量
>負担重量率
>騎手

背景情報

>血統系統
>調教師
>馬齢
>性別

過去走実績

>過去走実績
>脚質傾向
>出走回数
>1着回数
>3着内回数
>出走回数(同トラック)
>1着回数(同トラック)
>3着内着回数(同トラック)
>前走のレースのレベル
>前走のレースタイム比
>前走の上がりタイム比
>前2走のレースのレベル
>前2走のレースタイム比
>前2走の上がりタイム比

>前3走のレースのレベル
>前3走のレースタイム比
>前3走の上がりタイム比
>休養明け状況フラグ
>叩き2戦目フラグ
>格上挑戦フラグ
>重・不良馬場適性
>天候適性
>競馬場適性
>距離適性
>乗り替わりフラグ
>展開有利フラグ

また、予測モデルは"走破タイム予測モデル"と"対戦型モデル"の2種類があり、 "走破タイム予測モデル"が、出走馬単独のデータを使用して走破タイムを予測しているのに対し、対戦型モデルは出走馬2頭のデータを使用して2頭間の相対差(今回は順位に基づく勝ち・負け)を学習させている点が異なる。

つまり、対戦型モデルは、「出馬表に並んだ出走馬の属性や過去成績等を2頭ずつ比較してどちらが強いのかを予測しつつ、レース全体で相対的に最も強い競走馬を探し出す」と言うプロセスになっている。レースごとに出走馬"18頭"を総当たりで、過去のデータから比較し「勝ち負けをつける」といった作業を、全レースで行っているのだから、かなりの『ベテラン競馬予測師』でも"成せない技"であろう。

まさに、"データマイニング"を活用した「コンピュータ予測」には最適な分野である。

活用実績例

デシジョンツリー(決定木)

カード会社
ランクアップカード促進用DM対象者選定
化粧品通販会社
ロイヤルカスタマー特性探索

アソシエーションルール(バスケット分析)

自動車用品販売会社
顧客セグメント別購買商品特性分析
文具カタログ通販会社
レコメンデーションマーク設定用併売分析

ニューラルネットワーク

製薬会社
大衆薬品需要予測用 市場反応モデル
ダイレクト自動車保険会社
テレビ出稿レスポンス予測モデル

お問い合わせはこちらから