「多変量解析」は、
『複数の変数間の相互関連を分析する統計的技法』の総称。
例えば、
「性別や年齢と言ったプロフィールが、ある商品やサービスに対しての認知度や理解度、
あるいは好意度などの指標と、どういう関係があるか?」と言ったことを
統計的に分析する極めて科学的な手法であり、データ分析分野において、
非常に強力で便利な武器である。
多変量解析には、
回帰分析、判別分析、クラスター分析、因子分析などいくつもの手法があり、
扱うデータの種類(量的変数、質的変数)と目的(予測、要約)によって、
使用する手法が決まるため、非常にシンプルである。
目的変数 | 説明変数 | 多変量解析の目的 | |||
---|---|---|---|---|---|
量的 | 質的 | ||||
あり | 量的 | 重回帰分析 | 数量化1類 | 量の推定 | 予測 |
質的 | 判別分析 | 数量化2類 | 質の推定 | ||
なし | 主成分分析 因子分析 クラスター分析 |
数量化3類 数量化4類 |
変量の集約 類似ケース集約 |
要約 |
目的変数 | 説明変数 | ||
---|---|---|---|
量的 | 質的 | ||
あり | 量的 | 重回帰分析 | 数量化1類 |
質的 | 判別分析 | 数量化2類 | |
なし | 主成分分析 因子分析 クラスター分析 |
数量化3類 数量化4類 |
目的変数 | 多変量解析の目的 | ||
---|---|---|---|
あり | 量的 | 量の推定 | 予測 |
質的 | 質の推定 | ||
なし | 変量の集約 類似ケース集約 |
要約 |
"解析"となると一見難しそうに思われるが、
皆様の身の回りでも良く使われている手法である。
AKBファンを公言するタレントや有識者、芸能記者らの順位予想が出そろいつつある中、あるデジタルマーケティングコンサルティング会社では、「ビッグデータ」を活用した順位予測を発表し、トップ3および上位25人中20人のランクイン(順位問わず)を的中させ話題になった事がある。
その会社では、 メンバーのランクだけでなく、それぞれの"得票数"までを予測発表したのである。
下の散布図は、上位ランクイン的中メンバー20名の実際の得票数(横軸)と、予測得票数(縦軸)の分布である。
ラインに近いほど「予測」と「実際」の得票数が近いと言うことである。
結果を見ると、ラインに沿って分布が点在しており、予測精度の高さが窺える。
「どの様に得票数を事前に予測していたのか?」… この予測には、「多変量解析」が使用されているのである!
同社によると、"予測には、ブログやTwitter(ツイッター)、匿名掲示板「2ちゃんねる」などに書き込まれたメンバー名の件数および評判、テレビ出演数、テレビCM放映数などのデータを使った"とのこと。
1.前年の各メンバーの得票実績と、それと相関あると考えられる各メンバーの様々なデータとの間に"どのような関係があったのか"を、重回帰分析にて導き出し、予測モデル式(得票数を計算する数式)を作成
2.上記予測モデル式を、現在のデータにあてはめる事により、「得票数を予測する」
予測は、【得票数≒2.75×ブログ投稿数+4.47×CM登場分数】と言う式になっており、「CM登場1分につき"4.47票獲得"+ブログ1件投稿につき"2.75票獲得"」といった関係になっていることが分かる。
上記の「CM登場1分につき"4.47票獲得"」や「ブログ1件投稿につき"2.75票獲得" 」の"4.47"や"2.75"が、重回帰分析にて自動的に算出される"係数"で、この「ブログ投稿数」や「CM登場分数」に、 "現在のメンバーの最近の実績値"を入れる事により、得票数が予測される。
当社の経験上、この手の"モデル"は、常に市場環境が変わることもあり、「1度作ったら永久に使用できる」といったケースは少ない。実際にこの「AKB総選挙モデル」でも、次年度では【得票数≒1万5420+0.37×2ちゃんねる投稿数+0.76×CM登場分数】と、モデル式は変化している。