「テキストマイニング」と言う言葉が世の中で語られるようになったのは1996年頃。
歴史的には20年余りしか経過していない。
"アンケートによる意見"、"コールセンターへの入電"、"SNSなどへの書込み"など、
企業が「顧客の声」を直接収集できる環境が整いつつある。
しかし、それら「VOC(お客様の声)」を分析する技術においては
『進化の途上』と言える。
すでに様々な"テキストマイニングツール"が存在するが、
大別すると以下の2タイプに分かれる。
多数の意見から1件1件の意見を読むことなく「主要となる意見の内容を把握する」事ができる。 ただし、解析には「煩雑な辞書作成」と言った多大な労力を必要とする。
「文章同士の類似度による自動分類」のため、"辞書作成などの労力が不要"であること、"少数話題も自動的に抽出"する事が可能となっている。
ただし、分類に留まるため、"内容までは把握できない"こと、結果的に「分類数」が多くなり、"どの意見(グループ)が重要か?"の判断ができない。
テキストマイニングの関心は高まるものの、
前述したように"人的労力"がかかってしまう事から、
企業で有効に使える環境までは程遠い状況である。
また、昨今注目されているのが、"人工知能(AI)"の適用。
AIを活用することで、より「大量のデータ」において、
より「深い意味」を、「高精度」に、「短時間」で
解析できるようになると言われている。
例えば先に紹介したタイプBの「類似文章のグループ化」の場合、
基本アルゴリズムは、『同じ単語がどのくらい出現しているか?』によって、
「文章が似ている」の判断がされるため、
裏を返せば、同じ意味合いでも『異なる単語』の場合、
アルゴリズムでは「別の文章」と判断してしまう場合がある。
"AI"の活用によりこれらは解決され、より精度の向上が図れると考えられている。
具体的には、過去のグルーピング結果より、AIが辞書やルールを自動生成。
この辞書を類似度判断アルゴリズムに加える事により、
『全く違う単語で表現されていても、同じ意味の記述』といった判断を、
人的労力をかけることなく、自動的に行う事が可能となる。
他にも、「文脈から感情をより詳細に数値化」するなど、
テキストマイニングへの適用範囲が多く、
AIの利用により今後のテキストマイニングの技術革新に
期待が寄せられている。
ある自動車メーカーでは、「お客様相談窓口」として、専用のコールセンターを設置している。1日あたり1,000~1,500件程度の問合せがあるが、オペレーターは入電後に"問い合わせ記録"として、あらかじめ決められている分類コード(問合せ、クレーム…etc)を付与、内容を要約しテキスト情報として入力しており、それが日々蓄積される状態となっている。
管理部では「どの様な問合せが多いのか?」といった、"とりまとめ"を行うために、それぞれのオペーレーターが分類コードを付与し、毎月そのコードを集計し報告を上げている。分類コードによる集計レベルではあまり大きな変化がなく、問題ポイントが見えないため、本当の問題点を探るには、個々の記録の確認が必要であるが、この作業には大変な労力が投下されていた。
そこで、より効率的に入電情報の概況をつかむために、テキストマイニング手法をトライアル導入した。
テキストマイニングの基本
"形態素解析"!
形態素解析とは、自然言語で書かれた文を、形態素(言語で意味を持つ最小単位)に分割する技術。 この際、辞書(「品詞」などの情報つきの単語リスト)中の情報を参照することで、「品詞」、「活用形」、「読み」等の情報を得ることが可能。
形態素分解されたキーワードにより、文章中の「同時出現」の観点で"係り受け"の分析を行い、二次元上にマップ化し表現する分析が一般的。 辞書に登録されているワードを元に分解していくため、業界やその企業特有のワードについては、あらかじめ解析用辞書に登録しておく必要があり、その辞書整備には多大な工数がかかる。
入電情報をテキストマイニング(形態素解析)にて分析した結果、問い合わせ内容は、仕様・販売などの「トピック」と、要望・苦情・お問い合わせなどの「お申し出」に大別され、その組み合わせによる整理が適当と判断された。
その組み合わせを"視覚化"することで、その都度の入電情報の概況をつかむことが容易になった。
この"概要マップ"を定期的に作成、時系列比較する事により、
・どの【お申し出】が変化しているのか?
・その【お申し出】が大きくなっている要因として、「どの【トピック】が影響してい
るのか?
といった変化を把握し、その【お申し出】×【トピック】における詳細な内容(個票)を確認することで、問題点の早期発見に役立てる事が可能となった。