テキストマイニングとは
テキストマイニングとは、アンケート結果の定性的な回答や、ヘルプデスクに寄せられるメールのお問い合わせなど長めの文章から各単語の出現回数や傾向を分析し、そして出現回数に応じた大きさの単語を一枚に並べて視覚的に表現する手法のことを言います。
テキスト(text)とは「文章」を指し、マイニング(mining)とは「掘り当てる」という
意味で、膨大なテキストデータから、売上や業務内容にとって有益な情報を掘り当てるといった意味が込められています。
\ おすすめのテキストマイニングが学べるスクール/
テキストマイニングができること・活用事例
では、テキストマイニングで掘り当てることのできるデータとは、どのようなものがあるのでしょうか。
大きく分けて、3つの用途で活用ができるのではと、模索されています。
1.ニーズ分析
顧客の声の分析、アンケートなどの自由記述で書かれた文章から、その中で頻出する単語を抽出し、エクセルでの集計する作業を自動化することです。ユーザからの意見や要望、感想などを、もれなく集計することでき、コールセンターやカスタマーサポートの顧客の要望分析に活用されています。
2.業務課題の発見と改善
毎日の営業日報や作業報告書などのデータから、テキストマイニングによって業務上のナレッジを効率的に抽出することが可能です。暗黙知になっているノウハウや属人化されたノウハウを形式知化し、社内に共有することが可能です。
例えば、営業成績の良い営業がどのようなトークを行っているのか、どんなキーワードを特に多く使用し受け答えはどのように行っているのか、どんな回答が好ましいのかを分析することで、その知識やノウハウを社内の他のメンバーに共有し、営業スキルの改善を図っていくことが可能です。
3.ビックデータによる将来予測
ツイッターなどのSNSでつぶやかれた情報を収集し、そこで頻出したキーワードを構造化し、分析することで、対象の株価変動の予測・市場動向予測を行うことや、選挙結果予測や流行予測につなげて、商品やサービスの向上につなげることに活用されています。
ここでいうビックデータとは、どういうことを指すのでしょうか。
人間では全体量を把握することが困難な膨大なデータのことを指します。
具体的には、在庫データ(商品名・商品数など)、販売データ(販売記録・売上・顧客情報・販売日)、テキストデータ(議事録やアンケート結果など)、経理データや顧客情報、アクセスログなどのデータ、SNSなどのインターネット上にあるデータ、画像に埋め込まれたデータや動画で得ることができる情報なども含みます。これら、あらゆるデータの収集・蓄積・分析を行うことで、
テキストマイニングの仕組み・導入手順
1.導入手順
では、実際にテキストデータをどのように、テキストマイニングしていくのでしょうか。
導入の方法を簡単に調べてみました。
Step1: データの収集
分析したいデータをどこから持ってくるかを検討します。
自社内のデータを分析する場合は、どのシステムからのデータを分析したいのかを明らかにします。
Step2: データの前処理
分析に不要な文字の削除、適切なフォーマットへの変換を行います。
分析しやすいように、文章を品詞ごとに分解したり、不要に連なっている言葉の分割やスペルの修正、文法の訂正などを行います。
Step3.構造化データへ変換し蓄積する
文章を分析するには、文章を数値に変換します。文の最小単位である単語を数値化することで、コンピュータが計算できるようにしていきます。それらのデータから規則性を見出し構造化していきます。
Step4.分析と可視化
構造化データに変換されたデータから、データとデータとの相関関係を調べたり、キーワードの頻出言語を分析し、傾向がわかるようにビジュアル化します。
その際に、統計的知識をもとにデータは分析されます
Step5.インサイトの共有
2.テキストマイニングの仕組み
Step2.データの前処理に使用されるAI技術:
自然言語処理(NLP):データ加工には、以下2つの解析方法があります。
形態素解析と、構文解析です。
形態素解析:文章を最小単位に分割し、その品詞を特定する方法
Pythonでは、形態素解析システム「Mecab-Python3」もしくは京都大で開発された「JUMAN」を使用し解析をしていきます。
構文解析:単語の品詞を利用して単語同士の修飾と被修飾の関係(係り受け)を抽出
日本語構文解析システムとして、CaboChaもしくはKNPを使用しプログラムしていきます。
Step4.分析と可視化で使用されるAI技術:
データマイニング:データ可視化には、頻度解析(単語・構文)、主成分分析、センチメント分析
対応分析(コレスポンデント分析)などの統計的分析手法を使用し分析をしていきます。
それぞれの分析方法を簡単にご紹介します。
頻度解析(単語・構文):PythonのCollectionメソッドで単語ごとの頻度や構文の頻度を調べます。
センチメント(感情解析)分析:ネガティブ・ポジティブ・中立の3パターンに分類する分析方法
製品などに関する顧客の感情をポジティブ、中立、ネガティブの三つのパターンに分類し、ランキング化するなどに使用されています。
有名な日本語のセンチメント分析システムには、 osetiというもので実装されます。
対応分析(コレスポンデント分析):設問をかけあわせて作成する「クロス集計」や、編集・集計を行う前の「ローデータ」を散布図で表現する分析手法
分析結果ビジュアライゼーション:モジュール「wordCroud」
長めの文章(スピーチ原稿やあるアカウントの今までの全てのコメントなど)から各単語の
出現回数をカウントし、そして出現回数に応じた大きさの単語を一枚に並べて表現する手法
背景色・フォントサイズ・画像サイズを指定することが可能です。
テキストマイニングサービスを展開している企業とは
テキストマイニングサービスにおけるカオスマップ
AIsmilyが発表しているテキストマイニングサービスによると、様々な業態でサービスが展開されていることがわかります。
以下では、テキストマイニングツールなどAIテキストマイニングを提供する企業をピックアップしてご紹介いたします。
見える化エンジン(株式会社プラスアルファ・コンサルティング)
11年連続シェア1位を誇るテキストマイニングサービスを展開。SNS、問い合わせログ、アンケート、社内文書、日報のデータ活用に対応。
TextVoice(マイボイスコム株式会社)
20年以上の実績を持つリサーチ会社によるテキストマイニングツール。自社内データ分析、SNS分析が可能。辞書機能の自動作成や、分析機能が6種類用意されている。Twitterでは、登校内容やハッシュタグまで分析が可能
User Local(株式会社ユーザローカル)
テキストマイニングだけではなく、ヒートマップ解析・SNS・メディア解析、チャットボットなどを提供。
テキストマイニングを学べるプログラミングスクールとは
Pythonだけではなく、テキストマイニング・自然言語処理を学べるスクールを調べてみました。
Aidemy Premium
「データ分析講座」や「自然言語処理講座」において、テキストマイニングに必要なプログラミング技術の習得が可能です。給付金対象講座となっており、給付金制度を活用しながら、学ぶことが可能です。
学習する内容
1.Python基礎
2.ライブラリ:Pandas/Matplotlib
3.データクレンジング(BeautifulSoupを用いたスクレイピングの手法の習得)
4.データハンドリング(OpenCVを用いた画像加工の方法の習得)
5.機械学習・自然言語学習・ディープラーニングの基礎
6.ネガポジ分析
7.日本語文章からのトピック抽出
8.質問応答システムを作成しながら自然言語処理における前処理などの具体的手法を学ぶ