テキストマイニング

テキストマイニング（英: text mining）は、文字列を対象としたデータマイニングのことである。通常の文章からなるデータを単語や文節などの単位で区切り、それらの出現の頻度や共出現の相関、共起関係、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である^[1]。計算的テキスト分析（computational text analysis）、テキストアナリシス（text analysis）と呼ぶこともあるが、情報処理の分野ではテキストマイニングと呼ばれている。

テキストデータの多くは形式が定まっておらず、また日本語は英語などと比べて単語の境界判別の必要性（→わかち書き）や文法ゆらぎが大きい点において形態素解析が困難であったが、自然言語処理の発展により実用的な水準の分析が可能となった。テキストマイニングの対象としては、顧客からのアンケートの回答やコールセンターに寄せられる質問や意見、電子掲示板やメーリングリストに蓄積されたテキストデータなどがある^[2]。また、第二次世界大戦期にはプロパガンダを発信していたマスメディアの分析が大規模に行われたほか、近年では政治家などの演説を分析することがある。

歴史[編集]

テキストを統計的に分析する分野として古くから計量文体学があった。この分野において、文章を構成する要素の特徴を定量的に分析し、その文章の執筆者を推定する試みが100年以上前にあった。最たる例は米オハイオ州立大学の地球物理学者T. C. Mendenhallの研究である^[3]。

光学におけるスペクトル分析法を単語の分析に適用、単語の長さは著者の特徴になることをサイエンス誌に投稿した。ここで、単語のスペクトルとは、単語を構成するアルファベット数に着目した単語の分布を指す。この際、メンデンホールはW. Shakespeare作の戯曲とF. Baconの作品も分析した。

この頃の分析手法は集計したいデータを目で数えカウントするという原始的な手法であったが、構造化されていないテキストデータをテキストを構成する何らかの要素で区切って構造化し、分析するという点では基本的なアイディアは現在のテキストマイニングと同様である。

また、内容分析の分野では、19世紀から20世紀初頭に欧米で新聞の印刷部数が増大したことを受けて新聞記事の計量的分析が行われるようになった。当時の関心事は、いかに価値のない記事が紙面を占めているかであった。

　20世紀後半〜第二次世界大戦前後、社会学的な概念（価値観、世論など）を追求するために新聞の分析が、またドイツとその同盟国についてマスメディアの分析、すなわちプロパガンダ分析が大規模に行われた。この時代に社会科学の理論・概念に加えて心理学実験、市場調査の分野から統計手法が持ち込まれた。現在はこれらがテキストマイニングを理論的に支えている。

　その後、研究では質問紙における自由回答など調査の補助的手段として、あるいは大量の資料や小説の処理をするために、実務的・商業的分野でも利用されるようになった。

　テキストマイニングは1990年代中頃まではテキスト解析、ドキュメント解析などと呼ばれ、1990年代後半からはテキストデータマイニング（text data mining）などと呼ばれるようになり、それ以降テキストマイニングと呼ばれるのが一般的になった。現在ではテキストアナリティクスまたはテキストアナリシスと呼ぶ傾向にある。

分析[編集]

ここで、内容分析の分析手法には、KHCoderを開発した樋口によれば、Correlational アプローチとDictionary-based アプローチが存在するという^[4]。前者は、分析を（全て）多変量解析に任せ、自動的にテキストの分類・発見させる手法で、分析者が介在する余地のない手法である。後者は分析者が設定したコーディング・ルールに従って分類していく手法である。

樋口はテキストマイニングにおいて、この2つのアプローチを統合した「接合アプローチ」を提唱する^[4]。すなわち、Correlational アプローチにならい、恣意的なものを一切交えずにデータを要約・提示する段階１と、Dictionary-based アプローチにならい、コーディングルール作成によって理論仮説ないし問題意識を明示的に操作する段階2とを明確に峻別した上で、これらを行き来する方法である。

このアプローチにより、Correlational アプローチの持つ、分析者の持つ理論や問題意識を操作化し分析する上での限界をDictionary-based アプローチに許されている自由な発想で補うことができる。またDictionary-based アプローチの持つ、分析が恣意的になってしまう可能性があるという欠点もCorrelational アプローチを組み合わせ多変量解析によってデータ全体を要約・提示した上でコーディングルールを公開するという手続きを踏めば第三者が研究を把握しやすくなり、信頼性・客観性の向上に繋がる。

なお、この考え方はKHCoderの想定する分析の方法として取り入れられている。

これを踏まえて、一般的には準備作業（テキストの電子化、表記ゆれなどのクリーニング）、加工と処理（形態素解析、構文解析、意味解析等）、データ集計と分析（データの抽出と分析、視覚化）を行う。

テキストの視覚化[編集]

テキストを何らかの単位で分解し、その要素の頻度を集計し、それをまとめたり、視覚化したりすることは、テキストマイニングにおいて最も基本的な作業である。

一般的にとられる手法は棒グラフや折れ線グラフに限らず、ワードクラウド、共起ネットワーク、クラスター分析、多次元尺度構成法（MDS）、対応分析（数量化III類）、自己組織化マップ、機械学習（ナイーブベイズ）などの多変量解析が手法が用いられる。

視覚化作業はKHCoderなどのソフトで分析と同時に行うことができることが多い。