プロジェクト:索引/MeCab索引

http://index.wikipedia.jp/

処理手順[編集]

  1. 曖昧さ回避用の括弧を除去 ex."FooBar (Baz)" → "FooBar"
  2. NFKCで正規化
  3. 小文字化
  4. 旧字を新字に置換 (JIS X 0208にある範囲のもの)
  5. 記号を除去
  6. MeCabで形態素解析
  7. 名詞と判定された単語毎に整列
    • 名詞と判定された単語がなかった場合は項目名全体
  8. 1ページあたり10000項目程度になるよう分割