JIS X 4081
JIS X 4081は、再生専用形光ディスク(CD-ROM)などに記録された、日本語を主とする電子出版物を、統一された検索方法で利用するために制定された日本産業規格である。1996年に制定され、2002年に改正された。規格名称は「日本語電子出版検索データ構造(Retrieval data structure for Japanese electronic publication)」。JIS X 4081は、業界標準の電子辞書フォーマットである EPWING V1 規約のサブセットである。
歴史
[編集]1986年に、日本で最初の汎用CD-ROMアプリケーション“広辞苑(第三版)CD-ROM”が開発された。その後、出版社、印刷会社、電気メーカなどで共通に使えるデータベースフォーマットとしてEPWING規約が提唱され、業種の枠を越えた協力を推進することを目指して、1991年10月にEPWINGコンソーシアム が設立された。“EPWING規約”の著作権は、このコンソーシアムに引き継がれて、普及促進活動が続けられているもよう。JIS X 4081:1996“日本語電子出版検索データ構造”は、コンソーシアムの規約公開を受けて、“EPWING規約”を基本としてまとめられたものである。
その後、JIS X 4081:1996は、音声・画像技術、インターネット技術などの新しい技術の取り込みを中心に見直しが行われ、2002年にJIS X 4081:2002に置き換えられた。
規格の概要
[編集]適用範囲
[編集]JIS X 4081規格では、おもに次の事項について規定している。
- 日本語電子出版物の高速検索を実現するためのデータ構造
- キーワード指定による検索のためのインデックス構造
- メニュー選択のための構造
- 複数種類の検索キーを用いた検索を実現する構造(複合検索を指す)
- 検索結果を表示するためのデータ構造
- 表示制御のためのコード(改行、添え字、半角指定、字下げ、分割禁止など)[1]
- 項目から別の項目を参照するための構造
ファイル構成
[編集]JIS X 4081の書籍は、登録書籍名管理ファイルと書籍ファイルの二つから構成される。
- 登録書籍名管理ファイル
- 媒体に記録する全書籍に関する管理情報を格納するファイル。EPWINGの実装ではCATALOGS、電子ブックではCATALOGに相当する。
- 書籍ファイル
- 各種検索方法を含めた書籍全体を管理する情報、および書籍データ本体を格納するデータ群。書籍データ本体、検索方法に関する指標を含め、各検索インデックスの存在位置情報、本文の位置情報、図版データ位置情報及び書籍定義文字パターン位置情報からなる。EPWINGの実装では HONMON または HONMON2、電子ブックではSTARTに相当する。
検索方法
[編集]本規約では、次の検索方法が可能である。
- 仮名検索
- 一般の国語辞典や百科事典と同様に読み表記文字列に対応した項目の検索を実現。
- 表記形検索
- 言葉の漢字仮名混じり表記に対応した検索を実現。これによって、読みが分からない言葉を検索したり、電子データとして受け取った文書の中の記述そのものを指定して該当項目を検索することができる。
- 前方一致検索
- 言葉の後ろ部分が不明確な場合及び言葉の前の部分が共通な言葉を探して一覧することができる。
- 後方一致検索
- 言葉の前の部分が不明確な場合及び言葉の後ろの部分が共通な言葉を探して一覧することができる。
- 複合語の検索(クロス条件検索)
- 複数語をその言葉を構成する基本語の組合せ(英字・漢字・かな・カナ等)で検索することができる。 (EPWINGの実装では、クロス条件検索、または見出し語条件検索と呼ばれることもある)
- 関連語検索
- 検索結果と関連する項目を参照する。 (別項目参照のこと)
- 条件検索
- ある項目に対して、設定された複数のキーワードの組合せで項目を探し出すことができる。
- メニュー検索
- 冊子の目次と同様に、項目リストの中から該当項目に対応する表題を選択することによって該当項目に到達することができる。
- 複合検索
- 検索キーワードをカテゴリ分類できる場合、その分類ごとのキーワードの組合せで検索項目の絞り込みを行う。 (EPWINGの実装では、ジャンル別検索と呼ばれることもある)
文字コード
[編集]JIS X 4081の内部コードには、JIS X 0208を使用し、コード範囲として 2121H~7426H([ ](全角空白)~[熙])を使用する。 実際の電子出版物では、JIS X 0208で定義されていない文字を多用するので、その場合は、書籍定義文字(外字)を定義して用いることになる。書籍定義文字のコード範囲として、 A121H~FE7EHを使用する。 書籍定義文字の文字パターンには、 16×16ドット、8×16ドット、 24×24ドット、12×24ドット、 30×30ドット、15×30ドット、 48×48ドット、24×48ドットを定義することができる。
インデックス構造
[編集]インデックスはB木構造を基本とする。インデックスは、上位インデックスというn層に階層化されたインデックス群と、最下位インデックスから構成される。最下位インデックスは、本文の該当する項目のアドレスを持つ。
圧縮
[編集]JIS X 4081:2002 では、圧縮種別が規定されているが、圧縮方法については記述がない。実装のEPWING規約では、V4以降、静的ハフマン符号による圧縮がサポートされている(なお、V6では改良が加えられ、圧縮率が高まっている)。
課題
[編集]日本の電子出版の歴史は、CD-ROM媒体による電子出版物から始まった。 JIS X 4081の原規格であるEPWING規約の制定により、複数の出版社から発売される電子出版物をOS・プラットフォームに依存しない共通の検索方法で利用できるようになり、CD-ROM電子辞書の普及においては一定の役割を果たした。
だが、その後インターネットによる辞書検索サービスの立ち上げ、電子辞書専用機の普及、XMDFやドットブックなどの電子書籍フォーマットの多様化により、EPWINGのような再生専用形光ディスクによる電子出版物は、出版点数が年々減少しつつある。
規約としてのJIS X 4081の課題としては、規格制定から時間を経過したため、新しい技術トレンドの取り組みがなされていない点がある。
- 文字コードがJIS X 0208(新JIS/97JIS)に限られており、JIS X 0212(補助漢字)やJIS X 0213(JIS2000)で拡張された文字や、Unicodeを利用することができない。このため多言語の辞書の実装が困難、または不可能である。また書籍定義文字(外字)の個数に上限(半角・全角:各 94区 x 94点 = 8,836 文字)があるため、諸橋大漢和辞典のように膨大な文字種を持つ辞書は実現不可能である。
- 書籍定義文字のマッピングが書籍毎に互換性がないため、他の辞書・アプリケーションとの相互運用性に欠ける。また、書籍定義文字を含む文字列をクリップボード経由で他のアプリケーションに受け渡すと、書籍定義文字が欠けたり文字化けしたりする。
- 書籍定義文字がビットマップのパターンで定義されるため、文字を拡大しても崩れないアウトラインフォントが主流となった今日のPCでは見劣りがする。
- 利用できる図版、音声などのマルチメディアデータの種類が規約で定められているが、規約にないマルチメディアデータ(例:mp3, png など)を利用できない。
- 表示制御が基本的なものしかなく、特に表形式や系図などでは表現力が弱い。