マークアップ言語

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索
SGMLで定義されたマークアップ言語がオックスフォード英語辞典の電子版を記述するのに利用されている。これによって、HTMLへの変換が容易となるだけでなく、高度なクエリの実行が可能となる。

マークアップ言語(マークアップげんご、: markup language)はコンピュータ言語の一種で、文章の構造(段落など)や見栄え(フォントサイズなど)に関する指定を文章とともにテキストファイルに記述するための言語である。文章に対するそれらの指定をマークアップと呼び、マークアップを記述するための文字列タグと呼ぶ。

現代において最も有名なマークアップ言語は、ウェブの基盤技術の1つであるHTMLであろう。「markup」という語は英語圏の出版業界で著者、編集者、印刷者の間で指示を伝える方法を意味していた(語源を参照)。

特徴[編集]

マークアップ言語には様々なものがあるが、その多くに共通する特徴は、テキストとマークアップ命令をひとつのファイル中に混ぜることである。ここでは例としてHTMLにおける短い節を示す。

 <h1>ガンカモ科</h1>
 <p>
 ガンカモ科にはカモ、ガン、ハクチョウが含まれるが、
 それらは<em>非常に近い種であるというわけではない</em></p>

HTMLでは <このように> 山括弧で囲ってある部分がタグと呼ばれるマークアップ命令であり、それらの命令で挟まれている部分が実際の文書内容である。この例では、「ガンカモ科」の部分がh1要素の有する意味をもっていることを示す。

分類[編集]

マークアップ言語は一般的に3つに分類される。視覚マークアップ、手続きマークアップ、意味マークアップである。

視覚マークアップ[編集]

視覚マークアップとはテキスト中の「手掛かり」から文書構造を推論しようという試みである。例えば、テキストファイルでは文書のタイトルの前にいくつか改行を入れたり、スペースを空けたりすることがあり、これらは行送りの調整や中央寄せを暗示している。ワードプロセッサデスクトップパブリッシングソフト、いくつかのテキストエディタにはその種の慣習から構造を推論するものがある。しかし、ウィキにおけるその種の(プレインテキスト上の)慣習が非常に多数に上ることが示すように、これは今もって解決されていない問題である。

手続きマークアップ[編集]

手続きマークアップもまたテキストの見栄えを問題にしているが、視覚マークアップがユーザにとって暗黙的であったのに対し、テキストファイルを編集しているユーザにとって明示的なものである。手続きマークアップはファイル中の出現順で処理系に解釈される。タイトルの書式を整えるために、書式指定の命令(ディレクティブ)をタイトル文の直前にずらずらと並べて、処理系に中央揃えモードに移り、そして書体を大きくボールドにさせる、などの指示を出す。タイトル文の後にはそれらの効果を打ち消す命令が並ぶことになる。マクロスタックモデルなどのより高度なシステムならば、この煩わしさは軽減される。たいていの場合、手続きマークアップの能力はチューリング完全プログラミング言語に相当する。手続きマークアップの処理系の例としては、nroff、troffTeXLoutがある。

意味マークアップ[編集]

意味マークアップは必ずしも特定の見栄えなどの処理上の意味を与えることなく、テキストの断片に印を付けていくものである。例えば、ウェブサイトの更新情報を記述するための Atom という言語には updated タイムスタンプを印すマークアップがあり、情報項目が最後にいつ更新されたのかを発行者が表明するのに使われる。Atom の規格では updated の意味するものについて論じており、そのマークアップ形式についても規定されているが、それがユーザに対してどのように表示されるのか、またそもそも表示されるべきなのかについては何の規定もない。このマークアップは処理系ごとに様々な用途に使われ、その中には Atom 言語の設計者たちが予想もしなかったものが多く含まれるだろう。SGMLXMLは意味マークアップ言語の設計を支援するために設計された仕様(メタ言語)である。

以上は概念的な分類であって、実際にはどのシステムでも別種のマークアップが共存している。例えばHTMLでは、純粋な手続きマークアップ(ボールドのためのBなど)と純粋な意味マークアップ(BLOCKQUOTEhref 属性など)が共存している。HTMLにはさらに PRE 要素があり、視覚マークアップの領域を囲んで、テキストをタイプしたとおりに表示させることもできる。

マークアップ要素とその使用に関する規則は通例、特定の企業やコミュニティごとの様々な種類の文書に対応するため、標準化団体によって開発される。最初期の例としては CALS があり、アメリカ軍で技術マニュアルに利用されていた。すぐに大規模文書を管理する必要のある企業がこれに続きだし、航空機、電気通信、自動車、コンピュータハードウェアのマニュアル用のタグ群が開発された。これはこの種のマニュアルの多くが電子的に配布されるきっかけとなり、企業は1つの(意味マークアップによる)オリジナルから印刷物、オンライン、CD版などを作り出すことができた。特筆すべき例はサン・マイクロシステムズであり、ジョン・ボサック英語版がSGMLを複数媒体向けの文書配布に採用し、大幅なコスト削減を達成した。

現在では多くのマークアップ言語が存在する。よく知られたものでも DocBookMathMLSVGOpen eBookTEIXBRLなどがある。多くはテキストのためのものだが、その他の用途で使われる専門化された言語もある。

汎用マークアップとは意味マークアップの別名である。現在のほとんどの意味マークアップシステムは文書を木構造に構造化する。また同時に、文書の一部分を文書内の他の箇所から参照する(クロス・リファレンス)手段を提供している。構造化によって、ソフトウェアが文書構造を(BLOBではないものとして)把握することができ、文書はデータベースとして扱うことが可能になる。関係データベースが持っているような厳格なスキーマを持たないので、「半構造化データベース」と呼ばれる。

2000年を過ぎたころから、木構造以外の文書構造に関する大きな関心が現れてきた。例えば、古代の宗教文学では文献構造(本、章、節、文)以外にも、修辞構造散文構造が広く用いられる(ストーリー引用章句段落、など)。これらの文書単位は文中でたびたび交差するので、簡単には木構造のマークアップシステムでデータ化することはできない。このような構造をサポートする文書モデリングシステムにはMECS[1]TEI Guidelines の一部、LMNLCLIX、などがある。

意味マークアップの第一の長所はその自由度だとみなされている。テキストの断片が「どのように表示されるべきか」ではなく「何であるか」と印されていたなら、その言語の設計者が予想もしていなかった便利な用途でその断片を処理する処理系が作られるかもしれない。例を挙げると、HTMLのハイパーリンクは、元々、リンクをたどる人の手で利用されるために設計されたが、検索エンジンによって、インデックスするべき新しいリソースを発見するため、またウェブ上のリソースの人気を測るためにも利用されている。

意味マークアップはまた、必要になったときに文書の見栄えを変更する作業も単純化する。これは文書の見栄えと内容が密接に結びついていないからである。例えばイタリック(斜体)を強調と外国語であることを示すために使うとする。ここで両方が単にイタリックと(視覚的にまたは手続き的に)マークアップされたなら、両者を選り分けることが困難になる。もし、あとから外国語をイタリックにしないと決め直したら、全てのイタリック部分を見直して、ひとつずつ選り分けるしか方法がない。しかし始めから、両者が別のタグでマークアップされていたのなら、互いに干渉しあうことなく、見栄えの変更ができるようになる。

歴史[編集]

語源[編集]

「マークアップ」[2]という用語は、英語圏で伝統的な出版の作業過程である原稿の「マーキング・アップ」[3]という作業から派生した。「marking up」とは、原稿用紙の余白に印刷に関する指示の記号を書き加えることである。「マークアップ・マン」[4]や校正者と呼ばれる専門家が、文章の各部分にどんなスタイル、書体、サイズを適用すべきかなどを記して組版の担当者に原稿を渡すという作業が、何世紀にもわたって行われていた。(校正記号についての詳細は「校正」の項目にある。)

初期[編集]

マークアップ言語のアイデアは、1967年のある会議で、アメリカ出版界の大物であったウィリアム・W・タニクリフ英語版によって「汎用符号」[5]という名で、おそらく最初に発表された[6]。彼はその後にGenCodeジェンコードと呼ばれる標準仕様の策定において出版業界で中心的な役割を果たしたとされる。1960年代末に、本のデザイナーであったスタンレイ・フィッシュ[7]もまた類似したアイデアを発表している。ブライアン・リードは、1980年カーネギーメロン大学の学位論文において、実用となる意味マークアップシステムの理論と実装を開発した。

しかしながら、IBMの研究者であるチャールズ・ゴールドファーブが現在では広く「マークアップ言語の父」として知られている。ゴールドファーブはGMLの開発で大きな役割を果たし、そして、初めて広く使われた意味マークアップシステムであるSGMLを開発したISOの委員会で議長を務めた。ゴールドファーブは、正確な日付は記録にないが、新聞のワークフローの電算化に関する初期のプロジェクトで働いているときに、その基本的なアイデアを思いついた。後にタニクリフとフィッシュの発表を知り、またリードの話をその初期に聞いたことで、彼の興味にさらに火が付くこととなった。

意味マークアップの初期の歴史の詳細については激しく議論されているということを述べねばならない。しかし、その概念が1970年代中に(60年代末期も含む可能性がある)何度か独立に発明されているのは確かであり、80年代の末には業務の重要な一部となった[要出典]

出版業界の外部で利用可能な初期のマークアップ言語の例にはUNIX上の組版ソフトウェアである、troffnroffがある。これらのシステムでは書式指定命令は文書のテキストの中に挿入され、組版処理系はテキストを利用者の指定どおりに出力することができた。これは正しく印刷された文書を得るためのトライアンドエラーの反復的な過程であった。WYSIWYGウィズィウィグを実現したDTPソフトウェアの登場によって、カジュアルユーザーのほとんどはこれらの言語から離れていったが、高度な出版の現場ではテキストの不可視構造を指定するために未だマークアップを利用している。

TeX[編集]

TeXのロゴ

出版におけるもう1つの主要な標準はTeXである。TeXドナルド・クヌースが開発し、1970年代から80年代にかけて継続的に改良した。TeXは数学書を業務品質で組むためのテキストやフォントに関する綿密なレイアウト機能を目標としている。この目標のため、クヌースはかなりの時間を組版技術の調査に費やさねばならなかった。TeXはユーザーに高いスキルを要求するため、主に学術分野で使われ、理数系の出版物・論文などの一部ではデファクトスタンダードとなっている。TeXのマクロパッケージであるLaTeXTeX上で意味マークアップシステムを構築しており、広く用いられている。

SGML[編集]

構造と見栄えを明確に区別した最初の言語はブライアン・リードが開発し、1980年に彼の博士論文で述べているScribeスクライブであった[8]Scribeは多くの点で画期的であり、マークアップされた文書からスタイルを分離するというアイデアだけではなく、意味要素の使用を統制する文法(一種のスキーマ)をも持っていた。ScribeGML(後のSGML)の開発に影響を与え、またHTMLやLaTeXの直接の祖先ともなった。

1980年代の初期に、マークアップは文書の構造面に専念し、視覚的な表現に関しては処理系に任せるべきだ、という思想によってSGMLが誕生した。この言語はゴールドファーブが議長を務める委員会によって策定され、複数の研究・プロジェクト(GenCode など)から成果を取り込んでいた。シャロン・アドラー[9]やアンデルス・ベルクルント[10]、ジェームズ・D・メイソン[11]も委員会の主要メンバーであった。

SGMLは文書にマークアップを含める構文や、どんなタグがどこで使えるのかなどを記述する構文(DTD)を規定していた。これによって、文書作成者は望むマークアップを、最も意図に近いものや母語で名前が付いているものなど、何でも作成し、利用することができた。それゆえ、SGMLは正しくはメタ言語であり、多くの具体的なマークアップ言語がそれから派生していった。80年代から現在に至るまで、ほとんどの新しいマークアップ言語はSGMLに基づいたものであった。TEIDocBookなどがその例である。SGMLは1986年にISO 8879として国際標準になった。

SGMLは非常に大きな規模の文書を扱う現場で広く受け入れられ、利用された。しかしながら、一般的には覚えるのが煩わしくて難しいとみなされている。これは多彩すぎる機能と高すぎる柔軟性を実現した副作用である。複雑な仕様の例として、SGMLでは終了タグ(または開始タグかその両方)が文脈によって省略可能となっているが、これは過労気味の入力作業員がマークアップを手動で行うような場合にキーストロークの節約が望まれている、との配慮によるものである。

HTML[編集]

HTMLのソースコード例

1991年になると、SGMLが商用のデータベース用途にしか使われない傾向が強くなってきた。一方、(文書をプロプライエタリなバイナリフォーマットで保存する)WYSIWYGツールがその他の文書処理用途では受け入れられていた。

この状況が変化したのは、欧州原子核研究機構に在籍していたティム・バーナーズ=リーが同僚のアンデルス・ベルクルントたちからSGMLの存在を知り、SGMLの構文を使ってHTMLを作ったときである。HTMLは他のSGMLベースのタグ言語とよく似ているが、よりシンプルなものとして誕生し、当初は形式的なDTDを持っていなかった。スティーブン・J・デローズ[12]はHTMLによる意味マークアップの使用が、ウェブに柔軟性と拡張性をもたらし、その成功の有力な要因となったと主張している[13](その他の要因にはハイパーリンクの概念やブラウザの無料配布などがある)。現在、HTMLはおそらく世界で最もよく使われているマークアップ言語であろう。

しかしながら、HTMLがマークアップ言語であるという事実については異論を唱える研究者もいる。その異論とは、HTMLはタグの配置を制限しており、タグに他のタグの内に入れ子になることと文書のルートタグになることの両方を要求している、というものである。このため、そのような研究者たちはHTMLは階層型データモデルに従う「コンテナ言語」ではないかと述べている。

XML[編集]

もうひとつの、現在広く利用されているマークアップ言語はXMLである。XMLはW3Cの、ジョン・ボサックが立ち上げ、議長を務めた委員会によって開発された。XMLの主目的は対象をインターネット上の文書に特化することで、SGMLを単純化したサブセットを作ることである[14]。XMLはSGMLと同じようにメタ言語である。また、利用者が必要な要素を追加したり、名前空間を使って複合文書を作ったりして拡張することが容易にできる。

名前空間などを用いないXML文書はSGML文書でもあるため、XMLへの乗り換えはそれほど困難でなく、既存のSGMLの利用者およびソフトウェアは比較的容易にXMLに移行することができた。XMLはSGMLの多くのより複雑な機能を省いており、学習や実装を容易にしている。他の改良点には、多言語環境でのSGMLの問題点を修正したことや、スキーマがない文書でも利用を可能にしたことなどがある。

XMLはそもそも文書や出版物などの半構造データのために設計されたものである。しかしながら、その単純さと柔軟性のバランスの良さから、他の用途でも急速に受け入れられていった。例えば、アプリケーション間でデータをやりとりするために利用されたり、アプリケーションの設定ファイルの構造として利用されたりもしている。

XHTML[編集]

2000年の1月から、HTMLについてのすべてのW3C勧告は、SGMLではなくXMLに基づいたものになり、XML で HTML と等価のマークアップができる XHTML[15] が制定された。

HTMLとXHTMLとの違いで顕著なもののひとつは、すべてのタグを閉じなければならないことである。<br>のような「空の」HTMLタグは「閉じる」必要がある。XHTML 1.0 勧告内の「Appendix」の章にある「HTML Compatibility Guidelines[16]では、<br />のように要素名の後に空白文字と斜線を入れて閉じる形を推奨している。ほかには、開始タグ内の属性値はすべて引用符で囲わなければならないという点がある。また、HTMLとは異なり、大文字と小文字は厳密に区別される。

他の用途での利用[編集]

マークアップ言語のアイデアはテキスト文書に関するものとして生まれたが、ベクターグラフィックスウェブ・サービスウェブシンディケーションセマンティック・ウェブユーザーインタフェースなどの分野での利用も増えている。これらのほとんどはXMLのアプリケーションである。XMLを使用することで、複数のマークアップ言語を合成することが可能となる。例としては、XHTML+SMILXHTML+MathML+SVGがある。

脚注[編集]

[ヘルプ]
  1. ^ ウィトゲンシュタインの作品を電子化するために開発された。
  2. ^ : markup
  3. ^ : marking up
  4. ^ : markup men
  5. ^ : generic coding
  6. ^ Charles F. GoldfarbThe SGML Handbook」567ページ。ISBN 0198537379
  7. ^ : Stanley Fish
  8. ^ Reid, BrianScribe: A Document Specification Language and its Compiler」カーネギー・メロン大学、Technical Report CMU-CS-81-100
  9. ^ : Sharon Adler
  10. ^ スウェーデン語: Anders Berglund
  11. ^ : James D. Mason
  12. ^ : Steven J. DeRose
  13. ^ スティーブン・J・デローズ「The SGML FAQ Book」クラワー・アカデミック出版、1997年。ISBN 0-7923-9943-9
  14. ^ http://www.w3.org/TR/2004/REC-xml11-20040204/ Extensible Markup Language (XML)
  15. ^ Extensible Hypertext Markup Language」の略。
  16. ^ http://www.w3.org/TR/2000/REC-xhtml1-20000126/#guidelines

関連項目[編集]

外部リンク[編集]