Lex

Lex
作者	エリック・シュミット、マイク・レスク（英語版）
リポジトリ	minnie.tuhs.org/cgi-bin/utree.pl?file=4BSD%2Fusr%2Fsrc%2Fcmd%2Flex;
プログラミング; 言語	C言語
対応OS	Unix
サポート状況	開発終了
種別	コマンド
	テンプレートを表示

Lex（レック、レックス）は、1975年にエリック・シュミットとマイク・レスク（英語版）によって開発された、レキシカルアナライザ（字句解析プログラム、字句解析器）を生成するプログラムである。unixにおける標準のレキシカルアナライザとなっており、POSIX標準ともなっている。コンパイラの作成のためにパーサジェネレータのyaccとともに使用されることも多い。

概要

名称

Lexはレキシカルアナライザジェネレータである。すなわちレキシカルアナライザ（字句解析プログラム、字句解析器）の生成ツールであり、Lexの名称も英語のLexical analysisからきている。

用途

字句解析はテキスト中の文字列の変換、カウント、抽出などさまざまな目的に使われ、その応用領域は、コンパイラやコンバータの作成を筆頭に、自然言語処理や簡単な整形まで幅広い。

このうち、コンパイラにおけるレキシカルアナライザの位置づけを、以下に説明する。プログラムを中間言語あるいは機械語に変換するコンパイラは、一般的にソースを入力し構文木を出力する構文解析部(1)と、その構文木を入力し中間言語コードまたは機械語を出力するコード生成部(2)からなる。

コンパイラ
　├構文解析部(1)
　│　├字句解析器(1.1)　←〔ソース〕
　│　│呼出し↑↓
　│　│　　　↑〔トークン列〕
　│　│　　　↑↓
　│　└構文解析器(1.2)
　│　　　　　↓
　│　　〔構文木〕
　│　　　　　↓
　└コード生成部(2)　　　→〔中間言語コードまたは機械語〕

このうち(1)の前半は、ソースを入力しトークン（語彙素）列を出力する字句解析器（レキシカルアナライザ、トークナイザ、スキャナ）(1.1)である。後半は、そのトークン列を入力し、構文規則にしたがって構文解析をし、構文木を出力する構文解析器（パーサ、パーザ）(1.2)である。 (1.1)のレキシカルアナライザを生成するのが、レキシカルアナライザジェネレータである。

機能概要

構文解析器(1.2)に解析を数字や英字や空白などの1文字単位で行わせると、複雜になりすぎる。しかし、人間が英文から英単語や数字などの記号列を、区切り文字（たとえば空白、タブ、改行、コンマ、終止符、カッコ）やその列を目印に抽出して、意味を判断しているのと、同様の発想ができる。すなわち、区切り記号列でソースを切っていくと、「print」のような語、「1999」のような10進数、「"Hello, world"」といった文字リテラル、「++」といった演算子、「}」や「;」など意味のある区切り文字など、各種の文字列が取り出せる。これをトークンという。ここまでの下位の文法処理を上記字句解析器(1.1)に行わせ、一方、構文解析器(1.2)はトークンから出発して句、文、ブロック、プログラムなどを認識する上位の文法処理に専念させる。この分業化により、それぞれの定義と処理を簡潔にできる。

この字句解析器(1.1)の合理的な開発を目的とし、機械可読にした規則定義を与えれば字句解析器を自動生成してくれる便利なツールがレキシカルアナライザジェネレータであり、LexやFlexなどがそれに属する。

〔規則定義〕
　　↓
レキシカルアナライザジェネレータ（Lex, Flexなど）
　　↓
〔字句解析器(1.1)〕

同様に、構文解析器(1.2)の合理的な開発を目的とし、構文規則定義を与えれば構文解析器を自動生成してくれる便利なツールとして、Yacc(Yet Another Compiler Compiler)などのパーサジェネレータ（コンパイラコンパイラ）がある。

構文解析器ジェネレータとの関係

Yaccなどの構文解析器生成ツールを利用するなら、Lexに字句文法定義を与えて生成させたC言語ソースである字句解析器が（Yaccがトークンをユーザから得るための）yylex関数を含んでいるので、CコンパイラでYacc出力と一緒にこれをリンクして組み込む。これにより、ソーステキストの字句解析と構文解析を両方行って、規則のアクション部（あるいはさらにそれに呼ばれるユーザ作成のC言語関数）に書かれた計算の結果や、コンパイルの生成に使われる抽象構文木の構造体データ、あるいは各種表示が出力される変換プログラムが完成する。

YaccとLexはよく似た文法定義をもち、セットで使われ、セットで解説されることが多い。LexとYaccの機能はIEEE POSIX 1003.1-2008（かつては1003.2）で標準化されている^[1]。

配布と派生、改良

YaccはほとんどのUNIXシステムで、デフォルトのレキスカルアナライザジェネレータとして利用可能だった。 Lexは多くのシステム、多くのプログラミング言語に移植されている。たとえばJava言語による字句解析器を生成するLex系ツールに、JLex、それを書き直したJFlexがある。このJFlexとJava言語用構文解析器CUPと組みあわせて用いることも行われている^[2]。

Lexと同等の機能を有し性能が改善されているFlex(英語版)というものもある^[3]が、開発者がLexの開発者とは別人のen:Vern Paxsonであり、ライセンスもLexが Plan 9: MIT Licenseなのに対しFlexのほうはBSDライセンスであり、つまりは全く別のソフトウェアであり、しっかり区別したほうがよい。

Flexについては別記事　Flex (字句解析器・生成器)（英語版）　を立ち上げ、そちらで説明すること。

Lex のファイル構造

Lexのファイル構造は意識的にyaccのそれに似せて定義されている。ファイルは3つの部分に分割されており、それぞれ定義領域、規則領域、Cコード領域である。各領域はパーセント記号2つ(%%)のみを含んだ行で区切られる。

定義領域は正規表現を用いてマクロを定義するところであり、かつCのヘッダーファイルを取り込む場所でもある。

規則領域は最も重要な領域でありCの命令との関連付けを行う。Lexの規則と一致するパターンがあるとそれに関連付けされたCコードを実行する。

Cコード領域には生成したソースにそのままコピーされるCの命令や関数が含まれている。これらの命令は規則領域での規則により呼ばれたコードを含む場合もある。大規模なプログラムではここに分割しておきコンパイル時にリンクするほうが便利である。

Lexの正規表現

通常の正規表現の特殊文字にくわえ、「"」「/」「%」「(」「)」「+」「/」「<」「>」「?」「{」「|」「}」も特殊文字である
行頭の「%」は、上述のように領域を区切ったり、Lex特有の指示をあたえるために使う
文字クラス、否定文字クラスの内側で「\」が特殊文字になる
陽に指定したときを除いて、否定文字クラスは、改行にも照合する
「"」で引用できる。引用の終了も「"」
「パターン{最少,最多}」や「パターン{回数}」でパターンの繰返し回数を指定できる (Grepの拡張正規表現と同じ)
「+」は「{1,}」の、「?」は「{,1}」の、それぞれの省略形である (Grepの拡張正規表現と同じ)
「|」で択一できる。「(」と「)」で範囲を広げて指定できる (Grepの拡張正規表現と同じ)
「\b」「\f」「\n」「\r」「\t」「\v」「\8進数」は、Cの文字定数の定義と同じ
「<開始条件>正規表現」で、指定の名前の開始条件にあるときの正規表現だけに照合できる。開始条件は、コンマで区切って複数指定できる
「r/s」は、正規表現「s」の後続する正規表現「r」を表わす。アクションで参照できるのが「r」のみになるところが、重要である
「{名前}」で、定義領域で定義した名前のマクロに展開される

脚注・出典

^ POSIX 1003.1-2008 - IEEE（有料）
^ Theory of Compilation -- JLex, CUP tools --(PDF) - by Haifa Univ. Bilal Saleh
^ Flex The Lexical Scanner Generator - G. T. Nicol（日本語訳）

外部リンク

字句解析（日本語）- Oracle Documentation プログラミングユーティリティ第2章、

特にlex と yacc の併用

Lex Online Manual - 作者 M. E. Lesk and E. Schmidt （英語）
Lex & Yacc Tutorial - Tom Niemann epaperpress.com（英語）
Cコンパイラ設計(yacc・lexの応用)G・フリードマン著、矢吹道郎ら訳、竹本浩OCR復刻
字句スキャナ生成プログラム Flex 2.3.7、1.03版 1993年2月（日本語訳）- 原著 G. T. Nicol、

特にFlex と Lex

[1] POSIX 1003.1-2008 - IEEE（有料）

[2] Theory of Compilation -- JLex, CUP tools --(PDF) - by Haifa Univ. Bilal Saleh

[3] Flex The Lexical Scanner Generator - G. T. Nicol（日本語訳）

[1]

[2]

[3]

表話編歴 Unix コマンド
ファイルとファイルシステム管理	cat chattr（英語版） chmod chown chgrp cksum cmp cp dd du df（英語版） file fsck fuser（英語版） ln ls lsof mkdir mount mv pax pwd rm rmdir size split tee touch type（英語版） umask（英語版）
プロセス管理	at bg chroot cron fg kill killall nice pgrep pidof pkill ps pstree（英語版） reboot shutdown time top
ユーザ管理/環境	clear env exit finger history（英語版） id logname（英語版） mesg passwd su sudo uptime talk tput（英語版） uname w wall who whoami write
テキスト処理	awk banner basename comm（英語版） csplit（英語版） cut diff dirname ed ex（英語版） fmt fold（英語版） head iconv join（英語版） less m4 more nkf nl paste（英語版） patch printf（英語版） read（英語版） sed sort spell（英語版） strings tail tr troff uniq vi wc xargs yes
シェルビルトイン	alias cd echo test（英語版） unset wait
通信	dig host（英語版） ifconfig inetd ip (iproute2) netcat netstat nslookup ping rdate（英語版） rlogin route ssh traceroute
検索	find grep locate（英語版） whatis（英語版） whereis（英語版）
マニュアル	apropos（英語版） help（英語版） man
ソフトウェア開発	ar ctags lex make nm strip（英語版） yacc
その他	bc dc cal date expr false lp（英語版） lpr od sl sleep stty true tty
Category:UNIXのソフトウェア UNIXユーティリティの一覧

概要

名称

用途