词法格式¶

字符¶

文本格式为源代码赋予含义，源代码由一系列字符组成。假设字符表示为有效的Unicode（第 2.4 节）标量值。

\begin{array}{r} \begin{array}{llll} source & ::= & {char}^{*} \\ char & ::= & U + 00 | \dots | U + D 7 FF | U + E 000 | \dots | U + 10 FFFF \end{array} \end{array}

注意

虽然源代码可以在注释或字符串字面量中包含任何 Unicode 字符，但语法规则的其余部分仅由 7 位ASCII Unicode 子集支持的字符构成。

标记¶

源代码中的字符流从左到右被划分为一系列标记，如下面的语法定义所示。

\begin{array}{r} \begin{array}{llll} token & ::= & keyword | u N | s N | f N | string | id | ‘ (’ | ‘) ’ | reserved \\ keyword & ::= & (‘ a ’ | \dots | ‘ z ’) {idchar}^{*} (if occurring as a literal terminal in the grammar) \\ reserved & ::= & (idchar | string)^{+} \end{array} \end{array}

标记根据最长匹配规则从输入字符流中形成。也就是说，下一个标记始终由词法语法识别的最长可能的字符序列组成。标记可以由空白分隔，但除了字符串之外，它们自身不能包含空白。

关键字标记是隐式定义的，即在终结符的字面形式中出现，例如 $‘ keyword ’$ ，在本章的语法产生式中，或者在本章中出现的显式情况下。

任何不属于其他类别的标记都被视为保留标记，并且不能出现在源代码中。

注意

定义保留标记集的效果是，所有标记都必须由括号、空白或注释分隔。例如， $‘ 0 $ x ’$ 是一个保留标记， $‘ " a " " b " ’$ 也是一个保留标记。因此，它们不被识别为两个单独的标记 $‘ 0 ’$ 和 $‘ $ x ’$ ，或分别为 $" a "$ 和 $" b "$ ，而是被禁止。标记化的这种属性不受保留标记的定义与其他标记类重叠这一事实的影响。

空白¶

空白是任何字面空格字符、格式字符或注释的序列。允许的格式字符对应于ASCII格式效果的子集，即水平制表符 ( $U + 09$ )、换行符 ( $U + 0 A$ ) 和回车符 ( $U + 0 D$ )。

\begin{array}{r} \begin{array}{llcllll} space & ::= & (‘ ’ | format | comment)^{*} \\ format & ::= & newline | U + 09 \\ newline & ::= & U + 0 A | U + 0 D | U + 0 D U + 0 A \end{array} \end{array}

空白的唯一作用是分隔标记。否则会被忽略。

注释¶

注释可以是行注释，以双分号 $‘;; ’$ 开头，一直延伸到行末，也可以是块注释，用分隔符 $‘ (; ’ \dots ‘;) ’$ 括起来。块注释可以嵌套。

\begin{array}{r} \begin{array}{llcllll} comment & ::= & linecomment | blockcomment \\ linecomment & ::= & ‘;; ’ {linechar}^{*} (newline | eof) \\ linechar & ::= & c : char & (if c \neq U + 0 A \land c \neq U + 0 D) \\ blockcomment & ::= & ‘ (; ’ {blockchar}^{*} ‘;) ’ \\ blockchar & ::= & c : char & (if c \neq ‘; ’ \land c \neq ‘ (’) \\ | & ‘; ’ & (if the next character is not ‘) ’) \\ | & ‘ (’ & (if the next character is not ‘; ’) \\ | & blockcomment \end{array} \end{array}

这里，伪标记 $eof$ 表示输入的结束。对 $blockchar$ 产生式的前瞻限制使语法消歧，以便只允许块注释分隔符的良好括号用法。

注意

任何格式和控制字符都可以在注释中使用。