LL(k)-Grammatik

Dieser Artikel setzt Vorkenntnisse im Bereich Theoretische Informatik und Compilerbau voraus.

Eine LL(k)-Grammatik (im Gegensatz zu LF(k)-Grammatik auch schwache LL(k)-Grammatik) ist eine spezielle kontextfreie Grammatik, welche die Grundlage eines LL(k)-Parsers bildet.

Eine kontextfreie Grammatik heißt LL(k)-Grammatik für eine natürliche Zahl k, wenn jeder Ableitungsschritt eindeutig durch die nächsten k Symbole der Eingabe (Lookahead) bestimmt ist. Das bedeutet, die Frage, welches Nichtterminalsymbol mit welcher Regel als Nächstes expandiert werden soll, kann eindeutig mit Hilfe der nächsten k Symbole der Eingabe bestimmt werden.

Generell gilt, je größer k gewählt wird, umso mächtiger wird die Sprachklasse, wobei die Ausdrucksstärke von kontextfreien Grammatiken nie erreicht wird. Damit gibt es kontextfreie Sprachen, die für kein k von einer LL(k)-Grammatik erzeugt werden.

${\mathcal {L}}(\mathrm {LL} (1))\subsetneq {\mathcal {L}}(\mathrm {LL} (2))\subsetneq \dots \subsetneq {\mathcal {L}}(\mathrm {LL} (k))\subsetneq {\mathcal {L}}(\mathrm {LR} (1))={\mathcal {L}}(\mathrm {DPDA} )$

Dabei steht DPDA für die deterministischen Kellerautomaten. Diese können genau die deterministisch kontextfreien Sprachen erkennen.

Formale Definition LL(k)-Grammatik

Eine kontextfreie Grammatik $G=(N,\Sigma ,P,S)$ ist genau dann eine LL(k)-Grammatik, wenn für alle Linksableitungen der Form

S\Rightarrow _{l}^{*}wA\gamma \Rightarrow _{l}\left\{{\begin{array}{l}w\alpha \gamma \Rightarrow _{l}^{*}wx\\w\beta \gamma \Rightarrow _{l}^{*}wy\end{array}}\right.

mit $\quad (w,x,y\in \Sigma ^{*};\alpha ,\beta ,\gamma \in (N\cup \Sigma )^{*};A\in N)$ und ${\mathit {first}}_{k}(x)={\mathit {first}}_{k}(y)^{\,}$ gilt: $\alpha =\beta ^{\,}$

Für die in der Definition benutzte Funktion zur Bestimmung der FIRST-Mengen gilt:

Anwendung

Aktuelle LL-Parser benutzen meist nur einen Lookahead von 1. Daher kann in den folgenden Ausführungen $k=1$ gesetzt werden.

Bei der praktischen Anwendung ist nur mit großem Aufwand überprüfbar, ob die vorliegende Grammatik die Definition einer LL(k)-Grammatik erfüllt. Es wird stattdessen ein abgewandelter Ansatz benutzt.

Erklärung: Das Startsymbol der kontextfreien Grammatik $S$ wurde (in eventuell mehreren Schritten) nach $wA^{\,}\alpha$ expandiert. Gemäß der Linksableitung wird das Nichtterminalsymbol $A$ als Nächstes ersetzt. Dazu gibt es in der kontextfreien Grammatik aber zwei verschiedene Regeln; $A\to \beta$ und $A\to \gamma$ . Die Frage, mit welcher Regel $A$ expandiert wird, bestimmt sich aus der Berechnung von $first_{k}\left(\beta \alpha \right)$ und $first_{k}\left(\gamma \alpha \right)$ . Um die Frage eindeutig beantworten zu können, müssen beide Mengen disjunkt sein.

Im Allgemeinen hängt $first_{k}\left(\beta \alpha \right)$ aber vom Rechtskontext $\alpha$ ab (wenn $\beta \Rightarrow ^{*}\epsilon$ ). Das Ziel ist die Bestimmung von $first_{k}\left(\beta \alpha \right)$ nur aus den Produktionen, d. h. aus $\beta$ und aus den Strings, die einem Vorkommen von $A$ folgen können. Für diesen Zweck wird die Funktion $follow_{k}\left(A\right)$ definiert, die die Menge aller $A$ folgenden Symbole berechnet.

Damit kann die eingangs geforderte Bedingung umformuliert werden:

Achtung: Dieser Satz kann auf Fälle $k>1$ nicht angewandt werden.

Die zu einer Produktion $A\to \beta$ berechnete Menge $la(A,\beta )=first_{1}\left(\{\beta \}follow_{1}(A)\right)$ wird als Lookahead-Menge bezeichnet.

Beispiel

Für die folgende Grammatik $G$ wird geprüft, ob sie eine LL(1)-Grammatik ist. Dazu müssen die Lookahead-Mengen aller Produktionen mit gleichen linken Regelseiten disjunkt sein.

G=\left(\{E,E',T,T',F\},\{a,(,), ,*\},P,E\right)

und die Menge der Produktionen ist:

E\to TE'

E'\to  TE'|\epsilon

T\to FT'

T'\to *FT'|\epsilon

F\to (E)|a

Zunächst werden die first- bzw. follow-Mengen der Nichtterminalsymbole bestimmt, da diese für die Berechnung der Lookahead-Mengen nötig sind.

Es folgt der Vergleich der Lookahead-Mengen für alle Produktionen mit gleichen linken Regelseiten.

Als erstes für die beiden Produktionen $TE'$ und $\epsilon$ von $E'\to TE'|\epsilon$

first_{1}(\{ TE'\})\cap first_{1}(\{\epsilon \})=\{ \}\cap \{\epsilon \}=\emptyset

first_{1}(\{ TE'\})\cap follow_{1}(E')=\{ \}\cap \{\$,)\}=\emptyset

Als Nächstes für die beiden Produktionen $*FT'$ und $\epsilon$ von $T'\to *FT'|\epsilon$

first_{1}(\{*FT'\})\cap first_{1}(\{\epsilon \})=\{*\}\cap \{\epsilon \}=\emptyset

first_{1}(\{*FT'\})\cap follow_{1}(T')=\{*\}\cap \{ ,\$,)\}=\emptyset

Als letztes für die beiden Produktionen $(E)$ und $a$ von $F\to (E)|a$

first_{1}(\{(E)\})\cap first_{1}(\{a\})=\{(\}\cap \{a\}=\emptyset

Da alle betrachteten Schnittmengen leer sind, handelt es sich bei der Grammatik $G$ um eine LL(1)-Grammatik.

Siehe auch

LR(k)-Grammatik
LR-Parser

Literatur

Donald E. Knuth: Top-down syntax analysis. In: Acta Informatica 1, 1971, ISSN 0001-5903, S. 79–110, (Neuabdruck einer erweiterten Fassung in: Donald E. Knuth: Selected Papers on Computer Languages. Center for the Study of Language and Information, Stanford CA 2003, ISBN 1-575-86381-2, (CSLI lecture notes 139), Kapitel 14).
LR(k)-Analyse für Pragmatiker von Andreas Kunert

g oder k

Rechtschreibung k oder ck

Lückenwörter G oder K Therapiematerial Artikulation, LRS/Dyskalkulie

k oder ck

Königspaket Rechtschreibung k oder ck? (Deutsch, 1. & 2. Klasse)