Лексичний аналіз в мовних процесорах

Призначення: перетворення вхідного тексту програми з формату зовнішнього представлення в машинноорієнтований формат – послідовність лексем.

Лексема – це ланцюжок літер елементарний об’єкт програми, що несе певний семантичний зміст. В подальшому кожну лексему будемо представляти як пару

(<клас_лексеми, ім’я_лексеми>)

В більшості мов програмування для визначення класів лексем достатньо скінчених автоматів.

Скінчені автомати

Означення: Недетермінований скінчений автомат – це п’ятірка

М = < Q, S, d, q0, F>, де

- Q = {q0, q1, .. , qn-1} – скінчена множина станів автомата;

- S = {a1, a2, .., am} – скінчена множина вхідних символів (вхідний алфавіт);

- q0 Î Q – початковий стан автомата;

- d – відображення множини Q*S в множину P(Q). Відображення d як правило називають функцією переходів;

- F Í Q – множина заключних станів. Елементи з F називають заключними або фінальними станами.

Якщо М – скінчений автомат, то пара (q, w) Î Q*S* називається конфігурацією автомата М. Оскільки скінчений автомат – це дискретний пристрій, він працює по тактам. Такт скінченого автомата М задається бінарним відношенням |= , яке визначається на конфігураціях:

(q1,aw) |= (q2,w) , якщо d(q1, a) містить q2 та для всіх w Î S*.

Означення. Скінчений автомат М розпізнає (допускає) ланцюжок w, якщо

(q0, w) |=* (q, e) для деякого q Î F, де

|=* - рефлексивно-транзитивне замикання бінарного відношення |= .

Означення. Мова, яку допускає автомат М (розпізнає автомат М)

L(M)={ w | w Î S* та (q0, w) |=* (q, e) , q Î F }

На практиці, при визначенні скінченого автомата М, використовують декілька способів визначення функції d, наприклад:

- це табличне визначення d;

- діаграма проходів скінченого автомата.

Табличне визначення функції d - це таблиця М(qi,aj), де aj Î S,qi Î Q, тобто

М(qi,aj) = { qk | , qk Î d( qi,aj ) }

Діаграма переходів скінченого автомата М - це невпорядкований граф G(V, P), де V – множина вершин графа, а P – множина орієнтованих дуг, причому з вершини qi у вершину qj веде дуга позначена ak , коли qjÎd( qi,ak ). На діаграмі переходів скінченого автомата це позначається так:

ak

Лексичний аналіз в мовних процесорах - student2.ru Лексичний аналіз в мовних процесорах - student2.ru

Лексичний аналіз в мовних процесорах - student2.ru qi qj

Лексичний аналіз в мовних процесорах - student2.ru В подальшому, на діаграмі переходів скінченого автомата М елементи з множини заключних станів будемо позначити так: qi.

Приклад 1. Побудуємо діаграму переходів скінченого автомата М, який розпізнає множину цілочислових констант мови С.

Лексичний аналіз в мовних процесорах - student2.ru Лексичний аналіз в мовних процесорах - student2.ru U, u

Лексичний аналіз в мовних процесорах - student2.ru Лексичний аналіз в мовних процесорах - student2.ru Лексичний аналіз в мовних процесорах - student2.ru 1,.., 9 L, l

Лексичний аналіз в мовних процесорах - student2.ru

Лексичний аналіз в мовних процесорах - student2.ru Лексичний аналіз в мовних процесорах - student2.ru Лексичний аналіз в мовних процесорах - student2.ru Лексичний аналіз в мовних процесорах - student2.ru Лексичний аналіз в мовних процесорах - student2.ru Лексичний аналіз в мовних процесорах - student2.ru

1,.., 9 U, u L,l

 
  Лексичний аналіз в мовних процесорах - student2.ru

Лексичний аналіз в мовних процесорах - student2.ru Лексичний аналіз в мовних процесорах - student2.ru Лексичний аналіз в мовних процесорах - student2.ru Лексичний аналіз в мовних процесорах - student2.ru Лексичний аналіз в мовних процесорах - student2.ru Лексичний аналіз в мовних процесорах - student2.ru q0 0,.., 7

Лексичний аналіз в мовних процесорах - student2.ru L, l U, u

Лексичний аналіз в мовних процесорах - student2.ru Лексичний аналіз в мовних процесорах - student2.ru Лексичний аналіз в мовних процесорах - student2.ru Лексичний аналіз в мовних процесорах - student2.ru Лексичний аналіз в мовних процесорах - student2.ru Лексичний аналіз в мовних процесорах - student2.ru 0 0,.., 7

U, u L, l

Лексичний аналіз в мовних процесорах - student2.ru

 
  Лексичний аналіз в мовних процесорах - student2.ru

Лексичний аналіз в мовних процесорах - student2.ru A,.., F,a,.., f, 0,.., 9

X, x

       
    Лексичний аналіз в мовних процесорах - student2.ru
 
  Лексичний аналіз в мовних процесорах - student2.ru

A,.. F, U, u L, l

Лексичний аналіз в мовних процесорах - student2.ru Лексичний аналіз в мовних процесорах - student2.ru a,.., f, L, l

0,.., 9 U, u

Мал. 1.

З побудованого прикладу видно, що приведений автомат не повністю визначений.

Означення. Скінчений автомат М називається детермінованим, якщо d(qi, ak) містить не більше одного стану для любого qi Î Q та ak Î S.

Твердження: Для довільного недетермінованого скінченого автомата М можна побудувати еквівалентний йому детермінований скінчений автомат М1, такий що

L(M) = L(M1).

Доведення: Нехай М – недетермінований скінчений автомат, такий що

М=< Q, S, d, q0, F>

Детермінований автомат М1=< Q1, S, d1, q01, F1> побудуємо таким чином:

1. Q1 = P(Q), тобто імена станів автомата М1 – це підмножини множини Q.

2. q01= { q0 }, { q0 } Î P(Q).

3. F1 складається з усіх таких підмножин S Î P(Q), таких що S Ç А ¹ Æ.

4. d1(S, a) = {q | q Î d(qi, a), qi Î S }.

Доведемо індукцією по i, що (S,w) |=i (S1,e), тоді і тільки тоді, коли

S1= { q | (qi, w) ) |=i (q, e), для qi Î S } ,

Зокрема, ({q0}, w) |=* (S1, e ), для деякого S1 Î F1, тоді і тільки тоді, коли

(q0, w) |=* (q, e ), q Î F. Таким чином, L(M) = L(M1).

Побудований нами автомат М має дві властивості: він детермінований та повністю визначений. До того ж кількість станів цього автомата 2n – 1.

Наши рекомендации