Использование утилиты mawk (awk)

1. Назначение и Формат использования

2. Общая структура AWK-программы

Part: СТРУКТУРА AWK-ПРОГРАММЫ

1. Язык AWK

1.1 Поля

1.2 Переменные

1.2.2 Значения переменных

1.2.3 Переменные поля

1.2.4 Массивы

1.3 Арифметические выражения

2. Образцы /patterns/

2.1 Регулярное выражение

2.2 Выражение отношения

2.3 Комбинация образцов

2.4 BEGIN и END

3. Действия

3.1 Вывод /Печать/

Примеры:

1. Посчитать количество строк (input)

2. Напечатать все строки, содержащие "olga"

3. Напечатать все строки, содержащие "olga", "mike" или "mal"

4. Напечатать третье поле каждой строки

5. Напечатать сначала третье, а затем второе поля каждой строки

6. Добавить строки, содержащие "olga", "mike" или "mal" соответственно к файлам: folga, fmike, fmal

  1. Назначение и Формат использования

Утилита AWK была создана в 1977г, американскими авторами: Alfred V.Aho, Brian W.Kernighan и Peter J.Weinberger и предназначена для простых, механических и вычислительных манипуляций над данными. Довольно несложные операции часто необходимо выполнить над целыми пакетами файлов, а писать для этого программу на одном из стандартных языков программирования является утомительным и, как правило, не очень простым делом. Оптимальное решение проблемы - использование специальной утилиты AWK, включающей в себя не громоздкий и удобный язык программирования, позволяющий решать задачи обработки данных с помощью коротких программ, состоящих из двух-трех строк.

AWK сканирует input (стандартный или указываемый набор файлов), и над строками, удовлетворяющими заданному образцу, выполняет указываемые действия. Строка может содержать максимально до 256 символов.

Формат:

awk [-Fc] [-f file] [files]

awk [-Fc] [prog] [files]

prog - программа, вида: ' образец ${$действие$}$'

file - файл с AWK-программой:

образец { действие}

образец { действие}

...

files - файлы, предназначенные для AWK-обработки.

-Fc - устанавливает разделитель полей в ``с'' (См. 1.2.1 и 2.4)

2. Общая структура AWK-программы

1. Язык программирования AWK допускает использование:

Полей;

Переменных (Стандартных, Массивов);

Арифметических выражений.

2. Образец:

Регулярное выражение;

Выражение отношения;

Комбинация образцов;

BEGIN и END.

3. Действие:

Последовательность предложений, разделенных ``;'' или ``\n'' (новая строка)

Предложение:

Вывод (Печать);

Присваивание;

Встроенная функция;

Управляющая структура.

СТРУКТУРА AWK-ПРОГРАММЫ

1. Язык AWK

1.1 Поля

Каждая сканируемая строка input рассматривается как состоящая из полей, разделенных разделительными символами (по умолчанию - пробел).

На поля можно ссылаться из AWK программы следующим образом:

$1 - Первое поле;

$2 - Второе поле;

... и так далее...

$0 - Ссылается на всю строку целиком.

Строка может содержать максимально до 100 полей.

1.2 Переменные

1.2.2 Значения переменных

Переменные могут интерпретироваться как числовые или строковые. Они принимают значения в зависимости от контекста, например:

x = 1, x воспринимается как число;

x = " ", x - строка;

x + "abc" - результат операции интерпретируется как число независимо от того, было ли х числом или строкой. Если строка не может быть интерпретирована как число ("abc"), то ее значение становится 0.

Строка может содержать максимально до 256 символов.

1.2.3 Переменные поля

Ссылки на поля $1, $2, ... могут интерпретироваться в качестве переменных, например:

$1 = "3" + $2 - первое поле принимает значение второго поля, увеличенного на 3.

$(i+1) - интерпретируется как поле, номер которого зависит от значения переменной i.

1.2.4 Массивы

Допускается использование массивов. Массивы не объявляются, а принимают значения из контекста, например:

x[NR] = $0 - элементу массива x, индексированному NR, присваивается обрабатываемая строка.

x["apple"] - элементы массива могут индексироваться не числовым значением, т.е. строкой.

1.3 Арифметические выражения

Выражение:

Переменная;

Число;

Строка;

Встроенная функция;

Выражение < Операция> Выражение.

< Операция> : "+", "-", "*", "/", "%"

2. Образцы /patterns/

2.1 Регулярное выражение

Для осуществление поиска в AWK языке допускается использование регулярных выражений, заключенных в``/ /''. Дополнения к использованию регулярных выражений, допускаемые в AWK-языке:

"( )" - Скобки допускаются для группирования;

" |" - Указание альтернативы "или";

" + " - Плюс, стоящий за регулярным выражением означает любую последовательность вхождений этого выражения, начиная с 1;

" ? " - Знак вопроса за регулярным выражением означает 0 или 1 вхождений этого выражения;

[A-Z] - Допускается сокращенная форма записи для рангов ASCII символов;

Установленный порядок выполнения операторов на одном скобочном уровне: "[] * + ? конкатенация |".

Например:

/Olga/ - Указывает на строки, содержащие Olga.

/[Oo]lga|[Mm]ike|[Mm]al/ - Указывает на строки, содержащие Olga или olga или Mike или mike или Mal или mal.

/number[0-9]/ - Указывает на строки, содержащие number0 или number1 или ... number9.

/\/.+\// - Указывает на строки, содержащие любое количество символов, больше или равное 1, заключенных в / /.

2.2 Выражение отношения

Выражение отношение может быть двух типов:

< Выражение> < Принадлежность> < Выражение>

< Выражение> < Лог. Операция> < Выражение>

Принадлежность:

~ - Содержится;

!~ - Не содержится.

Лог. Операция: < , < =, ==, !=, > =, > .

Например:

$1 ~ /[Oo]lga/ - Указывает на строки, первое поле которых содержит Olga или olga.

$1 > = "s" - Указывает на строки, начинающиеся с символа s или следующих за ним по порядку: t, u, v...

2.3 Комбинация образцов

Допускается логическая комбинация образцов с использованием следующих знаков: || - ``или'', & & - ``и'', ! - ``не''.

Последовательности образцов, соединенных одним из знаков читаются слева направо.

Комбинация: ``образец1, образец2'' указывает, что действие выполняется над строками, попадающими в указанный ранг: то есть, начиная от строки, удовлетворяющей ``образец1" и вплоть до строки, удовлетворяющей ``образец2", включая ее саму.

Например:

/02\.95/ & & ($1 !~ /\.su/ $2 !~ /\.su/) - Указывает на строки, содержащие 02.95 и не имеющие .su одновременно в первом и во втором поле.

NR == 100, NR == 200 - Указывает строки с номерами от 100 до 200.

2.4 BEGIN и END

Образец BEGIN указывает на начало input или на те действия, которые должны быть выполнены до какого бы то ни было анализа строк. Образец END указывает на конец input или на те действия, которые должны быть выполнены после обработки всех строк.

Например:

BEGIN {FS = ":"} - Устанавливает разделитель полей в ":" до начала обработки строк. Эквивалентно опции "-F:" при AWK вызове.

END { print NR } - Печатает номер последней строки input, т.е. количество обработанных входных строк.

3. Действия

3.1 Вывод /Печать/

Формат оператора печати:

PRINT [< список выражений> ] [ > < выражение1> ]

Если в списке выражения находятся через запятую, то значения этих выражений выводятся на output (печатаются) через символ-разделитель OFS (по умолчанию пробел). Если же выражения стоят через пробел, то на печати происходит их конкатенация.

Значение < выражения1> рассматривается как имя файла. Само его присутствие означает печать в файл. Если вместо ``> '' стоит ``> > '', то это означает добавление к уже существующему файлу. Можно использовать в одной программе максимально до 10 output файлов.

Оператор форматированной печати:

PRINTF формат [,список выражений] [ > выражение1]

формат: символьная строка в двойных кавычках. Идентичен формату, используемому в функции printf в языке ``С''. Формат может содержать:

обычные символы, они копируются на output.

escпоследовательности, представляющие неграфические символы, например, "\n" - новая строка.

спецификации для вывода аргументов, они следуют после символа ``%''. Число спецификаций должно быть равно числу аргументов. (Если оно меньше числа аргументов, то лишние аргументы игнорируются, если же больше - то это ошибка)

3.2 Присваивание

Оператор присваивания имеет вид:

< переменная> = < выражение>

Начальное значение переменной 0 или `` '' (пробел). Допускаются другие типы присваивания в соответствии с языком ``С'': "+=","-=","*=","/=","%=".

< переменная> ++, ++< переменная> - увеличение значения переменной на 1.

< переменная> --, --< переменная> - уменьшение значения переменной на 1.

3.3 Встроенные функции

length(arg) - Функция длины arg. Если arg не указан, то выдает длину текущей строки.

exp(),log(),sqrt() - Математические функции экспонента, логарифм и квадратный корень.

int() - Функция целой части числа.

substr(s,m,n) - Возвращает подстроку строки s, начиная с позиции m, всего n символов.

index(s,t) - Возвращает начальную позицию подстроки t в строке s. (Или 0, если t в s не содержится.)

sprintf(fmt,exp1,exp2,...) - Осуществляет форматированную печать (вывод) в строку, идентично PRINTF.

split(s,array,sep) - Помещает поля строки s в массив array и возвращает число заполненных элементов массива. Если указан sep, то при анализе строки он понимается как разделитель.

3.4 Управляющие структуры

Условное предложение:

if ( < условие> ) < предложение>

\hskip 1cm [else < предложение> ]

Предложения цикла:

while ( < условие> ) < предложение>

for (< выражение> ; < условие> ; < выражение> )

\hskip 1cm < предложение>

Например:

for(i=1; i< =NF; i++) - Аналогично циклу for в языке ``С''

for (i in array) - Цикл по элементам массива. Но элементы массива доступны в этом случае в случайном порядке.

break - Немедленный выход из цикла.

continue - Переход к выполнению следующего предложения.

next - Немедленный переход к анализу следующей строки.

exit - Выход из программы (на конец input).

# - Комментарий

Примеры:

1. Посчитать количество строк (input)

{ PRINT NR }

2. Напечатать все строки, содержащие "olga"

/olga/

3. Напечатать все строки, содержащие "olga", "mike" или "mal"

/olga\bverb mike\everb mal/

4. Напечатать третье поле каждой строки

{PRINT $3}

5. Напечатать сначала третье, а затем второе поля каждой строки

{PRINT $3 $2}

6. Добавить строки, содержащие "olga", "mike" или "mal" соответственно к файлам: folga, fmike, fmal

/olga/ {print > "folga"}

/mike/ {print > "fmike"}

/mal/ {print > "fmal"}

7. Вывести сведения о процессах, запущенных пользователем root

ps aux | mawk ‘$1 == “root”{print}’

8. Вывести сведения о многопоточных процессах

ps aux | mawk ‘index ($8,”l”)>0 {print}’

2. МЕТОДИКА ВЫПОЛНЕНИЯ

1. Подсчитать общее количество файлов (каталогов) в одном из перечисленных ниже каталогов. Каталог для подсчета количества определяется номером бригады. Имена каталогов для выполнения задания 2:

/bin, /etc, /lib, /proc, /usr, /var, /dev, /sbin, /sys, /root, /tmp, /home

2. Найти общее количество процессов, выполняющихся в системе в данный момент.

3. C помощью текстового редактора cоздать текстовый файл, содержащий набор строк вида:

С помощью утилиты grep найти строки, в которых есть цифра 7, после которой находится одна из цифр — 1, 3 или 5.

4. C помощью текстового редактора создать текстовый файл, содержащий набор строк вида:

starfish

starless

samscripter

stellar

microsrar

ascender

sacrifice

scalar

С помощью утилиты grep найти строки, начинающиеся на букву s и заканчивающиеся на букву r

5. С помощью утилиты awk подсчитать количество выполняющихся многопоточных процессов

6. С помощью утилиты awk вывести на экран количество выполняемых файлов в текущем каталоге, имя которых состоит из 5 символов.

7. С помощью утилиты awk вывести на экран количество выполняющихся процессов, которые

Бр. 1-3 -------- имеют низкий приоритет

Бр. 4-5 -------- имеют высокий приоритет

Бр. 6-7 -------- имеют символы gnome в командной строке

Бр. 8-9 -------- находятся в группе фоновых процессов

Бр. 10-12----- находятся в состоянии ожидания

Рекомендуется использовать описание работы 6.

3. ОТЧЕТ О РАБОТЕ

Готовится в письменном виде один на бригаду. Содержание отчета:

1. Командные строки, использованные при выполнении заданий 1 - 7 и результаты выполне-ния заданий (в текстовом виде или в виде снимков экрана).

4. КОНТРОЛЬНЫЕ ВОПРОСЫ

1. Вывод на экран содержимого нетекстового файла с помощью утилит hexdump и strings.

2. Конвейер и канал.

3. Фильтры.

4. Структурные единицы текста. Подсчет количества единиц текста.

5. Элементарные регулярные выражения.

6. Подсчет количества элементов текстового файла.

7. Назначение и использование утилиты awk (gawk, mawk).

Наши рекомендации