Базовые алгоритмы обработки текста
С определенной долей условности можно выделить ряд действий, которые чаще других выполняются в программах, работающих с текстовой информацией. К таким действиям можно отнести:
1. Определение общего количества символов в переменной.
2. Выделение символов.
3. Анализ символа на принадлежность к логической группе.
4. Уменьшение/увеличение текста путем удаления/ввода знаков.
5. Разделение текста на отрезки в соответствии с условием.
6. Выделение отдельного слова из текста.
7. Перестановка элементов текста.
Каждому действию соответствует группа алгоритмов, которая имеет определенную специфику приложения к разным задачам
Определение количества символов в строке
Длину текстовой переменной вычисляет функция LEN. Она возвращает числовое значение целого типа (INTEGER), которое равно общему количеству знаков в анализируемой строке.
Пример 8. Определить количество символов в переменной «Москва»
A$ = “Москва” x = LEN (A$) PRINT X Результат: 6
Функция LEN может быть частью выражения или аргументом оператора. В частности, данную программу можно записать и в одну строку:
PRINT LEN("Москва”)
В качестве аргумента функции LEN можно ввести не только одну текстовую переменную, но и выражение с несколькими переменными и специальными функциями.
Выделение символов
Необходимость выделения определенного символа или символов текстовой переменной диктуется условиями, большого количества задач. Под выделением понимают нахождение знака, вывод его на экран или любой другой вид обработки. Естественно, что выделяют знаки, удовлетворяющие определенному условию,
Алгоритмы, решающие подобные задачи, как правило, работают в два этапа: сначала выделяют очередной знак переменной, затем анализируют его на удовлетворение условию.
Поочередное выделение всех знаков переменной осуществляется в цикле с помощью функции MID$.
Пример 9. Вывести на экран буквы слова «Хорошо» по одной в каждой строке
A$ = "Хорошо" 'Задаем переменную
x = LEN(A$) 'и определяем ее длину
FOR i = 1 TO x
tmp$ = MID$(A$, i, 1) 'Присваиваем очередной значение переменной tmp$
PRINT tmp$ 'Выводим знак
NEXT i
PRINT LEN("Москва")
Результат
X
о
р
о
ш
о
Работа программы. Переменной A$ присваиваем строку символов “Хорошо”. Определяем длину слова и сохраняем это значение в переменной х. Задаем цикл, счетчик которого изменяется от 1 до х. В ходе каждой итерации цикла функция MID$ будет присваивать tmp$ очередной (i-й) символ переменной A$. При этом значение самой А$ не изменяется, то есть MID$ не вырезает знак из нее, а просто копирует и присваивает его переменной tmp$. С очередной итерацией цикла в tmp$ передается очередной знак. При i = 1 передается первый знак, при i - 2 — второй, и так далее. На то, что передастся один знак, указывает третий параметр в списке аргументов MID$.
Пример 10. Определить сколько раз встречается буква «а» в слове «абракадабра»
А$ ="абракадабра"
FOR i = 1 TO LEN(a$)
tmp$ = MID$(a$, i, 1) 'Выделяем букву
IF tmp$ = "а" THEN k = k + 1 'Сравниваем букву с "а"
NEXT i
PRINT k 'Выводим результат
Результат: 5
Работа программы. В цикле функция MID$ поочередно выделяет буквы из слова абракадабра и присваивает их переменной tmp$. В строке с оператором IF проверяется, содержит ли tnp$ букву а. Если tmp$= "a", то значение счетчика k увеличивается на 1.
Функция MID$ — не единственный инструмент выделения знаков из текстовой переменной. В некоторых случаях
Пример 11.Удалить первый и последний символ текстовой переменной.
a$ = " В Россию можно только верить." a$ = LEFT$(a$, LEN(a$) - 1) a$ = RIGHT$(a$, LEN(a$) - 1) PRINT a$
Выделение знаков, номера которых обладают определенными свойствами, происходит с использованием операторов логической передачи управления.
Пример 12. Сформировать В$, состоящую из знаков A$. порядковые номера, которых кратны N.
n = 3
a$ = "cиСтеМныЙ бЛок"
FOR i = 1 TO LEN(a$)
tmp$ = MID$(a$, i, 1)
IF i / n = i \ n THEN B$ = B$ + tmp$
NEXT i
PRINT B$
Результат: СМЙЛ!
Работа программы. Программа выделяет каждый третий знак строки A$ и прибавляет его к В$, в которой накапливается текстовая сумма выделенных знаков. Условие выбора описано в операторе IF.
Выделение логической группы
Логической группойназывают совокупность знаков, которая объединена общими свойствами. К таким группам можно отнести гласные и согласные буквы русского алфавита, буквы латинского алфавита, цифры, строчные и прописные буквы и многие другие.
Каждый алгоритм анализа символа содержи три основных действия :
1. Выделение.
2. Анализ.
3. Обработка по условию.
Анализзаключается в проверке, соответствует ли знак условию
принадлежности к логической группе. Как правило, анализ основан на сравнении выделенного знака с определенным ASCII-кодом или диапазоном номеров.
Обработкав соответствии с решаемой задачей определяет то, что нужно делать с выделенным символом или текстом в целом, и может подразумевать большой спектр действий.
Пример 13. Определить, сколько в слове «АВРОРА» русских букв А и Р.
A$ = "ABPOPA"
FOR i = 1 TO LEN(A$)
tmp$ = MID$(A$, i, 1)
IF tmp$ = "A" OR tmp$ = "P" THEN k = k + 1
NEXT i
PRINT k
Результат: 4
Приведенная программа имеет недостаток — она определяет наличие только заглавных А и Р. Если значение исходной переменной присваивается оператором INPUT, то есть вводится пользователем, то при вводе строчных букв результат будет неверным.
Пример 14. Определить к какому языку и регистру клавиатуры относится данная буква.
INPUT a$
SELECT CASE ASC(a$)
CASE 65 TO 90: PRINT " Лат.ЗАГЛАВНАЯ "
CASE 97 TO 122: PRINT "Лат. Строчная"
CASE 12 TO 159: PRINT "Русс. ЗАГЛАВНАЯ"
CASE 160 TO 175: PRINT "Русс. Строчная"
CASE 224 TO 239: PRINT "Русс. Строчная"
CASE ELSE: PRINT "НЕ является БУКВОЙ"
END SELECT
Работа программы. Алгоритм основан на использовании конструкции логической передачи управления SELECT CASE. Она анализирует ASCII-код введенного знака, который выдает функция ASC. В каждом CASE указан диапазон возможных значений, соответствующей группе букв.
Большой спектр задач выделения и анализа фрагментов строк решается с помощью функции INSTR.
Пример 15. Определить, входит ли строка В$="dow" в слово, A$ = "Windows".
INPUT A$
INPUT B$
k = INSTR(A$, B$)
IF k > 0 AND LEN(B$) > 0 THEN PRINT "Yes" ELSE PRINT "No"
END
Результат:
Yes
Работа программы. Алгоритм основан на работе функции INSTR. Результатом ее работы является целое число k равное номеру знака в А$, с которого начинается вхождение B$. Естественно, что если k больше нуля, то В$ входит в А$. Условие в операторе IF состоит из двух компонентов. В одном проверяется значение k, во втором (LEN(B$) > 0) — длина переменной В$.
Второе условие введено для того, чтобы выдать отрицательный ответ в случае ввода нулевой переменной. Иначе при В$="" значение k будет равно 1, и программа определит вхождение.
Пример 16. Определить, сколько раз B$ входит в A$.
A$ = "промышленное производство проводов"
B$="про"
i = 1
k = 0
DO
x = INSTR(i, A$, B$)
IF x > 0 THEN
i = x + LEN(B$) ' Номер начала поиска
k = k + 1 ' Счетчик вхождений
ELSE
EXIT DO ' Выход из цикла
END IF
LOOP
PRINT "всего вхождений="; k
Результат:
Всего вхождений= 3
Работа программы. Цикл DO …LOOP использован потому, что заранее неизвестно, сколько будет вхождений.
В строке i = x + LEN(B$) номер начала поиска передвигается направо. Если программа найдет первое вхождение, то нужно будет продолжить поиск с позиции, номер которого равен номеру начала вхождения плюс длина искомого слова.
В примере первое вхождение «про» в «промышленное производство проводов» начинается с первой позиции, следователь но, продолжать поиск нужно с 4-й позиции (1 + LEN(B$)=1+3=4).
Если обнаруженное вхождение нужно заменить другой строкой, то используют оператор MID$.
Пример 17. Заменить все пробелы на тире в тексте А$.
A$= "Погиб поэт! невольник чести!"
FOR i = 1 TO LEN(A$)
IF ASC(MID$(A$, i, 1)) = 32 THEN MID$(A$, i, 1) = "-"
NEXT i
PRINT A$
Результат:
Погиб-поэт!-невольник-чести!
Работа программы. В цикле поочередно выделяются знаки переменной А$. Функция ASC определяет АSCII-код знака, но в том случае, если номер равен 32 (ASCII-код пробела), оператор MID$ заменяет текущий символ знаком «минус» (тире).