Простейшие методы построения таблиц идентификаторов

Простейший способ организации таблицы состоит в том, чтобы добавлять эле­менты в порядке их поступления. Тогда таблица идентификаторов будет пред­ставлять собой неупорядоченный массив информации, каждая ячейка которого будет содержать данные о соответствующем элементе таблицы.

Поиск нужного элемента в таблице будет в этом случае заключаться в последовательном сравнении искомого элемента с каждым элементом таблицы, пока не будет найден подходящий. Тогда, если за единицу принять время, затрачиваемое компилятором на сравнение двух элементов (как правило, это сравнение двух строк), то для таблицы, содержащей N элементов, в среднем будет выполнено N/2 сравнений.

Заполнение такой таблицы будет происходить элементарно просто – добавлени­ем нового элемента в ее конец, и время, требуемое на добавление элемента, не будет зависеть от числа элементов в таблице N. Но если N велико, то поиск потребует значительных затрат времени. Поскольку поиск в таблице идентификаторов является чаще всего выполняемой компилятором операцией, а количество раз­личных идентификаторов даже в реальной исходной программе достаточно ве­лико (от нескольких сотен до нескольких тысяч элементов), то такой способ организации таблиц идентификаторов является неэффективным.

Поиск может быть выполнен более эффективно, если элементы таблицы упоря­дочены (отсортированы) согласно некоторому естественному порядку. Если поиск будет осуществляться по имени идентификатора, наиболее естественно расположить элементы таблицы в прямом или обратном алфавитном порядке. Эффективным методом поиска в упорядоченном списке из N элементов является бинарный или логарифмический поиск. Символ, который следует найти, сравнивается с элементом (N+l)/2 в середине таблицы. Если этот элемент не является искомым, то мы должны просмотреть только блок элемен­тов, пронумерованных от 1 до (N+l)/2 – l, или блок элементов от (N+l)/2+l до N в зависимости от того, меньше или больше искомый элемент того, с кото­рым его сравнили. Затем процесс повторяется над нужным блоком в два раза меньшего размера. Так продолжается до тех пор, пока либо элемент не будет найден, либо алгоритм не дойдет до очередного блока, содержащего один или два элемента (с которыми уже можно выполнить прямое сравнение искомого элемента).

Так как на каждом шаге число элементов, которые могут содержать искомый эле­мент, сокращается наполовину, то максимальное число сравнений равно l+log2(N). Для сравнения, при N=128 бинарный поиск требует самое боль­шее 8 сравнений, а поиск в неупорядоченной таблице – в среднем 64 сравнения. Метод называют “бинарным поиском”, поскольку на каждом шаге объем рас­сматриваемой информации сокращается в два раза, и “логарифмическим” – по­скольку время, затрачиваемое на поиск нужного элемента в массиве, имеет лога­рифмическую зависимость от общего количества элементов в нем.

Недостатком метода является требование упорядочивания таблицы идентифи­каторов. Так как массив информации, в котором выполняется поиск, должен быть упорядочен, то время его заполнения уже будет зависеть от числа элемен­тов в массиве. Таблица идентификаторов зачастую просматривается еще до того, как она заполнена полностью, поэтому требуется, чтобы условие упорядоченно­сти выполнялось на всех этапах обращения к ней. Следовательно, для построе­ния таблицы можно пользоваться только алгоритмом прямого упорядоченного включения элементов.

При добавлении каждого нового элемента в таблицу сначала надо определить место, куда поместить новый элемент, а потом выполнить перенос части инфор­мации в таблице, если элемент добавляется не в ее конец.

В итоге при организации логарифмического поиска в таблице идентификаторов мы добиваемся существенного сокращения времени поиска нужного элемента за счет увеличения времени на помещение нового элемента в таблицу. Посколь­ку добавление новых элементов в таблицу идентификаторов происходит сущест­венно реже, чем обращение к ним, то этот метод следует признать более эффек­тивным, чем метод организации неупорядоченной таблицы.

Наши рекомендации