Старнфордсая структура

Разработчики ставили первой целью уменьшение аппаратных затрат (РОН) вследствие чего достигается увел такт частоты.

1)Построение оптимизирующего компилятора

Его функции: а)Предотвращение (уменьшение) числа “ломок” конвейера. Конвейер ломается из-за неготовности результата выполнения предыдущей команды или при наличии команд условного и безусловного переходов. Конвейерная выборка команд дает выигрыш в производительности в основном не линейных участках программ. Чтобы конвейер не ломался компилятор должен загружать пустые команды NOP, более интеллектуальный компилятор должен менять последовательности команд (II) т.к. загр команда в конвейер все равно выполнится.

I II

старнфордсая структура - student2.ru

2)Для оптимизации работы аппаратных ресурсов разработчики компилятора использовали метод окрашенных графов

старнфордсая структура - student2.ru

Использование вышеуказанного подхода позволяет резко сократить число РОНов но увеличивает сложность оптимизир-го компилятор

Достоинства:

Беркл 1)Простота программ-я 2)Min число пересылок инф 3) Min число обращений к внешн ЗУ.

Старн 1)Min аппаратн затраты 2) Max тактовая частота

Недостатки:

Бекрл 1)Большие аппаратн затраты 2) Низкая тактовая частота

Старн 1) Сложность компилятора 2) Сложность прогр-я

Современные RISC проц-ры обычно испоьз от 32 до 128 РОНов. Тактовая частота 100MHz – 40-50 MHz.

Машины упр потоками данных(DF-машины)

Осн особенность таких машин отсутствие в них счетчика команд.

Машина Массачуссетского технолог ун-та

старнфордсая структура - student2.ru

Команда выполняется тогда когда готова командная ячейка.

УУ- ч/з схему селекции отправляет в процессорный блок те командные ячейки для которых определены операнды. Предпола-гается что все команды выполняются за 1 такт.(1 инт времени)

Использование микропроцессорной машины с применением командных ячеек позволяет распараллеливать исходный алгоритм где команды выполняются по мере готовности операндов (не нужен счетчик команд).

Пример: x1,2=(-b±Ö(b2-4*a*c))/2*a

старнфордсая структура - student2.ru

старнфордсая структура - student2.ru старнфордсая структура - student2.ru старнфордсая структура - student2.ru старнфордсая структура - student2.ru

старнфордсая структура - student2.ru старнфордсая структура - student2.ru старнфордсая структура - student2.ru старнфордсая структура - student2.ru старнфордсая структура - student2.ru старнфордсая структура - student2.ru старнфордсая структура - student2.ru 1 такт Я0 Я1 Я2 Я3

2 такт Я4

3 такт Я5

4 такт Я6

5 такт Я7,Я8

6 такт Я9,Я10

Коэфф распараллеливания Кр=11/6=1,8.

Машина управляемая по запросу- выполняет команды по мере необ

старнфордсая структура - student2.ru ходимости . Главная машина анализирует исходный алгоритм разбивает его на командные составляющие и поставляет запросы подчиненным машинам на формирование требуемых фрагментов алгоритма. Так же происх распараллеливание но фрагменты алго-ритма по мере выполнения возвращаются в главную машину.

Pentium

С начала 486 проц а затем и проц ряда Pentuim стали использовать эл-ты RISC арх-ры (глубокий конвейер, все команды выполняются за опр промеж времени). С переходом на Pentium для обеспечения min выполнения команд арифметики с палвающ (,) потребовалось сильно переделать СПЗ(сопроцессор) первые партии Pentuim были с ошибкой в СПЗ.

ША-32 ШД-64(внешн) ШД-32(внутр)

старнфордсая структура - student2.ru

БФА –блок формирования адреса

СППЗ – сопроцессор с плавающей запятой

Процессор имеет суперскалярную архитектуру (закладывается параллелизм) и при тактовой частоте 66MHz процессор обепечивал производ-ть до 100млн опер/с. Внутр структура проц Гарвардская (раздельная память команд и память данных). Внешняя структура фон-Неймановская. Обращение в внешней памяти идет блоками по 4 64-разр слова для заполнения 256 разр КЭШ. Процессор имеет 2 || работающих 5-ти ступенчатых конвейера U и V. Конв U полноразмерный и на нем может выполн любая ариф и лог команда. U имеет 64-разр сдвигатель. Конв V упрощенный, предназ начен для выполнения простых команд типа сдвига,лог опер (легких). Команда из КЭШ дешефрируется (ДШК) и УУ рег-ми и микрокомандами выбирает аппаратные ресурсы необход-е для выполн данной команды, при этом команды анализирются на возможность их одновременного выполнения в U и V конв. Схема формир адр следит за тем чтобы последовательность выполнения команд не нарушалась.

В проц-ре впервые исполз схема предсказания переходов (блок ветвл переходов).В БВ хранится до 256 адресов последних переходов. Вероятность предсказания ≈10%. Принцип: если переход состоялся то в след цикле наиболее вероятно , что этот переход повторится. Это позволяет не ломать “логику” конвейера.

БФА обеспечивает формир адреса при работе с внешними модулями памяти и ВУ. Адр простр памяти и ВУ раздельное.

Проц имеет возмодность работать с КЭШ 2-го уровня который нах-ся на матер плате (в процессоре встр контроллер КЭШ памяти и встроенный контроллер Вирт памяти.)

Наши рекомендации