Старнфордсая структура
Разработчики ставили первой целью уменьшение аппаратных затрат (РОН) вследствие чего достигается увел такт частоты.
1)Построение оптимизирующего компилятора
Его функции: а)Предотвращение (уменьшение) числа “ломок” конвейера. Конвейер ломается из-за неготовности результата выполнения предыдущей команды или при наличии команд условного и безусловного переходов. Конвейерная выборка команд дает выигрыш в производительности в основном не линейных участках программ. Чтобы конвейер не ломался компилятор должен загружать пустые команды NOP, более интеллектуальный компилятор должен менять последовательности команд (II) т.к. загр команда в конвейер все равно выполнится.
I II
2)Для оптимизации работы аппаратных ресурсов разработчики компилятора использовали метод окрашенных графов
Использование вышеуказанного подхода позволяет резко сократить число РОНов но увеличивает сложность оптимизир-го компилятор
Достоинства:
Беркл 1)Простота программ-я 2)Min число пересылок инф 3) Min число обращений к внешн ЗУ.
Старн 1)Min аппаратн затраты 2) Max тактовая частота
Недостатки:
Бекрл 1)Большие аппаратн затраты 2) Низкая тактовая частота
Старн 1) Сложность компилятора 2) Сложность прогр-я
Современные RISC проц-ры обычно испоьз от 32 до 128 РОНов. Тактовая частота 100MHz – 40-50 MHz.
Машины упр потоками данных(DF-машины)
Осн особенность таких машин отсутствие в них счетчика команд.
Машина Массачуссетского технолог ун-та
Команда выполняется тогда когда готова командная ячейка.
УУ- ч/з схему селекции отправляет в процессорный блок те командные ячейки для которых определены операнды. Предпола-гается что все команды выполняются за 1 такт.(1 инт времени)
Использование микропроцессорной машины с применением командных ячеек позволяет распараллеливать исходный алгоритм где команды выполняются по мере готовности операндов (не нужен счетчик команд).
Пример: x1,2=(-b±Ö(b2-4*a*c))/2*a
1 такт Я0 Я1 Я2 Я3
2 такт Я4
3 такт Я5
4 такт Я6
5 такт Я7,Я8
6 такт Я9,Я10
Коэфф распараллеливания Кр=11/6=1,8.
Машина управляемая по запросу- выполняет команды по мере необ
ходимости . Главная машина анализирует исходный алгоритм разбивает его на командные составляющие и поставляет запросы подчиненным машинам на формирование требуемых фрагментов алгоритма. Так же происх распараллеливание но фрагменты алго-ритма по мере выполнения возвращаются в главную машину.
Pentium
С начала 486 проц а затем и проц ряда Pentuim стали использовать эл-ты RISC арх-ры (глубокий конвейер, все команды выполняются за опр промеж времени). С переходом на Pentium для обеспечения min выполнения команд арифметики с палвающ (,) потребовалось сильно переделать СПЗ(сопроцессор) первые партии Pentuim были с ошибкой в СПЗ.
ША-32 ШД-64(внешн) ШД-32(внутр)
БФА –блок формирования адреса
СППЗ – сопроцессор с плавающей запятой
Процессор имеет суперскалярную архитектуру (закладывается параллелизм) и при тактовой частоте 66MHz процессор обепечивал производ-ть до 100млн опер/с. Внутр структура проц Гарвардская (раздельная память команд и память данных). Внешняя структура фон-Неймановская. Обращение в внешней памяти идет блоками по 4 64-разр слова для заполнения 256 разр КЭШ. Процессор имеет 2 || работающих 5-ти ступенчатых конвейера U и V. Конв U полноразмерный и на нем может выполн любая ариф и лог команда. U имеет 64-разр сдвигатель. Конв V упрощенный, предназ начен для выполнения простых команд типа сдвига,лог опер (легких). Команда из КЭШ дешефрируется (ДШК) и УУ рег-ми и микрокомандами выбирает аппаратные ресурсы необход-е для выполн данной команды, при этом команды анализирются на возможность их одновременного выполнения в U и V конв. Схема формир адр следит за тем чтобы последовательность выполнения команд не нарушалась.
В проц-ре впервые исполз схема предсказания переходов (блок ветвл переходов).В БВ хранится до 256 адресов последних переходов. Вероятность предсказания ≈10%. Принцип: если переход состоялся то в след цикле наиболее вероятно , что этот переход повторится. Это позволяет не ломать “логику” конвейера.
БФА обеспечивает формир адреса при работе с внешними модулями памяти и ВУ. Адр простр памяти и ВУ раздельное.
Проц имеет возмодность работать с КЭШ 2-го уровня который нах-ся на матер плате (в процессоре встр контроллер КЭШ памяти и встроенный контроллер Вирт памяти.)