WikiDer > R10000

R10000
NEC VR10000.

В R10000под кодовым названием "T5" - это RISC микропроцессорная реализация MIPS IV архитектура набора команд (ISA) разработано MIPS Technologies, Inc. (MTI), затем подразделение Silicon Graphics, Inc. (SGI). Главные дизайнеры - Крис Роуэн и Кеннет С. Йегер. R10000 микроархитектура известен как ANDES, аббревиатура от «Архитектура с непоследовательным динамическим планированием выполнения». R10000 в значительной степени заменяет R8000 в high-end и R4400 в другом месте. MTI был полупроводниковая компания fabless; R10000 был изготовлен NEC и Toshiba. Предыдущие производители микропроцессоров MIPS, такие как Интегрированная технология устройств (IDT) и трое других не производили R10000, так как это было дороже, чем R4000 и R4400.

История

R10000 был представлен в январе 1996 года с тактовыми частотами 175 МГц и 195 МГц. Версия 150 МГц была представлена ​​в линейке продуктов O2 в 1997 году, но вскоре после этого была прекращена из-за того, что покупатели предпочли версию 175 МГц. R10000 не был доступен в больших количествах до конца года из-за производственных проблем на литейных заводах MIPS. Версия 195 МГц была в дефиците в течение 1996 года и в результате была оценена в 3000 долларов США.[1]

25 сентября 1996 г. SGI объявила, что блоки R10000, изготовленные NEC в период с марта по конец июля того же года, были неисправными, потребляли слишком большой ток и приводили к отключению систем во время работы. SGI отозвала 10 000 R10000, которые были поставлены в системах в результате, что повлияло на прибыль компании.

В 1997 году версия R10000, изготовленная по технологии 0,25 мкм, позволила микропроцессору достичь 250 МГц.

Пользователи

Пользователи R10000 включают:

Описание

Кадр NEC VR10000.

R10000 - четырехпозиционный суперскалярный дизайн, который реализует зарегистрировать переименование и выполняет инструкции вышел из строя. Его конструкция отличается от предыдущих микропроцессоров MTI, таких как R4000, который намного проще. скаляр чтобы дизайн, который в значительной степени зависит от производительности при высоких тактовых частотах.

R10000 извлекает четыре инструкции каждый цикл из своей инструкции. тайник. Эти инструкции декодируются и затем помещаются в целочисленные, с плавающей запятой или очереди инструкций загрузки / сохранения в зависимости от типа инструкции. Блоку декодирования помогают предварительно декодированные инструкции из кэша инструкций, которые добавляют пять битов к каждой инструкции, чтобы позволить блоку быстро определить, в каком исполнительном блоке выполняется инструкция, и изменить формат инструкции для оптимизации декодирования. процесс.

Каждая из очередей инструкций может принимать до четырех инструкций от декодера, избегая любых узких мест. Очереди команд выдают свои инструкции своим исполнительным блокам динамически в зависимости от доступности операнды и ресурсы. Каждая из очередей, за исключением очереди загрузки / сохранения, может выдавать до двух инструкций каждый цикл своим исполнительным блокам. Очередь загрузки / сохранения может выдавать только одну инструкцию. Таким образом, R10000 может выдавать до пяти инструкций за каждый цикл.

Целочисленная единица

Целочисленная единица состоит из целого числа зарегистрировать файл и три трубопроводы, два целых числа, одна загрузка магазина. Файл целочисленных регистров имеет ширину 64 бита и содержит 64 записи, из которых 32 являются регистрами архитектуры, а 32 - регистрами переименования, которые реализуют переименование регистров. Регистровый файл имеет семь портов чтения и три порта записи. Оба целочисленных конвейера имеют сумматор и логический блок. Однако только первый конвейер имеет баррель шифтер и оборудование для подтверждения предсказания условных переходов. Второй конвейер используется для доступа к множителю и делителю. Умножения являются конвейерными и имеют задержку в шесть циклов для 32-битных целых чисел и десять для 64-битных целых чисел. Разделение не конвейерное. В делителе используется невосстанавливающий алгоритм что производит один бит за цикл. Задержки для 32-битных и 64-битных делений составляют 35 и 67 циклов соответственно.

Блок с плавающей запятой

В блок с плавающей запятой (FPU) состоит из четырех функциональных блоков, сумматора, умножителя, блока деления и блока квадратного корня. Сумматор и умножитель конвейерные, а единицы деления и квадратного корня - нет. Задержка сложения и умножения составляет три цикла, а сумматор и умножитель могут принимать новую инструкцию каждый цикл. Блок деления имеет задержку в 12 или 19 циклов, в зависимости от того, является ли деление одинарной или двойной точностью, соответственно.

Единица квадратного корня вычисляет квадратный корень и обратный квадратный корень инструкции. Инструкции извлечения квадратного корня имеют задержку в 18 или 33 цикла для одинарной или двойной точности соответственно. Новая команда извлечения квадратного корня может быть выдана блоку деления каждые 20 или 35 циклов для одинарной и двойной точности соответственно. Обратные квадратные корни имеют большее время ожидания, от 30 до 52 циклов для одинарная точность (32-бит) и двойная точность (64-битный) соответственно.

Файл регистров с плавающей запятой содержит шестьдесят четыре 64-битных регистра, из которых тридцать два являются архитектурными, а остальные - регистрами переименования. Сумматор имеет свои собственные выделенные порты чтения и записи, тогда как умножитель разделяет их с делителем и квадратом. корневая единица.

В единицах деления и квадратного корня используется SRT алгоритм. MIPS IV ISA имеет команду умножения-сложения. Эта инструкция реализована R10000 с обходом - результат умножения может обойти регистровый файл и быть доставлен в конвейер сложения в качестве операнда, таким образом, это не сплавленный умножить – сложить, и имеет задержку в четыре цикла.

Кеши

R10000 имеет два сравнительно больших кэша на кристалле, кэш инструкций 32 КБ и кэш данных 32 КБ. Кэш инструкций двусторонний набор-ассоциативный и имеет размер строки 128 байт. Инструкции частично декодируются путем добавления четырех битов к каждой инструкции (которые имеют длину 32 бита) перед помещением в кэш.

Кэш данных 32 КБ имеет двойной порт с двусторонним чередованием. Он состоит из двух по 16 КБ банки, и каждый банк является двусторонним множественно-ассоциативным. Кэш имеет 64-байтовые строки, использует обратная запись протокол, и виртуально проиндексированы и физически помечены для включения индексации кеша в одном тактовом цикле и для поддержки согласованность со вторичным кешем.

Поддерживаемая емкость внешнего вторичного унифицированного кэша составляет от 512 КБ до 16 МБ. Реализуется товарным синхронный статическая память произвольного доступа (SSRAM). Доступ к кешу осуществляется через его собственную 128-битную шину, защищенную 9-битной код исправления ошибок (ECC). Кэш и шина работают с той же тактовой частотой, что и R10000, максимальная частота которого составляла 200 МГц. На частоте 200 МГц шина дала пиковую пропускную способность 3,2 ГБ / с. Кэш является двусторонним ассоциативным, но, чтобы избежать большого количества выводов, R10000 предсказывает, к какому пути осуществляется доступ.

Обращение

MIPS IV - это 64-битная архитектура, но для снижения стоимости R10000 не реализует полностью физическую или виртуальный адрес. Вместо этого он имеет 40-битный Физический адрес и 44-битный виртуальный адрес, поэтому он может адресовать 1 ТБ физическая память и 16 ТБ виртуальная память.

Системная шина Avalanche

R10000 использует Лавинный автобус, 64-битный автобус который работает на частотах до 100 МГц. Лавина - это мультиплексированный адреса и шины данных, поэтому на частоте 100 МГц максимальная теоретическая пропускная способность составляет 800 МБ / с, но пиковая пропускная способность составляет 640 МБ / с, поскольку для передачи адресов требуется несколько циклов.

Контроллер системного интерфейса поддерживает бесклеевой симметричная многопроцессорная обработка (SMP) до четырех микропроцессоров. Системы, использующие R10000 с внешней логикой, могут масштабироваться до сотен процессоров. Примером такой системы является Происхождение 2000.

Изготовление

R10000 состоит примерно из 6,8 миллиона транзисторов, из которых примерно 4,4 миллиона находятся в первичных кэшах.[2] Размер матрицы 16,640 на 17,934 мм при площади матрицы 298,422 мм.2. Он изготовлен по технологии 0,35 мкм и упакован в керамическую пластину с 599 слоями. наземная сетка (LGA). До того, как был представлен R10000, Отчет микропроцессора, освещая Форум микропроцессоров 1994 года, сообщил, что он был упакован в керамическую решетку с 527-контактными выводами (CPGA); и что производители также исследовали возможность использования 339-контактного многокристальный модуль (MCM), содержащий кристалл микропроцессора и 1 МБ кэш-памяти.[3]

Производные

R10000 был расширен несколькими последовательными производными. Все производные после R12000 имеют как можно более низкую тактовую частоту для поддержания рассеиваемой мощности в диапазоне от 15 до 20 Вт, поэтому они могут быть плотно упакованы в SGI. высокопроизводительные вычисления (HPC) системы.

R12000

Штамп NEC VR12000.

R12000 является производным от R10000, запущенного MIPS и завершенного SGI. Его изготовили NEC и Toshiba. Версия, изготовленная NEC, называется VR12000. Микропроцессор был представлен в ноябре 1998 года. Он доступен на частотах 270, 300 и 360 МГц. R12000 был разработан как временное решение после отмены проекта «Зверь», который намеревался поставить преемника R10000. Пользователи R12000 включают NEC, Сименс-Никсдорф, SGI и Тандемные компьютеры (а позже и Compaq после приобретения Tandem).

R12000 улучшает микроархитектуру R10000 за счет: добавления дополнительного конвейерного каскада для повышения тактовой частоты за счет разрешения критического пути; увеличение количества записей в таблице истории переходов, улучшение прогнозирования; изменение очередей инструкций, чтобы они учитывали возраст поставленных в очередь инструкций, позволяя, если возможно, выполнять старые инструкции раньше, чем новые.

R12000 был изготовлен NEC и Toshiba по технологии CMOS 0,25 мкм с четырьмя уровнями алюминиевый соединитель. Новое использование нового процесса не означает, что R12000 был простым усадочным штампом с измененной микроархитектурой; компоновка матрицы оптимизирована для использования технологического процесса 0,25 мкм.[4][5] VR12000, изготовленный NEC, содержал 7,15 миллиона транзисторов и имел размеры 15,7 на 14,6 мм (229,22 мм).2).

R12000A

R12000A является производным от R12000, разработанного SGI. Представленный в июле 2000 года, он работает на частоте 400 МГц и был изготовлен компанией NEC по процессу 0,18 мкм с алюминиевые межкомпонентные соединения.

R14000

R14000 является дальнейшим развитием R12000, анонсированного в июле 2001 года. R14000 работает на частоте 500 МГц, что обеспечивается технологией CMOS 0,13 мкм с пятью уровнями медное соединение это изготовлено с помощью. В нем улучшена микроархитектура R12000 за счет поддержки двойная скорость передачи данных (DDR) SSRAM для вторичного кэша и системной шины 200 МГц.[6]

R14000A

R14000A является дальнейшим развитием R14000, анонсированного в феврале 2002 года. Он работает на частоте 600 МГц, рассеивает примерно 17 Вт и был изготовлен компанией Корпорация NEC в процессе КМОП 0,13 мкм с семью уровнями медного соединения.[6]

16000 рандов

R16000 под кодовым названием «N0» является последним производным R10000. Он разработан SGI и изготовлен NEC по технологии 0,11 мкм с восемью уровнями медных межсоединений. Микропроцессор был представлен 9 января 2003 года, дебютировав на частоте 700 МГц для Топливо а также используется в своих Onyx4 Ultimate Vision.[7] В апреле 2003 года была представлена ​​версия 600 МГц для Происхождение 350. Улучшения - это кеши инструкций и данных размером 64 КБ.

R16000A

R16000A относится к микропроцессорам R16000 с тактовой частотой выше 700 МГц. Первый R16000A - это версия 800 МГц, представленная 4 февраля 2004 года. Позже была представлена ​​версия 900 МГц, и в течение некоторого времени эта версия была самым быстрым из публично известных R16000A - позже SGI сообщила, что для избранных поставлялись R16000 с частотой 1,0 ГГц. клиенты. Среди пользователей R16000 были HP и SGI. SGI использовала микропроцессор в своих Топливо и Тезро рабочие места; и Origin 3000 серверы и суперкомпьютеры. HP использовала R16000A в своих NonStop Himalaya S-серия отказоустойчивые серверы, унаследованные от Тандема через Compaq.

18000 рандов

R18000 - это отмененное дальнейшее развитие микроархитектуры R10000, в котором были представлены значительные улучшения от Silicon Graphics, Inc., описанные на Горячие чипсы симпозиум в 2001 году. R18000 был разработан специально для серверов и суперкомпьютеров SGI ccNUMA. Каждый узел будет иметь два R18000, подключенных через мультиплексированную шину к системному контроллеру, который будет связывать микропроцессоры с их локальной памятью и остальной системой через сеть гиперкуба.

В R18000 улучшены очереди команд с плавающей запятой и переработан модуль с плавающей запятой, чтобы иметь два модуля умножения-сложения, что в четыре раза увеличивает пиковое количество FLOPS. Деление и извлечение квадратного корня будут выполняться в отдельных неконвейерных модулях параллельно модулям умножения и сложения. Системный интерфейс и иерархия памяти также были существенно переработаны. Он будет иметь 52-битный виртуальный адрес и 48-битный физический адрес. Двунаправленная мультиплексированная системная шина адреса и данных в более ранних моделях будет заменена двумя однонаправленными каналами DDR, 64-битным мультиплексированным адресом и путем записи и 128-битным путем чтения. Пути можно использовать совместно с другим R18000 посредством мультиплексирования. Шину также можно настроить в конфигурации SysAD или Avalanche для обратной совместимости с системами R10000.

R18000 будет иметь четырехсторонний ассоциативный вторичный кэш объемом 1 МБ, который должен быть встроен в кристалл; дополняется дополнительным третичным кешем, созданным из SSRAM с одинарной или двойной скоростью передачи данных (SDR) или DDR SDRAM емкостью от 2 до 64 МБ. Кэш-память L3 будет иметь свои теги кэша, эквивалентные 400 КБ, расположенные на кристалле, чтобы уменьшить задержку. Доступ к кешу L3 будет осуществляться через 144-битную шину, из которых 128 бит предназначены для данных, а 16 бит - для ECC. Тактовая частота кэша L3 может быть программируемой.

R18000 должен был производиться по технологии NEC UX5, 0,13 мкм CMOS-технологии с девятью уровнями медное соединение. Он должен был использовать источник питания 1,2 В и рассеивать меньше тепла, чем современные серверные микропроцессоры, чтобы быть плотно упакованным в системы.

Примечания

  1. ^ Гвеннап, Линли (27 января 1997 г.). «Альфа-паруса, цепы PowerPC». Отчет о микропроцессоре, стр. 1, 6–9., Стр. 8. "
  2. ^ Йегер, Кеннет С. (апрель 1996 г.). «Суперскалярный микропроцессор MIPS R10000». IEEE Micro., Стр. 28.
  3. ^ Гвеннап, Линли (24 октября 1994 г.). «MIPS R10000 использует независимую архитектуру». Отчет о микропроцессоре, Том 8, номер 14., стр. 4.
  4. ^ Гвеннап, Линли (6 октября 1997 г.). «MIPS R12000 до 300 МГц». Отчет микропроцессора, том 11, номер 13.
  5. ^ Халфхилл, Том Р. (январь 1998 г.). «RISC сопротивляется с помощью Mips R12000». Байт Журнал.
  6. ^ а б ComputerWire (2 июля 2002 г.). «SGI разработает чипы MIPS для Origin, Onyx». Реестр.
  7. ^ Silicon Graphics, Inc. (9 января 2003 г.). SGI увеличивает соотношение цены и производительности на семействе рабочих станций Silicon Graphics Fuel Visual Workstation до 25%. (Пресс-релиз).

Рекомендации