Интел атом процессор


Процессор Intel Atom: Всё, что вы хотели знать, но не могли найти

Часть 1: Предыстория, Теория, Ядро, Сила

Компания Intel давно стала обращать пристальное внимание на мобильный потребительский сектор и выпускать ориентированные на него продукты. Поначалу это были процессоры, подобранные по малому энергопотреблению при прочих равных параметрах (разве что частоты пониже, да корпус поменьше). Затем стали выпускать ЦП, специально доработанные для подобных применений. Историю можно начать с чипа i80386SL, у которого впервые появился SMM (System Management Mode — режим управления системой), динамическое ядро было заменено на статическое (т. е. для сохранения энергии частота может падать до нуля), и добавлены контроллеры кэша, памяти и шин ISA и PI (Peripheral Interface). Все эти изменения увеличили число транзисторов аж втрое (с 275 000 у обычного 386SX/DX до 855 000), но инженеры посчитали, что такой бюджет оправдан. Помимо этого также были версии i386CX и i386EX без встроенной периферии с тремя режимами энергосбережения.

Много воды утекло, каждый следующий ЦП (кроме серверных) выпускался как в обычном, так и в мобильном (иногда ещё и во встроенном) варианте, но все манипуляции в основном заключались в добавлении к ядру энергосберегающих режимов и отборе чипов, способных работать на пониженном напряжении при пониженных частотах. Между тем, конкуренция со стороны архитектур, разработанных специально для мобильных устройств, усилилась: 1990-е принесли появление PDA (начиная с Apple Newton MessagePad), а 2000-е дали коммуникаторы, интернет-планшеты (полузабытая аббревиатура MID) и ультрамобильные ПК (UMPC). В довесок ко всему оказалось, что основные задачи для пользователя таких устройств имеют небольшие вычислительные потребности, так что почти любой ЦП, выпущенный после 2000 г., уже обладал нужной мощностью для мобильного применения, кроме, разве что, современных игр (для которых как раз тогда появились мобильные консоли с 3D-графикой).

Назрела необходимость сделать специальную архитектуру для компактного мобильного устройства, где главное — не скорость, а энергоэффективность. В Intel такую задачу взяло на себя израильское отделение компании, создавшее до этого весьма удачное семейство мобильных процессоров Pentium M (ядра Banias и Dothan). В этих ЦП энергосберегающие принципы были поставлены во главу угла с самого начала разработки, так что динамическое отключение блоков в зависимости от их загрузки и плавное изменение напряжения и частоты стало залогом экономности серии. Особенно ярко Pentium M смотрелись на фоне выпускаемых тогда же Pentium 4, которые в сравнении с ними казались раскалёнными сковородками. Причём, работая на одной частоте, Pentium M выигрывали у «четвёрок» по производительности, что вообще впервые случилось в практике процессоростроения — обычно мобильный компьютер расплачивается за свою компактность всеми остальными характеристиками. Впрочем, и сами-то Pentium 4 были, скажем так, не очень хороши в роли универсального ЦП…

Успех платформы показал, что такая высокая скорость нужна не всем, а вот сэкономить ещё энергии было бы неплохо. На тот момент (середина 2007 г.) Intel выпустила «папу» наших сегодняшних героев — процессоры A100 и A110 (ядро Stealey). Это 1-ядерные 90-нанометровые Pentium M с четвертью кэша L2 (всего 512 КБ), сильно заниженными частотами (600 и 800 МГц) и потреблением 0,4–3 Вт. Для сравнения — стандартные Dothan при частотах 1400–2266 МГц имеют энергорасход 7,5–21 Вт, низковольтные (подсерия LV) — 1400–1600 МГц и 7,5–10 Вт, а впервые введённые ультранизковольтные (ULV) — 1000–1300 МГц и 3–5 Вт. Резонно полагая, что современный компьютер большую часть времени проводит в ожидании очередного нажатия клавиши или сдвига мыши ещё на один пиксель, главным отличием A100/A110 от подсерии ULV Intel сделала умение очень глубоко засыпать, когда считать не надо совсем, благодаря чему потребление при простое падает на порядок. А сильно сокращённый кэш (большой L2 на таких частотах не очень-то и нужен) помог уменьшить размер кристалла, что сделало его дешевле. Размер корпуса процессора уменьшился впятеро, а суммарная площадь ЦП и чипсета — втрое. Как мы увидим далее, такие приёмы были использованы и в серии Atom.

Несмотря на в принципе верное целеполагание, A100/A110 остались мало востребованы рынком. То ли 600–800 МГц оказалось всё же маловато даже для простенького интернет-планшета, то ли всего два чипа (что даже модельным рядом назвать трудно) с самого начала были экспериментальным продуктом для обкатки технологии, то ли процессор просто не раскрутили маркетологи, зная, что ему на смену идёт кое-что куда более продвинутое… Менее чем через полгода после выпуска A100/A110 26 октября 2007 г. Intel объявила о близком выпуске новых мобильных ЦП с кодовыми именами Silverthorne и Diamondville и ядром Bonnell — будущих Атомов. Кстати, название Bonnell произошло от имени холмика высотой 240 м в окрестностях г. Остин (штат Техас), где в местном центре разработки Intel располагалась малочисленная группа разработчиков Атома. «Как вы яхту назовёте, так она и поплывёт.» ©Капитан Врунгель

В 2004 г. эта группа, после отмены ведомого ею проекта Tejas (наследника Pentium 4), получила прямо противоположное задание — проект Snocone по разработке крайне малопотребляющего x86-ядра, десятки которых объединит в себе суперпроизводительный чип с потреблением 100–150 Вт (будущий Larrabee, недавно переведённый в статус «демонстрационного прототипа»). В группе оказалось несколько микроэлектронных архитекторов из других компаний, включая и «заклятого друга» AMD, а её глава Belli Kuttanna работал в Sun и Motorola. Инженеры быстро обнаружили, что различные варианты имеющихся архитектур не подходят их нуждам, а пока думали дальше, в конце года CEO Intel Пол Отеллини сообщил им, что этот же ЦП также будет и 1-2-ядерным для мобильных устройств. Тогда было тяжело предположить, как именно и с какими требованиями такой процессор будет применяться через отведённые на разработку 3 года — руководство с большой долей риска указало на наладонники и 0,5 Вт мощности. История показала, что почти всё было предсказано верно.Устройство CE4100

Интересно, что уже вслед за Атомом летом 2008 г. был выпущен EP80579 (Tolapai) для встраиваемых применений с ядром Pentium М, 256 КБ L2, 64-битным каналом памяти, полным набором контроллеров периферии, частотами 600–1200 МГц и потреблением 11–21 Вт. А почти сразу после него — модель Media Processor CE3100 (Canmore) для цифрового дома и развлечений: архитектура Pentium М, частота 800 МГц, 256 КБ L2, три 32-битных канала контроллера памяти, 250 МГц RISC-видеосопроцессор и два 340 МГц ядра DSP (цифровой сигнальный процессор) для аудио. Как покупались эти штуки — не ясно, т. к. после анонса о них не было слышно ничего в т. ч. и от Intel. Видимо, не очень… Уже после расцвета Атома, в сентябре 2009-го, Intel повторила попытку и выпустила CE4100, CE4130 и CE4150 (Sodaville) уже на «атомном» ядре частотой 1200 МГц, двумя 32-битными каналами DDR3, обновлённой периферией и технормой 45 нм. И вновь с тех пор об этих высокоинтегрированных системах-на-чипе (SOC) мало слышно. Может быть, рынок не готов встретить героя?Слева CE4100, справа — CE3100

Теория Атома

Для начала рассмотрим основные характеристики процессора с точки зрения потребителя. Их три: скорость, энергоэффективность, цена. (Правда, энергоэффективность — не очень-то «потребительская» характеристика, но, тем не менее, именно по ней проще всего судить о некоторых важных параметрах конечного устройства.) Далее вспомним, что у идеальной КМОП-микросхемы (по этой технологии изготавливаются все современные цифровые чипы) потребление энергии пропорционально частоте и квадрату напряжения питания, а пиковая частота линейно зависит от напряжения. В результате, уполовинив частоту, мы можем уполовинить напряжение, что в теории уменьшит потребление энергии в 8 раз (на практике — в 4–5 раз). Таким образом, мобильный процессор должен быть низкочастотным и низковольтным. Как же тогда он окажется быстрым? Для этого надо, чтобы за каждый такт он выполнял как можно больше команд, что чаще всего означает увеличение числа конвейеров (степени суперскалярности) и/или числа ядер. Но это ведёт к резкому росту транзисторного бюджета, что увеличивает площадь чипа, а значит и его стоимость.

Таким образом, выиграть по всем трём пунктам не получится даже теоретически (чем и объясняется присутствие на рынке такого разнообразия процессорных архитектур). Поэтому где-то придётся сдать позиции. Исторический экскурс говорит, что сдать надо в скорости, что даст возможность сделать ядро ЦП максимально простым. Именно по этому пути и пошли инженеры из Остина. Обдумав варианты, они решили вернуться к архитектуре 15-летней давности, первый и последний раз (среди процессоров Intel) использовавшейся в первых Pentium. А именно: процессор остаётся суперскалярным (т. е. 2 команды за такт у нас будет — но не 3–4, как в современниках Атома), лишается механизма перетасовки команд перед исполнением (OoO), но приобретает то, чего у Pentium не было — технологию гиперпоточности (HyperThreading, HT), позволяющую на базе одного физического ядра эмулировать для ОС и ПО наличие двух логических. Чтобы объяснить, почему был сделан именно такой выбор, читателю рекомендуется сначала вспомнить все возможные способы увеличения производительности ЦП. А теперь оценим их с позиции потребления энергии и транзисторных затрат.

Использование многопроцессорной конфигурации в карманном или наколенном устройстве недопустимо, а вот многоядерность — вполне, если не хватает скорости одного ядра. Поначалу Intel сделала это тем же способом, что и в первых 2-ядерных Pentium 4 — поставив пару одинаковых 1-ядерных чипов на общую подложку и общую шину до чипсета. Из других разделяемых ресурсов есть лишь питающее напряжение, которое выбирается из максимума двух запросов. Т. е. ядра могут отдельно изменять свои частоты, но засыпают и пробуждаются синхронно. В декабре 2009 г. Intel выпустила первые интегрированные версии Атомов, где на одном кристалле есть 1–2 ядра и северный мост. На плате остался южный мост, соединённый с ЦП шиной DMI, что чуть быстрее и экономней предыдущей комбинации. Больше двух ядер нам скоро не предложат, так что основной скоростной упор сделан на их внутренности.

Вопрос повышения частотного потолка инженеров Intel на этом этапе тоже не очень волновал, хотя отказываться от принципа конвейерности и декодирования команд х86 во внутренние микрооперации (мопы) никто не собирался — это был бы слишком радикальный шаг назад. А вот предсказатели переходов, предзагрузчики данных и прочие вспомогательные системы заполнения конвейера стали очень важны, т. к. простаивающий конвейер, не умеющий исполнять другие команды в обход застрявшей, означает выкинутые насмарку драгоценные ватты — и у Атома все необходимые «подпорки» сделаны ненамного хуже, чем у Pentium M и более современных ему Core 2, разве что размеры буферов поменьше (опять же ради экономии). В итоге, основная битва разыгрывается вокруг производительности за такт.

Рассмотрев диаграмму вариантов ускорения ЦП, мы видим, что среди качественных способов увеличения производительности значится увеличение разрядности скалярных и векторных операций, а также усложнение системы команд разнообразными дополнениями со специализированными командами, выполняющими больше операций над аргументами. Всё это есть в Атоме — и самый последний на момент разработки набор команд SSSE3 и даже 64-битное расширение x86-64. Так что действий на команду выполняется достаточно. Вся суть Атома — в числе команд за такт, т. е. в показателе IPC.

Экстенсивным (количественным) путём было бы увеличение числа конвейеров и размеров разных кэшей и буферов. Очевидно, что начиная с определённого момента это слишком дорого обходится для транзисторного бюджета, принося всё меньше процентов ускорения от очередной добавки. Поэтому в Intel решили остановиться лишь на необходимом минимуме. А вот насчёт качественных мер вопрос посложней. Из возможных вариантов лишь обильное использование микрослияния мопов (mOP microfusion) не вызывает вопросов — необходимо, чтобы как можно меньшее число команд при декодировании генерировало более одного мопа, занимая оба конвейера и препятствуя исполнению двух команд за такт. Макрослияние не внедрено либо по причине его малой эффективности (если брать за пример реализацию в Core 2), либо из-за 50%-ного шанса на срабатывание (т. к. первая сливаемая команда должна попасть на первый декодер, а вторая на второй, и не иначе). С уменьшением числа тактов для исполнения команд мы ещё разберёмся.

Остались технологии максимизации заполнения конвейеров. Использовать их одновременно будет жирновато, так что придётся выбрать что-то одно — либо всем привычная за 15 лет перетасовка команд, либо более молодая HT, появившаяся у Intel лишь в последних моделях Pentium 4. Прежде всего следует сказать, что при использовании современных компиляторов (но без ручной оптимизации) число подряд идущих в программе команд, которые можно исполнить параллельно, колеблется около двух. Т. е. для 2-путного (2-way) конвейера перетасовка команд вроде бы не нужна. Кроме того, конвейер может быть частично заполнен или даже полностью остановлен не только невозможностью одновременного исполнения мопов, но и особо долгим кэш-промахом или неверно предсказанным переходом. Выходит, что вариант использования HT как альтернативы OoO выглядит разумно, хоть и непривычно для классических схем.

Добавим также, что так называемый «буфер переупорядочивания» и «резервационные станции» — довольно ресурсоёмкие блоки, которым приходится решать сложную задачу определения свободных ресурсов и взаимозависимостей в претендующих на исполнение командах. Единственный способ сделать это за 1 такт — разменять вычислительную сложность на избыточность. Для 3–4-путных конвейеров это делается с помощью сотен и тысяч компараторов, срабатывающих каждый такт и проверяющих все возможные комбинации запуска мопов. Что, разумеется, требует немалой площади и изрядного количества энергии. Гиперпоточность же требует лишь дополнительных буферов для хранения второго состояния конвейера (для «другого» потока), дубликата регистрового файла и относительно несложной логики, согласующей и переключающей потоки, а остальные ресурсы — общие.

Сразу возникает вопрос: если HT такая замечательная штука, почему её не внедряют повсеместно? Во-первых, для 3–4-поточного суперскаляра с OoO средняя загрузка конвейера такова, что второй поток команд поднимет скорость лишь процентов на 10. Ведь для его исполнения тоже нужны свободные ресурсы, а если обе программы спотыкаются об одно и то же (например, нехватку кэша), им ничто не поможет. Во-вторых, однопоточное приложение так не ускоришь, хотя общая отзывчивость системы улучшится. Т. е. общее ускорение будет сильно зависеть от подбора пары запущенных программ (тут везде мы предполагаем, что «гипер-» означает «двух-»). Однако за малую заплаченную цену в транзисторах это вполне неплохо. Intel, впрочем, приводит другие цифры, акцентируя на экономии: увеличивая потребление на 20%, включение HT даёт ускорение аж 30–50% (оставим эти цифры, особенно вторую, на совести заявителя).

Ядро Атома

Проведя необходимую теоретическую подготовку, мы наконец-то дошли до собственно архитектуры. Её сильное упрощение позволило сократить число транзисторов в ЦП до 47 млн. (из них на ядро, включая оба кэша L1 — 13,8 млн.), а площадь — до 26 мм² (используется 45-нанометровый техпроцесс с 9 слоями медных дорожек, металлическими затворами и подзатворными диэлектриками с высокой проницаемостью). Для сравнения — 90-нанометровые Pentium М занимали 84 мм², но там вчетверо больший кэш L2. Ядро Pentium М занимает примерно 35 млн. транзисторов, а Core 2 — 50 млн. Хотя, конечно, сравнения с первым Pentium (3,3 млн.) Атом не выдерживает — совсем уж простым его назвать тоже нельзя, что косвенно видно по размеру статьи. :)

Atom проще всего описать как очень сильно модернизированный Pentium, но так можно сказать о почти любом современном процессоре. Больше всего с 15-летним старичком его роднит 2-путная суперскалярность и отсутствие OoO (первые наброски Атома и вовсе были 1-путными, как 486), зато отличает почти всё остальное. Прежде всего то, что «атомный конвейер» имеет аж 16 стадий. Для сравнения — у первого Pentium их 5 (8 у вещественной части), у Pentium M и Core Solo/Duo — 14, а у Core 2 — 16 (по замерам при сбросе конвейера). Зачем так много? Длинный конвейер позволяет поднять частотный потолок, но тут это совсем не надо. Есть 3 стадии для доступа к кэшу L1D, причём их проходят все команды, в т. ч. и не обращающиеся «наружу» — такое решение сильно упрощает управление конвейером и используется во всех «упорядоченных» (in-order) архитектурах. Также возможно более детальное отключение стадий при их простое для экономии энергии и «тонкое» переключение между потоками (при включенной HT) отдельными стадиями и их малыми группами. Однако полученную выгоду в ваттах и исполненных командах запросто нивелирует бо́льшая задержка при сбросе конвейера из-за неверно предсказанного перехода.

Конвейер Атома
СтадияIF1IF2IF3ID1ID2ID3SCISIRFAGDC1DC2EX1FT1FT2IWB/DC
ГруппаВыборка из L1I (Instruction fetch)Декодирование (Decode)Планировка (Schedule)Чтение регистрового файла (RF read)Генерация адреса, доступ к L1D (Address generation, Data cache)Исполнение (Execution)Обработка исключений и гиперпоточности (Except/MT handle)Отставка, запись результатов (Writeback, Data Commit)

Поэтому предсказатель переходов, с которого начинается конвейер, лишь немногим уступает «коллегам». Это 2-уровневый адаптивный предсказатель с таблицей глобальной истории переходов (GBHT) на 4096 ячеек и 12-битной индексацией. Буфер адресов переходов (BTB) имеет всего 128 ячеек, организованных как 32 4-путных набора (в десятки раз меньше, чем у современных десктопных и даже «классических» мобильных ЦП). Специального предсказателя для циклов или косвенных переходов нет. Как и у всех современных ядер, есть стек адресов возврата из подпрограмм на 8 ячеек (плюс 2 буферные ячейки в предсказателе). Таблицы сокращённого размера экономят место, но подставляют подножку на программах с большим числом переходов, даже хорошо предсказываемых или вовсе безусловных (включая вызовы подпрограмм). Причём переключение на второй поток может не помочь, т. к. оба потока разделяют эти буферы и таблицы. Предсказание происходит с темпом 1 раз за 2 такта, но если оно окажется неверным — штраф будет 13 тактов. Если предсказание поведения верное, но адрес уже вытеснен из крохотного BTB — ждать надо 7 тактов.

Команды загружаются 8-байтовыми кусками из кэша L1I в двойной буфер предекодера по 16 байт на поток, причём в 1-поточном режиме оба буфера могут обслуживать единственный поток при соблюдении правил выравнивания, достигая максимального темпа 10–11 байт/такт. Эта цифра несколько избыточна, ибо даже для своих 4-путных суперскаляров (да ещё и с макрослиянием, позволяющим изредка декодировать 5-ю команду) Intel до сих пор использует 16-байтовую загрузку — хотя средняя длина команды (особенно в 64-битном режиме и с обильным использованием разнообразных SSE) вот-вот перевалит за 4 байта.

Производители нафаршировали современные x86 ЦП громоздкой системой команд с чрезвычайно сложной схемой декодирования, поэтому декодеры вынуждены тратить большое число транзисторов и энергии даже на такую казалось бы элементарную операцию, как определение длины команды (точнее, этим занимается отдельная стадия — предекодер-длиномер или ILD), поскольку надо обрабатывать команды с несколькими префиксами. Для Атома число префиксов больше трёх вызовет серьёзную задержку. Т. е. на команды набора SSE2/3 (1–2 префикса) в 64-битном режиме (ещё 1) этого хватит, а вот для более свежего SSSE3 (или какого-то варианта SSE4, если Intel захочет добавить его в Атом) — уже нет.

Для ускорения замеров длин с L1I связан буфер тегов предекодирования, где хранится разметка границ команд. Такое решение оправдано для экономии энергии при исполнении уже встретившегося кода и похоже на используемое в ядрах AMD K7–K10, где работа ILD происходит при считывании из L2 в L1I — правда, там эта схема предназначена для ускорения основного декодирования. А вот в Атоме биты разметки определяются и отправляются в буфер лишь при первом исполнении закэшированного кода, что происходит со скоростью 3 такта/байт (у AMD — 4 байта/такт). Причина такой нерасторопности — очень простой последовательный длиномер. При этом стадию ILD все команды проходят всегда, просто ранее встретившиеся, считав готовую разметку, проходят её «навылет», не напрягая транзисторы — и снова экономия приводит к удлинению конвейера.

Декодирование команд происходит двумя простыми трансляторами и одним микросеквенсором. Это несколько отличается от обычной схемы, где один из трансляторов является сложным, т. к. генерирует более одного мопа за такт (как правило — 3–4, по числу конвейеров). Все трансляторы декодируют по одной команде за такт. Микросеквенсор выдаёт по нескольку мопов (для Атома, разумеется, не более двух), но в течение нескольких тактов и только для особо сложных команд, требующих микрокода. Однако по оценке Intel лишь 4% команд потребуют более 1 мопа — микрослиянию подвергается 16% команд, в т. ч. такие относительно сложные как Load-Op-Store (с модификатором в памяти), которым ранее требовалось 2–3 мопа (из других x86-архитектур так умеет лишь AMD K10). Т. е. для Атома микрослияние уменьшило число обращений в микрокод впятеро. Таким образом, стремление к разбиению команд на простые RISC-операции для ускорения исполнения, очевидное сегодня и 15 лет назад (этим от P5 отличался P6, он же Pentium Pro), в данном случае обратилось вспять — за неимением возможности перетасовать команды, крайне расточительно забивать весь конвейер мопами (тем более, что он и так очень узкий) — а скорости и без этого достаточно.

Выход декодера подключен к 32-моповой очереди, которая статически делится надвое при включенной HT. Весь front-end («голова конвейера» от предсказателя до очереди мопов) может работать в отрыве от back-end (исполнительного «хвоста») в случае задержек данных или исполнении долгой команды, наполняя очередь мопами про запас.

Сила Атома

Итак, как же Atom обрабатывает данные, чтобы было очень экономно, мало по транзисторам и не очень медленно? Исполнение начинается с того, что из очереди мопов 1–2 команды передаются в два исполнительных кластера — скалярный целочисленный (общего назначения) и векторно-вещественный (схема, больше похожая на устройство ядер AMD K7–K10). Обмен между кластерами (например, при преобразовании форматов) требует 4–5 тактов задержки. К общему кластеру подключен кэш L1D, так что общение с памятью для второго кластера дольше. Каждый кластер может исполнить две команды за такт, но не более двух в сумме, т. к. порты запуска кластеров тесно связаны.

Оба порта могут исполнить наиболее частые команды — копирование между регистрами одного типа и простые целочисленные операции в АЛУ (в т. ч. векторные). Но только порт 0 может выполнять обмен с памятью, сдвиги, перетасовки и перепаковки, умножения, деления и пр. сложную арифметику. Порту 1 эксклюзивно достались переходы и вещественные сложения (в т. ч. векторные). Помимо прочего, это означает, что ставший уже привычным 2-портовый доступ к L1D даже в сокращённом виде (запись + чтение) отсутствует — кэш строго однопортовый, что последний раз применялось в Intel 486.

Поскольку перетасовки команд перед исполнением нет, программистам (и компиляторам) придётся выучить правила спаривания команд. Впрочем, они существенно отличаются от имеющихся в Pentium:

  • Запускаемая пара мопов всегда принадлежит одному потоку. Запустить один «свой» и один «чужой» не получится.
  • Две команды должны идти в коде подряд — кроме допустимого случая, когда первая — это команда перехода, указывающая на вторую.
  • Вторая (по ходу программы) команда не может читать регистр, модифицируемый первой — кроме условного перехода, который может быть вторым, т. к. сможет прочесть флаги, изменённые в этом же такте первым мопом.
  • Команды не должны писать в один и тот же регистр (кроме флагов) — даже в случае его полной перезаписи.
  • Команды должны использовать разные порты.
  • Команды, загружающие функциональные устройства (ФУ) обоих портов, не спариваемы. Например, вещественное сложение с памятью использует порт 0 для вычисления адреса и доступа к памяти и порт 1 для самого сложения.
  • Две скалярные вещественные команды для x87-стека мало того, что не спариваются (даже на разных портах), так ещё и дают дополнительную задержку в 1 такт — даже пара FNOP’ов, которые ничего не делают.

Из этого разгромного по сути списка запрещающих условий становится понятно, что суперскалярность у Атома не то чтобы номинальная, а даже «вычурно кривая». Вряд ли микроархитектурщики Intel резко поглупели, но погоня за крайней простотой и энергоэффективностью довела архитектуру до абсурда, когда один из двух конвейеров будет часто простаивать из-за слишком строгих правил спаривания. Некоторым облегчением является то, что запуск команд с разной длительностью исполнения не приводит к штрафам. Аналогично — обработка данных не своего типа (для векторных команд). Например, можно использовать команду MOVAPS для целых чисел.

Самым частым камнем преткновения для архитектур с упорядоченным исполнением является кэш-промах, на обслуживание которого может потребоваться 10–200 тактов. При промахе такой ЦП просто ждёт (в лучшем случае — приостановив тактирование для экономии), а архитектура с OoO — исполняет команды, накопленные в буфере перетасовки и независящие по данным от результата проблемной команды. Ситуация настолько частая, что совсем не иметь никакого механизма перетасовки показалось инженерам Intel неоправданным — и они придумали добавку под названием Safe Instruction Recognition (безопасное распознавание команд). Она всё же даёт процессору некоторую вольность в обращении с командами, позволяя исполнять их вне очереди, и по сути является OoO-механизмом, работающим в масштабе лишь двух команд, одна из которых должна быть вещественной, а вторая — целой. Если они друг другу не мешают, то первой может запуститься целочисленная команда, имеющая меньшую задержку (если только обе команды и так не планируются на спаривание).

Тем не менее, удаление полноценного OoO кажется катастрофическим, но, может быть, нам поможет спасительная гиперпоточность? Т. к. блоки ЦП разделяются между потоками (некоторые — статически, большая часть — динамически), может возникнуть ситуация, что при требовании одинакового ресурса обоими потоками процессор будет работать даже медленнее, чем в 1-поточном режиме. Что и наблюдается в некоторых тестах и вполне естественно для ситуации, когда потоки запущены одной и той же программой, параллельно что-то обрабатывающей одним алгоритмом. Кроме того, предсказатель ветвлений использует динамическое разделение ячеек BTB между потоками, даже если переходы в них общие и ссылаются на одинаковые адреса. Итог — стабильные 1,5–2 IPC без специфической оптимизации под Atom, мы, скорее всего, не получим даже с 2-поточным запуском.

После исполнения, но перед отставкой (т. е. «официальной» записью результатов операций в кэш и регистры) есть ещё 2 стадии для регистрации возможных исключений и «разбора полётов» в потоковом HT-движке. Как и остальные стадии, все мопы проходят и эти, даже при 1-поточном исполнении без исключений и прерываний.

[ Читайте далее: Часть 2: Память, Выдержка, Виды ]

www.ixbt.com

Процессор Intel Atom® Спецификации продукции

Обратитесь в службу поддержки

Вся информация, приведенная в данном документе, может быть изменена в любое время без предварительного уведомления. Корпорация Intel сохраняет за собой право вносить изменения в цикл производства, спецификации и описания продукции в любое время без уведомления. Информация в данном документе предоставлена «как есть». Корпорация Intel не делает никаких заявлений и гарантий в отношении точности данной информации, а также в отношении характеристик, доступности, функциональных возможностей или совместимости перечисленной продукции. За дополнительной информацией о конкретных продуктах или системах обратитесь к поставщику таких систем.

Анонсированные артикулы (SKUs) на данный момент недоступны. Обратитесь к графе «Дата выпуска» для получения информации о доступности продукции на рынке.

Расчетная мощность системы и максимальная расчетная мощность рассчитаны для максимально возможных показателей. Реальная расчетная мощность может быть ниже, если используются не все каналы ввода/вывода набора микросхем.

Рекомендуемая розничная цена (РРЦ) представляет собой рекомендуемую цену для продуктов Intel. Цены указаны для прямых клиентов Intel, обычно для заказов партий из 1000 шт. и могут быть изменены без уведомления. Налоги, расходы на доставку и прочие расходы не включены. Цены могут отличаться для других типов упаковки и объемов поставок, а также могут действовать условия специальных акций. Если продается в оптовой партии, цена относится к единице продукции. Указание рекомендуемых розничных цен не является официальной ценовой офертой Intel. Обратитесь к своему представителю Intel, чтобы получить официальное подтверждение цены.

ark.intel.com

Устаревшие процессоры Intel Atom® Спецификации продукции

Обратитесь в службу поддержки

Вся информация, приведенная в данном документе, может быть изменена в любое время без предварительного уведомления. Корпорация Intel сохраняет за собой право вносить изменения в цикл производства, спецификации и описания продукции в любое время без уведомления. Информация в данном документе предоставлена «как есть». Корпорация Intel не делает никаких заявлений и гарантий в отношении точности данной информации, а также в отношении характеристик, доступности, функциональных возможностей или совместимости перечисленной продукции. За дополнительной информацией о конкретных продуктах или системах обратитесь к поставщику таких систем.

Анонсированные артикулы (SKUs) на данный момент недоступны. Обратитесь к графе «Дата выпуска» для получения информации о доступности продукции на рынке.

Рекомендуемая розничная цена (РРЦ) представляет собой рекомендуемую цену для продуктов Intel. Цены указаны для прямых клиентов Intel, обычно для заказов партий из 1000 шт. и могут быть изменены без уведомления. Налоги, расходы на доставку и прочие расходы не включены. Цены могут отличаться для других типов упаковки и объемов поставок, а также могут действовать условия специальных акций. Если продается в оптовой партии, цена относится к единице продукции. Указание рекомендуемых розничных цен не является официальной ценовой офертой Intel. Обратитесь к своему представителю Intel, чтобы получить официальное подтверждение цены.

ark.intel.com

Процессор Intel Atom: Всё, что вы хотели знать, но не могли найти

Часть 2: Память, Выдержка, Виды

Параметры кэшей Intel Atom таковы:

  • L1I — 32 КБ, 8-путная ассоциативность, задержка (скорее всего) 3 такта;
  • L1D — 24 КБ, 6-путная ассоциативность, задержка 3 такта;
  • L2 — 512 КБ (+ ECC), 8-путная ассоциативность, задержка 19 тактов.
  • шина «L2–ядро» — 256-битная, полноскоростная (хотя даже в синтетических тестах более 4,5 байт/такт не замечено).

Прежде всего удивляют странные параметры L1D, но о них мы поговорим особо. Сейчас же добавим, что у всех кэшей — 64-байтовые строки. Это также нетипично, т. к. за последние 20 лет вычислительная индустрия выработала наилучшее соотношение длины строки кэша к куску данных, обмениваемых с памятью за такт — 4:1. Т. е. 2×8×4=64 байта на строку — оптимально для 2-канального контроллера памяти с 8 байтами/такт на канал. Неужели Intel намекает на использование двух модулей памяти на дешёвых и компактных мобильных ПК? Но ведь таких чипсетов для Атома не было полтора года после его выпуска, пока не вышел NVIDIA Ion. Правда, как выяснилось, второй канал памяти даёт Атому лишь 5–6% прибавки к скорости…

L1D оснащён аппаратным предзагрузчиком (префетчером) из L2, а L2 — из памяти. Благодаря зарезервированным на доступ в L1D трём стадиям конвейера если операнд в памяти кэширован, то команда с ним скорее всего выполнится также быстро, как и с регистром. Наиболее частое исключение — когда доступ к памяти требует команда, исполняемая в порту 0, через который также происходят и обмены с памятью. Кроме того, доступ к памяти и кэшу замедляется на 3 такта (!), если используемые для вычисления адреса регистры недавно записывались.

Любопытно, что механизм STLF (Store-to-Load-Forwarding, перенаправление записи на чтение) работает только для целых чисел, но удивительно хорошо: мало того, что Atom может прочесть данные, отправленные на запись за такт до этого, хотя они ещё не попали в кэш. Другие процессоры могут их считать и в этом же такте, но там 2-портовый LSU (блок обмена данных с L1D). Зато тут это возможно, даже если размер данных для чтения превышает таковой для записи, либо при несовпадении начальных адресов. STLF не срабатывает лишь при пересечении границы строки кэша (как и везде). Но если пересечение произошло (в т. ч. и при обычном доступе) — это приводит к штрафу аж в 16 тактов, т. к. требует 4 доступа к кэшу (даже при чтении), хотя по идее достаточно и 2. Прочие случаи невыровненного доступа (когда адрес блока данных не делится нацело на свой размер), не выходящие за 64-байтовую границу, выполняются на полной скорости.Чип Атома 400-х серий (Pineview) для платформы Pinetrail. Слева — ядро ЦП, справа — контроллер памяти, в центре — 3D/видеоядро, снизу — видеовыходы, сверху — остальные интерфейсы.

Надо полагать, что встраивание контроллера памяти (и вообще половины чипсета) в мобильный ЦП является очевидным шагом, особенно вспомнив первые подобные решения уже для 386-х процессоров. Однако Intel это сделала лишь почти через два года после выпуска первых Атомов, когда вышли модели Atom N450, N470, D410 и D510 (ядро Pineview). Подержка DDR3-1066 обещана с лета 2010 г. в моделях N455, N475 и N550, но контроллер памяти всё ещё одноканальный. Тесты показали, что особых преимуществ интеграция не принесла даже для программ, сильно зависящих от пропускной способности памяти: видимо, они и без ИКП упёрлись в слабое вычислительное ядро. Кстати, самый сложный 2-ядерный интегрированный Atom D510 имеет 176 млн. транзисторов, из которых 82 млн. потрачены на «северный мост». Сравните с цифрами для вычислительных ядер.

Выдержка Атома

Энергоэффективность — самое главное достоинство этого процессора. Хотя ЦП не всегда является самым активным потребителем электроэнергии в мобильном устройстве (при простое им оказывается подсветка ЖК-экрана или сам экран в случае применения OLED-матрицы), именно в нём применение энергосберегающих функций и технологий наиболее оправдано. Intel применила не только все накопленные до сих пор приёмы, но и добавила новые.

До Атома, когда дело доходило до анализа «энергоёмкости» нововведений, Intel применяла такое правило: при внедрении или изменении какого-либо блока, на каждые 1% ускорения ЦП должны приходиться не более чем 2% увеличения энергопотребления. Апофеоз сей недальновидной политики не заставил себя долго ждать: им стал Pentium 4. Аминь… Для Pentium M цифра энергоприбавки была уполовинена — не более 1% по ваттам. А для Атома (и, позже, в линейке Nehalem) — уполовинена снова.

Результат неплох. По первоначальным предположениям младшим моделям для 1,3–1,5 ГГц хватит 0,8 В, для наиболее популярной частоты в 1,6 ГГц потребуется 0,85 В, а одного вольта хватило бы для 2,05 ГГц (если бы такая модель была). Цифры не такие уж и героические, ибо даже для настольных моделей куда более сложной архитектуры AMD K8 (при том, что она для экономии ватт совсем не предназначена), выполненных по последним степпингам предыдущего 65-нанометрового техпроцесса, отдельные чипы при 1 В питания работают на частоте 2,2–2,3 ГГц. Специально оптимизированная под энергосбережение версия 45-нанометрового техпроцесса могла бы дать простому Атому возможность повторить такое достижение в большинстве экземпляров. Но, в отличие от заявлений на слайдах, например, реальный Atom Z530 при частоте 1,6 ГГц питается от 1,213 В — и это специально отобранный для Z-подсерии особо экономный ЦП! «Настольная» модель 230 на той же частоте запитывается от 1,188 В… Atom N280, при простое снижая частоту с 1,66 до 1 ГГц, снижает напряжение до 1,063 В, а N450, интегрированный с северным мостом, — до 0,95.

Спрашивается — за что боролись? А боролись не просто за экономию, а за дешёвую экономию, пусть и при не самых низких напряжениях. ULV Pentium M с TDP 3–5 Вт (при 1–1,3 ГГц и 90 нм) появился за 2,5 года до Атома, но стоил в 3–5 раз дороже. Впрочем, если бы его изготовили на 45 нм, он бы имел и площадь, и цену как раз вчетверо меньше…

В обычном ЦП для скорости при обращении в L1 одновременно запускаются три процесса — активация нужного банка с выборкой набора, трансляция физического адреса в виртуальный в TLB и выборка набора из массива тегов. Если произойдёт TLB-попадание, физический адрес сравнится с тут же считанными тегами, определяя номер пути, где произошло попадание в самом кэше. Далее из всего выбранного набора банк коммутирует для чтения или записи нужную строку. Если попадания нет ни в одном пути, регистрируется промах и запускается процесс заполнения данных из внешнего источника. В такой схеме множество операций делается наперёд и с явным избытком, в результате чего большая часть транзисторов, срабатывающих для обслуживания запроса, работают зря. Инженеры Intel модифицировали схему обращения так: операции происходят последовательно, причём только те, которые нужны, и только тогда, когда они нужны (подтверждаясь на предыдущем шаге). Т. е. сначала трансляция, потом считывание тегов, а потом доступ только к нужной строке из всего набора. Отказаться от трансляции в пользу виртуальной адресации L1 Интел не решилась — у такой идеи недостатки превышают преимущества по скорости и экономности.

Atom также динамически меняет включенную часть L2, следя за активностью доступа. Неиспользуемые банки «сливаются» (выгружают содержимое в память) и отключаются. Впрочем, главной деталью в экономных кэшах является вовсе не микроархитектурно реализованные алгоритмы экономии, а новый дизайн ячейки L1, который тесно связан с размером кэшей, точнее — с неравенством размеров. И снова оставим это на потом — не кэшем единым…

Главными потребителями джоулей в ЦП являются часто переключающиеся транзисторы ядра. И тут у Атома есть, чем похвастаться: помимо того, что этих транзисторов весьма немного за счёт сокращения специализированных блоков (например, есть только один умножитель-делитель и для целых, и для вещественных, и для скаляров, и для векторов), оставшиеся включаются только, тогда когда нужно. Выключен HT — его контроллер отключён от тактирования. Не используются 64 бита — старшая половина целочисленного тракта данных вместе с половинками регистров и ФУ также выключается. Долгое время не нужен FPU или векторный блок — отбой и ему.

Всего у Атомов первого поколения 5 энергосостояний:

  • высоко- и низкочастотный режимы C0 (HFM и LFM), отличаются только частотой (при LFM всегда 600 МГц) и напряжением ядра;
  • C1 (он же C2) с нулевым тактированием и «слитыми» (но ещё запитываемыми) кэшами L1;
  • C4 с отключенными умножителями частоты, «частично слитым» L2 и ещё больше сниженным напряжением;
  • C6, при котором отключено и обесточено почти всё — даже из 203 выводов питания активны лишь 21, уменьшая утечки в 10 раз, а потребление — до 100 мВт (по некоторым данным в новых ЦП Z-серии — до 30 мВт).

В режиме C6 включенным остаётся лишь небольшой блок управления питанием, позволяющий проснуться в полноскоростной режим за 0,1 мс (из других режимов пробуждение намного быстрее). Блок оснащён массивом экономной статической памяти на 14 КБ (по ранним данным — 10,5), хранящим полное состояние ЦП, пока он выключен. C6 есть и у Penryn (мобильные Core 2 на 45 нм), но там о 0,1 Вт только мечтают. У Атома состояние C6, по утверждению Intel, занимает до 90% времени (предполагая, что устройство в основном «спит» в кармане или на столе), так что средняя мощность — всего 220 мВт. Т. к. в подсчёты включены и периоды «сна», здесь можно было бы написать любую цифру: проверить её всё равно почти нельзя :)ИК-фотография ядра Lincroft на полной мощности и полном простое. В последнем случае единственное «горячее» пятнышко — блок управления питанием ядра.

Интегрированные модели Z6xx добавили ещё 4 режима:

  • «форсаж» до частоты выше номинальной (C0 Burst Mode);
  • ещё более экономный, чем LFM, сверхнизкочастотный режим ULFM C0 (у всех моделей — 200 МГц);
  • S0i1 для простоя с быстрой готовностью — переход в S0i1 выполняется за 0,6 мс, а выход — за 1,2 мс (это дольше пробуждения из C6, но речь идёт не только о ядре, а обо всём чипе);
  • S0i3 для длительного простоя — вход в него требует 0,45 мс, а выход — 3,1 мс.

В режиме S0i1 ядро находится в режиме C6, из остальных частей включен только блок управления питанием, его память и схема авторегенерации ОЗУ, потребляя в сумме 6 мВт. При S0i3 весь процессор физически отключается от питания, кроме авторегенератора с ничтожной 0,1 мВт. Также внедрён принцип «силовых островов» (power island) — функциональных блоков, оснащённых собственными ключами-коммутаторами питания, как в Core i (в Lincroft их 19). Теперь при простое блока можно снизить до нуля не только его частоту, но и питание, полностью отключив «остров» от всех подваваемых снаружи герц и вольт. Впрочем, т. к. ядро ЦП является одним из этих блоков, как и в Menlow, оно может отключаться лишь целиком — в режиме C6.

Ещё одно место экономии — сеть распределения тактирования. Дело в том, что синхронизационные сигналы (такты или «тики») необходимо доставлять во все места ядра строго одновременно. Частоты большие, фронты и спады неидеально резкие по времени — умножьте его на скорость света, и полученная цифра (2–5 см) уже вполне сравнима с размером ядра. Чтобы обеспечить одновременную доставку, сигнал распространяется по короткому пути от умножителя частоты до блоков и вентилей, что требует наличие всепокрывающей сети тактирования с огромной паразитной ёмкостью. В результате, скажем, у Pentium 4 на питание такой сети уходило до трети потребляемой мощности. Хотя никаких рекордов частоты Atom ставить не собирается, да и размеры ядра очень скромные — сеть ему не подходит. Сигнал с умножителей проходит по древообразной структуре делителей и усилителей, временные параметры которых подобраны так, чтобы после всех ветвлений приёмники получали такты одновременно. Это уменьшает затраты на тактирование до величины менее 10% от общих.

Атом экономит ватты не только внутри ЦП, но и снаружи. Речь идёт не о чипсете, а о 64-битной шине FSB до него. Экономия достигается за счёт настраиваемого режима терминаторов — оконечной нагрузки шины, которая предотвращает «звон» и другие паразитные явления, мешающие повышению частоты и стабильности. При изготовлении чипа однократным пережиганием перемычки выбирается стандартный режим (обычная GTL) или экономный (КМОП). GTL (Gunning Transceiver Logic, передаточная логика Ганнинга) переключается между 0,4 В и 1,2 В, что куда меньше размаха стандартных логических уровней, но требует симметричной терминации, потребляющей драгоценные милливатты на каждом бите шины. В режиме КМОП-шины терминаторы отключаются, а входные компараторы настраиваются на меньший уровень лог. «1» относительно напряжения питания. Т. к. скоростных рекордов ставить не надо, этого достаточно для частот 400 и 533 МГц (для последних моделей, где северный мост ещё внешний — даже 667).

Виды Атома

Вместо того, чтобы утопить читателя в длинной таблице-«простыне» с параметрами всех моделей Атомов, лучше дать ссылку на уже имеющуюся простыню в Википедии. :) Здесь же прокомментируем увиденное.2-ядерный Diamondville против однокристального 2-ядерного Pineview со встроенным северным мостом

Атомы первого поколения делятся на версии Diamondville и Pineview для неттопов (компактных и дешёвых десктопов) и нетбуков (аналогичные эпитеты к ноутбуку), а также Silverthorne для MID-устройств платформы Menlow (ещё более мобильных «таблеток» и планшетов). Именно в таком порядке падает их потребляемая мощность и растёт цена — эти группы можно сравнить с аналогами «просто мобильных» ЦП, LV и ULV. Не удивительно, что 2-ядерные модели присутствуют только для неттопов, причём их цена не выше «нетбучной» серии N и меньше самых мобильных Z-вариантов. Модели N270 и N280, а также все из MID-подгруппы вышли с отключенной 64-битностью, а виртуализация волевым решением Intel и вовсе разрешена лишь старшим ЦП группы Z (вопрос о том, зачем она вообще там нужна, оставим на потом). Intel также оговаривается, что только в модели Z515 есть нечто под названием Burst Performance Technology (BPT), позволяющее динамически менять частоту между 0,8 и 1,2 ГГц в зависимости от вычислительных требований.CoreExpress-Menlow — одна из первых плат на Атоме (внизу) и чипсете Poulsbo (в центре) размером 65×58 мм

Куда интересней разброс значений TDP при одинаковых или близких частотах и питающих напряжениях. Например, для частоты 1,6 ГГц — от 4 Вт для настольных моделей до 2 для «MID'овских». Причём указанные цифры даны для 1-поточной работы: для 2-поточной Intel мелким шрифтом на презентационных слайдах пишет цифру на 20% большую. Тем не менее, в сравнении с другими процессорами разница многократная. И если бы процессор был главным потребителем энергии в мобильных устройствах, Атомы наверняка имели бы шансы вытеснить другие архитектуры с этого рынка. Но не всё так просто — первые платы с Атомами использовали изначально не предназначенные для них чипсеты 945GSE (с TDP 6 Вт для северного моста и 3,3 Вт для южного) или даже 945GC (22 Вт). Для нетбуков и особенно MID-устройств Intel рекомендовала однокорпусные чипсеты UL11L или US15* (с разными буквами) с ТDP 2,3 Вт (вместе с Атомом они составляют платформу Poulsbo), но и это не блестящее решение — например, из-за ещё более низкой 3D-производительности, чем традиционно ожидается даже от интеловских чипсетов: ради экономии пришлось замедлить в 2–8 раз частоту GPU-ядра GMA 500 (оно же PowerVR SGX 535 производства Imagination Technologies — такое же, как и в iPhone 3GS и iPad): в US15* — 200 МГц (что позволяет ускорять видео с разрешением до 1366×768), в UL11L — 100 МГц (до 800×480). А ещё U*1** делаются по технологии аж 130 нм (так что размер его чипа втрое больше, чем у ЦП), поддерживают в разных версиях до 0,5–2 ГБ DDR2-533 в одном канале, и никаких SATA и USB 3.0. ИКП в Pineview «держит» уже 4 ГБ DDR2-800.

Также видно, что только для MID-устройств Intel приготовила особо компактные версии корпусов, а вообще для одного ЦП их небольшой зоопарк:

  • BGA 437 для неттопов и нетбуков без встроенного северного моста, а также не очень мелких MID;
  • micro-FCBGA8 559 для ЦП со встроенной «бижутерией»;
  • BGA 441 для самых мелких устройств — всего 13×14 мм (первые два вида, а также чипсет — 22×22).

Для MID также наблюдается самый большой диапазон частот — от 0,8 до 2 ГГц. Из чего логично сделать вывод, что именно на эти применения Intel прежде всего и рассчитывает. Если только не смотреть на цены: самый дешёвый из выпускаемых в мире x86-процессоров — это Atom 230. А самый дешёвый из 2-ядерных — Atom 330. Причём он стоит почти те же $45 (рекомендованная цена), что и 1-ядерный Z500 с половиной частотой (зато TDP последнего в 12 раз меньше). Самый же крутой Z550 в 2,5 раза быстрее и в 3–4 раза дороже. Его точная цена неизвестна: некоторые Атомы продаются только в комплекте с чипсетом, но цена указана именно для ЦП — вокруг этой странности год назад NVIDIA даже поскандалила с Intel, пытаясь купить только процессоры без чипсетов для своей патформы Ion.Moorestown в сравнении с Menlow

В мае 2010 г. анонсировано второе поколение и 4-й вид Атомов — 1-ядерный интегрированный Lincroft (модели Z6xx с пока ещё неизвестными номерами и макс. потреблением 1,2 Вт), являющийся частью платформы Moorestown для смартфонов, т. е. ещё более компактный и экономичный аналог Pineview. Разработка запоздала к началу массового производства на 32 нм, но 45-нанометровый техпроцесс обновлён — его SoC-версия (по сравнению с настольными 45 нм от Intel) обменивает потерю 6–8% максимума частоты на 2,5-кратное уменьшение тока утечки. Также новый чип получил:

  • 32-битный контроллер памяти с увеличенной эффективностью и ПСП, причём собственно Lincroft будет поддерживать только особо экономную LPDDR1-400 (до 1 ГБ), а его пока не названные планшетные версии — только DDR2-800 (до 2 ГБ);
  • обновлённое и ускоренное до 400 МГц GPU-ядро GMA 600 с поддержкой DirectX 9.L и OpenGL 2.1;
  • новый аппаратный видеокодек, реализующий кодирование 720p30 H.264 и MPEG-4 и декодирование H.264, MPEG-4, WMV и VC-1 с разрешением 1080p30 для планшетов и 720p30 на смартфонах;
  • поддержку более разнообразной и современной периферии, включая экраны с разрешением до 1366×768 через интерфейс LVDS для планшетов и 1024×600 через MIPI для смартфонов.

Таинственная BPT теперь на короткие интервалы сможет превышать номинальную частоту при отсутствии опасности перегрева, превратившись в аналог более знакомого TurboBoost для Core i. Базовые частоты для смартфонов обещаны 1,2–1,5 ГГц, а для планшетов — до 1,9; пиковые с BPT пока неизвестны. Теперь уже внутричиповая шина «ядро↔северный мост» ускорена до 800 МГц, что даёт 6,4 ГБ/с для чтения, но только 4,3 ГБ/с для записи. А новая технология Bus Turbo Mode даст дополнительный временный разгон главной шины, ИКП и шины памяти, когда их пропускной способности не хватает.

140 млн. транзисторов чипа умещаются на 65 мм² в корпусе размером 14×14×1 мм. Такой же компактный южный мост для Z6xx называется Langwell (он же «хаб-контроллер платформы» PCH MP20) и производится по 65-нанометровому техпроцессу, причём компанией TSMC. Взамен поддержки SATA обещают подключение флешевых SSD на скоростях до 80 МБ/с. Также есть DSP обработки изображений (со входом от камеры и выходом HDMI) и ещё один для звука с собственным буфером — последний может пробуждать контроллер памяти в ЦП и считывать в себя очередную порцию данных, не включая ядро, после чего ЦП снова засыпает. Управляется всё это невидимым для ОС системным контроллером на 32-битном RISC-ядре с собственным «BIOS».

Как ни странно, Langwell не включает в себя ещё один обязательный компонент, также производимый сторонними компаниями — Briertown (он же MSIC, микросхема смешанных сигналов), содержащий контроллер энергопотребления системы и зарядки аккумулятора, генератор питающих напряжений для остальных чипов, набор цифровых и аналоговых интерфейсов, ускоритель шифрования и часы. MSIC через прямую связь с ЦП и южным мостом настраивает их блоки управления питанием, выполняя встречные запросы настройки напряжений. Для оптимизации баланса скорости и потребления под конкретную задачу (в т. ч. управление «силовыми островами» и энергосостояниями ЦП) Briertown не угадывает вычислительную нагрузку, как аналогичный блок в Core i, а явно программируется профилями энергопотребления через интерфейс ACPI. За профили отвечает подсистема управления питанием ОС (OS Driven Power Management, OSPM), опрашивающая программы об их запросах ресурсов.

Время работы с батареей на 1,5 А·ч и 3,7 В обещано 45–50 ч при проигрывании звука и 4–6 ч с видео, сёрфингом или звонком по 3G. Экономия достигается тем, что в чипсетной части процессора обильно применяются те же методы экономии, что и в ядре. В состоянии S0i3 пара Lincroft + Langwell должна потреблять всего 3 мВт, а вся система — 20–25 мВт, что в 50 раз меньше, чем в платформе Menlow, и сравнимо с смартфонами на архитектуре ARM. Хотя по сравнению с Menlow обещано сокращение занимаемой площади вдвое, очень компактным Moorestown не будет, т. к. помимо вышеназванных трёх микросхем также нужен контроллер беспроводной связи и чип(ы) памяти — Intel не собирается умещать логику и память в один корпус, как в процессоре A4 для iPad.

Для Lincroft есть ещё один южный мост — Whitney Point, с которым в сумме получается платформа Oaktrail для неттопов. Места он занимает столько же, но энергии потребляет больше, т. к. дополнительно содержит контроллеры PCI и SATA. Можем предположить, что Langwell и Whitney Point это один и тот же чип, просто в смартфонной версии не все блоки включены — рыночная политика Интел.

Если вы уже запутались в названиях и параметрах ядер и платформ — вот несколько шпаргалок, где также видно выходящее в 2011 г. третье 32-нанометровое поколение Атомов — Medfield с ядром ЦП Saltwell и встроенным южным мостом:

[ Читайте далее: Часть 3: Неравенство, Загадки, Резвость, Соперники ]

www.ixbt.com

Процессор Intel Atom® серии N2600 (1 МБ кэш-памяти, 1,6 ГГц) Спецификации продукции

Вся информация, приведенная в данном документе, может быть изменена в любое время без предварительного уведомления. Корпорация Intel сохраняет за собой право вносить изменения в цикл производства, спецификации и описания продукции в любое время без уведомления. Информация в данном документе предоставлена «как есть». Корпорация Intel не делает никаких заявлений и гарантий в отношении точности данной информации, а также в отношении характеристик, доступности, функциональных возможностей или совместимости перечисленной продукции. За дополнительной информацией о конкретных продуктах или системах обратитесь к поставщику таких систем.

Классификации Intel приведены исключительно в информационных целях и состоят из номеров классификации экспортного контроля (ECCN) и номеров Гармонизированных таможенных тарифов США (HTS). Классификации Intel должны использоваться без отсылки на корпорацию Intel и не должны трактоваться как заявления или гарантии в отношении правильности ECCN или HTS. В качестве импортера и/или экспортера ваша компания несет ответственность за определение правильной классификации вашей транзакции.

Формальные определения свойств и характеристик продукции представлены в техническом описании.

‡ Эта функция может присутствовать не во всех вычислительных системах. Свяжитесь с поставщиком, чтобы получить информацию о поддержке этой функции вашей системой или уточнить спецификацию системы (материнской платы, процессора, набора микросхем, источника питания, жестких дисков, графического контроллера, памяти, BIOS, драйверов, монитора виртуальных машин (VMM), платформенного ПО и/или операционной системы) для проверки совместимости с этой функцией. Функциональные возможности, производительность и другие преимущества этой функции могут в значительной степени зависеть от конфигурации системы.

Расчетная мощность системы и максимальная расчетная мощность рассчитаны для максимально возможных показателей. Реальная расчетная мощность может быть ниже, если используются не все каналы ввода/вывода набора микросхем.

Максимальная тактовая частота с технологией Turbo Boost — это максимальная тактовая частота одноядерного процессора, которую можно достичь с помощью технологии Intel® Turbo Boost. Более подробную информацию можно найти по адресу www.intel.com/content/www/ru/ru/architecture-and-technology/turbo-boost/turbo-boost-technology.html.

Для получения дополнительной информации, в том числе о процессорах, поддерживающих технологию Intel® HT, посетите сайт http://www.intel.com/content/www/ru/ru/architecture-and-technology/hyper-threading/hyper-threading-technology.html?wapkw=hyper+threading .

Для процессоров с поддержкой 64-разрядных архитектур Intel® требуется поддержка технологии Intel® 64 в BIOS.

Анонсированные артикулы (SKUs) на данный момент недоступны. Обратитесь к графе «Дата выпуска» для получения информации о доступности продукции на рынке.

Номера процессоров Intel® не служат мерой измерения производительности. Номера процессоров указывают на различия характеристик процессоров в пределах семейства, а не на различия между семействами процессоров. Дополнительную информацию смотрите на сайте http://www.intel.com/content/www/ru/ru/processors/processor-numbers.html.

ark.intel.com

Процессор Intel Atom® серии D525 (1 МБ кэш-памяти, 1,80 ГГц) Спецификации продукции

Вся информация, приведенная в данном документе, может быть изменена в любое время без предварительного уведомления. Корпорация Intel сохраняет за собой право вносить изменения в цикл производства, спецификации и описания продукции в любое время без уведомления. Информация в данном документе предоставлена «как есть». Корпорация Intel не делает никаких заявлений и гарантий в отношении точности данной информации, а также в отношении характеристик, доступности, функциональных возможностей или совместимости перечисленной продукции. За дополнительной информацией о конкретных продуктах или системах обратитесь к поставщику таких систем.

Классификации Intel приведены исключительно в информационных целях и состоят из номеров классификации экспортного контроля (ECCN) и номеров Гармонизированных таможенных тарифов США (HTS). Классификации Intel должны использоваться без отсылки на корпорацию Intel и не должны трактоваться как заявления или гарантии в отношении правильности ECCN или HTS. В качестве импортера и/или экспортера ваша компания несет ответственность за определение правильной классификации вашей транзакции.

Формальные определения свойств и характеристик продукции представлены в техническом описании.

‡ Эта функция может присутствовать не во всех вычислительных системах. Свяжитесь с поставщиком, чтобы получить информацию о поддержке этой функции вашей системой или уточнить спецификацию системы (материнской платы, процессора, набора микросхем, источника питания, жестких дисков, графического контроллера, памяти, BIOS, драйверов, монитора виртуальных машин (VMM), платформенного ПО и/или операционной системы) для проверки совместимости с этой функцией. Функциональные возможности, производительность и другие преимущества этой функции могут в значительной степени зависеть от конфигурации системы.

Номера процессоров Intel® не служат мерой измерения производительности. Номера процессоров указывают на различия характеристик процессоров в пределах семейства, а не на различия между семействами процессоров. Дополнительную информацию смотрите на сайте http://www.intel.com/content/www/ru/ru/processors/processor-numbers.html.

Расчетная мощность системы и максимальная расчетная мощность рассчитаны для максимально возможных показателей. Реальная расчетная мощность может быть ниже, если используются не все каналы ввода/вывода набора микросхем.

Для получения дополнительной информации, в том числе о процессорах, поддерживающих технологию Intel® HT, посетите сайт http://www.intel.com/content/www/ru/ru/architecture-and-technology/hyper-threading/hyper-threading-technology.html?wapkw=hyper+threading .

Для процессоров с поддержкой 64-разрядных архитектур Intel® требуется поддержка технологии Intel® 64 в BIOS.

Анонсированные артикулы (SKUs) на данный момент недоступны. Обратитесь к графе «Дата выпуска» для получения информации о доступности продукции на рынке.

Максимальная тактовая частота с технологией Turbo Boost — это максимальная тактовая частота одноядерного процессора, которую можно достичь с помощью технологии Intel® Turbo Boost. Более подробную информацию можно найти по адресу www.intel.com/content/www/ru/ru/architecture-and-technology/turbo-boost/turbo-boost-technology.html.

Некоторые продукты могут поддерживать новые наборы инструкций AES с обновлением конфигурации процессоров, в частности, i7-2630QM/i7-2635QM, i7-2670QM/i7-2675QM, i5-2430M/i5-2435M, i5-2410M/i5-2415M. Свяжитесь с OEM-поставщиком для получения BIOS, включающего последнее обновление конфигурации процессора.

ark.intel.com


Смотрите также