Connect with us

PC / Laptop

От Sandy Bridge до Coffee Lake: сравниваем семь поколений Intel Core i7

Практически всегда под любой публикацией, в которой так или иначе затрагивается тема производительности современных интеловских процессоров, рано или поздно появляется несколько сердитых читательских комментариев о том, что прогресс в развитии чипов у Intel давно забуксовал и нет смысла переходить со «старого доброго Core i7-2600K» на что-то новое. В таких репликах скорее всего будет раздражённо упоминаться про прирост производительности на неосязаемом уровне «не более пяти процентов в год»; про низкокачественный внутренний термоинтерфейс, который непоправимо испортил современные процессоры Intel; либо про то, что покупать в современных условиях процессоры с таким же, как и несколько лет назад, количеством вычислительных ядер вообще – удел недальновидных дилетантов, так как в них нет необходимого задела на будущее.

В том, что все такие реплики не лишены оснований, сомнений нет. Однако очень похоже, что они многократно преувеличивают имеющиеся проблемы. Лаборатория 3DNews подробно тестирует интеловские процессоры с 2000 года, и мы не можем согласиться с тезисом, что какому бы то ни было их развитию пришёл конец, а происходящее с микропроцессорным гигантом в течение последних лет иначе как стагнацией уже и не назовёшь. Да, какие-то кардинальные перемены с процессорами Intel происходят редко, но тем не менее, они продолжают планомерно совершенствоваться. Поэтому те чипы серии Core i7, которые можно купить сегодня, заведомо лучше моделей, предлагавшихся несколько лет тому назад.

Поколение Core Кодовое имя Техпроцесс Этап разработки Время выхода
2 Sandy Bridge 32 нм Так (Архитектура) 1 кв. 2011
3 Ivy Bridge 22 нм Тик (Процесс) 2 кв. 2012
4 Haswell 22 нм Так (Архитектура) 2 кв. 2013
5 Broadwell 14 нм Тик (Процесс) 2 кв. 2015
6 Skylake 14 нм Так
(Архитектура)
3 кв. 2015
7 Kaby Lake 14+ нм Оптимизация 1 кв. 2017
8 Coffee Lake 14++ нм Оптимизация 4 кв. 2017

Собственно, этот материал как раз и является контраргументом для рассуждений о никчёмности выбранной Intel стратегии постепенного развития потребительских CPU. Мы решили собрать в одном тесте старшие интеловские процессоры для массовых платформ за последние семь лет, и посмотреть на практике, насколько представители серий Kaby Lake и Coffee Lake ушли вперёд относительно «эталонных» Sandy Bridge, которые за годы гипотетических сравнений и мысленных противопоставлений в представлении обывателей стали настоящей иконой процессоростроения.

#Что поменялось в процессорах Intel c 2011 года по настоящее время

Отправной точкой в новейшей истории развития процессоров Intel принято считать микроархитектуру Sandy Bridge. И это неспроста. Несмотря на то, что первое поколение процессоров под маркой Core было выпущено в 2008 году на базе микроархитектуры Nehalem, почти все основные черты, которые присущи современным массовым CPU микропроцессорного гиганта, вошли в обиход не тогда, а парой лет позднее, когда распространение получило следующее поколение процессорного дизайна, Sandy Bridge.

Сейчас компания Intel приучила нас к откровенно неторопливому прогрессу в разработке микроархитектуры, когда нововведений стало очень мало, и они почти не приводят к росту удельной производительности процессорных ядер. Но всего лишь семь лет назад ситуация была кардинально иной. В частности, переход от Nehalem к Sandy Bridge был ознаменован 15-20-процентном ростом показателя IPC (числа исполняемых за такт инструкций), что обуславливалось глубокой переделкой логической конструкции ядер с прицелом на повышение их эффективности.

В Sandy Bridge были заложены многие принципы, которые с тех пор не менялись и стали стандартными для большинства процессоров сегодняшнего дня. Например, именно там появился отдельный кеш нулевого уровня для декодированных микроопераций, а также стал применяться физический регистровый файл, снижающий энергозатраты при работе алгоритмов внеочередного выполнения инструкций.

Но, пожалуй, самым главным нововведением стало то, что Sandy Bridge был спроектирован как унифицированная система-на-чипе, рассчитанная одновременно на все классы применений: на серверные, десктопные и мобильные. Скорее всего, в прадедушки современных Coffee Lake общественное мнение поставило именно его, а не какой-нибудь Nehalem и уж тем более не Penryn, именно из-за этой особенности. Впрочем, и итоговая сумма всех переделок в глубинах микроархитектуры Sandy Bridge тоже оказалась весьма значительной. В конечном итоге этот дизайн утратил все старые родственные связи с P6 (Pentium Pro), которые то здесь, то там проявлялись во всех предшествующих процессорах Intel.

Говоря об общей структуре, нельзя также не вспомнить и о том, что в процессорный кристалл Sandy Bridge впервые в истории интеловских CPU было встроено полноценное графическое ядро. Этот блок проследовал внутрь процессора вслед за контроллером DDR3-памяти, разделяемым L3-кешем и контроллером шины PCI Express. Для соединения вычислительных ядер и всех остальных «внеядерных» частей воедино инженеры Intel внедрили в Sandy Bridge новую на тот момент масштабируемую кольцевую шину, применяемую для организации взаимодействия между структурными единицами в последующих массовых CPU и по сей день.

Если же опуститься на уровень микроархитектуры Sandy Bridge, то одной из ключевых её особенностей стала поддержка семейства SIMD-инструкций, AVX, предназначенных для работы с 256-битными векторами. К настоящему моменту такие инструкции прочно вошли в обиход и не кажутся чем-то необычным, но их реализация в Sandy Bridge потребовала расширения части вычислительных исполнительных устройств. Инженеры Intel стремились сделать работу с 256-битными данными такой же быстрой, как и с векторами меньшей разрядности. Поэтому вместе с реализацией полноценных 256-битных исполнительных устройств потребовалось и увеличение скорости работы процессора с памятью. Логические исполнительные устройства, предназначенные для загрузки и сохранения данных, в Sandy Bridge получили удвоенную производительность, кроме того, симметрично была увеличена пропускная способность кеш-памяти первого уровня при чтении.

Микроархитектура Sandy Bridge

Микроархитектура Sandy Bridge

Нельзя не упомянуть и о сделанных в Sandy Bridge кардинальных изменениях в работе блока предсказания ветвлений. Благодаря оптимизациям в применяемых алгоритмах и увеличению размеров буферов, архитектура Sandy Bridge позволила сократить процент неверных предсказаний переходов почти вдвое, что не только заметно сказалось на производительности, но и позволило дополнительно снизить энергопотребление этого дизайна.

В конечном итоге, с сегодняшних позиций процессоры Sandy Bridge можно было бы назвать образцово-показательным воплощением фазы «так» в интеловском принципе «тик-так». Как и предшественники, данные процессоры продолжили базироваться на техпроцессе с 32-нм нормами, но предложенный ими рост производительности оказался более чем убедителен. И подпитывала его не только обновлённая микроархитектура, но и увеличенные на 10-15 процентов тактовые частоты, а также внедрение более агрессивной версии технологии Turbo Boost 2.0. Учитывая всё это, хорошо понятно, почему многие энтузиасты до сих пор вспоминают Sandy Bridge самыми тёплыми словами.

Старшим предложением в семействе Core i7 на момент выхода микроархитектуры Sandy Bridge стал Core i7-2600K. Этот процессор получил тактовую частоту на уровне 3,3 ГГц с возможностью авторазгона при неполной нагрузке до 3,8 ГГц. Впрочем, отличали 32-нм представителей Sandy Bridge не только сравнительно высокие для того времени тактовые частоты, но хороший разгонный потенциал. Среди Core i7-2600K нередко можно было встретить экземпляры, способные работать на частотах 4,8-5,0 ГГц, что во многом обуславливалось применением в них качественного внутреннего термоинтерфейса – бесфлюсового припоя.

Через девять месяцев после выпуска Core i7-2600K, в октябре 2011, компания Intel обновила старшее предложение в модельном ряде и предложила немного ускоренную модель Core i7-2700K, номинальная частота которой была доведена до 3,5 ГГц, а максимальная частота в турбо-режиме – до 3,9 ГГц.

Впрочем, жизненный цикл Core i7-2700K оказался коротким – уже в апреле 2012 года на смену Sandy Bridge пришёл обновлённый дизайн Ivy Bridge. Ничего особенного: Ivy Bridge относился к фазе «тик», то есть представлял собой перевод старой микроархитектуры на новые полупроводниковые рельсы. И в этом отношении прогресс действительно был серьёзным – кристаллы Ivy Bridge производились по 22-нм технологическому процессу, основанному на трёхмерных FinFET-транзисторах, которые в то время только входили в употребление.

При этом старая микроархитектура Sandy Bridge на низком уровне осталась практически нетронута. Были выполнены лишь отдельные косметические переделки, которые ускорили выполнение в Ivy Bridge операций деления и немного повысили эффективность технологии Hyper-Threading. Правда, попутно были несколько улучшены «внеядерные» компоненты. Контроллер PCI Express получил совместимость с третьей версией протокола, а контроллер памяти увеличил свои возможности и стал поддерживать скоростную оверклокерскую DDR3-память. Но в итоге рост удельной производительности при переходе от Sandy Bridge к Ivy Bridge составил не более 3-5 процентов.

Не дал серьёзных причин для радости и новый технологический процесс. К сожалению, внедрение 22-нм норм не позволило как-то принципиально нарастить тактовые частоты Ivy Bridge. Старшая версия Core i7-3770K получила номинальную частоту 3,5 ГГц с возможностью разгона в турбо-режиме до 3,9 ГГц, то есть с точки зрения частотной формулы она оказалась ничуть не быстрее Core i7-2700K. Улучшилась лишь энергоэффективность, однако пользователей настольных компьютеров этот аспект традиционно волнует слабо.

Всё это, конечно, вполне можно списать на то, что на этапе «тик» никаких прорывов происходить и не должно, но кое в чём Ivy Bridge оказались даже хуже предшественников. Речь – о разгоне. При выводе на рынок носителей этого дизайна Intel приняла решение отказаться от использования при финальной сборке процессоров бесфлюсовой пайки галлиевым припоем теплораспределительной крышки к полупроводниковому кристаллу. Начиная с Ivy Bridge для организации внутреннего термоинтерфейса стала использоваться банальная термопаста, и это сразу же ударило по максимально достижимым частотам. По разгонному потенциалу Ivy Bridge определённо стали хуже, и в результате, переход от Sandy Bridge к Ivy Bridge стал одним из самых спорных моментов в новейшей истории потребительских процессоров Intel.

Поэтому на следующий этап эволюции, Haswell, возлагались особенные надежды. В этом поколении, относящемся к фазе «так», должны были появиться серьёзные микроархитектурные улучшения, от которых ожидалась способность как минимум продвинуть вперёд забуксовавший было прогресс. И в какой-то степени это произошло. Появившиеся летом 2013 года процессоры Core четвёртого поколения действительно приобрели заметные улучшения во внутренней структуре.

Основное: теоретическая мощность исполнительных устройств Haswell, выражающаяся в количестве исполняемых за такт микроопераций, по сравнению с прошлыми CPU выросла на треть. В новой микроархитектуре не просто был проведён ребаланс имеющихся исполнительных устройств, но и появилось два дополнительных исполнительных порта для целочисленных операций, обслуживания ветвлений и генерации адресов. Кроме того, микроархитектура получила совместимость с расширенным набором векторных 256-битных инструкций AVX2, которые благодаря трёхоперандным FMA-командам увеличили пиковую пропускную способность архитектуры вдвое.

В дополнение к этому инженеры Intel пересмотрели ёмкость внутренних буферов, и где это было необходимо, увеличили их. Выросло в размере окно планировщика. Кроме того, были увеличены целочисленный и вещественночисленный физические регистровые файлы, что улучшило возможности процессора по переупорядочиванию порядка исполнения инструкций. В дополнение ко всему этому, существенно изменилась и подсистема кеш-памяти. L1- и L2-кеши в Haswell получили вдвое более широкую шину.

Казалось бы, перечисленных улучшений должно быть достаточно для того, чтобы заметно поднять удельную производительность новой микроархитектуры. Но как бы ни так. Проблема дизайна Haswell состояла в том, что он оставил без изменений входную часть исполнительного конвейера и декодер x86-команд сохранил ту же производительность, что и раньше. То есть, максимальный темп декодирования x86-кода в микроинструкции остался на уровне 4-5 команд за такт. И в результате при сопоставлении Haswell и Ivy Bridge на одинаковой частоте и нагрузке, не использующей новые AVX2-инструкции, выигрыш в производительности оказался всего лишь на уровне 5-10 процентов.

Микроархитектура Haswell

Микроархитектура Haswell

Имидж микроархитектуры Haswell подпортила и первая волна процессоров, выпущенная на её основе. Опираясь на всё тот же 22-нм техпроцесс, что и Ivy Bridge, новинки не смогли предложить высокие частоты. Например, старший Core i7-4770K вновь получил базовую частоту 3,5 ГГц и максимальную частоту в турбо-режиме на уровне 3,9 ГГц, то есть по сравнению с прошлыми поколениями Core никакого продвижения не наметилось.

В то же время с внедрением следующего технологического процесса с 14-нм нормами у Intel стали возникать разного рода трудности, поэтому через год, летом 2014 года на рынок было выведено не следующее поколение процессоров Core, а вторая очередь Haswell, которая получила кодовые имена Haswell Refresh, или, если говорить о флагманских модификациях, то Devil’s Canyon. В рамках этого обновления Intel смогла заметно увеличить тактовые частоты 22-нм CPU, что действительно вдохнуло в них новую жизнь. В качестве примера можно привести, новый старший процессор Core i7-4790K, который по номинальной частоте взял отметку в 4,0 ГГц и получил максимальную частоту с учётом турбо-режима на уровне 4,4 ГГц. Удивительно, что подобное полугигагерцовое ускорение было достигнуто без каких-либо реформ техпроцесса, а лишь за счёт простых косметических изменений в схеме питания процессоров и благодаря улучшению теплопроводящих свойств термопасты, используемой под крышкой CPU.

Впрочем, даже представители семейства Devil’s Canyon особенно жалуемыми в среде энтузиастов предложениями стать не смогли. На фоне результатов Sandy Bridge их разгон нельзя было назвать выдающимся, к тому же достижение высоких частот требовало сложного «скальпирования» – демонтажа процессорной крышки с последующей заменой штатного термоинтерфейса на какой-либо материал с лучшей теплопроводностью.

Из-за сложностей, которые преследовали Intel при переводе массового производства на 14-нм нормы, выступление следующего, пятого по счёту поколения процессоров Core, Broadwell, получилось сильно скомканным. Компания долго не могла решить, стоить ли вообще выпускать на рынок десктопные процессоры с этим дизайном, поскольку при попытках изготовления крупных полупроводниковых кристаллов уровень брака превышал приемлемые значения. В конечном итоге предназначенные для настольных компьютеров четырёхъядерники Broadwell всё-таки появились, но во-первых, произошло это лишь летом 2015 года – с девятимесячным опозданием относительно изначально запланированного срока, а во-вторых, уже через два месяца после их анонса Intel представила дизайн следующего поколения, Skylake.

Тем не менее, с точки зрения развития микроархитектуры Broadwell трудно назвать вторичной разработкой. И даже более того, в настольных процессорах этого поколения применялись такие решения, к которым ни до того, ни после того Intel никогда не прибегала. Уникальность десктопных Broadwell определялась тем, что в них проникло производительное интегрированное графическое ядро Iris Pro уровня GT3e. И это значит не только то, что процессоры этого семейства обладали самым мощным на тот момент встроенным видеоядром, но и также то, что они комплектовались дополнительным 22-нм кристаллом Crystall Well, представляющим собой основанную на eDRAM кеш-память четвёртого уровня.

Смысл добавления в процессор отдельного чипа быстрой встроенной памяти вполне очевиден и обусловлен потребностями производительного встроенного графического ядра в фрейм-буфере с низкой латентностью и высокой пропускной способностью. Однако установленная в Broadwell память eDRAM архитектурно была выполнена именно как виктимный кеш, и ей могли пользоваться и вычислительные ядра CPU. В результате, десктопные Broadwell стали единственными в своём роде массовыми процессорами с 128 Мбайт L4-кеша. Правда, при этом несколько пострадал объём расположенного в процессорном кристалле L3-кеша, который был сокращён с 8 до 6 Мбайт.

Некоторые улучшения были заложены и в базовой микроархитектуре. Несмотря на то, что Broadwell относился к фазе «тик», переделки коснулись входной части исполнительного конвейера. Было увеличено окно планировщика внеочередного исполнения команд, в полтора раза вырос объём таблицы ассоциативной трансляции адресов второго уровня, а кроме того, вся схема трансляции приобрела второй обработчик промахов, что позволило обрабатывать по две операции преобразования адресов параллельно. В сумме все нововведения повысили эффективность внеочередного исполнения команд и предсказания сложных ветвлений кода. Попутно были усовершенствованы механизмы выполнения операций умножения, которые в Broadwell стали обрабатываться в существенно более быстром темпе. По итогам всего этого Intel даже смогла утверждать, что улучшения микроархитектуры повысили удельную производительность Broadwell по сравнению с Haswell на величину порядка пяти процентов.

Но несмотря на всё это, ни о каком существенном преимуществе первых десктопных 14-нм процессоров вести речь было невозможно. И кеш четвёртого уровня, и микроархитектурные изменения лишь пытались скомпенсировать главный изъян Broadwell – низкие тактовые частоты. Из-за проблем с технологическим процессом базовая частота старшего представителя семейства, Core i7-5775C, была установлена лишь на уровне 3,3 ГГц, а частота в турбо режиме не превышала 3,7 ГГц, что оказалось хуже характеристик Devil’s Canyon на целых 700 МГц.

Подобная же история произошла и с разгоном. Предельные частоты, до которых удавалось раскочегаривать десктопные Broadwell без использования продвинутых методов охлаждения, находились в районе 4,1-4,2 ГГц. Поэтому нет ничего удивительного, что потребители восприняли выпуск Broadwell скептически, и процессоры этого семейства так и остались странным нишевым решением для тех, кто был заинтересован в производительном встроенном графическом ядре. Первым же полноценным 14-нм чипом для настольных компьютеров, который смог привлечь к себе внимание широких слоёв пользователей, стал только следующий проект микропроцессорного гиганта – Skylake.

Производство Skylake, как и процессоров предыдущего поколения, выполнялось по 14-нм техпроцессу. Однако здесь Intel уже смогла добиться нормальных тактовых частот и разгона: старшая десктопная версия Skylake, Core i7-6700K получила номинальную частоту 4,0 ГГц и авторазгон в рамках турбо-режима до 4,2 ГГц. Это чуть более низкие значения, если сравнивать с Devil’s Canyon, однако более новые процессоры оказались определённо быстрее предшественников. Дело в том, что Skylake – это «так» в интеловской номенклатуре, что означает существенные изменения в микроархитектуре.

И они действительно есть. Улучшений в дизайне Skylake на первый взгляд было сделано не так много, но все они носили прицельный характер и позволили устранить имевшиеся слабые места в микроархитектуре. Если коротко, то Skylake получили увеличенные внутренние буфера для более глубокого внеочередного исполнения инструкций и более высокую пропускную способность кеш-памяти. Усовершенствования затронули блок предсказания переходов и входную часть исполнительного конвейера. Также был увеличен темп исполнения инструкций деления, и перебалансированы механизмы исполнения операций сложения, умножения и FMA-инструкций. В довершение разработчики потрудились над повышением эффективности технологии Hyper-Threading. В сумме это позволило добиться примерно 10-процентного улучшения производительности на такт в сравнении с процессорами прошлых поколений.

Микроархитектура Skylake

Микроархитектура Skylake

В целом, Skylake можно охарактеризовать как достаточно глубокую оптимизацию исходной архитектуры Core с расчётом на то, чтобы в дизайне процессора не оставалось никаких узких мест. С одной стороны, за счёт увеличения мощности декодера (с 4 до 5 микроопераций за такт) и скорости работы кеша микроопераций (с 4 до 6 микроопераций за такт) существенно увеличился темп декодирования инструкций. А с другой – выросла эффективность обработки получающихся микроопераций, чему поспособствовало углубление алгоритмов внеочередного исполнения и перераспределение возможностей исполнительных портов вместе с серьёзной ревизией темпа исполнения целого ряда обычных, SSE и AVX-команд.

Например, Haswell и Broadwell имели по два порта для исполнения умножений и FMA-операций над вещественными числами, но только один порт предназначался для сложений, что плохо соответствовало реальному программному коду. В Skylake этот дисбаланс был устранён и сложения стали выполняться уже на двух портах. Кроме того, количество портов, способных работать с целочисленными векторными инструкциями, выросло с двух до трёх. В конечном итоге всё это привело к тому, что практически для любого типа операций в Skylake всегда есть несколько альтернативных портов. А это значит, что в микроархитектуре наконец были успешно устранены практически все возможные причины простоя конвейера.

Заметные изменения затронули и подсистему кеширования: пропускная способность кеш-памяти второго и третьего уровня была увеличена. Кроме того, сократилась ассоциативность кеша второго уровня, что в конечном счёте позволило улучшить его КПД и уменьшить штраф при обработке промахов.

Существенные перемены произошли и на более высоком уровне. Так, в Skylake вдвое выросла пропускная способность кольцевой шины, которая соединяет воедино все процессорные блоки. Кроме того, в CPU этого поколения обосновался новый контроллер памяти, который получил совместимость с DDR4 SDRAM. А в дополнение к этому для соединения процессора с чипсетом стала применяться новая шина DMI 3.0 с увеличенной вдвое пропускной способностью, что дало возможность реализовать скоростные линии PCI Express 3.0 в том числе и через чипсет.

Впрочем, как и все предшествующие версии архитектуры Core, Skylake представлял собой ещё одну вариацию на тему изначального дизайна. А это значит, что и в шестом поколении микроархитектуры Core разработчики Intel продолжили придерживаться тактики поэтапного внедрения улучшений на каждом цикле разработки. В целом это – не слишком впечатляющий подход, который не позволяет увидеть какие-то значимые изменения в производительности сразу – при сравнении CPU из соседних поколений. Но зато при модернизации старых систем ощутимый прирост производительности заметить совсем несложно. Например, сама Intel охотно сравнивала Skylake с Ivy Bridge, демонстрируя при этом, что за три года быстродействие процессоров выросло более чем на 30 процентов.

И в действительности это был достаточно серьёзный прогресс, потому что потом всё стало значительно хуже. После Skylake какое бы то ни было улучшение удельной производительности процессорных ядер прекратилось совсем. Те процессоры, которые представлены на рынке в настоящее время, всё ещё продолжают использовать микроархитектурный дизайн Skylake, несмотря на то, что с момента его появления в десктопных процессорах прошло уже почти три года. Неожиданный простой случился из-за того, что Intel не смогла справиться со внедрением следующей версии полупроводникового процесса с 10-нм нормами. В результате весь принцип «тик-так» рассыпался, вынудив микропроцессорного гиганта как-то выкручиваться и заниматься многократным перевыпуском старых продуктов под новыми именами.

Процессоры поколения Kaby Lake, которые появились на рынке в самом начале 2017 года, стали первым и очень ярким примером попыток Intel продать клиентам тот же Skylake во второй раз. Близкие родственные связи между двумя поколениями процессоров особо и не скрывались. Intel честно говорила, что Kaby Lake – это уже не «тик» и не «так», а простая оптимизация предыдущего дизайна. При этим под словом «оптимизация» понимались некие улучшения в структуре 14-нм транзисторов, которые открывали возможность увеличения тактовых частот без изменения рамок теплового пакета. Для видоизменённого техпроцесса был даже придуман специальный термин «14+ нм». Благодаря этой производственной технологии старший массовый десктопный процессор Kaby Lake, получивший наименование Core i7-7700K, смог предложить пользователям номинальную частоту 4,2 ГГц и частоту турбо-режима 4,5 ГГц.

Таким образом, рост частот Kaby Lake по сравнению с оригинальным Skylake составил примерно 5 процентов, и этим всё и ограничивалось, что, честно говоря, ставило под сомнение правомерность отнесения Kaby Lake к следующему поколению Core. До этого момента каждое последующее поколение процессоров, не важно, относилось оно к фазе «тик» или «так», обеспечивало хоть какой-то прирост показателя IPC. Между тем в Kaby Lake никаких микроархитектурных улучшений не было вообще, поэтому эти процессоры логичнее было бы считать просто вторым степпингом Skylake.

Однако новая версия 14-нм техпроцесса всё же смогла кое в чём положительно проявить себя: разгонный потенциал Kaby Lake по сравнению с Skylake подрос примерно на 200-300 МГц, благодаря чему процессоры данной серии оказались достаточно тепло встречены энтузиастами. Правда, Intel продолжила использовать под процессорной крышкой вместо припоя термопасту, поэтому для полноценного разгона Kaby Lake необходимо было проводить скальпирование.

Не справилась Intel и с вводом в строй 10-нм технологии и к началу текущего года. Поэтому в конце прошлого года на рынок была выведена ещё одна разновидность процессоров, построенных на всё той же микроархитектуре Skylake – Coffee Lake. Но говорить о Coffee Lake как о третьем обличье Skylake не совсем правильно. Прошлый год стал периодом кардинальной смены парадигмы на процессорном рынке. В «большую игру» вернулась AMD, которая смогла переломить устоявшиеся традиции и создать спрос на массовые процессоры с числом ядер более четырёх. Внезапно Intel оказалась в роли догоняющей, и выход Coffee Lake стал не столько попыткой заполнить паузу до долгожданного появления 10-нм процессоров Core, сколько реакцией на выход шести- и восьмиядерных процессоров AMD Ryzen.

В результате, процессоры Coffee Lake получили важное структурное отличие от своих предшественников: число ядер в них было увеличено до шести штук, что с массовой платформой Intel произошло впервые. Однако при этом никаких изменений на уровне микроархитектуры вновь введено не было: Coffee Lake по сути – шестиядерный Skylake, собранный на основе точно таких же по внутреннему устройству вычислительных ядер, которые снабжены увеличенным до 12 Мбайт L3-кешем (по стандартному принципу 2 Мбайт на ядро) и объединены привычной кольцевой шиной.

Впрочем, несмотря на то, что мы так запросто позволяем себе говорить о Coffee Lake «ничего нового», говорить о полном отсутствии каких-то перемен не совсем справедливо. Хотя в микроархитектуре вновь ничего не поменялось, специалистам Intel пришлось потратить немало усилий для того, чтобы шестиядерные процессоры смогли вписаться в стандартную десктопную платформу. И результат вышел достаточно убедительным: шестиядерные процессоры остались верны привычному тепловому пакету и, более того, совсем не замедлились по тактовым частотам.

В частности, старший представитель поколения Coffee Lake, Core i7-8700K, получил базовую частоту 3,7 ГГц, а в турбо-режиме он может разгоняться до 4,7 ГГц. При этом оверклокерский потенциал Coffee Lake, несмотря на его более массивный полупроводниковый кристалл, оказался даже лучше, чем у всех предшественников. Core i7-8700K нередко выводятся их рядовыми владельцами на пятигигагерцовый рубеж, причём такой разгон бывает реален даже без скальпирования и замены внутреннего термоинтерфейса. И это значит, что Coffee Lake хоть и экстенсивный, но существенный шаг вперёд.

Всё это стало возможным исключительно благодаря очередному усовершенствованию 14-нм технологического процесса. На четвёртый год его использования для массового производства десктопных чипов Intel удалось добиться действительно впечатляющих результатов. Внедрённая третья версия 14-нм норм («14++ нм» в обозначениях производителя) и перекомпоновка полупроводникового кристалла позволили существенно улучшить производительность в пересчёте на каждый затраченный ватт и поднять суммарную вычислительную мощность. Внедрением шестиядерности Intel, пожалуй, смогла совершить даже более значительный шаг вперёд, чем любым из предшествующих тому улучшений микроархитектуры. И сегодня Coffee Lake смотрится весьма соблазнительным вариантом для модернизации старых систем, основанных на предыдущих носителях микроархитектуры Core.

Кодовое имя Техпроцесс Число ядер GPU L3 кеш, Мбайт Число транзисторов, млрд. Площадь кристалла, мм2
Sandy Bridge 32 нм 4 GT2 8 1,16 216
Ivy Bridge 22 нм 4 GT2 8 1,2 160
Haswell 22 нм 4 GT2 8 1,4 177
Broadwell 14 нм 4 GT3e 6 Н/д ~145 + 77 (eDRAM)
Skylake 14 нм 4 GT2 8 Н/д 122
Kaby Lake 14+ нм 4 GT2 8 Н/д 126
Coffee Lake 14++ нм 6 GT2 12 Н/д 150

#Процессоры и платформы: спецификации

Для проведения сравнения семи последних поколений Core i7 мы взяли старших представителей в соответствующих сериях – по одному от каждого дизайна. Основные характеристики этих процессоров приведены в следующей таблице.

Core i7-2700K Core i7-3770K Core i7-4790K Core i7-5775C Core i7-6700K Core i7-7700K Core i7-8700K
Кодовое имя Sandy Bridge Ivy Bridge Haswell (Devil’s Canyon) Broadwell Skylake Kaby Lake Coffee Lake
Технология производства, нм 32 22 22 14 14 14+ 14++
Дата выхода 23.10.2011 29.04.2012 2.06.2014 2.06.2015 5.08.2015 3.01.2017 5.10.2017
Ядра/потоки 4/8 4/8 4/8 4/8 4/8 4/8 6/12
Базовая частота, ГГц 3,5 3,5 4,0 3,3 4,0 4,2 3,7
Частота Turbo Boost, ГГц 3,9 3,9 4,4 3,7 4,2 4,5 4,7
L3-кеш, Мбайт 8 8 8 6 (+128 Мбайт eDRAM) 8 8 12
Поддержка памяти DDR3-1333 DDR3-1600 DDR3-1600 DDR3L-1600 DDR4-2133 DDR4-2400 DDR4-2666
Расширения набора инструкций AVX AVX AVX2 AVX2 AVX2 AVX2 AVX2
Интегрированная графика HD 3000 (12 EU) HD 4000 (16 EU) HD 4600 (20 EU) Iris Pro 6200 (48 EU) HD 530 (24 EU) HD 630 (24 EU) UHD 630 (24 EU)
Макс. частота графического дра, ГГц 1,35 1,15 1,25 1,15 1,15 1,15 1,2
Версия PCI Express 2.0 3.0 3.0 3.0 3.0 3.0 3.0
Линии PCI Express 16 16 16 16 16 16 16
TDP, Вт 95 77 88 65 91 91 95
Сокет LGA1155 LGA1155 LGA1150 LGA1150 LGA1151 LGA1151 LGA1151v2
Официальная цена $332 $332 $339 $366 $339 $339 $359

Любопытно, что за прошедшие с момента выпуска Sandy Bridge семь лет Intel так и не смогла заметно нарастить тактовые частоты. Несмотря на то, что дважды менялся технологический производственный процесс и дважды серьезно оптимизировалась микроархитектура, сегодняшние Core i7 почти не продвинулись вперёд по своей рабочей частоте. Новейший Core i7-8700K имеет номинальную частоту 3,7 ГГц, что всего лишь на 6 процентов выше частоты вышедшего в 2011 году Core i7-2700K.

Впрочем, такое сравнение не совсем корректно, ведь Coffee Lake имеет в полтора раза больше вычислительных ядер. Если же ориентироваться на четырёхъядерный Core i7-7700K, то рост частоты выглядит всё-таки убедительнее: этот процессор ускорился относительно 32-нм Core i7-2700K на достаточно весомые 20 процентов в мегагерцовом выражении. Хотя всё равно вряд ли это можно назвать впечатляющим приростом: в абсолютных величинах это конвертируется в прибавку по 100 МГц в год.

Нет никаких прорывов и в других формальных характеристиках. Intel продолжает снабжать все свои процессоры индивидуальной кеш-памятью второго уровня объёмом 256 Кбайт на ядро, а также общим на все ядра L3-кешем, размер которого определяется из расчёта 2 Мбайт на ядро. Иными словами, главный фактор, по которому произошёл самый большой прогресс – это число вычислительных ядер. Развитие Core начиналось с четырёхъядерных CPU, а пришло к шестиядерным. Причём, очевидно, что это ещё не конец, и в ближайшей перспективе мы увидим и восьмиядерные варианты Coffee Lake (либо Whiskey Lake).

Впрочем, как нетрудно заметить, за семь лет у Intel почти не менялась и ценовая политика. Даже шестиядерный Coffee Lake по сравнению с предшествующими четырёхъядерными флагманами подорожал всего лишь на шесть процентов. Все же остальные старшие процессоры класса Core i7 для массовой платформы всегда обходились потребителям в сумму порядка $330-340.

Любопытно, что самые крупные перемены произошли даже не с самими процессорами, а с поддержкой ими оперативной памяти. Пропускная способность двухканальной SDRAM с момента выхода Sandy Bridge и до сегодняшнего дня выросла вдвое: с 21,3 до 41,6 Гбайт/с. И это – ещё одно немаловажное обстоятельство, определяющее преимущество современных систем, совместимых со скоростной DDR4-памятью.

Да и вообще, все эти годы вместе с процессорами эволюционировала и вся остальная платформа. Если вести речь о главных вехах в развитии платформы, то помимо роста скорости совместимой памяти, отметить хочется и появление поддержки графического интерфейса PCI Express 3.0. Кажется, что скоростная память и быстрая графическая шина наряду с прогрессом в частотах и архитектурах процессоров выступают весомыми причинами того, что современные системы стали лучше и быстрее прошлых. Поддержка DDR4 SDRAM появилась в Skylake, а перевод процессорной шины PCI Express на третью версию протокола произошёл ещё в Ivy Bridge.

Кроме того, заметное развитие получили и сопутствующие процессорам наборы системной логики. Действительно, сегодняшние интеловские чипсеты трёхсотой серии могут предложить гораздо более интересные возможности в сравнении с Intel Z68 и Z77, которые использовались в LGA 1155-материнских платах под процессоры поколения Sandy Bridge. В этом нетрудно убедиться по следующей таблице, в которой мы свели воедино характеристики флагманских интеловских чиспсетов для массовой платформы.

  P67/Z68 Z77 Z87 Z97 Z170 Z270 Z370
Совместимость с CPU Sandy Bridge
Ivy Bridge
Haswell Haswell
Broadwell
Skylake
Kaby Lake
Coffee Lake
Интерфейс DMI 2.0 (2 Гбайт/с) DMI 3.0 (3,93 Гбайт/с)
Стандарт PCI Express 2.0 3.0
Линии PCI Express 8 20 24
Поддержка PCIe M.2 Нет Есть Есть, до 3 устройств
Поддержка PCI Есть Нет
SATA 6 Гбит/с 2 6
SATA 3 Гбит/с 4 0
USB 3.1 Gen2 0
USB 3.0 0 4 6 10
USB 2.0 14 10 8 4

В современных наборах логики существенно развились возможности для подключения высокоскоростных носителей информации. Самое главное: благодаря переходу чипсетов на шину PCI Express 3.0 сегодня в производительных сборках можно использовать быстродействующие NVMe-накопители, которые даже по сравнению с SATA SSD могут предложить заметно лучшую отзывчивость и более высокую скорость чтения и записи. И одно только это может стать веским аргументом в пользу модернизации.

Кроме того, современные наборы системной логики предоставляют гораздо более богатые возможности для подключения дополнительных устройств. И речь не только о существенном увеличении числа линий PCI Express, что обеспечивает наличие на платах несколько дополнительных слотов PCIe, заменяющих обычные PCI. Попутно в сегодняшних чипсетах имеется также и врождённая поддержка портов USB 3.0, а многие современные материнские платы снабжаются и портами USB 3.1 Gen2.

SOURCE

Continue Reading
Click to comment

Leave a Reply

Your email address will not be published. Required fields are marked *

PC / Laptop

Обзор процессоров AMD Ryzen Threadripper 2990WX и 2950X: нужны ли в производительном десктопе 32 ядра, или посидим на 16

Когда AMD представляла первоначальную версию HEDT-платформы   (High-End Desktop)Threadripper, она преподносила её, как некое экспериментальное и нишевое решение для настольных систем премиального уровня. Однако то, насколько тепло её встретили пользователи, превзошло самые смелые ожидания. Процессоры Ryzen Threadripper смогли предложить то, чего не было и нет у Intel: относительно доступный по цене процессор с большим массивом мощных вычислительных ядер. Количество потребителей, которых такие процессоры заинтересовали по роду их деятельности, вышло настолько значительным, что продолжение экспансии в сегмент высокопроизводительных десктопов и рабочих станций AMD сделала одной из основных своих задач. Шутка ли, развитие Ryzen Threadripper даже рассинхронизировалось с обновлением аналогичных по конструкции процессоров EPYC, и второе поколение Threadripper, продажи представителей которого начинаются с сегодняшнего дня, убежало вперёд от своих серверных собратьев.

Интерес к новым Ryzen Threadripper обусловлен не только тем, что это – первые многоядерные CPU, построенные на 12-нм микроархитектуре Zen+. Вместе с модернизацией на микроуровне, AMD решила усилить своё HEDT-семейство принципиально. Теперь пользователи, которые занимаются созданием и обработкой цифрового контента, смогут выбирать не только среди 12- и 16-ядерных моделей Threadripper, но и получат куда более внушительные 24- и 32-ядерные варианты. Это значит, что Ryzen Threadripper второго поколения привлекательнее интеловских альтернатив не только с точки зрения цен, но и по «грубой силе», ведь доступные сегодня старшие Core i9 для платформы LGA 2066 имеют в своём распоряжении лишь 18 ядер.

Впрочем, это вовсе не значит, что AMD попутно не стала ничего менять в ценообразовании. На момент выпуска процессоров Threadripper первого поколения компания ориентировалась на удельную цену порядка $62 за ядро. Уже тогда это было очень щедрое предложение, поскольку в HEDT-процессорах Intel стоимость ядра определена в $100. Но второе поколение Threadripper идёт ещё дальше, и стоимость ядра теперь снижается до $56. Таким образом, в армии сторонников многоядерных процессоров AMD класса HEDT может появится большая группа новобранцев.

Однако в случае с Ryzen Threadripper мы хотели бы предостеречь от принятия быстрых эмоциональных решений. Как бы круто не выглядели 32 ядра с ценой $1800, у новых HEDT-процессоров AMD, как и у всей платформы TR4 в целом есть немало серьёзных проблем, начиная от высокого тепловыделения и закачивая не совсем очевидной ситуацией с масштабированием производительности. Обо всём этом мы подробно поговорим в данном материале.

#Модельный ряд Ryzen Threadripper второго поколения

Начнём с главного: во втором поколении своей HEDT-платформы AMD решила разделить модельный ряд на две части. Если раньше Ryzen Threadripper позиционировались в качестве универсальных процессоров  высокой производительностидля энтузиастов, то теперь компания стала дробить целевую аудиторию на более узкие сообщества.

К первой группе потенциальных покупателей Ryzen Threadripper были отнесены те пользователи, которые просто хотят получить в своё распоряжение исключительную вычислительную мощность, и собираются использовать её для решения задач различного профиля. В качестве примера AMD, в частности, говорит о таких энтузиастах, которые в рабочее время имеют дело с обработкой или созданием цифрового контента, а досуг посвящают компьютерным играм. Им компания предлагает продолжать ориентироваться на процессоры серии X – чипы с 12 и 16 вычислительными ядрами, которые были доступны и в первом поколении Ryzen Threadripper, но с выходом второго поколения улучшили свои частотные характеристики и приобрели дополнительные возможности.

Во вторую группу AMD выделила профессионалов, которым нужна максимальная вычислительная производительность любой ценой. В понимании компании это – 3D-дизайнеры, разработчики игр, видеомонтажёры, научные работники и тому подобные специалисты, имеющие дело с творческими задачами, порождающими высокие вычислительные нагрузки. Для них теперь предлагаются специальные версии Ryzen Threadripper серии WX, получившие 24 и 32 вычислительных ядра. Но нужно иметь в виду, что это на самом деле – не привилегированное предложение. Такие процессоры, несмотря на внушительное количество ядер, не универсальны: в отличие от представителей серии X они хорошо справляются лишь с легко распараллеливаемыми вычислительными задачами и плохо подходят для неоднородных нагрузок.

Таким образом, модельный ряд Ryzen Threadripper увеличивается в два с лишним раза: к трём моделям первого поколения добавляется сразу четыре новых процессора.

  Ядра/ Потоки Базовая частота, ГГц Макс. частота, ГГц L3-кеш, Мбайт Поддержка памяти Линии PCIe TDP, Вт Цена
Threadripper 2990WX 32/64 3,0 4,2 64 4 х DDR4-2933 60 250 $1799
Threadripper 2970WX 24/48 3,0 4,2 64 4 х DDR4-2933 60 250 $1299
Threadripper 2950X 16/32 3,5 4,4 32 4 х DDR4-2933 60 180 $899
Threadripper 2920X 12/24 3,5 4,3 32 4 х DDR4-2933 60 180 $649
Threadripper 1950X 16/32 3,4 4,0 32 4 х DDR4-2667 60 180 $779
Threadripper 1920X 12/24 3,5 4,0 32 4 х DDR4-2667 60 180 $485
Threadripper 1900X 8/16 3,8 4,0 16 4 х DDR4-2667 60 180 $319

С учётом того, что у AMD теперь сосуществует два типа Ryzen Treadripper, флагмана среди процессоров второго поколения получилось тоже два.

Самым мощным процессором в семействе выступает 32-ядерный Threadripper 2990WX со стоимостью $1800, который, исходя из цены, противопоставляется интеловскому максимальному предложению для десктопов – 18-ядерному Core i9-7980XE. Характерно, что для маркировки этого процессора AMD использует суффикс WX, который давно прижился в сегменте профессиональной графики, где для рабочих станций предлагаются видеокарты Radeon Pro WX.

Умопомрачительное количество ядер в Threadripper 2990WX обеспечивается тем, что в отличие от предшественников и собратьев серии X этот процессор строится не на двух, а на четырёх 12-нм кристаллах Zen+ Zeppelin, и благодаря этому он стал ещё сильнее похож на серверные процессоры EPYC. Вместе с удвоившимся числом вычислительных ядер Threadripper 2990WX получил и увеличенный L3-кеш суммарным объёмом 64 Мбайт. Но в остальном старший Threadripper сохраняет большинство характеристик в привычных рамках: он полностью совместим с экосистемой Socket TR4 и потому поддерживает четыре канала памяти и 60 линий PCI Express 3.0. Немного удивляет разве только расчётное тепловыделение, доведённое до 250 Вт. Оно обусловлено тем, что вместе с 32 ядрами Threadripper 2990WX предлагает и относительно высокие рабочие частоты, которые согласно спецификации лежат в диапазоне от 3,0 до 4,2 ГГц. К тому же, делать горячие процессоры для AMD совсем не в новинку: вспомним хотя бы про FX-9590, тепловыделение которого старший Threadripper превзошёл всего на 30 Вт. Но, как уверяет AMD, с энергетическими аппетитами 32-ядрерного процессора никаких проблем быть не должно. Даже в TR4-материнские платы, выпущенные одновременно с первыми Threadripper, был заложен необходимый запас прочности.

Второй флагман среди Ryzen Threadripper второго поколения – это 16-ядерный Threadripper 2950X – процессор, приходящий на смену Threadripper 1950X. В отличие от Threadripper 2990WX эта новинка продолжает использовать в своей основе два 12-нм кристаллах Zen+ Zeppelin, и поэтому она структурно близка к прошлогоднему Threadripper 1950Х. Но хотя вычислительных ядер и L3-кеша в новинке ровно столько же, выглядит она заметно лучше за счёт поднявшихся рабочих частот, которые теперь лежат в диапазоне 3,5-4,4 ГГц против 3,4-4,0 в 16-ядерном процессоре прошлого поколения. Кроме того, не стоит забывать, что характерной особенностью процессоров с микроархитектурой Zen+ выступают технологии Precision Boost 2 (PB2) и Extended Frequency Range 2 (XFR2), способные подстраивать частоту под имеющуюся нагрузку куда агрессивнее, чем это происходило ранее. В результате, преимущество в производительности может оказаться даже более явным, чем это кажется при взгляде на паспортные характеристики. Вместе с тем, никаких заметных изменений в тепловыделении Threadripper 2950X не произошло: характеристика TDP у нового 16-ядерника установлена в стандартную для платформы Socket TR4 величину 180 Вт.

Что же касается оснащённости Threadripper 2950X внешними интерфейсами, то в этом отношении 16-ядерник не отличается от 32-ядерного Threadripper 2990WX нет. Процессор предлагает те же четыре канала DDR4-2933 и 60 линий PCI Express 3.0. Но по сравнению с Threadripper 1950X появилась поддержка более скоростной памяти: раньше официально гарантировалась лишь совместимость с модулями DDR4-2666.

Несмотря на произошедшие перемены, процессоры Ryzen Threadripper второго поколения остаются совместимы с уже имеющейся платформой Socket TR4 без каких-либо ограничений. AMD специально подчёркивает, что все имеющиеся на рынке материнские платы, выпущенные для Threadripper 1920Х и 1950X совместимы с новыми CPU после обновления BIOS. Иными словами, AMD придерживается выбранного курса на сохранение сквозной совместимости не только в массовой платформе Socket AM4, но и в системах класса HEDT. Но в отличие от массовых систем, где вместе с Ryzen двухтысячной серии появились улучшенные наборы системной логики, для процессоров Threadripper второго поколения продолжает предлагаться тот же чипсет X399, что и раньше.

Благодаря тому, что в Ryzen Threadripper поддерживается 60 линий PCI Express 3.0, большинство критически важных функций, как поддержка видеокарт и накопителей, реализуется без участия чипсета. Микросхема X399, фактически, отвечает лишь за интерфейсы SATA и USB, а также за реализацию второстепенных линков PCI Express 2.0. Поэтому в обновлении она и не нуждается.

Зато за счёт программного обновления и старые, и новые материнские платы на базе X399 получили поддержку технологии StoreMI, которая позволяет строить производительные комплексные дисковые подсистемы, объединяющие в одном томе механические и твердотельные жёсткие диски, а также расположенный в оперативной памяти кеш. Прилагаемые к такому массиву интеллектуальные алгоритмы оптимизируют расположение файлов таким образом, чтобы гарантировать максимальную скорость доступа к наиболее часто используемым данным.

Оба новых флагманских HEDT-процессора, и Threadripper 2990WX, и Threadripper 2950X, поступят в продажу в самое ближайшее время: 32-ядерный чип можно купить, начиная с сегодняшнего дня, а старший 16-ядерник серии X второго поколения поступит в магазины 31 августа. Что же касается двух других процессоров с 24 и 12 ядрами, то они выйдут несколько позднее, ориентировочно в октябре. Впрочем, по этому поводу вряд ли у кого-то возникнут особые переживания. Фактически, Threadripper 2970WX и Threadripper 2920X представляют собой удешевлённые аналоги старших моделей Threadripper 2990WX и Threadripper 2950X, но с отключённой парой вычислительных ядер в каждом входящем в состав процессоров кристалле Zeppelin.

Отдельно стоит подчеркнуть, что 8-ядерная модель среди Threadripper второго поколения не предусмотрена. И это закономерно: продажи Threadripper 1900X были невысоки, и модернизировать эту модель не было никакого смысла. В конце концов с ролью входного билета в платформу Socket TR4 вполне может справиться и недорогой процессор годичной давности.

#Улучшения микроархитектуры

Как уже стало понятно к этому моменту, модельный ряд процессоров Threadripper второго поколения отличается двумя ключевыми признаками. Во-первых, в нём появились процессоры, которые собраны на основе четырёх, а не двух полупроводниковых кристаллов Zeppelin. И во-вторых, сами эти кристаллы получили более новый дизайн Zen+, который обзавелся некоторыми усовершенствованиями. Подробно о том, чем Zen+ отличается от первоначальной микроархитектуры Zen, мы подробно говорили в обзоре Ryzen 7 2700X. Однако основные моменты заслуживают того, чтобы повторить их в контексте Threadripper.

Самое главное: Zen+ – это архитектура, получившаяся при переводе производства изначального дизайна Zen на более совершенный технологически процесс GlobalFoundries 12LP (Leading Performance) с 12-нм нормами. Однако в честь улучшения разрешения техпроцесса AMD не стала делать даже «оптический» редизайн своего кремния, поэтому и строение, и площадь, и компоновка полупроводникового кристалла осталось ровно теми же, что и были до того. Тем не менее, даже несмотря на это новая производственная технология позволила на 10-15 % улучшить производительность транзисторов, что стало хорошим фундаментом для корректировки зависимости тактовой частоты от напряжения питания.

В конечном итоге это позволило в среднем на 200 МГц поднять рабочие частоты новых процессоров, снизив им напряжение питания на 80-120 мВ. И в сумме же вышло так, что с новыми Threadripper более высокая производительность стала доступна без какого-либо роста практического энергопотребления и тепловыделения.

Вторая часть усовершенствований Zen+ затрагивает задержки подсистемы кеш-памяти. Правда, в случае Threadripper они не так заметны, как были заметны в процессорах Ryzen второго поколения.

Дело в том, что ревизия кристаллов, которая применялась в HEDT-процессорах первого поколения уже содержала часть улучшений относительно первоначальной версии дизайна. Поэтому для Threadripper имеют место лишь достаточно скромное сокращение задержек:

  • латентность L3-кеша снизилась на 15 %;
  • латентность L2-кеша снизилась на 9 %;
  • латентность L1-кеша снизилась на 8 %;
  • латентность памяти снизилась на 2 %.

К этому стоит добавить появление в Threadripper второго поколения официальной поддержки DDR4-2933, что отражает произошедший качественный скачок в оптимизации библиотек AGESA. И теперь AMD гарантирует, что на частоте 2933 МГц заработает любая память, установленная в количестве одного модуля на канал. Однако в случае использования в системе восьми модулей DIMM одновременно, всё ещё действуют жёсткие ограничения вплоть до того, что с двухранговыми модулями AMD гарантирует работоспособность памяти лишь в режиме DDR4-1866.

Кроме того, не стоит забывать и о появлении в Zen+ технологий динамического изменения частоты PB2 и XFR2. Они в полной мере присутствуют и в Threadripper второго поколения, что позволяет им очень гибко подстраивать свою частоту в зависимости от нагрузки. При этом PB2 – это достаточно самобытная реализация турбо-режима, которая не предусматривает никаких чётких рамок по частоте процессора в зависимости от нагрузки, а рабочий режим подбирается интерактивно с шагом в 25 МГц, исходя из показаний внутриядерных датчиков токов и потребления.

XFR2 же добавляет в формулу моментальной частоты ещё и температуру, позволяя процессору автоматически разгоняться на дополнительные 10-15 %, если его тепловой режим не внушает никаких опасений. По этой причине производительность процессоров Threadripper, как и Ryzen второго поколения, приобрела заметную зависимость от качества системы охлаждения. И этот момент необходимо иметь в виду.

#Threadripper WX ≠ 2 × Threadripper X

Появление в семействе Threadripper двух различных классов процессоров, WX и X, – это отнюдь не вопрос маркетинга. Отличия начинаются на уровне структуры и затрагивают как алгоритмы работы подсистемы памяти, так и схему взаимодействия ядер между собой, что в конце концов приводит к тому, что 32-ядерный и 16-ядерный Threadripper – это два принципиально различных по сути продукта.

Основной строительный блок в современных процессорах AMD – это полупроводниковый кристалл Zeppelin, в котором объединены восемь распределённых по двум CCX (CPU Complex) вычислительных ядер. Таким образом, для создания 16-ядерных процессоров достаточно двух таких чипов: этот подход использовался в Threadripper первого поколения, по такому же принципу построены и новые 16-ядерные решения серии X. Несмотря на то, что упаковка любых процессоров Threadripper унифицирована с серверными EPYC и рассчитана на размещение внутри четырёх кристаллов Zeppelin, в продуктах серии X лишь два кристалла рабочие, а два других представляют собой кремниевые заглушки, необходимые для обеспечения механической прочности конструкции.

Объединённые в единое целое на текстолитовой подложке кристаллы на логическом уровне соединяются посредством фирменной высокоскоростной шины AMD Infinity Fabric. В дизайне Zeppelin заложено четыре внешних двунаправленных линка Infinity Fabric шириной 32 бита, но в случае собранных из двух составных частей 16-ядерных процессоров для соединения кристаллов используется по два линка. Шина Infinity Fabric синхронизирована с контроллером памяти, и при условии использования в системе DDR4-2933, соединение кристаллов в 16-ядерных Threadripper X получает суммарную пропускную способность 93,9 Гбайт/с.

В случае же Threadripper WX схема построения процессора приобретает более сложный вид. Для создания 32-ядерного процессора требуется уже четыре чипа Zeppelin, каждый из которых связывается тремя линками Infinity Fabric с тремя другими кристаллами. Это значит, что пропускная способность попарных соединений между кристаллами в Threadripper WX ниже, чем в Threadripper X, и при работе памяти в режиме DDR4-2933 достигает лишь 46,9 Гбайт/с.

Но главная причина, по которой Threadripper WX нельзя воспринимать как простое удвоение потенциала Threadripper X, заключается даже не в этом. Есть гораздо более значимый фактор, который делает из 32-ядерного CPU не совсем привычный для десктопного окружения продукт. Этот фактор – организация подсистемы памяти. AMD захотела вписать собранный из четырёх кристаллов 32-ядерный процессор в уже имеющуюся инфраструктуру Socket TR4, и это привело к тому, что подсистема памяти у Threadripper WX получилась неравномерной.

Дело в том, что платформа Socket TR4 изначально проектировалась под процессоры с числом ядер не больше 16, поэтому она предполагает наличие внешних интерфейсов только у двух кристаллов Zeppelin, составляющих процессор. В результате, пара «дополнительных» кристаллов в Threadripper WX никаких связей с внешним миром не может иметь по определению. Для того, чтобы убрать это ограничение, AMD могла бы перепроектировать платформу, сблизив её по свойствам с серверной Socket SP3, но выбор был сделан в пользу совместимости новых процессоров с уже имеющейся инфраструктурой. В результате, в 32-ядерном процессоре, фактически, соседствуют две функционально различные разновидности кристаллов: два полноценных чипа и два кристалла с урезанной функциональностью, которые AMD называет вычислительными, – не имеющие собственной памяти и лишённые собственных линий PCI Express.

Получается, что память в системах на базе Threadripper WX распределена между ядрами неравноправно, и четыре канала DDR4 SDRAM относятся лишь к двум кристаллам Zeppelin – по два канала на кристалл. А это в свою очередь влечёт за собой невозможность реализации привычной для настольных систем однородной модели памяти с равноправным доступом UMA (Uniform Memory Access). Поэтому в то время как 16-ядерные Threadripper X по умолчанию работают со всей своей памятью в четырёхканальном режиме, синхронно раскладывая все обращения по двум контроллерам памяти в разных кристаллах, и за счёт этого всегда демонстрируют одинаковую скорость доступа, в Threadripper WX пришлось реализовать более сложную модель NUMA (Non-Uniform Memory Access), где память жёстко привязана к кристаллам, и время доступа к ней зависит от местоположения данных по отношению к инициирующему обращение ядру.

По сути, Threadripper WX единым процессором с четырехканальной памятью и не является, он больше похож на собранную на единой текстолитовой подложке четырёхпроцессорную систему, в которой два узла имеют собственную двухканальную память, а два других – лишены памяти вовсе. И такая подсистема памяти работает не совсем очевидно. Пиковая пропускная способность памяти в 32-ядерных Threadripper WX в любом случае оказывается вдвое ниже, чем в 16-ядерных, где контроллеры памяти работают в комбинированном четырёхканальном режиме, но зато, если кристалл Zeppelin взаимодействует с собственным контроллером памяти, достигается заметный выигрыш в латентности. AMD даёт такую оценку: латентность памяти при работе ядра с собственным контроллером DDR4 SDRAM, находящемся в тот же кристалле, составляет 64 нс, в то время как при обращениях к данным через контроллер соседнего кристалла она возрастает до 105 нс.

Такое различие в латентности не имело бы неприятных последствий, если бы данные находились поблизости от ядра, обращающегося к памяти, с высокой долей вероятности. Но к сожалению, гарантировать это невозможно, хотя планировщики в современных операционных системах, и в Windows в том числе, и стараются строить работу с NUMA-системами таким образом, чтобы создаваемые одним приложением вычислительные потоки оставались по возможности в рамках одного узла и не порождали необходимость в перекрёстном обмене данными между ядрами в разных кристаллах.

Но с Threadripper WX случай особый: половина его ядер своей памяти не имеет вовсе, поэтому, так или иначе, массово гонять данные по внутрипроцессорным линкам Infinity Fabric в этих процессорах всё равно приходится. Кроме того, напомним, речь идёт о решении для рабочих станций, и в такой среде приложения, которые бы не стремились занять нагрузкой более восьми вычислительных ядер одного кристалла Zeppelin и могли бы изолированно работать в рамках одного кристалла-узла, встречаются не так часто. Поэтому работа с памятью в Threadripper WX – катастрофически слабое место. Такой процессор целесообразно использовать либо для запуска армады малопоточных приложений, не требовательных к пропускной способности памяти, либо для задач, которые хорошо распараллеливаются, но не требуют для своей работы больших объёмов данных. В противном случае вся внутренняя структура процессора будет перегружена и станет узким местом, серьёзно ограничивающим производительность.

Кстати, подобная ситуация в Threadripper WX складывается не только с памятью, но и с распределением линий PCI Express. Они также относятся лишь к двум из четырёх процессорных кристаллов, и интенсивная работа с графическими картами или скоростными NVMe-накопителями тоже может стать для этого процессора определённой проблемой. Иными словами, любые пересылки данных для Threadripper WX противопоказаны. Полностью «забить» потоком данных внутренние линки Infinity Fabric могут не только обращения к памяти через контроллер соседнего кристалла, но и даже элементарные обращения ко внешним устройствам – видеокартам и NVMe-накопителям.

Именно поэтому Threadripper WX и позиционируется AMD особым образом. Этот процессор – решение не для всех не столько из-за высокой цены, сколько из-за того, что подходит он исключительно для определённых задач. В тех случаях, когда его несимметричная NUMA-архитектура плохо ложится на характер нагрузки, а это может происходить достаточно часто, производительность 32-ядерного монстра может оказаться категорически разочаровывающей. Располагающий 16 ядрами и подсистемой памяти с UMA-архитектурой Threadripper X подобных проблем решён, и универсальным многоядерным решением следует считать именно его, а не специфический Threadripper WX.

#Ryzen Threadripper 2990WX в подробностях

Итак, Ryzen Threadripper 2990WX – это пусть и несколько своеобразный, но всё равно эпический процессор с 32 вычислительными ядрами и поддержкой SMT, дающей возможность одновременного исполнения 64 потоков. Как уже было сказано выше, этот процессор собран на основе четырёх кристаллов Zen+ Zeppelin, что означает, что в его конструкции принимает участие восемь модулей CCX, которые в общей сложности дают L3-кеш общим объёмом 64 Мбайт. Столь мощных по оснащению конфигураций, направленных на десктопы, мы ещё не видели, и было бы совершенно неудивительно, если бы подобный монстр не смог бы похвастать высокими тактовыми частотами.

Но ничего подобного: инженеры AMD смогли выжать из Threadripper 2990WX очень достойные частотные характеристики. Новый 12-нм техпроцесс, который используется в производстве строительных блоков Threadripper второго поколения, а также строгий отбор наиболее удачных кремниевых заготовок из-за которого в них может попасть не более 5 процентов из сходящих с конвейера кристаллов, позволили определить номинальную частоту Threadripper 2990WX в 3,0 ГГц. Причём в большинстве случаев этот процессор будет работать гораздо быстрее: максимальная частота в турбо-режиме может доходить до 4,2 ГГц.

На следующем графике мы попытались отобразить, как выглядит реальная частота Threadripper 2990WX при нагрузке различной интенсивности. Выполняя тестирование производительности этого процессора в номинальном режиме в Cinebench R15 при задействовании различного числа вычислительных потоков, мы фиксировали выбранную процессором частоту. Её распределение в зависимости от загрузки процессора приобрело следующий вид.

Несмотря на то, что в качестве базового уровня для Threadripper 2990WX заявлена частота 3,0 ГГц, в реальности этот процессор почти всегда работает быстрее. И даже при рендеринге в Cinebench R15 на всех ядрах мы наблюдали частоту 3,2-3,3 ГГц, что как минимум на 10 % превосходит базовый уровень.

Threadripper 2990WX представляет собой NUMA-систему с четырьмя узлами, где каждый узел – это отдельный кристалл. При этом сами узлы различаются между собой: два – располагают двухканальными контроллерами памяти, а два – работают вообще без собственной памяти. В отличие от Threadripper прошлого поколения, совместную кооперативную работу двух контроллеров памяти в Threadripper 2990WX включить невозможно, и NUMA-архитектура для него – это навсегда.

Распределение ядер по узлам NUMA выглядит следующим образом.

К приведённой иллюстрации нужно добавить, что контроллеры памяти и PCI Express расположены в узлах с номерами 0 и 2, а узлы 1 и 3 – чисто вычислительные и внешних интерфейсов лишены. Именно поэтому ядра имеют не совсем естественную нумерацию: AMD присвоила первые 16 номеров тем ядрам, которые имеют возможность работать с памятью более быстро в надежде на то, что планировщик операционной системы первоначально будет размещать нагрузку именно на них, а ядра без прямого доступа к памяти пойдут в дело лишь во вторую очередь.

Впрочем, на практике это помогает далеко не всегда. В Windows 10 порой случается, что приложения «уезжают» на дальние ядра, работающие с памятью через дополнительные линки Infinity Fabric. Поэтому иногда бывает так, что приложение раз от раза работает с разной производительностью в зависимости от того, получилось у него разместиться на ядрах, расположенных в кристаллах с контроллером памяти, или не получилось.

Чтобы проиллюстрировать сказанное, достаточно посмотреть на то, как меняется скорость работы с памятью в зависимости от того, идут ли обращения к ней через контроллер памяти, находящийся в том же кристалле Zeppelin, или же через соседний. В следующих таблицах приведена практическая латентность и пропускная способность, развиваемая NUMA-узлами при работе с собственной памятью и памятью соседних NUMA-узлов (процессор работает на фиксированной частоте 3,8 ГГц, в подсистеме памяти используется DDR4-3200, измерения выполнены при помощи Intel Memory Latency Checker).

Результаты весьма показательны. Задержки при обращении ядер одного процессорного кристалла к «чужой» памяти, относящейся к контроллеру памяти другого кристалла, вырастают сразу на 75 процентов, а пропускная способность из-за ограниченности полосы пропускания коммутирующей кристаллы Zeppelin шины Infinity Fabric оказывается меньше почти вдвое. Иными словами, работа с данными, находящимися вне одного NUMA-узла, происходит в Threadripper 2990WX с достаточно низкой эффективностью.

Для полноты картины стоит взглянуть и на задержки, возникающие при пересылках данных между ядрами.

Естественно, низкие задержки на уровне 43-44 нс обеспечиваются лишь при тех пересылках данных, которые происходят между ядрами в рамках одного CCX-модуля. Если же отправитель и получатель находятся в разных CCX, но в одном кристалле, то латентность всё равно сразу же возрастает в три с половиной раза. А если данные требуется передавать ещё дальше – в соседний кристалл, то латентность таких межъядерных обменов увеличивается до более чем 200 нс. Любопытно, что те вычислительные ядра, которые расположены в кристаллах без собственного контроллера памяти, порождают при пересылках данных дополнительные задержки, в результате чего, латентность межъядерных обменов может доходить до внушительной величины в 245 нс. Очевидно, шина Infinity Fabric загружена в них сильнее, чем в обычных кристаллах Zeppelin.

Ещё одна тонкость, связанная с эксплуатацией Threadripper 2990WX, касается впечатляющего тепловыделения этого процессора. В официальной спецификации говорится о тепловом пакете в 250 Вт, и это вызывает сразу два вопроса. Смогут ли потянуть 32-ядерник уже выпущенные TR4-материнские платы, изначально рассчитанные на 180-ваттные Threadripper первого поколения. И какой кулер потребуется для отвода такого количества тепловой энергии.

К счастью для потенциальных покупателей Threadripper 2990WX, никаких шокирующих ответов на эти вопросы AMD не даёт. Утверждается, что платы первого поколения с новым 32-ядерником вполне совместимы после обновления BIOS. И какие-то проблемы со схемами питания могут возникать разве только при разгоне. Впрочем, флагманские платформы вроде ASUS Zenith Extreme дадут возможность разогнать Threadripper 2990WX до максимума, несмотря на свой возраст. Единственное, что может потребоваться, это – дополнительное охлаждение схемы питания на материнской плате. Для тех же пользователей, которые всё же сомневаются в полной совместимости, производители подготовили несколько «усиленных» Socket TR4-материнок второго поколения. Например, MSI MEG X399 Creation, на базе которой мы проводили тесты для этого обзора.

MSI MEG X399 Creation

MSI MEG X399 Creation

Не требуются для Threadripper 2990WX и никакие особенные системы охлаждения. Те кулеры, которые подходили для Threadripper первого поколения, скорее всего, справятся и с 32-ядерным флагманом. Более того, сама AMD по-прежнему рекомендует использовать с новым старшим HEDT-процессором системы жидкостного охлаждения, сделанные Asetek, и даже комплектует 2990WX совместимым креплением для стандартного цилиндрического водоблока.

Впрочем, жидкостное охлаждение необходимостью не является, вполне можно обойтись даже воздушным кулером. Например, вместе с Threadripper второго поколения AMD в сотрудничестве с Cooler Master выпустила специальный кулер Wraith Ripper, представляющий собой двухсекционную башню с одним 120-мм вентилятором и семью тепловыми трубками.

Но есть важный момент: этот кулер имеет большую подошву, которая покрывает крышку Threadripper полностью. И это, как показывает практика, заметно улучшает теплоотвод от процессора. В качестве примера мы сравнили максимальную температуру Threadripper 2990WX при прохождении нагрузочного тестирования в Prime95 при использовании нового Wraith Ripper, системы жидкостного охлаждения Corsair Hydro Series H115i с водоблоком стандартного размера и системы жидкостного охлаждения Enermax Liqtech 240 TR4 со специальным водоблоком для Threadripper, который полностью закрывает поверхность этого CPU.

AMD Ryzen Threadripper 2990WX
  Температура Tdie в Prime95 (макс.), °C Частота в Prime95 (мин.), МГц
Cooler Master Wraith Ripper 64,3 3025
Corsair Hydro Series H115i 63,8 3050
Enermax Liqtech 240 TR4 54,9 3100

Как следует из проведённого экспресс-тестирования, полное покрытие системой охлаждения всей поверхности теплорассеивающей крышки процессора – очень весомый фактор. Благодаря большой площади основания воздушный кулер получает возможность сравниться по эффективности даже с достаточно неплохой системой жидкостного охлаждения. А система охлаждения с большим водоблоком выигрывает у «водянки» Corsair/Asetek с водоблоком стандартного размера почти десять градусов несмотря на то, что она располагает радиатором меньшего размера.

Иными словами, вывод очевиден: для систем с 250-ваттным Threadripper 2990WX лучше подбирать такой кулер, который имеет большую подошву, подогнанную по размеру для Socket TR4-процессора. Это важно ещё и потому, что от температуры процессора зависит работа технологии XFR2, и лучшее охлаждение даёт процессору возможность автоматически выходить на более высокие частоты и показывать лучшую производительность.

#Ryzen Threadripper 2950X в подробностях

Рассказ про 16-ядерный и 32-поточный Threadripper 2950X будет заметно короче. Этот процессор выступает простым инкрементным обновлением Threadripper 1950X годичной давности, а потому с точки зрения архитектуры ничего нового не приносит. Разница есть лишь в частотах, которые увеличились благодаря использованию 12-нм, а не 14-нм кремниевых кристаллов. Так, базовая частота Threadripper 2950X выросла на 100 МГц – до 3,5 ГГц, а максимальная частота в турбо-режиме увеличилась сразу на 400 МГц – до 4,4 ГГц.

В реальном использовании частоты в зависимости от нагрузки распределяются примерно так, как показано на следующем графике, на котором задокументировано поведение Threadripper 2950X в номинальном режиме в Cinebench R15 при задействовании различного количества ядер.

Как и в случае Threadripper 2990WX, хорошо прослеживается работа технологии PB2, которая тонко подстраивает рабочую частоту под параметры нагрузки и текущего энергопотребления. Не стоит забывать и про XFR2 – технологию, дополнительно наращивающую частоту процессора в благоприятном температурном режиме. Благодаря этому при условии качественного охлаждения Threadripper 2950X удаётся удерживать реальную частоту выше 4,0 ГГц при загрузке вплоть до 12 ядер.

Threadripper 2950X собран на основе двух, а не четырёх, как Threadripper 2990WX, полупроводниковых кристаллов Zen+ Zeppelin. Из-за этого у него не только вдвое меньше вычислительных ядер, но и вдвое меньше суммарный объём L3-кеша. Но большое преимущество заключается в том, что оба кристалла в нём равноценны, и благодаря этому никакой муторной и накладной для десктопного CPU реализации NUMA-архитектуры не требуется.

Threadripper 2950X использует более естественную модель памяти UMA, то есть вся установленная в системе память для всех ядер равнозначна. Физически это реализуется за счёт объединения двух имеющихся в кристаллах Zeppelin двухканальных контроллеров в один четырёхканальный и равномерного распределения по четырём каналам всех обращений к памяти. В результате Threadripper 2950X может предложить более высокую пропускную способность при работе с памятью. Однако если сравнивать с обычными процессорами Ryzen, то работа с памятью у Threadripper 2950X происходит с более высокими задержками, связанными с постоянной необходимостью переадресации части запросов в контроллер памяти соседнего кристалла.

Помимо модели памяти UMA, который для Threadripper 2950X является основным, этот процессор можно переключить и в режим NUMA, что может быть интересно для каких-то чувствительных к латентности памяти малопоточных приложений, ярким примером которых выступают отдельные 3D-игры. Переключение осуществляется программно, при помощи утилиты AMD Ryzen Master, в которой предусмотрена специальная настройка.

Режим работы памяти: D (Distributed) = UMA; L (Local) = UMA

Режим работы памяти: D (Distributed) = UMA; L (Local) = UMA

В NUMA-режиме контроллеры памяти Threadripper 2950X разделяются, и каждый из кристаллов Zeppelin работает со своей собственной памятью независимо, обращаясь к соседнему контроллеру лишь по мере необходимости. Но, к сожалению, изменение модели работы с памятью происходит не «на лету». Для перехода от UMA к NUMA и обратно требуется перезагрузка, что делает пользование имеющимся в AMD Ryzen Master переключателем не слишком удобной .

Зато существование возможности переключения режимов позволяет нам наглядно показать разницу в пропускной способности и латентности памяти, возникающую при использовании Threadripper 2950X в конфигурации с NUMA- и UMA-памятью. Измерения сделаны при помощи утилиты Intel Memory Latency Checker, частота процессора – 3,8 ГГц, память работает в режиме DDR4-3200.

Результаты вполне логичны. В NUMA-режиме у Threadripper 2950X скорость работы с памятью в рамках одного узла (кристалла Zeppelin) похожа на ту скорость, которую обеспечивают обычные процессоры Ryzen. Однако если процессорному ядру требуется достучаться до памяти, подключенной к соседнему кристаллу, латентности возрастают на 75 процентов, а пропускная способность падает почти вдвое.

Чтобы не сталкиваться с подобным разбросом в скоростных параметрах, как раз и существует режим UMA. В нём пропускная способность памяти за счёт четырёхканальности заметно выше, чем у обычных Ryzen, но придётся смириться с высокими задержками, которые получаются даже выше, чем в самом худшем случае в NUMA-режиме. Впрочем, несмотря на это, AMD всё равно считает UMA-режим более подходящим вариантом для Threadripper 2950X: в приложениях для создания и обработки цифрового контента высокая пропускная способность важнее.

Поскольку Threadripper 2950X – более простой по сравнению с Threadripper 2990WX процессор, его тепловыделение типично для платформы Socket TR4 — 180 Вт. Это значит, что в случае 16-ядерного CPU никаких проблем с платами и системами охлаждения быть не должно. Для этого процессора заведомо сгодится то же самое оснащение, которое предлагалось производителями для предыдущего поколения процессоров Threadripper.

#Разгон

Маловероятно, что пользователи процессоров класса Threadripper, нацеленных на работу в рабочих станциях, будут часто прибегать к разгону. Однако мы всё же не стали обходить эту тему стороной, ведь оверклокинг позволяет не только увидеть скрытый частотный потенциал, но и проверить запас прочности платформы в целом, который в случае появления процессоров с TDP 250 Вт вызывает некоторые опасения.

Однако начать эксперименты мы все же решили не с тяжеловеса Threadripper 2990WX, а более скромного в плане потребления энергетических ресурсов Threadripper 2950X. Подобный процессор первого поколения, Threadripper 1950X, мы в своё время смогли разогнать до 3,9 ГГц. Но Threadripper 2950X должен быть более податлив, ведь он собран на основе 12-нм кристаллов, главным преимуществом которых называется как раз увеличенный частотный потенциал. Тем более, что процессоры Ryzen поколения Zen+ разгоняются до 4,0-4,2 ГГц, а для сборки процессоров класса Threadripper компания AMD отбирает наилучшие полупроводниковые кристаллы.

Кроме того, теперь в нашем распоряжении появилась новая система жидкостного охлаждения Enermax Liqtech 240 TR4, обладающая водоблоком, полностью покрывающим теплораспределительную крышку Threadripper. А это, как мы уже убедились, позволяет существенно поднять эффективность теплоотвода даже несмотря на сравнительно небольшой радиатор, который используется в этой системе охлаждения.

И в целом, Threadripper 2950X не разочаровал. Полная стабильность тестового процессора была получена на максимальной частоте 4,1 ГГц.

После установки напряжения питания 1,3 В процессор, работающий на частоте 4,1 ГГц, успешно проходил тестирование в Prime95, а максимальные температуры ядер при этом не выходили за пределы 78 градусов. Энергопотребление разогнанного процессора во время теста, согласно данным внутреннего мониторинга, составляло порядка 290 Вт. Потребление же системы в целом достигало 390 Вт. Иными словами, с разгоном Threadripper 2950X всё оказалось вполне предсказуемо и прошло без каких-либо эксцессов.

Чего нельзя сказать о разгоне Threadripper 2990WX. Откровенно говоря, идея дополнительно увеличить частоту и напряжение процессору с расчётным тепловыделением 250 Вт без применения каких-либо продвинутых методов теплоотвода вызывает определённый скепсис. И как показала практика, совсем не зря. При оверклокерских экспериментах с Threadripper 2990WX возникает сразу две серьёзных проблемы. Во-первых, тепловыделение разогнанного процессора, построенного на четырёх кристаллах Zeppelin, лихо перешагивает через границу в 500 Вт, и отвести такое количество тепла на самом деле не так уж и просто даже с помощью системы жидкостного охлаждения. Во-вторых, в этом случае на конвертер питания на материнской плате ложится очень высокая нагрузка, в результате чего обеспечить его бесперебойную работу становится даже сложнее, чем совладать с тепловыделением процессора.

Например, оверклокерские тесты Threadripper 2990WX мы проводили в системе на базе новой Socket TR4-материнской платы MSI MEG X399 Creation, в которой реализован мощный 19-фазный преобразователь напряжения (16 каналов на процессор и 3 – на SoC). Но даже организовав на тестовом стенде дополнительный обдув зоны VRM двумя 120-мм вентиляторами, мы всё равно столкнулись с перегревом преобразователя выше 110 градусов и срабатыванием его защиты. Похоже, что граница в 500 Вт – это тот критический предел энергопотребления процессора, после прохождения которого нужно серьёзно задумываться в том числе и о модернизации охлаждения на плате. А без этого разгон Threadripper 2990WX ограничивается скорее возможностями платформы, чем собственным потенциалом.

В конечном итоге, чтобы избежать срабатывания защиты в схеме преобразования питания, нам пришлось ограничить повышение напряжения на процессоре величиной 1,29 В. И в этом случае максимальная частота, при которой оказалась возможна стабильная работа Threadripper 2990WX, составила 3,9 ГГц. Впрочем, в любом случае, работающий на такой частоте 32-ядерный процессор, это – настоящий монстр.

Никаких проблем с прохождением тестов стабильности в Prime95 работающим на 3,9 ГГц процессором Threadripper 2990WX не возникло. Максимальная температура процессора составила 84 градуса, его максимальное потребление – 458 Вт. Потребление тестовой системы целиком при нагрузочном тестировании не превышало 630 Вт.

SOURCE

Continue Reading

PC / Laptop

Domestic microprocessors. Was! Is. ?

#Introduction

#How did we get to such a life?

The first thing is highly recommended to see the software literally two articles on “habré”: time (“micro-electronic industry in Russia [2012]”) and two (“Why in Russia almost no civil/commercial high-tech production?”). In General they are still relevant, with amendments to some of the figures, but the bottom line, however, has not changed. It is also useful to see the history of what decisions were made in the USSR — at least the example of NICEVT. Recall that in the 60’s came to the conclusion about the necessity of creating a series of powerful, unified computer unified architecture (UCS) and as the basis for such was selected the IBM System/360, although many still believe this unfortunate choice, because the hopes for the use of third-party software in the end did not materialize. Moreover, the cost of software, according to some researchers, was a lot higher than on the hardware. This story has some important nuances. First, then it was completely legal, as the patent is usually a specific design, and not the architecture itself. IBM representative appeared in the USSR already in 1974 year and equipment including purchased.

Second, the choice of a particular architecture took more than one year. Competitor to IBM in this matter was the British ICL, which was ready to sell the license with all documentation and source code. Ironically the ICL itself in 1991 bought out the stake of the Kazan plant of computing machines and created a joint venture. And after the abolition of the parent Corporation in 2013 only Russian unit, heavily overgrown, began to operate under this brand. Third, in the USSR, developing its own computer systems not abandoned, although it was given less attention. In addition, IBM soon followed by clones of the PDP, and then began to copy everything even slightly noticeable in the Western market architecture, processors, PC, microcontrollers, peripherals, software and so on.

Often without regard to the patents and licenses. Did all this with varying degrees of success. Something improved, something worse, but in the end it all somehow worked, and, importantly, from an economic point of view it is justified. Although many were purchased, albeit not always and not entirely legal. On the other hand, in relation to the USSR since 1980, in the framework of COCOM (CoCom) was banned — including for the supply of computers. If you are interested in history, we can start with the book “Information technology in the USSR. The founders of Soviet computer technology” authored by Yury Revich. After the collapse the situation changed dramatically — almost everything you could buy or license, would be money.

#Our or ours?

In this regard, very often there are disputes. If purchased, for example, a license for the core and other IP blocks, brought all to mind the design and sent for production abroad, whether it is domestic product — or is it not? And if has made a scheme under someone else’s command system? And if you bought everything, but produced in Russia? In the project of the Ministry of industry and trade, in short, assumes a two-level classification. In both cases, the developer is legally obliged to be Russian. For chips first level she needs to develop a “structure, logic and (or) electrical schematic, topology,<…>”, and “the production of integrated circuits, including transistor and manufacturing cycle layers of metallization is carried out on the territory of the Russian Federation”. In this case it is allowed to purchase licenses from any companies.

For the chips of the second level all the more easier. Here it is necessary that rights of the topology was in Russia, and to produce the chips anywhere, but only if in the country does not have the required industrial base. Criteria are actually quite fair, because the purchase and license of ready units — it’s not even half the battle. Translate an abstract “logic of” mass production “silicon”, simultaneously providing all this software platform, it is very difficult, especially when the reduction process. Besides, many people like to speak about microprocessors, but forget about the dozens of categories of other components or IP blocks — any microcontrollers or just controllers peripherals/buses is no less important. Concerns about the implementation of tabs in the source code or at the stage of foreign production are not unfounded, but, apparently, considered or too distant, or easily identified — or both. And in General, the vectors of attacks are a lot more.

In addition, there is a large and important area of creating ready products, solutions, systems. Just for example — the company YADRO responsible for creating a storage platform OpenPOWER. Some aspects of the work, she openly tells. The company, though I refused for a long time, but it seems that its decisions in the Dome complex used for the implementation of the “Spring package” on the network “Megaphone“. It is also a huge engineering effort and is an example of import substitution. With the latter, however, is not so smooth. On the other hand, substitution is not always necessary. Nice, of course, to gratify his own vanity, trying to fight in the civil sector with major Western players, but economically it’s just suicidal.

Therefore invested only in critical areas where in case of embargo, there is a risk to be left with nothing: the military industrial complex and fuel and energy complex in the first place, and also to communication, medicine, space. This, incidentally, is a few features of our market. First, it is practically impossible to find detailed public information about the real production volumes and specific customers. Second, many products have radiation-resistant performance, extended temperature operation and other delights. Third, most developers are formally independent businesses, but often one gets the feeling that actually the money they directly or indirectly receive from a single customer — the state and its structures. In other words, is not always and everywhere they are competitive on the world market.

#Thinner to work?

In particular, very often the reproach of the domestic production of microelectronics by absence of modern process technology. Among the major factories is “Micron“, “Angstrem” and “Angstrem-T“on the rules up to 90 nm, and the ever displayed and 65 nm. There are other, smaller industrial sites for the norms of micrometer level or thicker. Of course, for really complex electronics like a CPU or a SoC process technology can be crucial, but for everything else it is not always the case. In General, the vast majority of companies-developers of electronics has long passed the stage fabless, giving the production at the mercy of the professionals or initially without investing in building their own factories.

In a fresh report, TSMC in the second quarter you can find a good illustration. Modern norms of 10 nm accounts for only 13 % of earnings, 16/20 nm and 28 nm bring 25% and 23% respectively. While still line at 250 nm and thicker. Please note that this report is about money, not about the number of crystals or plates. Older processes are cheaper than modern, so in reality the volume of supply of chips supercritically transistors is substantially less than a relatively large. Just for “subtlety” to chase makes no sense. But with this knowledge you can begin to get acquainted with domestic products. In the first part we consider the CPU and the SoC on the basis of foreign architectures, while the second refer to your own development. The review includes only the most interesting and significant decisions, as well as a few original architectures and DSP. All information obtained from public sources, and some technical details are omitted or deliberately simplified for ease of understanding.

SOURCE

Continue Reading

PC / Laptop

Overview processor Intel Pentium Gold G5500: hyperpen 2.0

It is unlikely that someone will want to argue with the fact that the output of a new generation of Coffee Lake is a small revolution in the field of personal computers. Despite the fact that Intel didn’t change the microarchitecture and are unable to make the transition to more “thin” process, she decided on another unprecedented step to increase the number of cores. And now, after ten years of dominance in the desktop segment exclusively Quad-core and dual-core processors, representatives of the series Core i7 and Core i5 shestidennomu become, and the more affordable Core i3 received four full cores. Against this background, it would be logical to expect that the introduction of design Coffee Lake some this way will affect the budget chips that microprocessor giant sells under the brand names Pentium and Celeron. However, this has not happened, and they remained dual-core.

But to complain about it is hardly appropriate. The fact that a significant improvement of the characteristics of the media brand Pentium occurred in the past generation, the transition to the design Kaby Lake. Then these low-cost processors received support Hyper-Threading technology and the ability to execute four computing thread on two cores. It made them favorites for budget builds. After all, at the price of $60-80 they were able to offer is sufficient for most tasks a home user (and it’s first 3D game) the level of performance that was close to the significantly more expensive Core i3 at that time.

In processors generation Coffee Lake the performance gap between Pentium and Core i3 returned to his seat. Despite the fact that the modern representatives of both families can execute four computing flow, they do so by different means: Pentium relies on Hyper-Threading technology and Core i3 offers four full cores at the hardware level. It turns out that, while all Core took a step forward, Pentium, figuratively speaking, was left in its old place.

Does that new members of the family of Pentium intended for use as part of the platform LGA 1151 v2, completely uninteresting? Not at all! First, something for the better is still changed. For example, the Pentium generation Coffee Lake increased clock frequency and increased the volume of L3 cache. And secondly, Pentium radically changed her image: now that’s not shabby budget processors, and the noble and even Pentium precious Gold!

However, on this occasion it is not necessary to feed special illusions. Appeared on the trademark Pentium gold foil absolutely, and the word Gold does not reflect any technological breakthroughs. It appeared the efforts of former chief marketing officer, Steve Fandom (Steve Fund), which switched to Intel after years of working for Procter&Gamble and PepsiCo immediately and enthusiastically began to apply its experience in the implementation of consumer goods to IT products. Now Steve head intelestage marketing is not listed, but his legacy obviously still be sore our eyes, because the “metal” console stuck not only to the Pentium, but also to the family of Xeon processors.

However, in truth, some merit in renaming the desktop Pentium design Coffee Lake was still. The fact that in parallel with the Pentium Gold now in nature, there are also Silver and Pentium processors with indices J and N in the model number, that is, those which are based on the microarchitecture Gemini Lake and are a further development of the Atom. However, to meet face-to-face Pentium Pentium Gold and Silver, obviously, never will. If the first is a classic Coffee Lake to LGA 1151 v2 version, the second is intended for mobile and embedded systems, are available in BGA packaging and napivaetsya on the motherboard. However, before those other chips were sold under the same trademark that theoretically could cause some confusion. Now, these various proposals are formally separated by different families.

Naturally, in this article we will talk exclusively about the new Pentium Gold. Our main task is to check if ornate “hyperpnea” generation Coffee Lake as an interesting option for cheap configurations as it was their “dirty” predecessors with the design of the Kaby Lake.

#Pentium Gold in detail

After Intel completed the second stage of the formation of the model range of processors for its current platform LGA 1151 v2, the range of available varieties of Coffee Lake got the following:

Cores/threads Base frequency Turbocheetah L3 cache MB Hyper-Threading Turbo Boost Support AVX
Core i7 6/12 To 4.0 GHz To 5.0 GHz 12 There There There
Core i5 6/6 Up To 3.6 GHz To 4.3 GHz 9 No There There
Core i3 4/4 To 4.0 GHz 8 or 6 No No There
Pentium Gold 2/4 Up To 3.9 GHz 4 There No No
Celeron 2/2 Up To 3.2 GHz 2 No No No

After the modernization of the carriers of the brand Core Pentium Gold look among fellow not too impressive: two cores, even with Hyper-Threading technology, today seem, to put it mildly, a compromise. However do not forget that some years ago Intel offered dual-core processors in the Core i3 family, and then it didn’t cause any serious issues from users. Of course, the situation with support for multithreaded computing is continuously improving, but the rate at which obsolete processors with a small number of cores, should not be overestimated. In other words, two cores and four threads, which offer today’s Pentium Gold, it can be a reasonable option for entry-level configurations.

Especially that Pentium Gold compared to its predecessors, the Pentium generation Kaby Lake, have received additional benefits. Volume cache of the third level increased from 3 to 4 MB, with this rose and its associativity, and, thus, of efficiency. In addition, the clock frequency, employing the modern representatives of the family of Pentium Gold, received a 200-megahertz increase and reached 3.9 GHz. Today, the older version of Pentium Gold have even more formal specifications than the Junior Core i3 series seven. For example, if you compare senior Pentium Gold G5600 with some Core i3-7100, it appears that the “gold” new budget series wins in the amount of L3 cache or loses frequency.

However, Pentium Gold inherited from his predecessors his signature flaw – the lack of support for AVX and AVX2 instructions. Honestly, in a situation when the budget processors are inferior to more expensive counterparts in number of cores, the need for such additional differentiation not. But Intel decided to continue the lock 128 – and 256-bit vector instructions and Pentium Gold that can seriously affect their performance in many professional tasks. The AVX command set supported by most AMD and Intel processors, starting in 2011. Therefore, the algorithms are able to obtain the productivity gains from their use, to the present time had accumulated a sufficient number, and first and foremost they are used in applications for image processing and video. But on the other hand, gamers can be assured in the games vector instruction sets AVX and AVX2 are practically not utilized today.

Pentium Gold devoid of compatibility not only with AVX, but with Intel Optane Memory. The processor budget of the family will not allow it to form a disk subsystem, a reinforced quick-cache memory-based XPoint 3D. However, the use of drives series Optane as individual disk volumes Pentium Gold does not prohibit.

Since Pentium Gold belong to a generation Coffee Lake, they are compatible only with motherboards with socket LGA 1151 v2 set-based logic Z370, H370, B360 and H310. Given the positioning of these processors, the most typical in their habitat would be limited to inexpensive platforms based on chipsets B360 or H310. In this case, you must keep in mind inherent in the Pentium Gold additional restrictions in the operating modes RAM: cheap motherboard for younger sets of logic will not use the memory at frequencies above DDR4-2400.

Pentium Gold, like other members of the family Coffee Lake, processors with integrated graphics. In this case, Intel decided not to be greedy and implemented a budget model, full (for desktop solutions) graphics GT2-level used and the processor-level Core i7 and i5. This means that the graphics core of the Pentium Gold belongs to a class of Intel HD Graphics 630 has 24 actuators and supports hardware encoding and decoding Full HD and 4K video in all popular formats.

At the moment the model range of processors series Pentium Gold includes five models, two of which belong to energy efficiency class with a TDP of 35 watts. Aside from those clamped including the performance options, are three options that may be of interest as a base for a budget build:

Pentium Gold G5600 Pentium Gold G5500 Pentium Gold G5400 Is
Code name Coffee Lake Coffee Lake Coffee Lake
The announcement Q2, 2018 Q2, 2018 Q2, 2018
Cores/threads 2/4 2/4 2/4
Hyper-Threading Technology There There There
Base frequency, GHz 3,9 3,8 3.7 V
Maximum frequency in turbo mode, GHz
Unlocked multiplier No No No
TDP, watts 54 54 54
HD Graphics 630 630 610
The graphics core frequency, MHz 1100 1100 1050
L3 cache MB 4 4 4
DDR4 support, MHz 2400 2400 2400
Technology VT-x/VT-d/TSX-NI VT-x/VT-d VT-x/VT-d VT-x/VT-d
The extension of the instruction set SSE4.1/4.2 SSE4.1/4.2 SSE4.1/4.2
Packaging LGA 1151 v2 LGA 1151 v2 LGA 1151 v2
Price $86 $75 $64

For detailed acquaintance we chose a mid-model Pentium Gold G5500. It’s a bit cheaper dual-core flagship and it has 100 MHz lower frequency, but it has a whole Arsenal of advantages of those budget CPU’s support Hyper-Threading, increased to 4 MB L3-cache and an integrated graphics core of the GT2 level.

Indications diagnostic utility CPU-Z fully confirm all the features of Pentium Gold, which we detailed have said it before. Additional noteworthy to name but two.

First: Pentium Gold, and studied G5500 in particular, is attributed to the calculated heat dissipation at 54 watts. At the same time for past generations of Pentium and Core i3 dual-core installed more narrow scope of the thermal package – 51 watts.

And second: members of the family of Pentium Gold belong to a generation Coffee Lake only formally. CPUID the identifier clearly indicates that they are based on semiconductor crystal stepping B0, which in fact corresponds to generation of Kaby Lake and are manufactured in 14 nm technology+. In other words, Gold Pentium chips that are derived from the Core i3 generation Kaby Lake, and both processors are based on the same silicon. This is logical, as more new technological process of 14 nm++ dual-core version of Intel does not produce crystals. However, all this does not negate the possibility that later in Pentium Gold will come and real crystals Coffee Lake stepping U0.

SOURCE

Continue Reading

Deals

Trending