Really waited ?! / Processors and memory


Today is the case when thousands of words could be written in the introductory part of the article. Still, after all, Ryzen is coming out – the most promising x86-processor in the last five years, which is also of great importance for which way the personal computer industry will go in the near future. However, you certainly expect from us not a lengthy discussion on the topic of how much we expect a new product and how it would be good if the full-fledged competition returned to the processor market. Therefore, we will not postpone the most interesting for later, but immediately turn to technical details, and then to tests.

⇡ # Ryzen: a new beginning

Ryzen for AMD actually means a full reboot on the processor market. After it became clear that Bulldozer and its derivatives do not meet modern realities, the company decided to make a fundamentally new processor design, which would use modern semiconductor technologies (read: FinFET), radically increase performance (it is more than 1.5 times increase), and also energy efficiency would be taken to a new level. All this together and reduced in the microarchitecture Zen, which should become the basis of the entire family of AMD products in the near future: for laptops, desktops and servers.

In the last six years AMD in the processor market has suffered solid setbacks. With the Bulldozer family, the company was stuck in the world of 32- and 28-nm chips on planar transistors, while Intel repeatedly carried out architectural improvements, switched to 3D transistors, and also introduced production processes with 22- and 14-nm standards. Nevertheless, the luggage with which AMD came to the current moment, still outdated is not completely. The company has quite competitive energy consumption technologies, a good and modern integrated graphics core and multimedia units that meet the needs of users. There was a lack of only a productive and energy-efficient x86-core, which would allow to get out of the ultra-budgetary swamp along with all its associated operating time.

Zen is just such a core. It is fundamentally different from all that AMD had before. To help in its creation, AMD invited leading processor architect Jim Keller, who was tasked to develop a core with a classic “wide” microarchitecture, which in terms of consumption and performance could become the basis for processors for the entire range of computers, from fanless notebooks to high-performance workstations and servers. As a result, today AMD presents a bright exception to the public in the “era of 5 percent improvement” – the new processors of the company should provide a dramatically higher productivity gain.

And that is completely objective prerequisites. Zen kernels no longer share any resources with each other, as it was in Bulldozer, they are completely independent and also support SMT technology, which allows executing two threads on one core simultaneously (analog Hyper-Threading). In addition, each core has significantly reduced overhead for decoding instructions its own microoperations cache, completely redesigned first level fast cache with writeback and low power consumption, own FPU for each core and dedicated L2 cache, as well as a host of other optimizations. The basic integer conveyor Zen received a length of 19 stages, which is comparable to the pipeline of modern Intel processors (in Skylake and Kaby Lake – 14-19 stages). In addition, the production of chips assembled from Zen cores will now take place on a 14-nm process with FinFET transistors, which alone can reduce consumption by about 30 percent.

Until now, AMD processors were based on Piledriver, Steamroller and Excavator cores, but now the flagship products of the company are moving to a new base. Since March 2, AMD is beginning to promote the Socket AM4 platform and sell the Ryzen eight-core processors with the Zen microarchitecture, which are intended for high-performance desktop systems. Then, during the second quarter, the Ryzen family will be replenished with processors with six processing cores, and in the second half of the year four-core representatives will also appear in it. Thus, by the end of 2017, AMD will have in its arsenal a full set of updated processors for desktop PCs. However, at the same time the company does not plan to turn off the sales of processors with older architectures, which will have to support the Ryzen line in the ultra-budget segment.

AMD representatives, talking about the advantages of Zen, do not stint on epithets. For example, Lisa Su, the company’s CEO, says that Ryzen is the most competitive CPU in the last ten years. According to the same technical director AMD Mark Peipermaster, the Zen kernels make a quantum leap in the speed of execution of instructions, and especially in the part of single-threaded performance. Sounds impressive? Let’s take a closer look at what the outstanding Zen microarchitecture can boast of.

⇡ # The microarchitecture of Zen

One of the main conceptual changes in Zen is the support for multithreading and kernel dismemberment. The previous microarchitecture, Bulldozer, assumed the separation of parts of the pipeline, FPU and SIMD-blocks, as well as L2-cache between the pairs of cores interlocked in the modules. Now all these resources have become completely individual for each nucleus.

However, this alone is far from being limited. If you look at the Zen block diagram, the first thing that catches your eye is the micro-ops cache, which appeared in AMD processors for the first time. Intel introduced a similar functional unit back in Sandy Bridge, and then he was able to prove his high demand for the fact that the load on the input stages of the executive conveyor decreased significantly. The positive experience should be adopted, so now the microprocessing cache is also in the Zen: the results of decoding the x86 instructions are placed in it, which allows to remove the load from the decoder, thus increasing the performance and reducing the consumption of repetitive code sections.

The microoperations cache works in Zen in conjunction with the mechanism for the prediction of transitions. The fact is that in the new architecture, AMD untied the prediction of the transitions from the sample of instructions, and this means that the algorithms implemented in it can fill the queue for execution solely based on their own algorithms. In order for such a scheme to be viable, when predicting transitions, buffers of a significantly larger size become used. In addition, for conditional transitions in Zen, a self-learning system based on perceptrons and a two-level buffer of branch targets is used.

This circuit is borrowed from Jaguar processors, but in Zen it is somewhat improved and more carefully reconfigured. For dynamic indirect transitions, a separate array of addresses is used. All buffers in the prediction of the transitions are divided between the streams, while access to them receive a different priority, depending on the state of each thread. Another important change concerns the translation of address translation buffers (ITLBs) into the branch prediction block. This increases the aggressiveness of the pre-selection and positively affects both the prediction speed and the delays for restoring the pipeline after incorrectly taken code branches.

Address translation buffer (ITLB) is divided into Zen not into two, but into three levels. Added an additional zero level, which can store up to 8 entries for pages of any size. L1 TLB in this case is calculated on 64 records for pages of any size, and L2 TLB stores 512 entries for 4- and 256-kilobyte pages. The addresses of gigabyte pages in the L2 TLB are not maintained.

The instruction decoding unit in Zen, which converts the incoming stream of x86 commands to micro-operations, is able to process directly up to four instructions simultaneously. However, given that some instructions can be taken from the micro-ops cache, which has a total capacity of 2,048 micro-commands, the output of the decoder can be up to six integer micro-operations and up to four floating-point operations each cycle.

In the future, pipelines related to the integer and real parts of the nucleus are completely separated. Each part of the kernel has not only its own execution units, but also its own schedulers. In theory, this makes Zen a “wide” core, capable of processing a large number of parallel instructions at once. AMD itself is characterized by increased executive resources compared to Bulldozer with two factors: the scope of the scheduler window increased by 75 percent, and in general, schedulers can send for execution one and a half times more instructions than it was in the Excavator cores. And this means that theoretically Zen can provide about the same pace of execution instructions, as well as the latest Intel processors. True, Intel also does not stand still, and the decoder in Skylake and Kaby Lake was able to decode not four but five x86 instructions per clock.

As for the integer part of Zen’s execution pipeline, it is able to process all six delivered micro-operations per clock cycle in total. To this end, the microarchitecture contains four arithmetic logic units (ALUs) and two address generation devices (AGUs). Each of these actuators has its own scheduler with a 14-position queue, plus they all work together with a single physical register file for 168 entries. Integer devices are not exactly equal, and their purpose is somewhat different in detail. Branching can be performed only on one pair of ALUs, and operations of multiplication and division on another pair, each of these operations being suitable only for a certain device. In the integer part, some specific optimizations have been made, aimed at accelerating the processing of instructions and reducing energy consumption. For example, data transfer operations in registers occur by renaming links, and not through execution of micro-operations. In addition, when branching, the technique of maintaining control points is applied, which allows you to quickly restore the pipeline with errors in the prediction of transitions.

Downloads and save are performed in the AGU, which are symmetric and work in parallel. In comparison with Excavator, the queues of extraordinary reading and writing have grown strongly and reached 72 and 44 operations in depth, which is comparable to the latest Intel microarchitectures. The address generation devices can serve up to two 128-bit reads and one 128-bit record per clock. The data address translation buffer (DTLB) is implemented in a two-level scheme. L1 TLB contains 64 entries for pages of any size, L2 TLB is designed for fifteen hundred records, but without support for pages of 1 GB.

All Zen actuators have direct access to the general retirement queue, which is designed for 192 entries and can complete up to eight teams per clock. I must say that in the microarchitecture derived from Bulldozer, jams often occurred in this place, therefore in Zen the developers were reinsured and made the final part of the command execution mechanism twice as fast as the decoder.

The real part of Zen (FPU) does not look as impressive as integer. Despite the fact that new processors support AVX2 instructions, the entire FPU is optimized to work with 128-bit operands. Processing of 256-bit numbers within AVX2 is broken up into pairs of 128-bit instructions and requires, respectively, twice as much time and resources.

The register file for real operations in Zen is designed for 160 128-bit entries, the planning queue consists of two parts, totaling up to 96 micro-ops. Register files of integer and real parts of the computing core have the ability to directly exchange data with each other.

The FPU executive resource set is represented by four devices, which in fact makes Zen more productive Bulldozer, since in the previous microarchitecture, only three floating-point devices for each two cores were provided. Two devices are designed for additions, two for multiplications, and in total this means that the FPU is designed to work with 128-bit FMA instruction sets, but not AVX. In addition, two of the four FPUs can run the AES instruction set and do it very quickly.

The caching system has also changed in Zen, which is associated with the need to increase the speed of data and instructions to the kernel with a higher degree of internal parallelism. The first level cache doubled its size and associativity. AMD gave Zen 64-kilobyte L1-cache with four-time associativity – for instructions and 32-kilobyte L1-cache with eight-fold associativity – for data. The increase in size in this case should have a beneficial effect on the percentage of hits, and associativity further improves this characteristic, however, at the cost of some increase in energy consumption. Each cycle of the instruction cache processor can output 32 bytes per sample block, and the data cache is capable of serving two 16-byte downloads and one 16-byte data save command. Data exchange between L1 and L2-cache in all cases is based on a 32-byte full-duplex bus.

The second-level cache, individual for each Zen kernel, has a size of 512 KB and eight-fold associativity. This is twice the volume and associativity compared to the second-level cache memory of Skylake and Kaby Lake processors, which in the end should give about 40 percent advantage in the frequency of data entry into it. Both cache, L1 and L2, – with writeback, which is an important improvement over all Bulldozer, where L1-cache worked on a write-through scheme. However, despite the fact that the speed of the cache in Zen has significantly increased compared to AMD processors of the previous generation, Intel processors, since Haswell, have twice faster cache memory due to the width of the bus.

The third-level cache in the Zen architecture is common for every four cores. The size of such L3-cache is set to 8 MB with 16-fold associativity. In other words, for eight-core Zen, the total volume of the cache memory of the third level is 16 MB, but logically it consists of two completely independent 8-megabyte parts, each of which lives its own life. And the algorithm of this cache operation is victim. It is not subject to pre-selection, the data is simply pushed into it from L1 / L2. Thus, unlike inclusive first and second level caches, the L3-cache appears to be predominantly exclusive.

The fact that the L3-cache is its own for every four cores is connected with the features of the arrangement of a semiconductor crystal. It is made up of four-core building blocks CPU Complex (CCX), which are placed side by side on a semiconductor chip. It is from such blocks that multi-core server processors will be assembled, the eight-core Ryzen is a combination of two CCXs. This means that when accessing different parts of the full L3 cache in multi-core processors, the latency will be different depending on whether the data lies in the third-level cache belonging to its own CCX or to its neighbor’s CCX. However, AMD separately thought about the fact that additional delays were minimal. For communication of various CCX, a special high-speed Infinity Fabric bus is used, based on HyperTransport technology and supporting the prioritization of traffic.

At the end of the story about the Zen microarchitecture, a few words need to be said about how the core resources are divided into two threads within the framework of the SMT (Simultaneous Multi Threading) technology. The meaning of the technology is that all the resources available in the kernel are used more fully, but the competitive execution of the two threads should not only not block one thread to another. Ideally, a higher priority flow should receive large resources at its disposal. For the basic processor blocks that are in the input part of the pipeline, Zen uses time-based partitioning when different time intervals are allocated to execute different threads. At the same time, AMD says that during the branch prediction and register renaming stages, priority analysis is performed, as a result of which some threads can get more resources at their disposal. Основная же часть конвейера, включая декодер, планировщики, исполнительные устройства и кеш-память, разделяются между потоками по мере необходимости. Исключение сделано лишь для очереди микроопераций и для очереди отставки, которые для каждого потока продублированы.

⇡#Первые прикидки: Zеn против Broadwell-E и Kaby Lake

В том, что микроархитектура Zen представляет собой гигантский шаг вперёд по сравнению с Bulldozer, никаких сомнений не остаётся. И дело не только в том, что для новых процессоров используется современный техпроцесс и традиционный x86-дизайн с полноценными широкими ядрами без разделяемых блоков и с поддержкой многопоточности (SMT). Сделана и масса других улучшений, благодаря чему число исполняемых одним ядром инструкций за такт выросло более чем в полтора раза. В пользу этого играет улучшенное предсказание переходов, появление кеша микроопераций, возможность отсылки на исполнение до шести микроопераций за такт (против четырёх), 60-процентное увеличение буферов планировщиков, двукратное увеличение темпа завершения и отставки микроопераций, полуторакратное увеличение глубины очередей загрузки и выгрузки данных, возможность выполнения до четырёх операций с плавающей точкой за такт (против трёх), кратное увеличение пропускной способности всех кешей и рост размеров L1-кеша, улучшения на уровне предварительной выборки данных и масса всего прочего.

Однако гораздо более интересный вопрос заключается в том, как выглядит микроархитектура Zen на фоне тех процессоров, которые есть в распоряжении Intel. И вот тут-то всё оказывается не столь очевидно. Дело в том, что Zen, хотя и спроектирован по классическим канонам, сильно отличается по строению от Broadwell и Skylake/Kaby Lake, причём наибольшие отличия касаются механизма исполнения инструкций. Как и в Bulldozer, в Zen AMD разделила целочисленные и вещественночисленные конвейеры, в то время как в процессорах Intel применены универсальные исполнительные порты, суммарное число которых, например, в Skylake/Kaby Lake доведено до восьми. Поэтому прямое сравнение архитектур проводить тяжело.

Тем не менее совершенно точно можно сказать, что по производительности работы с 256-битными AVX2-инструкциями Zen серьёзно слабее своих конкурентов. Дело в том, что в процессорах Intel, начиная с Haswell, устройства, работающие с плавающей точкой, перенастроены на 256-битные операнды. Это позволяет им обеспечивать вещественночисленную производительность из расчёта 16 FLOPs за такт, в то время как Zen со своими 128-битными устройствами может выдавать лишь вдвое меньшую скорость. Уступает Zen и в пропускной способности системы кеширования. Кеш-память процессоров Intel, начиная с Haswell, использует 64-битные пересылки данных, в то время как в Zen соответствующие шины имеют в два раза меньшую ширину. Впрочем, высокий темп работы с кешем важен лишь при работе с векторными инструкциями, а AVX2-инструкции в Zen и так исполняются медленно.

Что же касается быстродействия процессоров с микроархитектурой Zen на целочисленных данных, то тут, похоже, они могут выдавать вполне конкурентный уровень. Несмотря на то, что декодер в Skylake/Kaby Lake рассчитан на обработку пяти операций за такт против четырёх у Zen, а устройства генерации адресов могут вычислять в Haswell, Skylake и Kaby Lake по три адреса за такт, а не по два, как в новой архитектуре AMD, Zen может противопоставить всему этому мощную систему предсказания переходов и более вместительные кеши, а том числе и кеш микроопераций.

При знакомстве с новыми микроархитектурами мы всегда проверяем их эффективность простыми синтетическими тестами, которые чутко реагируют на особенности тех или иных процессорных блоков. Такое сравнение уместно и сейчас. На этот раз мы воспользовались бенчмарками, входящими в комплект тестовой утилиты AIDA64 5.80. На следующих графиках приводятся показатели производительности старших четырёхъядерных процессоров поколений Ryzen (Zen), Vishera (Piledriver), Broadwell-E и Kaby Lake, работающих на одной и той же постоянной частоте 4,0 ГГц. Для начала тесты CPU в обычном восьмиядерном режиме.

Различия в микроархитектурах приводят к тому, что производительность при различных операциях может отличаться очень сильно. Zen показывает серьёзные преимущества в шифровании, достойно проявляет себя в тесте Queen на эффективность предсказания переходов и в классическом целочисленном тесте ZLib, однако уступает интеловским процессорам в тесте на обработку изображений PhotoWorxx, где активно задействуется система кеширования данных и целочисленные AVX-инструкции.

При работе с числами с плавающей точкой ситуация становится ещё более неоднозначной.

В целом в вещественночисленных алгоритмах микроархитектура Zen уже сильна не так, как при работе с целыми числами. Относительно неплохие результаты наблюдаются только в тестах VP8 и SinJulia, которые используют наиболее простые x87-инструкции или наборы семейства SSE. Если же дело начинает касаться AVX, FMA или, что ещё хуже, AVX2-операций, Zen актуальной архитектуре Intel проигрывает, причём очень заметно.

Для сравнения те же тесты были проведены в однопоточном режиме.

Любопытно, что в однопоточном режиме относительные скоростные показатели микроархитектуры Zen хуже, чем в многопоточном случае. Это – прямое указание на то, что технология SMT у инженеров AMD получилась очень удачной. Её эффективность явно выше, чем у интеловской Hyper-Threading.

Правда, в тестах, делающих упор на операции с числами с плавающей точкой, такой закономерности уже не наблюдается. Здесь вновь приходится констатировать, что FPU-часть в новых процессорах AMD справляется со своей работой не столь хорошо, как обрабатывают числа с плавающей точкой Broadwell или Kaby Lake.

Можно ли на основании этих данных делать вывод о том, что новая микроархитектура Zen не сможет вывести производительность Ryzen в реальных задачах на должный уровень? Нет! Дело в том, что идеология разработки Zen базировалась на принципах, сильно отличающихся от подхода Intel. В то время как микропроцессорного гиганта заботят проблемы глобального масштаба, и он старается в меру своих сил управлять рынком программного обеспечения и упреждающе предоставлять в распоряжение программистов всевозможные расширения архитектуры, AMD смотреть в столь отдалённую перспективу не нужно. Инженеры этой компании проанализировали не будущие тенденции, а то, какое программное обеспечение существует сейчас, и, опираясь на собранные сведения, сделали упор на увеличение мощности наиболее востребованных в данный момент процессорных блоков. Пусть из-за этого Ryzen и демонстрирует отставание во многих синтетических тестах, зато в реальных задачах он работает с максимальной отдачей. Всё это позволило AMD не разбазаривать транзисторный бюджет ради редко используемых возможностей вроде AVX2 и получить более компактный полупроводниковый кристалл с более низкой себестоимостью.

Следующий проведённый нами низкоуровневый тест касается латентности подсистемы кеш-памяти. В этом случае для измерений мы воспользовались утилитой SiSoftware Sandra 2016.03.22.20. Полученные результаты сведены в таблицу, латентность приводится в процессорных тактах.

    Ryzen Kaby Lake Broadwell-E Vishera
L1D-кеш

Объём (на ядро)

32 Кбайт

32 Кбайт

32 Кбайт

16 Кбайт

Латентность

4

4

5

4

L1I-кеш

Объём

64 Кбайт

32 Кбайт

32 Кбайт

32 Кбайт, разделяемый на 2 ядра

Латентность

5

2-3

5

2

L2-кеш

Объём (на ядро)

512 Кбайт

256 Кбайт

256 Кбайт

1024 Кбайт, разделяемый на 2 ядра

Латентность

17

12

13

18

L3-кеш

Объём (на ядро)

2 Мбайт, разделяемый на 4 ядра

2 Мбайт, разделяемый для всех ядер

2,5 Мбайт, разделяемый для всех ядер

1 Мбайт, разделяемый для всех ядер

Латентность

36-37

22

27

76

Эффективность системы кеширования в микроархитектуре Zen по понятным причинам хуже, чем в интеловских процессорах. Так, практическая латентность L2- и L3-кешей у Ryzen выше, чем у актуальных процессоров Intel, примерно в полтора раза. Однако по сравнению с микроархитектурой Bulldozer прогресс виден очень хорошо. Наиболее сильно он проявляется в улучшении времени отклика L3-кеша.

И последняя группа тестов касается проверки контроллера памяти. В процессорах Ryzen появился новый контроллер, поддерживающий двухканальную DDR4 SDRAM, и в теории по этой характеристике они стали похожи на интеловские процессоры для платформы LGA1151. Но эффективность контроллера сильно зависит от его конкретной реализации, и поэтому мы оценили практическую пропускную способность и латентность памяти Ryzen по сравнению с альтернативами. В этих испытаниях использовался бенчмарк Stream и уже упоминавшаяся утилита SiSoftware Sandra 2016.03.22.20. Все измерения проведены с DDR4-2933, работавшей со схемой задержек 15-17-17-35.

Контроллер DDR4 SDRAM в процессорах Ryzen оказался далеко не таким удачным. Единственный случай, где он оказывается на одном уровне с контроллерами памяти процессоров Intel, — это при многопоточном последовательном доступе. В этом случае он способен выдать даже чуть лучшую пропускную способность, чем двухканальный контроллер памяти Kaby Lake. Но латентность при этом оказывается примерно в три раза хуже, чем в процессорах конкурента, что влечёт за собой и отставание Ryzen в пропускной способности памяти при однопоточной нагрузке. Иными словами, ждать от новинки компании AMD высоких результатов в приложениях, которые работают с большими массивами данных, не приходится.

⇡#Энергопотребление Zen и 14-нм техпроцесс

Процессоры, построенные на микроархитектуре Zen, производятся на заводах GlobalFoundries по 14-нм техпроцессу 14LPP c применением FinFET-транзисторов. Важны обе составляющие. Современные нормы техпроцесса позволяют снизить площадь ядра и добиться того, что 4,8 млрд транзисторов могут разместиться на кристалле площадью всего лишь порядка 200 мм2 (по нашим расчётам).

Полупроводниковый кристалл AMD Ryzen 7" height="352" width="800"/>


<div class=

Полупроводниковый кристалл AMD Ryzen 7

Это значит, что по плотности упаковки транзисторов AMD смогла переиграть даже Intel. По оценкам компании, преимущество перед конкурентом в плотности дизайна составляет не менее 10 процентов.

FinFET-технология же означает, что затвор транзисторов расположен вертикально, помогая не только более точно управлять каналом, но и снизить токи утечки. Это также вносит немалый вклад в энергоэффективность и позволяет достичь достаточно высоких тактовых частот.

В пользу снижения потребления играет и специальная технология Pure Power, интерактивно управляющая питанием процессора. Стараясь добиться невысокого потребления ещё в линейке своих APU инженеры AMD смогли достичь немалых успехов и сделать сравнительно экономичные чипы, даже невзирая на неудачную архитектуру и устаревший техпроцесс. Теперь все такие наработки перенесены в Zen. Новый процессорный дизайн подробно контролирует состояние чипа по температурам и токам и отключает неиспользуемые блоки или снижает их частоты. Стоит отметить, что число управляемых цепей питания в ядре Ryzen превышает 1300 штук, а число встроенных датчиков температуры и токов достигает нескольких десятков.

Рост эффективности достигается не только благодаря новой микроархитектуре, применению FinFET-транзисторов и внедрению технологии PurePower, но и специально оптимизированному физическому дизайну ядра, который во многих частях делался не автоматическими методами, а вручную. В конечном итоге энергоэффективность Ryzen просто поражает. AMD удалось вписать в 95-ваттный тепловой пакет флагманские восьмиядерные процессоры, частоты которых подпирают отметку в 4,0 ГГц. Кроме того, в линейке Ryzen есть и совершенно уникальный 65-ваттный восьмиядерник, в то время как текущие десктопные восьмиядерные процессоры Intel для настольных систем Broadwell-E имеют расчётное тепловыделение на уровне 140 Вт. Похоже, что в гонке энергоэффективности микропроцессорный гигант рискует утратить свои передовые позиции.

⇡#Платформа Socket AM4 и новые чипсеты

Процессоры семейства Ryzen ориентированы на использование принципиально новой платформы и нового разъёма Socket AM4. Связано это в первую очередь с тем, что у AMD возникла необходимость во внедрении поддержки DDR4-памяти, которая к настоящему времени завоевала место индустриального стандарта. А заодно, пользуясь моментом, было решено перекроить всю платформу, сделав процессоры похожими на SoC. Иными словами, в интегрированный северный мост процессора был перенесён дополнительный набор контроллеров, что сделало чипсеты нового поколения крайне простыми устройствами.

Вследствие этого неудивительно, что новый процессорный разъём AM4 получил возросшее число контактов – их теперь 1331. Это значит, что Ryzen не имеют совместимости ни с какими старыми материнскими платами. К тому же AMD изменила требования к расположению на материнских платах крепёжных отверстий для систем охлаждения, и поэтому для Ryzen требуются новые кулеры или по крайней мере новые крепления для старых. Поэтому, несмотря на то, что Ryzen на первый взгляд похожи на предшественников, имеют аналогичные габариты и внешнее исполнение, вся экосистема для них должна быть полностью обновлена.

В Bulldozer в процессорном кристалле был реализован контроллер памяти. В APU последних поколений в основной чип переехал и контроллер для графической шины PCI Express. В Ryzen же в процессоре добавились дополнительные линии PCI Express, порты USB и SATA. Фактически сейчас AMD создала ситуацию, когда процессор может работать вообще без каких-либо дополнительных наборов логики, что делает возможным создание крайне простых и компактных материнских плат.

Однако начать стоит с того, что встроенный контроллер памяти в процессорах Ryzen – абсолютно новый. Он рассчитан на работу с двухканальной DDR4 SDRAM и поддерживает исключительно такую память. Обратной совместимости с DDR3 SDRAM не предусматривается. Официально контроллер памяти Ryzen поддерживает модули DDR4 с частотой до 2666 МГц, для которых на Socket AM4-материнских платах может быть предусмотрено два или четыре слота. Память с частотой выше DDR4-2666 с Ryzen тоже может применяться, но авторы процессора в этом случае не дают никаких гарантий.

Впрочем, с использованием в Socket AM4 скоростных модулей памяти могут возникать проблемы. Максимальная частота DDR4, которая может быть получена в Ryzen без изменения базовой частоты BCLK, составляет всего лишь 3200 МГц. Причём работа DDR4-2933- или DDR4-3200-памяти возможна только в случае использования пары модулей. Иными словами, по частотным возможностям контроллера памяти Ryzen сильно уступает текущим процессорам Intel для платформы LGA 1151, которые свободно покоряют режимы DDR4-4000 и выше. Но пока остаётся некоторая надежда на то, что ситуация может быть исправлена через новые версии BIOS для материнских плат.

Помимо встроенного контроллера памяти с поддержкой двухканальной DDR4 SDRAM, Ryzen предоставляет:

  • 16 линий PCI Express 3.0 для графической карты (при необходимости могут делиться на два слота по формуле 8x + 8x);
  • 4 линии PCI Express 3.0 для соединения с чипсетом либо для других устройств;
  • 4 порта USB 3.0;
  • 4 линии PCI Express 3.0 для NVMe-накопителя (могут быть переконфигурированы в 2 линии PCI Express 3.0 для NVMe-накопителя и два SATA-порта).

Таким образом, из одного только процессора Ryzen получается полноценная система-на-чипе.

Однако для типичных настольных систем имеющихся в процессоре средств расширения, скорее всего, окажется недостаточно. Поэтому к процессору по отведённым для этой цели линиям PCI Express может быть подсоединён один из наборов логики – X370, B350 или A320, которые добавят к указанному перечню какие-то дополнительные вещи. А если нужды в этом нет, то существует возможность укомплектовать Ryzen и специальными упрощёнными Mini-ITX-чипсетами X300 или A300, которые процессорные линии PCI Express 3.0 на себя не расходуют, но и к списку возможностей почти ничего не добавляют.

Основная масса свойств платформы Socket AM4 определяется именно процессором Ryzen. Чипсеты в новой платформе играют сугубо второстепенную роль, и на самом деле от них в плане функциональности платформы зависит немногое.

Даже старший набор логики X370, который, скорее всего, будет использоваться в большинстве материнских плат для энтузиастов, привносит не так уж и много: дополнительные два порта USB 3.1, по шесть портов USB 3.0 и USB 2.0, восемь портов SATA, четыре из которых могут быть конвертированы в два интерфейса SATA Express, и восемь дополнительных медленных линий PCI Express 2.0. Плюс в платформе Socket AM4 использование того или иного чипсета либо разрешает, либо запрещает разгон, деление графических линий PCI Express 3.0 x16 и режимы RAID для SATA-портов. Например, в том же X370 как в старшем чипсете допускается и разгон, и SLI- или CrossfireX-конфигурации, и RAID-массивы уровня 0, 1 и 10.

Наряду с X370 заинтересовать продвинутых пользователей может и более простой набор логики B350. В нём остался разрешён разгон процессора и RAID-массивы, а главное отличие от старшего варианта касается невозможности делить процессорную графическую шину на два слота. Кроме того, под нож попала часть портов USB 3.0 и SATA, которых в чипсете осталось два и шесть соответственно, плюс число линий PCI Express 2.0 сократилось до шести.

Ещё одна любопытная альтернатива – X300 – чипсет, который специально предназначается для простых компактных систем. Он к возможностям процессора ровным счётом ничего не добавляет, зато разрешает деление графической шины PCI Express 3.0 x16 на два слота и позволяет разгон процессора.

Детальные сведения о том, какие возможности предлагают в сочетании с Ryzen те или иные чипсеты, мы свели в следующей таблице.

    AMD X370 AMD B350 AMD A320 AMD X300 AMD A300
Процессор PCI Express 3.0 x16 для GPU x16 или x8+x8 x16 x16 x16 или x8+x8 x16
PCI Express 3.0 для SSD x4 или x2 + 2 SATA x4 или x2 + 2 SATA x4 или x2 + 2 SATA x4 или x2 + 2 SATA x4 или x2 + 2 SATA
PCI Express 3.0 Недоступно Недоступно Недоступно x4 x4
USB 3.0 4 4 4 4 4
Разгон Есть Есть Нет Есть Нет
Чипсет PCI Express 2.0 x8 x6 x4 Нет Нет
SATA 8 6 6 0 0
SATA RAID 0, 1, 10 0, 1, 10 0, 1, 10 0, 1 0, 1
USB 3.1 2 2 1 0 0
USB 3.0 6 2 2 0 0
USB 2.0 6 6 6 0 0

Хотя наборы логики и несут на себе название AMD, в их разработке первоочередную роль играла компания ASMedia, известная по своим разнообразным контроллерам. Именно благодаря ей AMD смогла первой вывести на рынок наборы логики с поддержкой портов USB 3.1 с пропускной способностью 10 Гбит/с. Однако врождённой поддержки разъёмов Type-C при этом в чипсетах AMD нет. Для того чтобы на плате появился удобный симметричный разъём USB, производителям материнок придётся раскошелиться на дополнительный чип-драйвер.

Благодаря поддержке USB 3.1 наборы логики для платформы Socket AM4 выглядят современно, но особенно обольщаться по поводу их возможностей всё-таки не следует. В то время как интеловские наборы логики двухсотой серии могут обеспечивать работу до 30 высокоскоростных портов (PCIe 3.0, SATA и USB 3.0), даже у старшего AMD X370 таких портов вдвое меньше. Частично это компенсируется возможностями встроенного в процессор северного моста, но тем не менее платформа Intel позволяет создавать более гибкие конфигурации с более широкими возможностями подключения дополнительных устройств.

Есть в чипсетах AMD и ещё один изъян. Для удешевления они производятся по 55-нм техпроцессу, и потому, несмотря на свою относительную простоту, назвать их особенно экономичными нельзя. Они в любом случае требуют охлаждения (хотя бы пассивного) на материнской плате.

⇡#Линейка Ryzen 7

Сегодня, 2 марта 2017 года, компания AMD начинает продажи первой партии своих принципиально новых процессоров Ryzen. И это – воистину историческое событие: продуктов, на которые был бы возложен подобный груз ожиданий, на процессорном рынке не было уже очень давно. Шутка ли – AMD собирается составить конкуренцию старшим интеловским процессорам для высокопроизводительных десктопов, но при этом чуть ли не вдвое понизить ценовую планку.

В течение первой фазы вывода Ryzen на рынок AMD собирается сделать ставку на свои восьмиядерные процессоры, отнесённые к семейству Ryzen 7. Это – наиболее дорогие десктопные носители новой микроархитектуры Zen со стоимостью от $330 до $500. Но несмотря на относительно высокую цену, компания ожидает чуть ли не ажиотажного спроса на новинку и серьёзно подготовилась к нему. Товарные партии Ryzen 7 уже лежат на складах ведущих магазинов, а всего AMD предварительно произвела порядка миллиона процессоров.

Одними только восьмиядерниками Ryzen 7 дело, естественно, не ограничится, но более простые и дешёвые версии новых процессоров AMD Ryzen 5 и Ryzen 3, которые будут обладать шестью и четырьмя вычислительными ядрами соответственно, придут на рынок позднее. Семейство Ryzen 5 появится в течение второго квартала (скорее всего, в начале июня), а Ryzen 3 будут представлены во второй половине текущего года. Поэтому на данный момент для поклонников компании AMD доступны лишь три восьмиядерные альтернативы с разными частотами.

  Ядра/ потоки Номинальная частота Турбо частота XFR L2-кеш L3-кеш TDP, Вт Разгон Цена
Ryzen 7 1800X 8/16 3,6 ГГц 4,0 ГГц +100 МГц 8 x 512 Кбайт 2 x 8 Мбайт 95 Разрешён $499
Ryzen 7 1700X 8/16 3,4 ГГц 3,8 ГГц +100 МГц 8 x 512 Кбайт 2 x 8 Мбайт 95 Разрешён $399
Ryzen 7 1700 8/16 3,0 ГГц 3,7 ГГц +50 МГц 8 x 512 Кбайт 2 x 8 Мбайт 65 Разрешён $329

В конечном итоге флагманский процессор в линейке Ryzen 7, 1800X, получил базовую частоту 3,6 ГГц с турборежимом до 4,0 ГГц, и с учётом того, что речь идёт о процессоре с восемью вычислительными ядрами и расчётным тепловыделением 95 Вт, выглядит это весьма впечатляюще. Старший интеловский восьмиядерник, Core i7-6900K, например, предлагает базовую частоту 3,2 ГГц, а в турборежиме разгоняется лишь до 3,7 ГГц, что явно указывает на отсутствие у AMD каких-то критичных проблем с масштабируемостью нового для компании 14-нм производственного процесса. Так, сопоставима с Core i7-6900K по частотам не старшая, а средняя четырёхсотдолларовая модель в линейке Ryzen 7, 1700X.

Официальные цены Ryzen 7 явно говорят о том, что в позиционировании новинок AMD придерживается несколько иных принципов, нежели Intel. Компания делает ставку на большую массовость. При этом Ryzen 7 1800X она видит как вдвое более дешёвую альтернативу для Core i7-6900K. Ryzen 7 1700X противопоставляется не восьмиядернику, а похожему по цене шестиядерному процессору Core i7-6800K. Ryzen 7 1700 же объявлен прямым конкурентом для четырёхъядерного Core i7-7700K. Иными словами, старая тактика AMD, когда она пыталась противопоставлять предложениям Intel превосходящее число ядер по более низкой цене, находит отражение и в новой линейке. Однако теперь ядра у AMD куда производительнее, чем раньше, и семейство Ryzen 7 действительно выглядит очень сильным.

Говоря о ценообразовании, стоит затронуть и ещё один важный момент – стоимость материнских плат. Платформа Socket AM4 спроектирована таким образом, что позволяет строить очень недорогие конфигурации, и в целом платы для Ryzen будут заметно дешевле плат для Core i7, особенно если мы говорим о процессорах в исполнении LGA2011-3. Так, например, стоимость флагманских Socket AM4-платформ уровня ASUS ROG видится в районе $250-260, а обычные платы на базе чипсета AMD X370 будут продаваться за $150-170. Массовые же платы на основе AMD B350, которые, тем не менее, вполне подходят для разгона Ryzen 7, можно будут купить за сумму порядка $90-100.

Анонсируя процессоры линейки Ryzen 7, компания AMD не сочла за труд пояснить их обозначения. Естественно, для новых процессоров придуманы новые модельные номера, и пока они выглядят вполне логично.

Цифра после торговой марки Ryzen определяет класс процессора (7 – для энтузиастов, 5 – производительный, 3 — массовый), а числовой индекс указывает на поколение архитектуры Zen (первая цифра) и общий уровень быстродействия (вторая цифра). Третья-четвёртая цифры индекса пока зарезервированы для последующих моделей с немного более высокой тактовой частотой, которые, вероятно, появятся со временем. Кроме того, в конце к модельному номеру может быть добавлено буквенное окончание: X – для наиболее скоростных процессоров с технологией XFR, G – для процессоров с интегрированным графическим ядром, T – для энергоэффективных моделей CPU, S — для экономичных версий APU, а также H, U и M – для мобильных версий Ryzen.

На данный момент из всех возможных окончаний используется лишь буква X – в представленной линейке Ryzen 7 таких процессоров сразу два. Однако никакого особенного глубинного смысла, как предполагалось вначале, в ней нет. Да, процессоры Ryzen 7 1800X и Ryzen 7 1700X действительно поддерживают более агрессивный вариант технологии XFR (Extended Frequency Range), которая обещает дополнительный авторазгон процессора за пределы турборежима в том случае, если это позволяет температурный режим. Но суровая правда в том, что максимальное автоматическое увеличение частоты в рамках XFR даже для процессоров с окончанием X в названии ограничено величиной 100 МГц. Причём оно возможно исключительно в случае однопоточной нагрузки.

⇡#AMD Ryzen 7 1800X в подробностях

Для знакомства с новой линейкой процессоров мы получили от компании AMD флагманскую модель, Ryzen 7 1800X.

 

Внешне этот процессор походит на своих предшественников серии FX, однако возросшее на 40 процентов число ножек видно невооружённым глазом. Любопытно, что AMD остаётся верна PGA-исполнению процессоров в потребительском сегменте, в то время как серверные продукты компании давно переводятся на LGA.

Процессор устанавливается в специальный разъём Socket AM4, который теперь становится базовым для всего ассортимента процессоров AMD для настольных компьютеров. С ним уже совместимы основанные на архитектуре Excavator гибридные процессоры Bristol Ridge, в него же будут устанавливаться и их последователи, APU поколения Raven Ridge. Более того, AMD говорит и о том, что высокопроизводительные CPU следующего поколения Zen+ с Socket AM4 совместимости не утратят и этот процессорный разъём останется актуальным как минимум до 2020 года.

Вот таким образом определяется Ryzen 7 1800X диагностической утилитой CPU-Z.

Перед нами действительно новый 8-ядерный процессор компании AMD с кодовым именем Summit Ridge и микроархитектурой Zen, который выделяется поддержкой SMT и способностью исполнять 16 потоков одновременно, кеш-памятью второго уровня объёмом 512 Кбайт на ядро и L3-кешем из двух частей по 8 Мбайт.

С рабочими частотами ситуация обстоит следующим образом:

  • В состоянии покоя частота сбрасывается до 2,2 ГГц.
  • При обычной нагрузке на все ядра реальная частота в большинстве случаев составляет 3,7 ГГц. Но если процессору приходится сталкиваться с серьёзными задачами, решаемыми с задействованием FMA/AVX-команд, частота может падать до 3,6 или даже 3,55 ГГц.
  • В случае если работой загружено одно или два ядра, процессор получает возможность включать турборежим, в котором он поднимает свою частоту вплоть до 4,0 ГГц. Однако технология Precision Boost управляет процессором очень гибко, и в большинстве случаев частота оказывается где-то в середине интервала от 3,7 до 4,0 ГГц. Причём дискретность её изменения составляет 25 МГц.
  • При однопоточной нагрузке дополнительно активируется технология XFR, которая доводит рабочую частоту до отметки 4,1 ГГц.

Некоторое недоумение вызывает высокое напряжение, которое требуется процессору для работы. Во-первых, оно сильно плавает во время работы системы, и в особенности во время простоя или небольших нагрузок. Во-вторых, абсолютные значения этого напряжения выглядят несколько шокирующе. Например, для нашего экземпляра Ryzen 7 1800X мы наблюдали штатные напряжения VCOREна уровне 1,4-1,45 В. Для процессора, выпущенного по 14-нм технологии, да ещё и такого, который должен показывать TDP на уровне 95 Вт, это выглядит несколько за гранью.

Но роль тут играет та схема, которую AMD использует в Ryzen для того, чтобы формировать питание отдельных ядер. Дело в том, что VCORE ни на какие внутрипроцессорные узлы в чистом виде не подаётся. За формирование напряжений VDDкоторые поступают на отдельные ядра и кеш-память, в Ryzen отвечает особая силовая схема – LDO (Low Drop-Out). Это – не полноценный интегрированный стабилизатор напряжения, как использовался в Haswell, а гораздо более простая линейная схема, которая лишь перераспределяет питание между ядрами. Но в результате её работы максимальное напряжение получают лишь те ядра, на которые ложится максимальная нагрузка и которые в нём действительно нуждаются. Иными словами, высокие значения VCOREпугать не должны, поскольку это – некий предельный уровень, который достигается лишь отдельными узлами процессора и лишь тогда, когда в этом есть реальная необходимость для стабильной работы.

Однако всё равно ситуация с нагревом процессора даже при его работе в номинальном режиме выглядит не слишком обнадёживающе. При тестировании теплового режима в Prime 28.10 максимальные температуры по внутрипроцессорному датчику доходили до 88 градусов, а датчик на материнской плате, находящийся внутри сокета, детектировал температуры до 62 градусов. Это при том, что для отвода тепла от процессора использовался достаточно производительный кулер Noctua NH-U14S.

Иными словами, несмотря на формальное соответствие требованиям 95-ваттного теплового пакета, Ryzen 7 1800X нуждается в мощном охлаждении. А если думать о разгоне, то грамотному подбору кулера надо уделить особое внимание. Впрочем, 100 градусов температурным пределом для Ryzen не является, поэтому в данном случае высокие температуры к троттлингу и снижению производительности не приводят.

⇡#Разгон

То, как разгоняется (а вернее, не разгоняется) Ryzen 7 1800X, очень хочется списать на сырость платформы. Добиться стабильной работы этого процессора на частотах, хоть немного превышающих номинальные значения, нам удалось с большим трудом. В разгоне прогресс по частоте идёт очень вяло, а дополнительно поднимать напряжение VCORE с учётом того, что оно уже в номинале превышает 1,4 В, да ещё и сильно «гуляет» в широких пределах, несколько боязно.

Стабильный максимум, которого удалось добиться, составил всего лишь 4,0 ГГц. Более же высокую частоту процессор уже не брал. Система загружалась вплоть до частоты 4,25 ГГц, однако ни о какой работе без вылетов и зависаний речь, к сожалению, не шла. Для проверки мы пользовались утилитой Prime 95 28.10, и ей удавалось обрушить систему буквально за несколько минут, даже если была выбрана частота 4,05 ГГц.

Впрочем, и работа Ryzen 7 1800X на частоте 4,0 ГГц внушала определённое беспокойство. Во-первых, для того, чтобы система проходила тесты стабильности, напряжение питания CPU пришлось поднять до 1,55 В. В том, что долговременная эксплуатация 14-нм чипа при таком напряжении не будет приводить к деградации полупроводникового кристалла, есть вполне обоснованные сомнения. Тем более что при каждой перезагрузке материнская плата ругалась на опасное превышение напряжения процессора.

Во-вторых, температура работающего с таким разгоном CPU, выдаваемая встроенным датчиком, зашкаливала за 100 градусов, несмотря на то, что для охлаждения в наших опытах использовался производительный кулер Noctua NH-U14S. Никакого троттлинга это не вызывало, но температуры порядка 105 градусов на безопасный нагрев похожи не сильно. Особенно если принять во внимание тот факт, что процессорная крышка у Ryzen к полупроводниковому кристаллу припаивается, а не сажается на пасту, как у LGA1151-процессоров конкурента.

В итоге разгон Ryzen 7 1800X смог принести увеличение частоты лишь на 8-10 процентов относительно номинала. Столь скромный результат не позволил нам выбраться за границы частот турборежима, но безопасность даже столь скромного повышения частоты в контексте постоянного использования системы находится под большим вопросом. Всё это приводит к неутешительному выводу о том, что оверклокерский потенциал у новых процессоров AMD откровенно низкий, и Ryzen проигрывает здесь процессорам конкурента. Например, тот же Core i7-6900K гонится от своей номинальной частоты на 20-25 процентов и способен при воздушном охлаждении брать планку в 4,2 ГГц, которая для Ryzen 7 1800X находится за пределами возможностей.

Впрочем, пока есть слабая надежда, что причиной таких оверклокерских страданий выступает «сырость» платформы. Например, сама AMD в части разгона обещала совсем иное. Согласно заявлениям представителей компании, её новые 14-нм процессоры должны быть способны разгоняться при воздушном охлаждении до 4,2-4,3 ГГц с напряжениями порядка 1,45 В. Наш опыт пока категорически опровергает эти обещания, но некоторая надежда на улучшение ситуации всё-таки остаётся. Поэтому мы ещё вернёмся к теме разгона процессора в наших будущих статьях.

Не смогли стать источником оптимизма и эксперименты по разгону подсистемы памяти Ryzen. Максимальный режим DDR4, который позволяет выставить контроллер памяти Ryzen 7 без увеличения частоты BCLK, – это DDR4-3200. Но даже в режиме DDR4-2933 с этим процессором работают далеко не любые модули. Например, комплект 2 x 8 Гбайт DDR4-3200 Corsair Vengeance LPX CMK16GX4M2B3200C16, который мы используем в тестах интеловских систем, запустился в Socket AM4-системе с Ryzen 7 1800X только в режиме DDR4-2400.

Взамен компания AMD предоставила нам другой, похожий комплект аналогичного объёма, Corsair Vengeance LPX CMK16GX4M2B3000C15. Он рассчитан на частоту DDR4-3000, и с ним мы смогли провести все тесты в режиме DDR4-2933. Однако любые попытки заставить его работать на большей скорости провалились. Иными словами, пока ситуация выглядит так, как будто для того, чтобы запустить подсистему памяти Ryzen на высоких частотах, нужны какие-то специальные «отборные» модули. Впрочем, и здесь остаётся надежда на то, что со временем сможет помочь оптимизация BIOS материнских плат.

В дополнение к сказанному следует упомянуть о специальной утилите AMD Ryzen Master, которую инженеры компании выпустили для управления оверклокингом новых процессоров из операционной системы. Впрочем, к большому сожалению, результаты разгона она улучшить не в состоянии и лишь добавляет некоторое удобство в этот процесс, позволяя в некоторых случаях обходиться без постоянных перезагрузок и утомительного подбора настроек в среде BIOS.

К тому же набор возможностей AMD Ryzen Master несколько ограничен. Она лишь позволяет менять частоту процессорных ядер, напряжение VCOREа также частоту и тайминги памяти. Причём часто после изменения параметров перезагрузка системы всё-таки требуется для вступления их в силу. Кроме того, пока утилита находится в бета-статусе, а потому ряд параметров она искажает, а ряд не отображает вообще. Так что полноценно пользоваться ей можно будет лишь после того, как все недочёты и недоделки будут исправлены разработчиками.

If you notice an error – select it with the mouse and press CTRL + ENTER.

What's Your Reaction?

hate hate
0
hate
confused confused
0
confused
Cute
0
Cute
LOL
0
LOL
Love
0
Love
OMG
0
OMG
Win
0
Win
WTF
0
WTF
Angry
0
Angry
Cry
0
Cry
Geeky
1
Geeky
fail fail
0
fail
fun fun
1
fun

Comments 0

Your email address will not be published. Required fields are marked *

Really waited ?! / Processors and memory

log in

reset password

Back to
log in
Choose A Format
Gif
GIF format