Дом Перспективное мышление Оракул, NVIDIA, поднять руку на горячие чипсы

Оракул, NVIDIA, поднять руку на горячие чипсы

2024

Видео: What’s Jensen been cooking? (Ноябрь 2024)

Несмотря на то, что на прошлой неделе большая часть интереса к чипам возникла в связи с объявлением Intel на Broadwell, на ежегодной конференции Hot Chips подробно обсуждался ряд других микросхем, в которых основное внимание уделялось главным образом микросхемам, предназначенным для серверов и центров обработки данных.

Шоу известно высококлассными чипами, где Intel, Oracle и IBM все обсуждают свои последние записи, но только Oracle Sparc M7 был действительно новым. Вместо этого большая часть шоу была посвящена продуктам на базе ARM, включая первые подробности о предстоящей 64-битной версии Denvia процессора Tegra K1 от Nvidia.

Oracle, Intel и IBM стремятся к успеху с серверными чипами

Из высокопроизводительных чипов наиболее впечатляющая новость пришла от Oracle, которая обсуждала следующее поколение своего процессора SPARC, известного как M7. Этот чип будет иметь 32 ядра S4 SPARC (каждое с восьмью динамическими потоками), 64 МБ кэш-памяти L3, восемь контроллеров памяти DDR4 (до 2 ТБ на процессор и пропускную способность памяти 160 Гбит / с с DDR4-2133) и восемь ускорителей анализа данных, подключенных через внутрикристальная сеть.

Чип состоит из восьми кластеров с четырьмя ядрами, каждое из которых имеет общий кэш L2 и разделенный кэш-память L3 объемом 8 МБ с пропускной способностью более 192 Гбит / с между основным кластером и его локальным кешем L3. По сравнению с M6 (28-нм чип с 12 3, 6 ГГц ядрами SPARC S3), M7 обеспечивает в 3-3, 5 раза лучшую производительность по пропускной способности памяти, целочисленной пропускной способности, OLTP, Java, ERP-системам и пропускной способности с плавающей запятой. Стивен Филлипс, старший директор Oracle по архитектуре SPARC, сказал, что целью было увеличение производительности с помощью пошаговой функции, а не постепенное увеличение.

M7 может масштабироваться до 8 сокетов без клея (до 256 ядер, 2000 потоков и 16 ТБ памяти) и с переключателем ASIC для управления трафиком между ними в конфигурации SMP, до 32 процессоров, так что вы можете получить в итоге с системой с 1024 ядрами, 8 192 потоками и до 64 ТБ памяти. Довольно внушительный. По словам Oracle, производительность в различных тестах в 3–3, 5 раза выше по сравнению с прошлогодней SPARC M6. Компания заявила, что она будет оптимизирована для собственного программного стека Oracle, изготовленного по 20-нм техпроцессу и доступного в системах в следующем году.

IBM также представила более подробную информацию о своей линейке Power8, которую она анонсировала на прошлогодней выставке. Эта версия чипа имела 12 ядер, каждое из которых содержало до восьми потоков с 512 КБ кэш-памяти SRAM уровня 2 на ядро (6 МБ общего объема L2) и 96 МБ общей встроенной памяти DRAM в качестве кэш-памяти 3-го уровня. Этот огромный чип размером 650 квадратных миллиметров с 4, 2 миллиардами транзисторов изготовлен по 22-нм технологическому процессу SOI IBM и начал поставляться в июне, по данным IBM.

Несколько месяцев назад IBM анонсировала версию с шестью ядрами размером 362 мм ². В этом году речь шла о том, как IBM может объединить две из шестиядерных версий в один пакет с 48 линиями PCIe Gen 3. IBM заявила, что двухпроцессорная версия с общим количеством ядер 24 и 192 превзойдет двухпроцессорную. Сервер Xeon Ivy Bridge с 24 ядрами (с 48 потоками). IBM продает Power главным образом на высокопроизводительных и специализированных рынках, поэтому большинство людей не будут сравнивать их, но это интересно. Стремясь сделать архитектуру Power более популярной, в прошлом году IBM объявила о создании Open Power Consortium, а в этом году компания заявила, что у нее есть полный программный стек с открытым исходным кодом для этой платформы. Но пока никто кроме IBM не анонсировал сервер на базе платформы.

Intel говорила об «Ivytown», серверной версии Ivy Bridge, которая включает в себя версии Xeon E5, представленные год назад, и Xeon E7, представленные в феврале. В этом году речь шла о том, что Intel теперь имеет в основном одну архитектуру, которая может охватывать оба рынка, с чипами, поддерживающими до 15 ядер, двумя контроллерами памяти DDR3, тремя каналами QPI и 40 линиями PCI Gen 3, расположенными на модульном уровне. План, который можно превратить в три разных штампа, каждый из которых рассчитан на разные гнезда, в общей сложности более 75 вариантов. Это может использоваться в двух-, четырех- и восьми-сокетных серверах без специальных межсоединений.

Эти чипы, разумеется, составляют основную часть покупок серверов в наши дни, поскольку Intel составляет подавляющее большинство серверных устройств. Но большая часть информации была ранее освещена на ISSCC, и ожидается, что Intel представит следующую версию семейства E5 (E5-1600v3 и E5-2600 v3) очень скоро, на основе обновленной версии с использованием варианта Архитектура Haswell называется Haswell-EP. (На прошлой неделе Dell анонсировала новые рабочие станции на основе этих новых чипов.)

Intel также обсудила свой Atom C2000, известный как Avoton, который был запущен в производство в конце 2013 года. Этот чип, а также чипы Ivy Bridge и Haswell основаны на 22-нм технологическом процессе Intel.

Nvidia, AMD, Applied Micro Aim на новых рынках для ARM

Самым большим сюрпризом показа было, вероятно, внимание к технологиям на основе ARM, в том числе к сведению докладчиков от ARM и подробным описанием Nvidia его будущей "Денверской" версии процессора Tegra K1.

В своем выступлении технический директор ARM Майк Мюллер рассказал об ограничениях электропитания во всем, от датчиков до серверов, и сосредоточился на том, как ARM пытается выйти на предприятие. Мюллер также выдвинул концепцию использования сенсорных микросхем ARM для Интернета вещей - тема, которая также нашла отражение в выступлении Роба Чандхока из Qualcomm. Но ни одна компания не анонсировала новые ядра или процессоры.

Вместо этого, большая новость об этом пришла от Nvidia, которая дала гораздо больше подробностей о новой версии своего процессора K1. Когда был впервые анонсирован проект компании в Денвере, казалось, что этот чип будет нацелен на рынок высокопроизводительных вычислений, но теперь компания, похоже, больше сосредоточилась на таких вещах, как планшеты и автомобильный рынок. Tegra K1 выйдет в двух версиях. Первое, которое было анонсировано ранее в этом году и теперь поставляется с планшетом компании Shield, имеет четыре 32-разрядных ядра ARM Cortex-A15 и маломощное «сопутствующее ядро» в конфигурации 4 + 1, которую Nvidia продвигает в его линия Tegra в течение нескольких лет.

Версия Denver сильно отличается от двух новых проприетарных 64-битных ядер, разработанных Nvidia, и компания действительно рассказывает о повышении производительности, которое она получает. Ядро является семисторонним суперскалярным (это означает, что оно может выполнять до семи микроопераций одновременно), и имеет кэш-память L1 с четырьмя путями 128 КБ и кеш-память L1 с четырьмя 64 КБ. Чип объединяет два из этих ядер вместе с 2 МБ кэш-памяти уровня 2, которая обслуживает оба ядра, в качестве 192 «ядер CUDA» (графических ядер), которые он разделяет с 32-разрядным K1. Как таковой, он представляет собой большой отход от архитектуры 4 + 1.

Одно большое изменение включает в себя то, что Nvidia называет «динамической оптимизацией кода», которая предназначена для того, чтобы принимать часто используемый код ARM и преобразовывать его в микрокод, специально оптимизированный для процессора. Это хранится в 128 МБ кэш-памяти (вырезанной из традиционной системной основной памяти). Цель состоит в том, чтобы дать ему производительность внеочередного выполнения, не требуя столько энергии, сколько обычно использует этот метод. Концепция не нова - Transmeta попробовала это несколько лет назад с чипом Crusoe - но Nvidia говорит, что теперь это работает заметно лучше.

Nvidia показала несколько тестов, в которых утверждалось, что новый чип может достигать значительно более высокой производительности, чем существующие четырех- или восьмиядерные мобильные процессоры, в частности, ссылаясь на Snapdragon 800 (MSM8974) Qualcomm, Apple A7 (иногда называемый Cyclone), используемый в iPhone. 5с - и даже некоторые основные процессоры для ПК. Nvidia заявила, что она превосходит процессор Atom (Bay Trail) и похожа на двухъядерный процессор Celeron (Haswell) Intel с тактовой частотой 1, 4 ГГц. Конечно, я склонен принимать цифры производительности поставщиков с небольшим количеством соли: поставщики не только выбирают эталонные тесты, совершенно не ясно, что мы говорим об одинаковых тактовых частотах или одинаковом энергопотреблении.

Между тем, в чипах, нацеленных больше на серверы, AMD больше говорила о своем Opteron A1100, известном как «Сиэтл», с компанией, заявляющей, что в настоящее время она производит выборку и должна появиться на серверах примерно в конце этого года. Этот чип имеет восемь 64-битных ядер процессора Cortex A57; 4 МБ кэш-памяти L2 и 8 МБ кэш-памяти L3; два канала памяти на 128 ГБ памяти DDR3 или DDR4 с коррекцией ошибок; множество встроенных входов / выходов (8 линий на каждом из PCIe Gen3 и 6 Гбит / с SATA и два 10 Гбит / с Ethernet-порта); Cortex A5 «системный управляющий процессор» для безопасной загрузки; и ускоритель для ускорения шифрования и дешифрования. Это произведено на 28-нм процессе GlobalFoundries. AMD пока не сообщила подробности о частоте, мощности или производительности чипа, но продемонстрировала базовую диаграмму чипа. (выше)

Applied Micro уже давно претендует на то, чтобы иметь первый на рынке серверный чип ARM с его X-Gene 1 (известным как Storm), содержащим 8 запатентованных ядер ARMv8 2, 4 ГГц, четыре контроллера памяти DDR3, SATA PCIe Gen3 и 6 Гбит / с и Ethernet 10 Гбит / с., По словам представителей компании, в настоящее время она находится в процессе производства по 40-нм технологии TSMC.

На Hot Chips Applied Micro представила свой дизайн X-Gene 2 (Shadowcat), который будет доступен с восемью или 16 «улучшенными» ядрами, работающими на частотах от 2, 4 до 2, 8 ГГц, и добавляет хост RoCE (RDMA over Converged Ethernet). Канальный адаптер в качестве межсоединения, предназначенного для обеспечения соединений с низкой задержкой среди кластеров микросерверов. Он предназначен для использования в кластерах: одна серверная стойка поддерживает до 6480 потоков и 50 ТБ памяти, и все они совместно используют один пул хранения. Компания заявляет, что X-Gene 2 обеспечит целочисленную производительность примерно на 60% выше, вдвое выше, чем в Memcache, и примерно на 25% лучше, чем в Apache. Он изготовлен по 28-нм техпроцессу и в настоящее время отбирает пробы.

Applied Micro заявляет, что X-Gene 2 заполняет пробел между конкурирующими микросерверами (Cavium ThunderX, Intel Atom C2000 «Avoton» и AMD Opteron A1100 «Сиэтл») и полноразмерными серверами Xeon. Он дал некоторые подробности о следующем поколении, X-Gene 3 (Жаворонок), который планируется начать отбор проб в следующем году. Этот чип будет иметь 16 ядер ARMv8, работающих на частоте до 3 ГГц, и будет производиться с использованием 16-нм технологии FinFet.