Дом Перспективное мышление Почему машинное обучение - это будущее?

Почему машинное обучение - это будущее?

2024

Видео: Маша и Медведь (Masha and The Bear) - Подкидыш (23 Серия) (Октября 2024)

На конференции SC16 Supercomputing в этом месяце были отмечены две тенденции. Первое - это появление новейшего процессора Intel Xeon Phi (Knights Landing) и новейшей Tesla от Nvidia (P100 на базе Pascal) в списке Top500 самых быстрых компьютеров в мире; обе системы попали в топ-20. Во-вторых, большое внимание уделяется тому, как производители микросхем и систем берут концепции из современных систем машинного обучения и применяют их в суперкомпьютерах.

В текущей версии списка Top500, который обновляется два раза в год, верхняя часть диаграммы все еще прочно находится в руках компьютера Sunway TaihuLight из Китайского национального суперкомпьютерного центра в Уси и компьютера Tianhe-2 из национального суперкомпьютера Китая Центр в Гуанчжоу, как это было с июня ISC16 шоу. Ни один другой компьютер не обладает такой же низкой производительностью, как системы третьего и четвертого рангов - по-прежнему суперкомпьютер Titan в Оук-Ридже и система Sequoia в Лоуренсе Ливерморе - оба обеспечивают примерно половину производительности Tianhe-2.

Первый из них основан на уникальном китайском процессоре 1, 46 ГГц SW26010, который использует 64-разрядное ядро RISC. Это имеет бесподобные 10 649 600 ядер, обеспечивающие 125, 4 петафлопс теоретической пиковой пропускной способности и 93 петафлопс максимальной измеренной производительности в эталонном тесте Linpack при использовании 15, 4 мегаватт мощности. Следует отметить, что хотя этот аппарат с огромным отрывом стоит на вершине рейтинга производительности Linpack, в других тестах он работает не так хорошо. Существуют и другие тесты, такие как тест HPCG (High Performance Conjugate Gradients), где машины имеют тенденцию видеть только 1-10% от их теоретической пиковой производительности, и где верхняя система - в данном случае, машина Riken K - все еще дает меньше чем 1 петафлоп.

Но тесты Linpack являются стандартом для обсуждения высокопроизводительных вычислений (HPC) и того, что используется для создания списка Top500. Используя тесты Linpack, машина № 2, Tianhe-2, была номером 1 на диаграмме в течение последних нескольких лет и использует Xeon E5 и более старые ускорители Xeon Phi (Knights Corner). Это дает 54, 9 петафлопс теоретической пиковой производительности и контрольные показатели в 33, 8 петафлопс в Linpack. Многие наблюдатели считают, что запрет на экспорт более новых версий Xeon Phi (Knights Landing) заставил китайцев создать собственный суперкомпьютерный процессор.

Knights Landing, формально Xeon Phi 7250, сыграл большую роль в новых системах в списке, начиная с суперкомпьютера Cori в Национальной лаборатории Лоуренса Беркли, занявшего пятое место, с пиковой производительностью 27, 8 петафлопс и измеренной производительностью 14 петафлопс, Это система Cray XC40, использующая соединение Aries. Обратите внимание, что Knights Landing может выступать в качестве основного процессора с 68 ядрами на процессор, обеспечивающими 3 пиковых терафлопс. (Intel перечисляет другую версию чипа с 72 ядрами при 3, 46 терафлопс пиковой теоретической производительности с двойной точностью в своем прайс-листе, но ни одна из машин в списке не использует эту версию, возможно, потому что она дороже и потребляет больше энергии.)

Ранее Xeon Phis мог работать в качестве ускорителей только в системах, управляемых традиционными процессорами Xeon. На шестом месте оказалась система Oakforest-PACS Объединенного центра современных высокопроизводительных компьютеров Японии, набравшая 24, 9 петафлопс. Он построен Fujitsu с использованием Knights Landing и соединения Omni-Path от Intel. Knights Landing также используется в системе № 12 (компьютер Marconi в итальянской CINECA, построенный Lenovo и использующий Omni-Path) и системе № 33 (Camphor 2 в Киотском университете Японии, построенной Cray и использующей Aries межсоединений).

Nvidia была хорошо представлена и в новом списке. Система № 8, Piz Daint в Швейцарском национальном центре суперкомпьютеров, была обновлена до Cray XC50 с Xeons и Nvidia Tesla P100, и теперь предлагает чуть менее 16 петафлопс теоретической пиковой производительности и 9, 8 петафлопс производительности Linpack - большой результат Обновите пиковые показатели производительности 7, 8 петафлопс и 6, 3 петафлопс производительности Linpack в более ранней итерации, основанной на Cray XC30 с ускорителями Nvidia K20x.

Другой системой на основе P100 в списке была собственная DGX Saturn V от Nvidia, основанная на собственных системах DGX-1 компании и соединении Infiniband, которое заняло 28 место в списке. Обратите внимание, что сейчас Nvidia продает как процессоры, так и устройство DGX-1, которое включает в себя программное обеспечение и восемь Tesla P100. Система DGX Saturn V, которую Nvidia использует для внутренних исследований ИИ, набирает почти 4, 9 петафлопс и 3, 3 петафлопа Linpack. Но Nvidia указывает на то, что она потребляет всего 350 киловатт энергии, что делает ее намного более энергоэффективной. В результате эта система возглавляет список самых энергоэффективных систем Green500. Nvidia отмечает, что это значительно меньше энергии, чем система Camphor 2 на базе Xeon Phi, которая имеет аналогичную производительность (почти 5, 5 петафлопс и 3, 1 петафлопс Linpack).

Это интересное сравнение: Nvidia демонстрирует более высокую энергоэффективность на графических процессорах, а Intel - более знакомую модель программирования. Я уверен, что в ближайшие годы мы увидим еще большую конкуренцию, поскольку различные архитектуры будут соревноваться, чтобы увидеть, какая из них первыми достигнет «масштабных вычислений», или же вместо этого получит самодельный китайский подход. В настоящее время проект Exascale Computing Project Министерства энергетики США ожидает, что первые машины exascale будут установлены в 2022 году и будут запущены в эксплуатацию в следующем году.

Мне интересно отметить, что, несмотря на акцент на многоядерных ускорителях, таких как решения Nvidia Tesla и Intel Xeon Phi, только 96 систем используют такие ускорители (включая те, которые используют только Xeon Phi); в отличие от 104 систем год назад. Корпорация Intel продолжает оставаться крупнейшим поставщиком микросхем: ее чипы в 462 из 500 ведущих систем, а затем 22 процессоров IBM Power. Hewlett-Packard Enterprise создала 140 систем (включая системы на основе Silicon Graphics, которые приобрела HPE), разработала Lenovo 92 и Cray 56.

Конкурс машинного обучения

На шоу или вокруг него было несколько объявлений, большинство из которых касалось какой-либо формы искусственного интеллекта или машинного обучения. Nvidia объявила о партнерстве с IBM в разработке нового программного пакета для глубокого обучения под названием IBM PowerAI, который управляет серверами IBM Power с использованием межсоединения Nvidia NVLink.

AMD, которая была запоздалой мыслью как в HPC, так и в средах машинного обучения, работает над тем, чтобы изменить это. В этой области компания сосредоточилась на собственных графических процессорах Radeon, представила свои серверные графические процессоры FirePro S9300 x2 и объявила о партнерстве с Google Cloud Platform, чтобы обеспечить его использование в облаке. Но AMD не вкладывает столько средств в программное обеспечение для программирования графических процессоров, поскольку подчеркивает OpenCL над более проприетарным подходом Nvidia. На выставке AMD представила новую версию своей Radeon Open Compute Platform (ROCm) и рассказала о планах поддержки своих графических процессоров в сценариях разнородных вычислений с несколькими ЦП, включая готовящиеся к выпуску процессоры "Zen" x86, архитектуры ARM, начиная с ThunderX Cavium и Процессоры IBM Power 8.

На выставке Intel рассказала о новой версии своего нынешнего чипа Xeon E5v4 (Broadwell), настроенного для рабочих нагрузок с плавающей запятой, и о том, как будет выпущена следующая версия, основанная на платформе Skylake, в следующем году. Но позднее на этой неделе Intel сделала серию объявлений, предназначенных для позиционирования своих чипов в области искусственного интеллекта или машинного обучения. (Вот пример ExtremeTech.) Многое из этого имеет значение для высокопроизводительных вычислений, но в основном это отдельное решение. Начнем с того, что в дополнение к стандартным процессорам Xeon, компания также продвигает FPGA для выполнения большей части вывода в нейронных сетях. Это одна из главных причин, по которой компания недавно приобрела Altera, и такие FPGA сейчас используются такими компаниями, как Microsoft.

Но внимание на AI на прошлой неделе было связано с некоторыми новыми чипами. Во-первых, Xeon Phi, где Intel указала, что текущая версия Knights Landing будет дополнена в следующем году новой версией под названием Knights Mill, предназначенной для рынка "глубокого обучения". Объявленная в IDF, это еще одна 14-нм версия, но с поддержкой вычислений с половинной точностью, которые часто используются в обучающих нейронных сетях. Действительно, одно из больших преимуществ нынешних чипов Nvidia в области глубокого обучения - это их поддержка вычислений с половинной точностью и 8-битных целочисленных операций, которые Nvidia часто называет «tera-ops» глубокого обучения. По заявлению Intel, Knights Mill в четыре раза увеличит производительность Knights Landing для глубокого обучения. (Этот чип все еще планируется выпустить 10-нм версией под названием Knights Hill, которая, вероятно, больше ориентирована на рынок традиционных высокопроизводительных вычислений.)

Наиболее интересным на следующий год является проект от Nervana, который недавно приобрела Intel, который использует массив вычислительных кластеров, предназначенных для выполнения простых математических операций, связанных с высокоскоростной памятью (HBM). Первым в этом семействе будет Lake Crest, который был разработан до того, как Intel купила компанию, и изготовлен по технологии 28-нм TSMC. Intel планирует выпустить тестовые версии в первой половине следующего года, что обеспечит более высокую производительность вычислений по сравнению с GPU. За этим в конечном итоге последует Knights Crest, который каким-то образом внедряет технологию Nervana вместе с Xeon, а детали пока не известны.

«Мы ожидаем, что технологии Nervana в ближайшие три года приведут к революционному увеличению производительности в 100 раз, что позволит обучать сложные нейронные сети, позволяя ученым быстрее решать свои самые серьезные проблемы с ИИ», - написал генеральный директор Intel Брайан Крзанич.

Intel также недавно объявила о планах приобретения Movidius, который делает чипы на основе DSP особенно подходящими для вывода компьютерного зрения - опять же, для принятия решений на основе ранее обученных моделей.

Это сложная и развивающаяся история - конечно, не такая простая, как стремление Nvidia к своим графическим процессорам повсюду. Но что ясно, так это то, как быстро набирает обороты машинное обучение, и множество различных способов, которыми компании планируют решать эту проблему, от графических процессоров, таких как Nvidia и AMD, до многих ядерных процессоров x86, таких как Xeon Phi, до FPGA. для специализированных продуктов для обучения, таких как Nervana и IBM TrueNorth, для пользовательских DSP-подобных механизмов вывода, таких как Tensor Processing Units от Google. Будет очень интересно посмотреть, есть ли на рынке место для всех этих подходов.