Дом Перспективное мышление Горячие фишки: машинное обучение занимает центральное место

Горячие фишки: машинное обучение занимает центральное место

2024

Видео: PAQUI ONE CHIP CHALLENGE (Ноябрь 2024)

Самая горячая тема в вычислительной технике в наши дни - машинное обучение, и это, безусловно, заметно с аппаратной стороны. В последние недели мы много слышали о новых чипах, разработанных для глубокого изучения, от Tesla P100 и Drive PX 2 от Nvidia до модулей обработки Tensor от Google до Xeon Phi от Intel. Поэтому неудивительно, что на прошлой неделе на конференции Hot Chips мы узнали о нескольких компаниях, которые использовали совершенно разные подходы к проектированию с учетом машинного обучения и обработки изображений.

Возможно, самой большой новостью стало раскрытие компанией Nvidia более подробной информации о чипе Parker, который используется в модуле Drive PX 2 для автомобилей с самостоятельным вождением и нацелен на углубленное изучение автономных машин. Этот чип использует два специально изготовленных ARM-совместимых ядра процессора Denver, четыре ядра ARM Cortex-A57 и 256 из того, что Nvidia называет ядрами Pascal CUDA (графика).

Nvidia заявила, что это был ее первый чип, разработанный и рассчитанный на использование в автомобильной промышленности со специальными функциями упругости, и рассказал о его более высокой скорости и памяти, отметив, что ядро Denver обеспечивает значительное улучшение производительности на ватт. Среди новых функций - аппаратная виртуализация с 8 VMS для интеграции автомобильных функций, которые традиционно выполняются на отдельных компьютерах. В целом, по словам компании, модель Drive PX 2 может иметь два таких чипа Parker и два дискретных графических процессора с общей производительностью 8 терафлопс (двойная точность) или 24 операций глубокого обучения (8-битная или половинная точность). Компания включила в себя сравнительные тесты, сравнивая их с текущей мобильной обработкой с использованием SpecInt_2000, относительно старого теста. Но производительность действительно впечатляет, и Volvo недавно заявила, что будет использовать ее для тестирования автономных транспортных средств, начиная со следующего года.

Конечно, есть много других подходов.

Китайский стартап DeePhi обсудил основанную на FPGA платформу для нейронных сетей с двумя различными архитектурами в зависимости от типа используемой сети. Аристотель предназначен для относительно небольших сверточных нейронных сетей и основан на Xilinx Zynq 7000, в то время как Декарт предназначен для более крупных рекуррентных нейронных сетей, использующих долговременную кратковременную память (RNN-LSTM), на основе Kintex Ultrascale FPGA. DeePhi утверждает, что ее компилятор и архитектура сокращают время разработки по сравнению с большинством применений FPGA, а также что использование FPGA может обеспечить лучшую производительность, чем решения Tegra K1 и K40 от Nvidia.

Другой подход заключается в использовании цифрового сигнального процессора или DSP, который обычно выполняет определенную функцию или небольшой набор функций очень быстро, используя очень мало энергии. Часто они встраиваются в другие, более сложные микросхемы для ускорения определенных функций, таких как обработка зрения. Ряд компаний, в том числе Movidius, CEVA и Cadence, делились своими решениями на Hot Chips.

Movidius демонстрировал свое решение на базе DSP, известное как блок обработки зрения Myriad 2, и демонстрировал его в дроне DJI Phantom 4. Он также показал, как Myriad 2 превосходит графические процессоры и глубокую нейронную сеть GoogLeNet, использованную в конкурсе ImageNet 2014 года.

CEVA продвигал свой процессор Vision DSP CEVA-XM4, специально предназначенный для обработки зрения и предназначенный для автомобильного рынка, вместе со своей платформой CEVA Deep Neural Network 2, которая, по ее словам, могла взять все, что написано для платформ Caffe или TensorFlow, и оптимизировать ее для работы на его DSP. Новый процессор должен быть в SoCs в следующем году.

Тем временем, Cadence, которая делает семейство процессоров зрения Tensilica (которые могут быть встроены в другие продукты), обсуждала свою новейшую версию, Vision P6, которая добавила новые функции, такие как поддержка векторной плавающей запятой и другие функции для сверточных нейронных сетей., Первые продукты должны появиться в ближайшее время.

Microsoft рассказала о деталях аппаратного обеспечения для своей гарнитуры HoloLens, заявив, что она использует 14-нм процессор Intel Atom Cherry Trail под управлением Windows 10 и настраиваемый датчик-концентратор Holographic Processing Unit (HPU 1.0), изготовленный TSMC по 28-нм процессу. Это включает в себя 24 ядра Tensilica DSP.

Меня особенно поразил один из слайдов Cadence, на котором были показаны различия в пропускной способности и эффективности графических процессоров, FPGA и различных типов DSP с точки зрения операций многократного добавления, одного из ключевых строительных блоков для нейронных сетей. Несмотря на то, что он, очевидно, корыстен (как и все презентации поставщиков), он указал, как различные методы различаются с точки зрения скорости и эффективности (производительность на ватт), не говоря уже о стоимости и простоте программирования. Здесь есть много решений для различных подходов, и будет интересно посмотреть, как это изменится в течение следующих нескольких лет.