Дом Перспективное мышление Google Cloud TPU часть тенденции к AI-специфических процессоров

Google Cloud TPU часть тенденции к AI-специфических процессоров

2024

Видео: Introducing the New SparkFun Edge (Октября 2024)

За последние несколько недель появилось несколько важных представлений о новых вычислительных платформах, разработанных специально для работы в глубоких нейронных сетях для машинного обучения, включая новые «облачные TPU» от Google и новый дизайн Volta от Nvidia.

Для меня это самая интересная тенденция в компьютерной архитектуре - даже больше, чем AMD, а теперь Intel представляет 16-ядерные и 18-ядерные процессоры. Конечно, есть и другие альтернативные подходы, но Nvidia и Google заслуженно уделяют много внимания своим уникальным подходам.

В Google I / O я увидел, что это представляет собой «облачный TPU» (для Tensor Processing Unit, что указывает на то, что он оптимизирован для механизма машинного обучения TensorFlow от Google). TPU предыдущего поколения, представленный на прошлогодней выставке, представляет собой ASIC, предназначенный в первую очередь для логического вывода - выполнения операций машинного обучения, - но новая версия предназначена для логического вывода и обучения таким алгоритмам.

В недавней статье Google предоставил более подробную информацию об исходном TPU, который он описал как содержащий матрицу 256-256-кратного накопления (MAC) единиц (всего 65 536) с пиковой производительностью 92 тераопов (триллион операций на второй). Он получает свои инструкции от центрального процессора через шину PCIe Gen 3. Google заявил, что это 28-нм кристалл, который был меньше половины размера 22-нм процессора Intel Haswell Xeon, и что он превзошел этот процессор и 28-нм процессор Nvidia K80.

Новая версия, получившая название TPU 2.0 или облачный TPU (видно выше), на самом деле содержит четыре процессора на плате, и Google заявил, что каждая плата способна достигать 180 терафлопс (180 триллионов операций с плавающей запятой в секунду). Не менее важно то, что платы предназначены для совместной работы с использованием настраиваемой высокоскоростной сети, поэтому они действуют как суперкомпьютер с обучением на одной машине, который Google называет «модулем TPU».

Этот модуль TPU содержит 64 TPU второго поколения и обеспечивает до 11, 5 петафлопс для ускорения обучения одной большой модели машинного обучения. На конференции Фей Фэй Ли, который возглавляет исследование искусственного интеллекта в Google, сказал, что, хотя одна из крупномасштабных моделей обучения переводу занимает целый день, чтобы обучиться на 32 из лучших коммерчески доступных графических процессоров, теперь она может быть обучена для с той же точностью днем, используя одну восьмую части стручка ТПУ. Это большой прыжок.

Поймите, что это не маленькие системы - Pod выглядит размером с четыре обычных вычислительных стойки.

Кажется, что каждый из отдельных процессоров имеет очень большие радиаторы, а это означает, что платы нельзя сложить слишком плотно. Google еще не дал много подробностей о том, что изменилось в этой версии процессоров или межсоединений, но, вероятно, это также основано на 8-битных MAC.

За неделю до этого Nvidia представила свою последнюю запись в этой категории, массивный чип, известный как Telsa V100 Volta, который он назвал первым процессором с этой новой архитектурой Volta, предназначенным для высокопроизводительных графических процессоров.

Nvidia говорит, что новый чип способен к 120 терафлопсам TensorFlow (или 15 32-битным TFLOPS или 7, 5 64-битным). В нем используется новая архитектура, включающая 80 потоковых мультипроцессоров (SM), каждый из которых включает в себя восемь новых «тензорных ядер» и является массивом 4x4x4, способным выполнять 64 операции FMA (Fused Multiply-Add) за такт. Nvidia заявила, что предложит чип в своих рабочих станциях DGX-1V с 8 платами V100 в третьем квартале, следуя более раннему DGX-1, который использовал более раннюю архитектуру P100.

Компания заявила, что эта коробка стоимостью $ 149 000 должна обеспечить 960 терафлопс тренировочной производительности при использовании 3200 Вт. Позже, как было сказано первым, он будет поставлять персональную станцию DGX с четырьмя V100, а в четвертом квартале - крупные поставщики серверов будут поставлять серверы V100.

Этот чип является первым, на котором заявлено использование 12-нм процессора TSMC, и это будет огромный чип с 21, 1 миллиардами транзисторов на 815 квадратных миллиметрах кристалла. Nvidia назвала Microsoft и Amazon первыми покупателями чипа.

Обратите внимание, что между этими подходами есть большие различия. ТПУ Google - это действительно нестандартные микросхемы, разработанные для приложений TensorFlow, а Nvidia V100 - несколько более общая микросхема, способная выполнять различные математические операции для других приложений.

Между тем, другие крупные поставщики облачных решений ищут альтернативы: Microsoft использует как графические процессоры для обучения, так и программируемые на месте массивы шлюзов (FPGA) для вывода, и предлагает как клиентам. Веб-сервисы Amazon теперь предоставляют экземпляры как GPU, так и FPGA для разработчиков. И Intel продвигает FPGA и множество других технологий. Между тем, ряд новых стартапов работают над альтернативными подходами.

В некотором смысле, это самое радикальное изменение, которое мы наблюдали в рабочих станциях и серверных процессорах за последние годы, по крайней мере, с тех пор, как разработчики впервые начали использовать вычисления на GPU несколько лет назад. Будет интересно посмотреть, как это будет развиваться.