Оглавление:
Видео: Маша и Медведь (Masha and The Bear) - Подкидыш (23 Серия) (Ноябрь 2024)
Данные и бизнес-аналитика (BI) - это две стороны одной медали. Достижения в области хранения, обработки и анализа привели к демократизации данных до такой степени, что вам не нужно быть профессионалом в области баз данных или ученым, чтобы работать с массивными наборами данных и получать информацию. Кривая обучения еще есть, но инструменты самообслуживания для бизнес-аналитики и визуализации данных переопределяют способ использования предприятиями всех данных, которые они собирают, в действенной аналитике. Тем не менее, существует разница между бизнес-аналитикой или компанией, занимающейся базой данных, предлагающей расширенную аналитику, и базой данных искусственного интеллекта (ИИ), специально созданной для обучения машинному обучению (ML) и моделям глубокого обучения.
Алгоритмы ML вплетены в структуру большей части современного программного обеспечения. Потребительский опыт сочетается с ИИ с помощью виртуальных помощников, и в программном обеспечении для бизнеса есть примеры, такие как Salesforce Einstein, которые выступают в качестве интеллектуального слоя под всем портфелем управления взаимоотношениями с клиентами (CRM) компании. Технологические гиганты, в том числе Google и Microsoft, продвигают наше интеллектуальное будущее еще дальше, не только благодаря исследованиям, но и переписывая то, как их технологии работают с нуля с помощью ИИ.
Одна из проблем, связанных с тренажером и моделями глубокого обучения, заключается в большом объеме данных и вычислительной мощности, которые необходимы для обучения нейронной сети, например, при распознавании сложных образов в таких областях, как классификация изображений или обработка естественного языка (NLP). Следовательно, базы данных ИИ начинают появляться на рынке как способ оптимизации процесса обучения и обучения ИИ для бизнеса. Мы поговорили с провайдером реляционных баз данных с ускорением на графическом процессоре Kinetica, который создал собственную базу данных AI, и резидентом PCMag, специалистом по BI и базам данных Пэм Бейкер, чтобы понять, что такое база данных AI и как она работает по сравнению с традиционными базами данных. Что еще более важно, мы попросили их помочь разобраться в ажиотаже и маркетинге, чтобы определить, имеет ли эта новая технология реальную ценность для бизнеса.
Что такое базы данных AI?
Быстро меняющаяся природа пространства ИИ может затруднить определение терминологии. Вы часто слышите такие термины, как ML, глубокое обучение и искусственный интеллект, которые используются взаимозаменяемо, хотя на самом деле они все еще находятся в процессе разработки под общим зонтиком искусственного интеллекта. Таким образом, Бейкер сказал, что есть два совершенно разных определения того, что база данных ИИ зависит от того, с кем вы разговариваете: одно практическое, а другое - более крутое в небе.
«В отрасли существует некое единодушное мнение, что база данных ИИ будет такой, которая будет работать полностью на основе запросов на естественном языке. Пользовательский интерфейс будет таким, что вам не придется полагаться на поисковые термины и ключевые фразы, чтобы найти необходимая информация, позволяющая пользователю вызывать наборы данных с помощью НЛП », - сказал Бейкер. «Вы можете сделать очень ограниченный аргумент, что IBM Watson может представлять запросы на естественном языке к системе, но вы уже должны быть подключены к данным и сами выбирать данные. Так что, сейчас это определение растягивается».
Более практичное определение и предмет этого объяснения, по сути, использует специально созданную базу данных для ускорения обучения модели ML. Многие технологические компании уже разрабатывают специализированные микросхемы ИИ, чтобы снизить большую нагрузку на обработку в новых аппаратных продуктах, поскольку поставщики внедряют больше функций на основе ИИ, которые требуют значительных вычислительных мощностей. Что касается данных, использование базы данных AI может помочь вам лучше справиться с объемом, скоростью и сложными задачами управления данными и управления ими, связанными с обучением моделям ML и глубокого обучения, чтобы сэкономить время и оптимизировать ресурсы.
Изображение предоставлено Тоддом Джакитом на Futurism.com. Нажмите, чтобы развернуть полную инфографику
«В настоящее время предпринимаются большие усилия, чтобы ускорить обучение ML с помощью нескольких различных тактик», - пояснил Бейкер. «Одним из них является отделение инфраструктуры от исследователей ИИ, занимающихся кодированием, чтобы автоматизированные функции обрабатывали инфраструктуру и обучали модель ML. Поэтому вместо того, чтобы тратить что-то около трех месяцев, вы можете смотреть на 30 дней или 30 минут»."
Kinetica разбивает эту идею на интегрированную платформу базы данных, оптимизированную для ML и моделирования глубокого обучения. База данных AI объединяет хранилище данных, расширенную аналитику и визуализации в базе данных в памяти. Мате Радаль, вице-президент и главный инженер-программист группы передовых технологий Kinetica, объяснил, что база данных ИИ должна иметь возможность одновременно принимать, исследовать, анализировать и визуализировать быстро движущиеся сложные данные в течение миллисекунд. Цель состоит в том, чтобы снизить затраты, генерировать новые доходы и интегрировать модели ML, чтобы предприятия могли принимать более эффективные решения, основанные на данных.
«База данных ИИ является подмножеством общей базы данных», - сказал Радаль. «В настоящее время базы данных AI очень популярны. Но во многих решениях используются распределенные компоненты. Spark, MapReduce и HDFS всегда вращаются назад и вперед, а не в памяти. У них нет слияния таких факторов, как наша база данных, которая был построен с нуля с тесно интегрированными процессорами и графическими процессорами на одной платформе. Преимущество для нас на высоком уровне - более быстрое выделение ресурсов и меньшая аппаратная нагрузка при обучении на основе моделей, с быстрым оборотом и аналитикой, интегрированной в одну платформу."
Как работает база данных AI
На практике есть несколько примеров баз данных AI. Microsoft Batch AI предлагает облачную инфраструктуру для обучения глубоким знаниям и моделям ML, работающим на графических процессорах Microsoft Azure. У компании также есть продукт Azure Data Lake, чтобы предприятиям и ученым было проще обрабатывать и анализировать данные в распределенной архитектуре.
Другим примером является подход Google AutoML, который в корне изменяет способ обучения моделей ML. Google AutoML автоматизирует проектирование модели ML для создания новых архитектур нейронных сетей на основе определенных наборов данных, а затем тестирует и повторяет эти тысячи раз для кодирования более совершенных систем. Фактически, ИИ Google теперь может создавать лучшие модели, чем исследователи-люди.
«Посмотрите на Google AutoML: ML пишет код ML, чтобы вам даже не нужны были люди», - сказал Бейкер. «Это дает вам представление о том, какая огромная разница в том, что делают вендоры. Некоторые пытаются выдать продвинутую аналитику за ML - и это не так. А другие делают ML на таком продвинутом уровне, который выходит за рамки большинства». предприятия могут понять в настоящий момент ".
Тогда есть Кинетика. Стартап в Сан-Франциско, который привлек 63 млн. Долларов венчурного финансирования (VC), предоставляет высокопроизводительную базу данных SQL, оптимизированную для быстрого приема и анализа данных. Kinetica - это то, что Радаль назвал распределенной базой данных и вычислительной платформой с массивно-параллельной обработкой (MPP), в которой каждый узел обладает совмещенными данными в памяти, процессором и графическим процессором.
Радаль объяснил, что то, что отличает базу данных ИИ от традиционной базы данных, сводится к трем основным элементам:
- Ускоренный прием данных,
- Совместное расположение данных в памяти (параллельная обработка по узлам базы данных) и
- Общая платформа для исследователей данных, разработчиков программного обеспечения и администраторов баз данных для более быстрой итерации и тестирования моделей и применения результатов непосредственно к аналитике.
Для всех экспертов по обучению, не связанных с базой данных и моделью ИИ, читавших это, Радаль разбил каждый из этих трех основных элементов и объяснил, как база данных ИИ связана с ощутимой ценностью для бизнеса. По его словам, доступность данных и их прием являются ключевыми, потому что способность обрабатывать потоковые данные в режиме реального времени позволяет предприятиям быстро принимать меры, основанные на искусственном интеллекте.
«У нас есть розничный покупатель, который хотел отслеживать показатели продаж по магазинам каждые пять минут», - сказал Радаль. «Мы хотели использовать ИИ для прогнозирования, основываясь на последних нескольких часах исторических данных, следует ли им пополнять запасы и оптимизировать этот процесс. Но для этого машинного пополнения запасов требуется поддержка 600-1200 запросов в секунду. Мы мы база данных SQL и база данных AI, поэтому мы можем получать данные с такой скоростью. Мы выполнили эту бизнес-миссию, что привело к созданию приложения, обеспечивающего более высокую рентабельность инвестиций ».
Бейкер согласился с тем, что ML требует огромного количества данных, поэтому их быстрое потребление очень важно для базы данных ИИ. Второй фактор, концепция «совместимости данных в памяти», требует немного большего объяснения. База данных в памяти хранит данные в основной памяти, а не в отдельном дисковом хранилище. Это позволяет быстрее обрабатывать запросы, особенно в аналитических и BI-базах данных. По соседству Radalj объяснил, что Kinetica не разделяет вычислительные узлы CPU и GPU по сравнению с узлами хранения.
В результате база данных AI поддерживает параллельную обработку, которая имитирует способность человеческого мозга обрабатывать несколько стимулов, и в то же время остается распределенной по инфраструктуре масштабируемой базы данных. Это предотвращает большую нагрузку на оборудование, возникающую из-за того, что Радаль назвал «доставкой данных», или из-за необходимости отправлять данные туда и обратно между различными компонентами базы данных.
«Некоторые решения используют оркестратор, такой как IBM Symphony, для планирования работы между различными компонентами, тогда как Kinetica делает упор на доставку функций по отношению к совместно расположенным ресурсам с расширенной оптимизацией для минимизации доставки данных», - сказал Радальж. «Это совместное расположение обеспечивает превосходную производительность и пропускную способность, особенно для высокопараллельных тяжелых запросов к большим наборам данных».
С точки зрения реального оборудования для баз данных, Kinetica сотрудничает с Nvidia, которая имеет расширяющуюся линейку графических процессоров AI и изучает возможности Intel. Радаль также сказал, что компания следит за появляющимся аппаратным обеспечением искусственного интеллекта и облачной инфраструктурой, такой как Tensor Processing Units (TPU) от Google.
Наконец, есть идея унифицированного модельного учебного процесса. База данных ИИ эффективна только в том случае, если эти преимущества более быстрого приема и обработки служат более масштабным, ориентированным на бизнес целям для ОД компании и усилий по глубокому обучению. Радаль ссылается на базу данных AI Kinetica как на «платформу конвейера моделей», которая выполняет хостинг моделей, основанный на данных.
Все это позволяет ускорить тестирование и итерацию для разработки более точных моделей ML. В связи с этим Бейкер сказал, что совместное сотрудничество может помочь всем инженерам и исследователям, работающим над обучением модели ML или глубокому обучению, выполнять итерацию быстрее, комбинируя то, что работает, в отличие от постоянного повторного изобретения всех этапов процесса обучения. Радаль сказал, что цель состоит в том, чтобы создать рабочий процесс, в котором более быстрый пакетный прием, потоковая передача и запросы генерируют результаты модели, которые могут быть немедленно применены к BI.
«Специалисты по данным, разработчики программного обеспечения и администраторы баз данных имеют единую платформу, в которой можно четко определить работу, связанную с наукой о данных, написанием программ и моделями и запросами данных SQL», - сказал Радаль. «Люди работают более четко вместе в этих различных областях, когда это общая платформа. Чаще всего цель заключается в том, чтобы использовать ML и глубокое обучение, - вы хотите использовать результаты этого - коэффициенты и переменные - в сочетании с аналитикой». и использовать вывод для таких вещей, как оценка или предсказание чего-то полезного."
Обман или реальность?
Основная ценность базы данных ИИ, по крайней мере, в том виде, в котором ее определяет Kinetica, заключается в оптимизации вычислительных ресурсов и ресурсов базы данных. Это, в свою очередь, позволяет вам создавать более совершенные модели ОД и глубокого обучения, обучать их быстрее и эффективнее и поддерживать сквозную связь с тем, как этот ИИ будет применяться в вашем бизнесе.
Радаль привел пример управления флотом или транспортной компанией. В этом случае база данных AI может обрабатывать огромные потоки информации в реальном времени из парка транспортных средств. Затем, моделируя эти геопространственные данные и комбинируя их с аналитикой, база данных может динамически перенаправлять грузовики и оптимизировать маршруты.
«Проще быстро предоставлять, создавать прототипы и тестировать. В ИИ используется слово« моделирование », но все дело в том, чтобы циклически использовать разные подходы - чем больше данных, тем лучше - запускать их снова и снова, тестировать, сравнивать и придумывать лучшие модели ", сказал Радаль. «Нейронным сетям дали жизнь, потому что есть больше данных, чем когда-либо прежде. И мы учимся, чтобы быть в состоянии вычислить через это».
В конечном счете, совместно расположенная база данных Kinetica и платформа конвейера моделей - это всего лишь один подход в пространстве, который может означать много разных вещей в зависимости от того, кого вы спрашиваете. Бейкер сказал, что проблема для покупателя на рынке, который все еще развивается и является экспериментальным, состоит в том, чтобы точно выяснить, что представляет собой поставщик базы данных ИИ.
«Как бизнес-концепция, глубокое обучение, ML и все это является надежной концепцией. Мы разрабатываем технологические проблемы, которые можно решить, даже если мы еще не решили их», - сказал Бейкер. «Это не значит, что это зрелое пространство, потому что оно определенно не так. Я бы сказал, « покупатель остерегается », потому что что-то не так, как ML, а может и не быть. Это может быть просто расширенная аналитика для разных сортов».
Что касается того, являются ли базы данных ИИ в настоящее время ажиотажными или представляют ли они важную тенденцию развития бизнеса, Бейкер сказал, что это нечто и то и другое. Она сказала, что Big Data, как маркетинговый термин, сейчас не в фаворе. Бейкер сказал, что теперь существует некоторая рыночная связь между продвинутой, управляемой данными аналитикой и истинными алгоритмами ML и глубокого обучения. Независимо от того, говорите ли вы о базе данных для моделирования ML или о самоосознающих ИИ, придуманных поп-культурой, все начинается и заканчивается данными.
«Данные будут использоваться в бизнесе до тех пор, пока не закончится время; это просто центральное место в ведении бизнеса», - сказал Бейкер. «Когда вы говорите с точки зрения научной фантастики, ИИ является самоосознанным интеллектом. Именно тогда вы начинаете говорить об особенностях и роботах, захвативших мир. Независимо от того, происходит это или нет, я не знаю. Я уйду это Стивену Хокингу."