Дом Отзывы Как предприятия могут понять рынок больших данных

Как предприятия могут понять рынок больших данных

Видео: Как изменить кодировку (Ноябрь 2024)

Видео: Как изменить кодировку (Ноябрь 2024)
Anonim

Предприятия не получают никаких баллов за то, насколько эффективно работает их инфраструктура или насколько высоко они могут складывать все большие данные, которые они собирают. То, что имеет значение, является качеством аналитики и интеллекта, который производят данные.

За последние несколько лет Hadoop - это слово, которое стало синонимом приема, обработки и преобразования данных. Эта инфраструктура с открытым исходным кодом для распределенного хранения и обработки данных породила собственное корпоративное пространство и интегрировалась во все основные облачные платформы. Hadoop - далеко не единственная технология Big Data, о которой стоит говорить, но она стала той, на которой строятся многие другие.

Проблема для бизнеса заключается в том, что пространство Hadoop полно распределений и инструментов, и, как объяснил директор по исследованиям Gartner Ник Хойдекер, многие из них выглядят одинаково. Хьюдекер, чьи исследования охватывают управление информацией, включая пространства больших данных и NoSQL, сказал, что если вы посмотрите на общие варианты обработки данных, многие поставщики предлагают очень похожие функции.

Ломать рынок

Существует три основных стартапа Hadoop в чистом виде - Cloudera, Hortonworks и MapR, и в 2015 году все они стабильно росли. По данным Gartner, у каждого из них примерно 700 клиентов, 10 процентов или меньше, что ставит глобальный рынок между 2100 - 2400 клиентов Hadoop по всему миру. Все три предлагают как бесплатный, так и корпоративный уровни своего дистрибутива Hadoop, и каждый из них вносит значительный вклад с открытым исходным кодом в проекты под баннером Apache Software Foundation (ASF).

«Наши данные показывают, что 44 процента использования Hadoop в настоящее время не оплачиваются», - сказал Хойдекер. «Есть ли явный лидер? Я так не думаю. Они все захватывают долю рынка, потому что это очень новое пространство».

В последние несколько месяцев большая часть конкуренции между ними сводилась к конкуренции за возможности анализа данных и творческие способы интеграции Apache Spark, механизма обработки больших данных с открытым исходным кодом, с примерами использования от потоков данных в реальном времени до машинного обучения., MapR недавно анонсировала MapR Streams как часть «платформы конвергентных данных», объединяющей Hadoop, обработку потоков на основе Spark и аналитику. Hortonworks выпустила обновление для платформы данных Hortonworks (HDP) с аналитикой Spark в оперативной памяти, и Cloudera предлагает различные интеграции Spark с открытым исходным кодом в рамках своей инициативы One Platform, а также предлагает учебные классы Spark.

«В области управления информацией и информационной инфраструктуры происходит много всего, и это не все Hadoop», - объяснил Хойдекер. «У модели Spark скорость и память, ориентированная на память, есть огромный импульс, хотя разработка Spark все еще находится на ранних стадиях. Spark станет еще одним языковым стандартом в обработке данных, во многом похожим на SQL сегодня, и определенно демонстрирует признаки того, что у него есть некоторые ноги так как все больше и больше компаний инвестируют в него ".

Heudecker также подчеркнул важность облачных игроков в больших данных; технические гиганты, которые интегрировали Hadoop и другие технологии больших данных в свои существующие предложения по инфраструктуре как услуге (IaaS).

Amazon Web Services (AWS) использует сервис Amazon Elastic MapReduce (EMR) для облачной оркестровки Hadoop. Microsoft предлагает целый ряд служб больших данных в рамках своей облачной платформы Azure, сотрудничая с Hortonworks в своем сервисе HDInsight для управления Apache Hadoop, Spark, HBase и Storm, а также на основе SQL Azure Data Lake и Azure Data Analytics. У IBM есть как локальное предложение IBM Open Platform для Hadoop, так и IBM BigInsights - пакет аналитики для запуска на нем, а также управляемые Hadoop и Apache Spark-as-a-service в облаке Bluemix. Этот список можно продолжить, и компании находят более подходящие варианты использования в облаке.

«По нашим оценкам, у одной только AWS около 5000 клиентов, что в два раза больше, чем у чистой клиентуры», - сказал Хойдекер. «Одним из преимуществ перехода в облако является то, что вы получаете экосистему. Вы можете получить чистые дистрибутивы Hadoop для любого из предложений IaaS. MapR доступна во всех облаках, которые вы только можете себе представить, кроме IBM; для Cloudera и Hortonworks. Мы не видели, чтобы доступность облаков стала слишком важным фактором при выборе между одним поставщиком и другим ».

Выбор корпоративной стратегии данных

Хьюдекер сказал, что для малых и средних предприятий (SMB) и растущих корпоративных предприятий, вкладывая средства в решения для обработки данных и аналитики, решающим фактором является то, какая платформа может обеспечить самый высокий уровень обслуживания. По словам Гартнера, самой большой проблемой для бизнеса является дефицит навыков - выяснение того, кто будет управлять платформой после ее установки и развертывания.

«Если компании ищут партнера по платформе данных, кто собирается помочь им с получением данных? Кто собирается помочь им создать аналитическое приложение? Что касается трех чистых Hadoop-ов, критерии оценки, как правило, находятся примерно на одном уровне. зрелость инструментов и консолей управления, инструментов управления данными и производительности ».

Другой интересный аспект выбора платформы Hadoop - отсутствие лояльности. Компании переоценивают свою платформу Hadoop так часто, как каждые 6-12 месяцев, чтобы увидеть, подходят ли компоненты обработки данных по-прежнему, из-за того, как быстро меняется пространство и как мало крупные игроки себя дифференцировали. По словам Хеудекера, 20 процентов компаний, о которых он говорил, имеют несколько дистрибутивов Hadoop, работающих в своих центрах обработки данных или в облаке, либо позволяя различным командам выбирать свою платформу по своему выбору, либо намеренно диверсифицируясь, чтобы не застрять только с одним дистрибутивом Hadoop.

Этот вид портфеля диверсифицированных платформ соответствует тому, что Фрэнк Буйтендейк, вице-президент и выдающийся аналитик Gartner, занимающийся цифровой стратегией, называет «информацией как активом». Как вы не можете вести бизнес без капитала, рабочей силы, материалов, так и физических или виртуальных средств, Буйтендейк сказал, что вы не можете вести бизнес без информации.

«Раньше мы рассматривали бизнес с точки зрения трех потоков: первичным потоком были товары, вторичным потоком были деньги, а третичным потоком была информация, обеспечивающая согласованность товаров и денег. Теперь в большинстве компаний это наоборот. Основной поток информации - от идентификации и конфигурации до маркетинга контента и т. Д. Независимо от того, называете ли вы эти большие данные или нет, на самом деле это не имеет значения ».

«Большие данные» устарели

Буйтенджик сказал, что он рассматривает большие данные не как отдельную технологию для бизнеса, а как одну тему или мышление в рамках вашей общей цифровой стратегии.

«Я не верю в стратегию больших данных», - сказал Буйтенджик. «Вряд ли существует бизнес-стратегия без цифровых компонентов, поэтому я верю в наличие цифровой стратегии, в которой все виды технологий предоставляют критически важные возможности. Это включает в себя мобильные, социальные сети, облачные технологии, IoT, интеллектуальные машины и большие данные».

Хойдекер считает, что мы будем все меньше и меньше говорить о «больших данных», потому что теперь это просто данные. Это способ ведения бизнеса. Огромные объемы и высокая скорость передачи данных уже не так страшны.

«Большие данные снова попадают в категорию информации и аналитики», - сказал Хойдекер. «Категория больших данных, честно говоря, не дифференцируется. Нас всегда спрашивают о размере рынка больших данных, но что это вообще значит? Большие данные на самом деле не рынок, это концепция. Для бизнеса думать о больших данных как о что-то уникальное и особенное, которое радикально отличается от того, что вы делали раньше, является ошибкой. На данный момент данные просто нормальные ».

Как предприятия могут понять рынок больших данных