Дом Бизнес Данные озера, объяснил

Данные озера, объяснил

Видео: Data Lakes in the Cloud (Ноябрь 2024)

Видео: Data Lakes in the Cloud (Ноябрь 2024)
Anonim

Революция больших данных изменила методы работы предприятий; данные лежат в основе всего. Мало того, что инструменты с открытым исходным кодом, такие как Apache Hadoop и Spark, упростили сбор, обработку и хранение огромных объемов данных в режиме реального времени, но инструменты бизнес-аналитики (BI) и визуализации данных стали помогать нам поцарапать поверхность анализа и преобразование этих данных для обоснования основных деловых решений.

Хотя, несмотря на то, что технология Big Data и BI развивалась, мы все еще имеем дело с такими огромными объемами постоянно составляемых данных, что поиск правильных точек для анализа все еще напоминает погружение в иголки в бесконечном стоге сена. Решение? Перепроектируйте стог сена.

Ввод данных озер, новый тип облачной корпоративной архитектуры, которая структурирует данные более масштабируемым образом, что облегчает эксперименты; делает его более открытым для исследований и манипуляций, а не запертым в жестких схемах и бункерах. Nasry Angel, исследователь архитектуры предприятия в Forrester Research, объяснил, почему предприятия используют архитектуры озера данных.

«Это звучит как клише, но когда вы думаете об эффективной современной среде данных, это гораздо более экспериментально», - говорит Ангел. «Вы должны быть в состоянии быстро учиться и быстро терпеть неудачи. В прошлом управление данными, особенно на складе, было полностью связано с качеством, вплоть до десятичной точки; чтобы все было абсолютно точно и верно. Это называется погоней за одним». версия правды. Затем создайте отчет с идеальной пиксельной передачей и рассылайте его 5000 пользователям.

«В настоящее время это более научный процесс. Вы высказываете гипотезу о данных, которые хотите протестировать, и хотите иметь возможность играть с данными, смешивать и сопоставлять их, пробовать разные вещи, прежде чем приступать и что-то производить."

Что в озере данных?

Озеро данных является хранилищем данных. Хотя, в отличие от хранилища данных или «витрины данных», Ангел объяснил, что озера данных распределены по нескольким узлам, а не в фиксированной, структурированной среде хранилища данных, основанной на схемах (см. Инфографику ниже).

«Озеро данных позволяет применять схему при записи данных в сравнении с хранилищем данных, которое требует от вас выполнения схемы при чтении. Поэтому, по сути, хранилище данных требует, чтобы вы смоделировали данные до того, как вы поймете их контекст, что не имеет смысла, "сказал Ангел.

Источник: JustOne Database, Inc. (Нажмите на рисунок выше, чтобы посмотреть в полном размере.)

«Как правило, на складе у вас есть ИТ-специалисты, которые придумывают то, что они считают лучшими моделями данных, и они не являются конечными пользователями данных. Вы можете быстро увидеть, как это снижает производительность и ценность для бизнеса», - добавил он., «В конечном счете, вы и бизнес-пользователи должны быть теми, кто принимает решения о структуре данных, и в озере данных вы можете сначала изучить и выяснить, что там, а затем выяснить схему, чтобы лучше организовать ее».

Как правило, озера данных основаны на Hadoop, а корпоративные дистрибутивы Hadoop, такие как Hortonworks и MapR, предлагают архитектуры озера данных. Предприятия также могут создавать озера данных, используя облака IaaS, включая Amazon Web Services (AWS) и Microsoft Azure. Elastic Compute Cloud (EC2) Amazon поддерживает озера данных, в то время как у Microsoft есть специальная платформа Azure Data Lake для хранения и анализа данных в режиме реального времени. Ангел сказал, что озера данных созревают до такой степени в пространстве больших данных, когда компании могут начать инвестировать в них с разумной уверенностью.

«Несколько лет назад Hadoop был в ярости. Теперь мы подошли к моменту, когда Hadoop коммодитизируется», - сказал Ангел. «Вопрос не в том, Hadoop, а в том, когда и что вы собираетесь с ним делать. Какие типы приложений вы собираетесь создавать поверх Hadoop, как только вы перенесете данные в общее место, такое как озеро данных? На данный момент речь идет об использовании данных для разработки приложений для удовлетворения ваших конкретных потребностей бизнеса."

Здание на вершине резервуара данных

Самая захватывающая часть о больших данных - это возможность, которую они открывают. После того, как вы настроили озеро данных, в котором вы можете играть и экспериментировать с различными комбинациями данных и бизнес-результатами, вы можете начать использовать инновационные методы анализа.

Алгоритмы машинного обучения (ML) уже становятся частью структуры облачной инфраструктуры, и исследователи постоянно совершенствуют методы глубокого обучения и нейронные сети для обучения машин и систем данных распознаванию сложных паттернов. Прогнозная аналитика внедряется во все больше и больше инструментов данных и корпоративных платформ, используемых для всего: от прогнозирующей оценки и автоматической сегментации для управления взаимоотношениями с клиентами (CRM) до выявления тенденций финансового рынка и упреждающего выявления механических сбоев в оборудовании.

Все это происходит поверх любого хранилища данных, которое ваш бизнес загружает и масштабирует в соответствии со своими потребностями. Ангел рассказал о некоторых реальных случаях использования, когда он видел, как озера данных изменяют работу организаций.

«Я работал с издательской компанией, у которой есть портфель различных журналов - у них есть публикация для юристов, другая для бухгалтеров, другая для консультантов и т. Д., И каждая публикация имела свое собственное хранилище данных. По сути, каждая публикация имела свою собственную Силос, "объяснил Ангел.

«Таким образом, мы извлекли все данные из хранилища и поместили их в озеро данных, и озеро данных позволило им просматривать данные в хранилищах. Они смогли исследовать данные и выполнить поиск данных, и поняли, что во всех этих различных публикациях, клиенты из каждого журнала были заинтересованы в кибербезопасности. Читатели по кибербезопасности были сильны во всех этих различных ролях. Так что они сделали? Они сделали кибербезопасность темой своей ежегодной конференции ».

Другой пример, о котором говорил Ангел, это электронная коммерция. Другой клиент, интернет-магазин, торгующий искусством, складывал тонну информации в озеро данных и использовал ее не только в качестве хранилища, но и в качестве своего рода холста, чтобы объединить бизнес-идеи. Ритейлер принес данные о транзакциях (заказы, счета-фактуры, платежи и т. Д.), Данные о потоке кликов (последовательность кликов и страниц каждого посетителя сайта) и данные из хранилища данных ритейлера - все в озеро и совместно использовали их для борьбы с корзиной покупок. оставление и обращения.

«Вы хотите построить на вершине озера данных и использовать его для формулирования сложных бизнес-идей», сказал Ангел. «Художественный ритейлер имел возможность просматривать данные о потоках кликов клиента и сопоставлять клики с профилями клиентов, а затем использовать данные транзакций, чтобы увидеть, что клиент купил в прошлом, и использовать эти идеи для проведения очень специфических кампаний по электронной почте. Таким образом, если клиент отказался их тележка, розничный торговец мог проследить через два часа и сказать: «Мы видели, что вы проверяли этот Пикассо; вот ссылка, если вы хотите посмотреть на нее снова» ».

Данные озера универсально применимы для всех видов бизнес-сценариев. Но для главного технического директора (CTO) или главного сотрудника по информационной безопасности (CISO), рассматривающего возможность перехода на архитектуру, Angel подчеркнул, что хранилища данных еще не устарели, ни в коем случае. Для большинства корпоративных организаций, независимо от того, используете ли вы облачный провайдер или пользовательский дистрибутив Hadoop, компаниям все еще нужны оба.

Данные озера предоставляют вам доступ к беспрецедентным способам анализа, устраняя ограничения соответствия данных конкретной схеме, и обеспечивают гораздо более низкую совокупную стоимость владения, учитывая использование дешевого, гибкого облачного хранилища, такого как AWS, для масштабирования вверх и вниз - при этом только платить за вычислительную мощность, которую вы фактически используете. Использование хранилища данных обходится дороже и, как следствие, делает ИТ-специалистов более избирательными в отношении того, какие данные поступают и выходят. Но для самых важных данных предприятия это неплохо.

«Хранилище данных имеет преимущества с точки зрения безопасности и является очень простым инструментом для управления управлением данными», - сказал Ангел. «Таким образом, вы все еще хотите хранить свою наиболее конфиденциальную информацию в хранилище, критически важные вещи. Но когда дело доходит до новых бизнес-возможностей и обнаружения скрытых идей, вы хотите использовать озеро данных».

Данные озера, объяснил