Видео: РС DONI ft Ð¢Ð¸Ð¼Ð°Ñ Ð¸ Ð Ð¾Ñ Ð¾Ð´Ð° Ð Ñ ÐµÐ¼Ñ ÐµÑ Ð° клипа, 2014 (Ноябрь 2024)
Мы много писали о роли данных в современном бизнесе. От стартапов и предприятий малого и среднего бизнеса (SMB) до крупных предприятий анализ и анализ данных становятся более доступными для предприятий любого масштаба, чем когда-либо прежде. Отчасти это происходит благодаря появлению инструментов бизнес-аналитики самообслуживания (BI) и средств визуализации данных.
Тем не менее, прежде чем вы сможете использовать инструменты BI или выполнить прогнозную аналитику для набора данных, необходимо принять во внимание множество факторов. Он начинается с простого понимания того, что такое большие данные, чем они не являются (подсказка: не хрустальный шар) и как управлять хранением данных, организацией, разрешениями и безопасностью в вашей корпоративной архитектуре данных. Именно здесь начинается управление данными. Процессы, которыми вы обеспечиваете управление на предприятии, различаются в зависимости от того, с кем вы общаетесь. Но по своей сути управление данными связано с доверием и подотчетностью данных в сочетании с передовой практикой обеспечения безопасности данных.
Я разговаривал с Hortonworks и MapR, двумя крупнейшими корпоративными поставщиками Hadoop на рынке. Скотт Гнау, технический директор Hortonworks, и Джек Норрис, старший вице-президент по данным и приложениям в MapR, объяснили, что такое управление данными для их организаций. Они обсудили, как решить сложную задачу обеспечения управления данными в рамках сложных архитектур данных и организационных иерархий крупного предприятия.
Что именно Управление данными и зачем оно нам?
Управление означает, что корпоративные данные должны быть авторизованы, организованы и разрешены в базе данных с минимальным количеством ошибок при сохранении как конфиденциальности, так и безопасности. Это нелегкий баланс, особенно когда реальность того, где и как размещаются и обрабатываются данные, постоянно меняется. Норрис из MapR объяснил, почему предприятия должны смотреть на управление данными с более высокого уровня и сосредоточиться на более широком потоке данных в игре.
«Когда вы начнете масштабировать разнообразие и скорость больших данных, с которыми мы имеем дело, вам нужно управлять данными, но это в более широком контексте. Какие у вас есть данные, кто имеет к ним доступ и как вы управлять линией этих данных с течением времени? сказал Норрис. «С точки зрения управления данными, вы можете иметь различные этапы данных, которые существуют в системе, которые могут быть моментально сняты, чтобы вы могли вернуться в любой момент времени в конвейере. Речь идет о внедрении возможности аудита и контроля доступа в платформу данных, чтобы сделать уверенность в том, что обнаружение и аналитика данных прозрачны, независимо от того, являетесь ли вы бизнес-менеджером, изучающим наборы финансовых данных, или ученым, работающим с необработанными восходящими данными.
Источник: Иней. Нажмите на изображение для полного просмотра.
Гнау из Hortonworks высказался в том же духе. Независимо от того, имеете ли вы дело с хранилищем данных или архитектурой озера данных, управление данными - это баланс противоположных сил. Речь идет о беспрепятственном доступе к данным для стимулирования инноваций и получения информации, а также детальных разрешений и конфиденциальности для одновременной защиты этих данных от начала до конца.
«Сравните и сопоставьте старый мир традиционного управления в пространстве данных; это было немного проще», - сказал Гнау. «Раньше данные были четко определены в зависимости от должности или приложения. В новом мире вы получаете наибольшую выгоду, когда ученые данных имеют доступ к как можно большему количеству данных, и очень важно найти эту счастливую среду.
«Это ведет к совершенно новой парадигме того, как вам нужно подходить к управлению», - добавил Гнау. «В этом новом мире я рассматриваю темы управления и безопасности, которые необходимо охватить вместе. Многие компании все еще пытаются продвинуться в этом направлении, чтобы их ученые, работающие с данными, могли эффективно находить эти новые варианты использования, в то же время понимание того, как обращаться с безопасностью, конфиденциальностью, управлением - обо всем, что важно с точки зрения итогов, а также с точки зрения репутации компании ».
Как план управления данными предприятия должен охватывать и удовлетворять все эти противоборствующие силы? Путем методического решения каждого требования, по одному шагу за раз.
Как построить план управления данными
Hortonworks, MapR и Cloudera - три крупнейших независимых игрока в пространстве Hadoop. Компании имеют свои собственные сферы влияния, когда дело доходит до управления данными. MapR выпустила ряд официальных документов по этой теме и выстроила управление данными на всей своей платформе конвергентных данных, в то время как Hortonworks имеет собственное решение для обеспечения безопасности и управления данными и в 2015 году выступила соучредителем Инициативы управления данными (DGI). Это привело к открытому исходный проект Apache Atlas, предоставляющий открытую структуру управления данными для Hadoop.
Но когда речь заходит о том, как каждый поставщик разрабатывает комплексные стратегии управления данными и обеспечения безопасности, Гнау и Норрис говорили одинаково. Ниже приведены комбинированные шаги, которые Hortonworks и MapR рекомендуют предприятиям учитывать при составлении плана управления данными.
Большой: детальный доступ к данным и авторизация
Обе компании согласны с тем, что эффективное управление данными невозможно без детального контроля. MapR выполняет это главным образом с помощью выражений контроля доступа (ACE). Как объяснил Норрис, ACE используют группировку и логическую логику для управления гибким доступом к данным и авторизацией с разрешениями на основе ролей и настройками видимости.
Он сказал думать об этом как о модели Gartner. На оси Y в нижнем конце - строгое управление и низкая маневренность, а на оси X в верхнем - более высокая маневренность и меньшее управление.
«На низком уровне вы защищаете конфиденциальные данные, запутывая их. Сверху у вас есть конфиденциальные контракты для ученых данных и аналитиков бизнес-аналитики», - сказал Норрис. «Мы стремимся сделать это с помощью возможностей маскирования и различных представлений, когда вы максимально блокируете необработанные данные внизу и постепенно предоставляете больший доступ, пока на верхнем уровне вы не предоставите администраторам более широкий обзор. Но как вы даете доступ к нужным людям?
«Если вы посмотрите сегодня на список контроля доступа, он скажет что-то вроде« каждый в разработке может получить к нему доступ », - добавил Норрис. «Но если вы хотите, чтобы несколько избранных директоров проекта в ИТ-отделе имели доступ, или все, кроме человека, вам нужно создать специальную группу. Это слишком сложный и запутанный способ взглянуть на доступ».
Вот где, по словам Норриса, необходимо предоставить права доступа различным уровням и группам. «Мы объединили ACE с различными способами доступа к данным - через файлы, таблицы, потоки и т. Д. - и реализовали представления без отдельных копий данных. Поэтому мы предоставляем представления для одних и тех же необработанных данных и представления». может иметь разные уровни доступа. Это дает вам более интегрированную защиту, которая является более прямой ".
Hortonworks обрабатывает гранулированный доступ аналогичным образом. Интегрировав Apache Atlas для управления и Apache Ranger, Гнау заявил, что компания обрабатывает авторизацию на уровне предприятия через единую стеклянную панель. Ключ, по его словам, заключается в возможности контекстно предоставлять доступ к базе данных и определенным тегам метаданных с помощью политик на основе тегов.
«Когда кто-то попадает в базу данных, речь идет о том, чтобы направлять его через данные, к которым он должен иметь соответствующий доступ», - сказал Гнау. «С этим могут справиться политики безопасности Ranger на уровне объектов, детализированные и повсюду между ними. Привязка безопасности к управлению - вот где вещи становятся действительно интересными.
«Для масштабирования в больших организациях вам необходимо интегрировать эти роли с управлением и тегами метаданных», - добавил Гнау. «Если я вхожу из Сингапура, возможно, существуют другие правила, основанные на местных законах о конфиденциальности или корпоративной стратегии. Как только компания определит, установит и поймет эти правила с точки зрения целостности сверху вниз, вы можете разделить доступ на основе конкретные наборы правил при выполнении всего внутри базовой платформы."
Источник: IBM Big Data & Analytics Hub. Нажмите на изображение для полного просмотра.
2. Защита периметра, защита данных и встроенная аутентификация
Управление не может происходить без обеспечения безопасности конечных точек. Гнау сказал, что важно построить хороший периметр и брандмауэр вокруг данных, который интегрируется с существующими системами и стандартами аутентификации. Норрис согласился с тем, что для предприятий важно синхронизировать их с проверенными и проверенными системами.
«При аутентификации речь идет о том, как вы интегрируетесь с LDAP, Active Directory и сторонними службами каталогов», - сказал Норрис. «Мы также поддерживаем имя пользователя и пароли Kerberos. Важно не создавать отдельную инфраструктуру, а то, как вы интегрируетесь с существующей структурой и используете системы, такие как Kerberos».
3. Шифрование и токенизация данных
Следующий шаг после защиты вашего периметра и проверки подлинности всех гранулярных данных, которые вы предоставляете: убедитесь, что файлы и личная информация (PII) зашифрованы и токенизированы от начала до конца через ваш конвейер данных. Гнау рассказал, как Hortonworks защищает данные PII.
«Как только вы преодолеете периметр и получите доступ к системе, очень важно иметь возможность защитить данные PII», - сказал Гнау. «Вам необходимо зашифровать и токенизировать эти данные, чтобы независимо от того, кто имеет к ним доступ, они могли запускать аналитику, в которой они нуждаются, без предоставления каких-либо данных PII по линии».
Что касается безопасного доступа к зашифрованным данным как в движении, так и в состоянии покоя, Норрис из MapR объяснил, что важно также учитывать случаи использования, такие как резервное копирование и аварийное восстановление (DR). Он обсудил концепцию MapR, называемую логическими томами, которая может применять политики управления к растущему кластеру файлов и каталогов.
«На самом низком уровне MapR имеет спроектированную репликацию WAN для DR и согласованные по времени моментальные снимки всех данных, которые можно настроить на разных частотах в зависимости от каталога или тома», - сказал Норрис. «Это шире, чем просто управление данными. У вас может быть физический кластер с каталогами, и тогда концепция логического тома - это действительно интересная единица управления и способ группировать вещи, одновременно контролируя защиту и частоту данных. Это еще одна стрелка в данных ИТ-администратора управление колчаном."
4. Постоянный аудит и аналитика
Рассматривая более широкую картину управления, как Hortonworks, так и MapR заявили, что стратегия не работает без аудита. Этот уровень жизнеспособности и подотчетности на каждом этапе процесса - это то, что позволяет ИТ-специалистам фактически «управлять» данными, а не просто устанавливать политики и средства контроля доступа и надеяться на лучшее. Кроме того, предприятия могут поддерживать свои стратегии в актуальном состоянии, в котором то, как мы видим данные и технологии, которые мы используем для управления ими и их анализа, меняется каждый день.
«Последний элемент современной стратегии управления - это регистрация и отслеживание», - сказал Гнау. «Мы находимся в зачаточном состоянии больших данных и IoT, и очень важно иметь возможность отслеживать доступ и распознавать шаблоны в данных, чтобы по мере обновления стратегии мы были на шаг впереди».
Норрис сказал, что аудит и анализ могут быть такими же простыми, как отслеживание файлов JavaScript Object Notation (JSON). Не каждый фрагмент данных будет стоить отслеживать и анализировать, но ваш бизнес никогда не узнает, какие именно, - пока вы не определите принципиальное понимание игры или не случится кризис, и вам не понадобится вести контрольный журнал.
«Каждый файл журнала JSON открыт для анализа, и у нас есть Apache Drill для запроса файлов JSON со схемами, поэтому настройка ИТ-анализа вручную не является шагом в IT», - сказал Норрис. «Когда вы включаете все события доступа к данным и каждое административное действие, возможен широкий спектр аналитики».
5. Единая архитектура данных
В конечном счете, специалист по технологиям или ИТ-администратор, курирующий стратегию управления корпоративными данными, должен подумать о специфике детального доступа, аутентификации, безопасности, шифрования и аудита. Но технический директор или ИТ-администратор не должны останавливаться на достигнутом; скорее, этот человек также должен подумать о том, как каждый из этих компонентов вписывается в их большую архитектуру данных. Он или она должны также подумать о том, как эта инфраструктура должна быть масштабируемой и безопасной - от сбора и хранения данных до бизнес-аналитики, аналитики и сторонних сервисов. Гнау сказал, что управление данными - это как переосмысление стратегии и исполнения, так и сама технология.
« Это выходит за рамки одной стеклянной панели или набора правил безопасности», - сказал Гнау. «Это единая архитектура, в которой вы создаете эти роли, и они синхронизируются по всей платформе и всем инструментам, которые вы в нее используете. Прелесть защищенной инфраструктуры заключается в гибкости, с которой создаются новые методы. На каждом уровне платформы или даже в В гибридной облачной среде у вас есть единый ориентир, чтобы понять, как вы реализовали свои правила. Все данные проходят через этот уровень безопасности и управления ».