Дом Перспективное мышление Большие данные: сложная «возможность на триллион долларов»

Большие данные: сложная «возможность на триллион долларов»

Видео: Настя и сборник весёлых историй (Ноябрь 2024)

Видео: Настя и сборник весёлых историй (Ноябрь 2024)
Anonim

Одна вещь, которая произвела на меня впечатление на вчерашнем саммите Bloomberg Enterprise Technology Summit, заключалась в том, чтобы сосредоточиться на работе с данными по-новому - другими словами, работе с тем, что часто называют «большими данными».

В некоторых беседах речь шла о значении больших данных и о том, действительно ли это была «возможность на триллион долларов», в то время как другие имели дело с конкретными проблемами, с которыми сталкиваются отдельные организации и отрасль в целом в более широком развертывании этих новых методов.

Жерар Фрэнсис, глобальный руководитель Bloomberg Enterprise Solutions, Bloomberg LP, начал день с того, что предположил, что самое важное, что могут сделать компании, - это «извлекает выгоду из ценности данных, используя их», и уделяя особое внимание доступу, качеству и потоку данные внутри организации. На последующих панелях было много разговоров о новых инструментах, которые работают с данными, а также о конкретных проблемах хранения, управления и поиска людей для работы с данными.

В общей дискуссии по корпоративным тенденциям Дуайт Мерриман, председатель и соучредитель MongoDB, сказал, что уровень данных в треке приложений "имеет самое большое нарушение и изменение, которое мы видели за 25 лет". Он сказал, что компании используют реляционные базы данных в течение 25 или более лет, что делает эту технологию самой старой в стеке. Но теперь есть вещи, происходящие с файловым хранилищем, такие как Hadoop и новые технологии баз данных, часто сгруппированные как «NoSQL». Он подчеркнул, что большие данные - это не «большие» данные, а форма данных, типы данных и движение к работе с данными в реальном времени.

Директор по информации Google Бенджамин Фрид согласился, что у большинства предприятий нет проблем с «большими данными». По его словам, многие из этих наборов данных, таких как данные о людских ресурсах и финансовые данные, не такие большие. Важна гибкость, необходимая для правильной работы с данными.

Что такое большие данные?

Гэри Блум из MarkLogic, Марк Брегман из Neustar, Марк Палмер из Streambase и Випул Награт из Bloomberg

Эта концепция - эта гибкость так же важна, как и размер данных - была отражена на другой панели позже в тот же день. Там участники сошлись во мнении, что компании уже давно занимаются приложениями с большими объемами данных, но в последнее время масштаб изменился. Например, Марк Ф. Брегман, старший вице-президент и технический директор Neustar, отметил, что некоторые компании сейчас «хранят все» в надежде, что это окажется полезным.

«Большое лучше определить как сложность», по словам Гэри Блума, генерального директора и президента MarkLogic. Он отметил, что многие так называемые приложения «больших данных» включают в себя множество различных типов данных, но не тот объем, который вы обычно слышите в приложениях «больших данных».

Он привел пример воздушного движения, который объединяет данные о погоде, данные об аэропортах, геопространственные данные, данные о рейсах, данные о бронировании авиабилетов и социальные данные. Он отметил, что иметь дело с разнородными данными было очень трудно сделать с традиционными реляционными базами данных, повторив предыдущие комментарии Merriman из MongoDB о том, что это был «первый переход поколений в базе данных за 25 лет» с тех пор, как мы перешли от мэйнфрейма к эпохе реляционных баз данных.

Он отметил, что многие люди говорят о данных социальных сетей, но их действительно необходимо объединить с другими данными, чтобы действительно иметь что-то, на чем вы можете извлечь выгоду. Объединение этих данных является «реальной ценностью».

Конечно, некоторые приложения содержат много информации, и Брегман говорит, что неоднородность является лишь одним из факторов. Он привел данные DNS, которые могут легко генерировать 8 ТБ информации в день, и необходимость хранить такие вещи в Hadoop. Брегман и другие отметили, что когда дело доходит до «капитализации данных», реальная ценность не в необработанных данных, а в аналитике, когда они становятся чем-то, что вы можете использовать. Остальные на панели согласились.

Генеральный директор Streambase Марк Палмер сказал, что во многих приложениях важно объединять большие объемы данных с потоковой аналитикой; и говорил о дополнительной ценности, которую можно было бы создать, сочетая традиционную аналитику и анализ в реальном времени.

Но он согласился, что сложность данных является проблемой. Он привел пример того, как Вивек Ранадиве, управляющий компанией Tibco (которой теперь принадлежит Streambase), купил баскетбольную команду, чтобы выяснить, как технологии могут улучшить опыт болельщика. Он снова говорил о «смешивании различных типов данных», начиная с потока в Твиттере, но также используя другие виды данных.

Блум отметил, что все зависит от приложения, заявив, что «задержка в глазах смотрящего». Некоторые приложения должны анализировать данные на проводе, прежде чем они попадут в базу данных, в то время как другие этого не делают.

Брегман поднял вопрос о том, что вместо того, чтобы переносить вычислительные ресурсы, теперь становится труднее перемещать данные. Он отметил, что для многих приложений «блокировка» - это расположение данных. Когда вы храните свои данные в общедоступном облаке, их очень трудно переместить. В результате, по его словам, многие организации хотят хранить огромные объемы данных в своих местах, а затем могут переходить к различным поставщикам для обеспечения вычислительной функциональности. Заимствуя термин из Bloom от MarkLogic, он рассказал о том, как организациям может понадобиться «центр данных, ориентированный на данные», как место, где вы храните огромные объемы данных.

Большие данные - это «возможность на триллион долларов»?

Портер Бибб из MediaTech Capital Partners, Дуг Каттинг из Cloudera, Гаурав Диллон из Snaplogic и Джейсон Келли из Bloomberg Link

Другая группа обсудила возможности и проблемы, связанные с большими данными, размышляя над комментарием Портера Бибба, управляющего партнера MediaTech Capital Partners. Бибб сказал, что на самом деле корпорации получают более триллиона долларов выгод, используя новые технологии. На сегодняшний день, по его словам, мы "даже не начали раскрывать потенциал этой технологии".

Бибб рассказал о том, как важно, чтобы организации согласовали свою стратегию в отношении данных с бизнес-стратегией, и выразил обеспокоенность тем, что большинство корпоративных и государственных систем смещены.

На этой первой сессии Скотт Вайс из Andreessen Horowitz сказал, что «Hadoop похож на криогенное хранилище», поэтому модератор Джейсон Келли из Bloomberg Link спросил главного архитектора Cloudera Дуга Каттинга, который был одним из создателей Hadoop, как он смотрел это.

Каттинг сказал, что Hadoop позволяет людям работать с большим количеством данных. Он сказал, что организации извлекают данные с ленты, а не делают их доступными в Интернете. Клиенты переходят от работы с данными за 90 дней к данным за пять или 10 лет в «активном архиве».

В этой панели вновь возник ряд конкретных вопросов, связанных со всеми этими данными. Генеральный директор Snaplogic Гаурав Диллон рассказал о «гравитации данных», заявив, что нет смысла брать данные, локально находящиеся в Hadoop, и переносить их в облако. Но в то же время, если в облаке есть данные, такие как анализ потока кликов, нет смысла перемещать их локально. В результате, по его словам, он видел очень мало «трансграничных возможностей» в перемещении данных.

Каттинг сказал, что он не верит, что на самом деле нехватка данных ученых. Вместо этого он сказал, что есть много людей, которые понимают математику и бизнес, но у них просто нет инструментов. По его словам, вы можете изучить основы инструментов и то, что они делают, за пару недель, но понимание вашего бизнеса занимает годы. Тем не менее, есть много людей, которые понимают это.

Диллон также выразил озабоченность по поводу законодательства, касающегося того, какая информация может храниться и где. Он сказал, что некоторые вертикальные рынки требуют хранения информации на месте, но его беспокоили такие вещи, как требования не перемещать данные из страны происхождения. Во многом это является чрезмерной реакцией на такие вещи, как откровения Сноудена и утечка данных, сказал он, отметив, что «поспешность принимать законы никогда не бывает хорошей».

На вопрос, беспокоился ли он о том, что нарушения Сноудена и Таргет вызывают у клиентов страх перед данными, Каттинг сказал, что он обеспокоен тем, что так много людей волнуются. По его словам, многие люди напуганы технологиями, и индустрия не смогла убедить клиентов в том, что их данные не используются. «Не нужно быть жутким», - сказал он.

В конце было много дискуссий об оценках, и Бибб предположил, что недавние инвестиции Intel в Cloudera были «большой сделкой», поскольку они подтверждают, что компания делает. Он сказал, что другие крупные компании, такие как Oracle, IBM, Microsoft и Amazon, колеблются вокруг компаний, занимающихся прогнозной аналитикой. «Золотая лихорадка только начинается».

Диллон сказал, что оценки отражают то, что водопроводные компании приносят на рынок больших данных. Он сказал, что был рад видеть, что такие парни из «кирки и лопатки» получают хорошие оценки, но сказал, что немного опасается, что оценки опережают рынок.

Бибб сказал, что он думал, что большие данные могут быть переэкспонированы в СМИ, но они недоэкспонированы в «c-suite» (имеется в виду генеральные директора, финансовые директора и другие топ-менеджеры). Он сказал, что у них есть «огромный экономический потенциал, который еще предстоит раскрыть». «.

Большие данные: сложная «возможность на триллион долларов»