Дом Особенности Эти адвокаты хотят убедиться, что наши данные не исчезают

Эти адвокаты хотят убедиться, что наши данные не исчезают

2024

В конце мая этого года, ровно через пять месяцев после инаугурации 45-го президента Соединенных Штатов, группа людей, обеспокоенных позицией новой администрации в отношении науки и изменения климата, отметила свой особый юбилей.

Недалеко от кампуса Университета Северного Техаса, на равнинах к северу от Далласа, несколько десятков человек встретились в Data Rescue Denton, чтобы идентифицировать и загрузить копии федеральных наборов климатических и экологических данных. Эти собрания в стиле хакатона получили большое внимание в дни, непосредственно предшествовавшие инаугурации; Дентон был 50-м таким событием с января.

Первоначально из-за опасений, что новая администрация может стереть или скрыть климатические и другие данные о состоянии окружающей среды, наихудшие опасения спасателей данных, похоже, оправдались, когда одним из первых действий Белого дома Трампа было удаление страниц с изменением климата со своего веб-сайта. Затем министерство сельского хозяйства США, удалив отчеты о проверках благосостояния животных со своего веб-сайта, ответило на запрос Закона о национальной географической свободе информации 1771 страниц полностью отредактированного материала.

Любой может получить доступ к более чем 153 000 федеральных наборов данных через портал открытых данных центрального правительства на data.gov. Но это только часть данных, которые существуют в туманности правительственной бюрократии, не говоря уже о еще меньшей части, которая находится на сервере.

«Где-то около 20 процентов правительственной информации доступно через Интернет», - сказал Джим Джейкобс, информационный библиотекарь федерального правительства в библиотеке Стэнфордского университета. «Это довольно большой кусок материала, который недоступен. Хотя агентства имеют свои собственные вики и системы управления контентом, единственный раз, когда вы узнаете о некоторых из них, - это если кто-то их проинформирует».

Безусловно, большая часть информации действительно была захвачена и теперь находится на негосударственных серверах. Между событиями Data Refuge и проектами, такими как «Конец сканирования» в 2016 году, было архивировано более 200 ТБ правительственных веб-сайтов и данных. Но организаторы спасения начали осознавать, что частичные усилия по созданию полных копий терабайтов научных данных государственных учреждений не могут быть реально осуществлены в течение длительного периода времени - это все равно, что выручить Титаник с помощью наперстка.

Таким образом, хотя Data Rescue Denton в конечном итоге стала одним из последних организованных мероприятий такого рода, коллективные усилия стимулировали более широкое сообщество работать сообща, чтобы сделать больше правительственных данных доступными для обнаружения, понятными и пригодными для использования, пишет Джейкобс в своем блоге.

Глядя в библиотеки

В Университете Пенсильвании Бетани Виггин является директором Пеннской программы по экологическим гуманитарным наукам, где она занимала центральное место в движении Data Refuge, которое стало инициатором событий Data Rescue. По ее словам, в настоящее время акцент смещен на использование национальных рамок для долгосрочных усилий вместо периодических эпизодов на местном уровне.

«Мы осознали навыки, которые появлялись в разных местах, делая события спасательных данных, что можно масштабировать», - сказал Виггин, особенно в исследовательских библиотеках. «Но все эти усилия были предприняты до того, как мы начали. Мощь Data Refuge заключалась в том, чтобы укрепить эти связи, катализировать долгосрочные, медленные проекты и пролить свет на то, насколько они важны».

Виггин в последнее время помогает возглавить библиотеку + сеть, возникающее партнерство исследовательских библиотек, библиотечных организаций и групп открытых данных, призванное расширить традиционную роль библиотек в сохранении доступа к информации. В число участников входят научно-исследовательская библиотека Стэнфордского университета, Калифорнийская цифровая библиотека и Фонд Mozilla, при участии и сотрудничестве с такими различными организациями, как Национальный архив и руководители информационных служб нескольких федеральных бюро.

Например, одним из проектов является LOCKSS («много копий хранят вещи в безопасности»), который Джейкобс координировал в течение нескольких лет. Он основан на том же принципе, что и 200-летняя сеть библиотек, известная как Федеральная депозитарная библиотечная программа; Эти библиотеки являются официальными хранилищами публикаций Государственной типографии США (GPO).

LOCKSS, напротив, является частной цифровой версией этой системы, которая на данный момент состоит из 36 библиотек, которые собирают публикации из GPO при ее сотрудничестве. Это модель того, как цифровая информация может быть защищена от удаления или взлома путем широкого физического рассредоточения.

«Вы не можете гарантировать сохранность, если у вас нет контроля над содержимым», - сказал Джейкобс. «Часть того, что делало депозитарные библиотеки важными и полезными в течение последних 200 лет, заключалась в том, что никто в правительстве не мог редактировать документ, не посещая 1500 библиотек и не говоря:« Да, измени эту страницу здесь »».

Программное обеспечение LOCKSS использует проверку кэшей содержимого на битовом уровне и сравнивает его с содержимым, хранящимся в других библиотеках, что, по словам Джейкобса, помогает обеспечить долгосрочное сохранение путем восстановления поврежденных файлов.

Джон Шодаки, еще один сотрудник Библиотеки + Сети, является директором по курированию Калифорнийской цифровой библиотеки, виртуального информационного центра, который обслуживает все 10 кампусов системы Калифорнийского университета. Работая с разработчиком «Код для науки и общества» Максом Огденом и Филиппом Эшлоком, главным архитектором data.gov, Чодацки говорит, что они сосредоточились на использовании data.gov в качестве улицы с двусторонним движением.

Сначала они продемонстрировали, что спасение данных само по себе может быть гораздо более эффективным, если выкопать копию самого data.gov и разместить ее на внешнем сайте datamirror.org со скриптами мониторинга, которые проверяют наличие обновлений. Затем Чодацкий и его коллеги также начали изучать, могут ли введенные наборы данных и метаданные для зеркала влиять на существующие рабочие процессы агентств data.gov через страницы-заглушки на зеркале.

В соответствии с распоряжением Обамы от 2013 года, которое обязывало публиковать машиночитаемые данные на data.gov, агентства по-прежнему будут нести ответственность за создание записей, которые перечислены на этом портале; Идея Chodacki и Ogden заключается в том, что краудсорсинг предлагает наборы данных, которые просто помогают распределить рабочую нагрузку.

«Нам не нужно копировать всю экосистему», - сказал Ходжаки. «Федеральное правительство и эти агентства работают с данными гораздо дольше, чем когда-либо говорят о больших данных, гораздо более надежно, чем кто-либо другой».

Государственно-частное партнерство

Вопрос стоимости очевиден, когда речь идет о том, как агентства могут определить, какие наборы данных наиболее ценны для общественности, а затем публиковать ссылки на свои метаданные или фактические наборы данных через правительственный портал. Отчет Бюджетного управления Конгресса (CBO) по законопроекту об открытых правительственных данных, который в настоящее время находится в Сенате - который будет кодифицировать исполнительный указ Обамы в законе, - оценивает его полное внедрение в период с 2018 по 2021 год обойдется в 2 миллиона долларов.

В денежном выражении правительства это практически не означает реального увеличения расходов, заключил CBO.

Однако эффективность - это другой вопрос, над которым Эд Кернс из Национального управления океанических и атмосферных исследований экспериментирует вместе с частными партнерами, включая Amazon Web Services и Google. Кирнс, главный специалист по данным NOAA, сказал, что повышение доступности и использования данных NOAA для общественности является основной целью проекта Big Data.

Компании определяют, какие наборы данных они хотят, и NOAA передает их общественности без каких-либо дополнительных затрат. По словам Кернса, все, что есть у NOAA, находится на столе, но цель пятилетнего партнерства не состоит в том, чтобы вывести все данные NOAA в облако - только стратегические куски.

Размещение таких наборов данных в облачных сервисах частных компаний предлагает несколько преимуществ для FTP-доступа в стиле 80-х, который по-прежнему является стандартным для передачи больших наборов данных из федеральных агентств. Для начала, наборы данных NOAA имеют тенденцию быть обширными - агентство отслеживает океаны Земли, атмосферу, солнце и космическую погоду - и иногда требуются недели или месяцы для общественной доставки.

Одним из примеров является архив доплеровского радара NEXRAD Level-2 с высоким разрешением. Согласно исследованию, опубликованному в мае Американским метеорологическим обществом, передача всего 270-терабайтного архива NEXRAD одному клиенту в октябре 2015 года заняла бы 540 дней и обошлась в 203 310 долл. США. Полная копия архива никогда не была доступна для внешнего анализа, пока NOAA не сотрудничала с Amazon и Google, чтобы разместить ее в облаке.

Эксперимент также имел некоторые интересные ранние результаты с увеличением использования. Веб-страницы NOAA о погоде и прогнозировании уже получают одни из самых высоких уровней трафика среди правительственных сайтов, но после того, как Google недавно включил один набор данных о климате и погоде, размером примерно в гиг, в свою базу данных BigQuery, компания сообщила о предоставлении 1, 2 петабайта этого набора данных. с 1 января по 30 апреля - гораздо больше, чем когда-либо было доступно за аналогичный период времени с серверов NOAA.

«Google удалось открыть его для новой аудитории», - сказал Кернс.

Это не просто дождь и сезонные температуры. Наборы данных, теперь доступные через партнеров по Big Data, включают информацию о рыбном промысле, морскую погоду и каталог, размещенный в IBM, в котором перечислены текущие, прогнозные, исторические и геопространственные наборы данных из центров NOAA. Будущие наборы данных могут даже включать информацию об экосистемах и геномике рыболовства.

Но по замыслу партнерство позволяет сотрудникам выбирать то, что им нужно больше всего, что сопряжено с риском того, что неясные, но потенциально ценные наборы данных не увидят много дневного света. Кернс говорит, что еще слишком рано говорить о том, что в итоге может быть признано ценным.

«Масштаб и охват того, что можно сделать с этими данными, поражают нас», - добавил он. «Мы не можем представить все возможные варианты использования».

В более мелком масштабе город Филадельфия также сотрудничал с частной организацией по публикации наборов данных, которые, по мнению общественности, были бы наиболее полезными. Несмотря на то, что размер города дает ему большую оперативную маневренность по сравнению с федеральным образованием, модель Филли представляет собой один из подходов к разработке стратегий выпуска еще неопубликованных наборов данных.

Azavea, базирующаяся в Филадельфии программная компания, специализирующаяся на визуализации данных, в сотрудничестве с главным информационным директором города Тимом Вишневским разработала список неопубликованных наборов данных, которыми могут воспользоваться некоммерческие организации в городе. Вишневский и Азавея использовали как городской каталог метаданных, так и материалы городских департаментов для составления списка. Затем Азавея и другие партнеры распространили этот список среди некоммерческих организаций Филадельфии и запустили OpenDataVote, конкурс для общественности, чтобы проголосовать за проекты, предложенные этими некоммерческими организациями за то, как они будут использовать свои предпочтительные наборы данных.

Недавно победителем стало предложение некоммерческого образования MicroSociety об использовании городских данных о донорах для школьного округа Филадельфии для измерения воздействия некоммерческих программ в школах.

«Мы можем сказать, что этот город некоммерческий заинтересован в конкретном наборе данных, потому что они могут что-то с ним сделать, и что многие проголосовали за их поддержку», - сказал Вишневский. «Это позволяет нам идти в отделы с хорошим примером использования, а не говорить, эй, публиковать эти данные только потому, что».

Старые данные и новые

Но что происходит, даже когда существует достаточный доступ к уже существующим данным, когда новые политики и директивы о финансировании означают, что сами данные больше не генерируются? Это вызывает серьезную обеспокоенность, сказала Энн Данкин, которая работала в качестве главного информационного директора в Агентстве по охране окружающей среды при президенте Обаме, а теперь возглавляет отдел информационных технологий в калифорнийском округе Санта-Клара.

«Люди беспокоятся о старых данных, но меня больше всего беспокоит то, что новые данные не предоставляются с той же скоростью, как раньше, или не генерируются вообще», - сказал Данкин.

В одном анализе предлагаемого федерального бюджета на 2018 год, опубликованном журналом « Наука», многие правительственные учреждения осознали бы значительное сокращение своих бюджетов на исследования, если бы бюджет был принят в соответствии с предложением. Сокращение примерно 22 процентов в Национальных институтах здравоохранения приведет к выплате в исследовательские университеты; бюджетный запрос НАСА исключит инициативы по мониторингу выбросов парниковых газов и другие программы по науке о Земле. Климатические программы в NOAA также могут быть закрыты с аналогичными уровнями сокращений.

Во время своего пребывания в должности Агентство по охране окружающей среды работало над тем, чтобы превратить сбор данных в инструмент, который любой мог бы использовать, чтобы понять здоровье своего окружения и то, как на него реагировать. Плохой эфир день? Не выходи на улицу. Струя по дороге загрязненной? Держите детей подальше.

«Я ожидаю, что это будет двигаться назад», - добавил Данкин. «Я могу ошибаться, но если вы говорите, что мы не собираемся предоставлять данные, логичным выводом будет то, что наборы данных, которые могут помочь представителям общественности, также не будут доступны или не будут сгенерированы».

Виггин из Data Refuge работает над историческим проектом, связанным с этой проблемой, который, как она надеется, побудит большее количество людей требовать постоянных выпусков данных и создаст основу для продолжения существующих программ сбора данных в федеральном правительстве. Повествования «Три истории в нашем городе» будут отражать скрытое влияние федеральных данных в неожиданных местах, начиная сначала с Филадельфии, а затем в других местах по всей стране.

«Важная часть движения Data Refuge, когда мы переходим к следующему этапу, помогает людям понять, насколько широко используются данные федерального производства в их жизни», - сказал Виггин. «Называете ли вы это климатом, здоровьем или общественной безопасностью, это все еще федеральные данные. Это в общинах, в мэрии, в полицейских усилиях, в армии. Мы должны помнить, насколько важны эти данные».

Ресурсы:

EPA Gateway Dataset Gateway: портал метаданных Агентства по охране окружающей среды.
Открытые данные @ DOE: портал открытых данных Министерства энергетики.
Портал данных Службы экономических исследований Министерства сельского хозяйства США
Ресурсы больших данных NOAA: ссылки на страницы платформы партнеров Big Data, на которых размещены данные, созданные NOAA.
Университет Северного Техаса: Кибер Кладбище: архив устаревших, устаревших или закрытых правительственных веб-сайтов.
Экологическая Страница Проекта Архивации Инициативы по Управлению данными и Управлением: Инструменты, код и приложения, связанные с обнаружением и архивированием правительственных данных.
Интернет Архив Wayback Machine
Интернет-архив: как сохранить страницы в Wayback Machine: шесть способов назначить страницы для архивирования.
Калифорнийская цифровая библиотека: веб-архив на конец срока действия: коллекция веб-сайтов правительства США, сохраненных в результате сканирования на конец срока с 2008 года по настоящее время.
FreeGovInfo.info: обширный контент с информацией о порталах данных на государственном и федеральном уровне, а также архивы новостей по вопросам открытых данных.
Климатическое зеркало: коллекция собранных добровольцами климатических данных.

Эта история впервые появилась в журнале PC Magazine Digital Edition. Подпишитесь сегодня на более оригинальные сюжеты, новости, обзоры и советы!