Почему открытые данные никому не нужны

Отсутствие API для доступа к данным

Чтобы использовать данные в своем проекте их нужно скачать. И в дальнейшем самому отслеживать их изменение и актуализировать. Это сопряжено со значительными сложностями для больших наборов данных.
Избежать этих сложностей можно если не скачивать данные, а использовать их через API. Для этого API должен предоставлять такую функциональность, которой было бы достаточно для выполнения любой задачи по работе с данными.

Того API который есть у некоторых ресурсов (например data.mos.ru) не достаточно для полноценной работы с данными. Плюс они не достаточно надежы для использования в реальных проектах.

Все это приводит к тому что открытые данные есть, но судя по количеству скачиваний на data.gov.ru ими пользуются единицы.

Чтобы раскрыть весь потенциал открытых данных они должны быть доступны в максимально удобном для использования виде. Чтобы сразу начать ими пользоваться, а не тратить время на приведение их к корректному виду.

Уполномоченное лицо в Федеральной службе по интеллектуальной собственности:

Зубов Юрий Сергеевич,
заместитель руководителя Федеральной службы по интеллектуальной собственности

Условия использования открытых данных Роспатента / Открытая лицензия

Вы можете использовать «Открытые государственные данные» (далее — открытые данные), предоставляемые Роспатентом в соответствии с правилами, утверждаемыми настоящей лицензией.
Повторное использование информации — в соответствии с настоящей лицензией (далее — Лицензия).
Роспатент предоставляет потребителю открытых государственных данных бессрочное, бесплатное, неэксклюзивное, не требующее заключения договора право использовать открытые данные в соответствии со следующими требованиями.

Потребитель Открытых данных вправе:

1. Воспроизводить, копировать, публиковать и передавать открытые данные;2. Распространять и перегруппировывать открытые данные;3. Адаптировать, модифицировать, трансформировать и/или извлекать информацию из открытых данных;4. Использовать открытые данные в коммерческих целях при производстве нового товара и/или услуги.
Потребителю открытых данных разрешено любое использование (включая коммерческое) при условии наличия ссылки на первоисточник (обязан размещать упоминание об источнике: имя или контактное лицо ответственного представителя посредством предоставления URL, содержащего исходный вариант открытых данных).
Открытые данные становятся доступными при их непосредственном производстве или их получении от Обладателя без каких-либо иных прямых или косвенных гарантий за рамками данной Лицензии.
Обладатель информации гарантирует бесплатность открытых данных в соответствии с Лицензией.
Потребитель имеет исключительное право на переработку открытых данных. При данной переработке Потребитель обязуется не вовлекать третью сторону в процесс переработки, обязуется не искажать содержание открытых данных, их первоисточник и время последнего обновления.

Совместимость Лицензии

С целью упрощения использования открытых данных настоящая лицензия была разработана в соответствии с другими лицензиями, регламентирующими открытые данные. Настоящая лицензия не противоречит лицензиям CC-BY (>Creative Commons) и ODC-BY (Open Knowledge Foundation).

Для работы с файлами наборов открытых данных на персональном компьютере рекомендуется использовать программу Notepad++ (https://notepad-plus-plus.org/downloads/).

Также, Вы можете воспользоваться онлайн-сервисом XML Viewer (http://codebeautify.org/xmlviewer).

Невалидность данных

Из статистики по документам data.gov.ru видно что большая часть данных размещены в CSV-формате:

И это огромная проблема. Дело в том что большая часть CSV-файлов имеют невалидный формат. В CSV легко допустить ошибку, а если пользователь не разбирается в стандарте, то вероятность ошибки близка к 100%. И так, какие ошибки встречаются чаще всего:

1 место — лишние кавычки. Это бич всех CSV данных. Неправильная кавычка может сломать весь документ.

Пример: Реестр лицензий на фармацевтическую деятельность Новгородской области первая же строка:

2 место — разное количество колонок в строках данных.

Пример: государственный реестр лекарственных средств

Сопоставляем заголовок и данные, получаем:

80% CSV-файлов приходится править перед использованием. Это не большая проблема для небольших и редко меняющихся наборов данных. Но если набор в сотню тысяч строк и обновляется раз в неделю, то это большая проблема.

Отсюда возникает вопрос, зачем использовать CSV?

2015 г.

  • | 14 декабря | Открытый доступ — необходимое условие инновационного развития

  • | 14 декабря | Открытые данные: мировой опыт и российские реалии

  • | 11 декабря | Эксперты говорят о востребованности открытых данных во всех областях

  • | 11 декабря | Открытые данные – качественно новая среда обитания

  • | 9 декабря | 10 декабря начинает работу Общероссийский саммит «Открытые данные – 2015»

  • | 25 октября | Эксперты рассказали, что такое открытые данные

  • | 12 октября | Участники Data.gov.ru Hackathon #2 уверены: открытые данные должны работать на людей

  • | 5 октября | В Аналитическом центре состоялась встреча рабочей группы по открытым данным, на которой мировой эксперт по открытым данным Джоэл Гурин представил расширенный доклад «Открытые данные для бизнеса»

  • | 25 сентября | В Аналитическом центре прошли вебинар и презентация по теме «Эффективность использования открытых данных»

  • | 22 сентября | Открытые данные опередили график

  • | 17 сентября | Вебинар «Всероссийский конкурс «Открытые данные Российской Федерации»

  • | 3 сентября | Запущен сайт конкурса «Открытые данные Российской Федерации»

  • | 11 августа | Вебинар «Открытые данные: конкурс, саммит, хакатон»

  • | 31 июля | Специалисты Роспатента и ФИПС приняли участие в обучающем семинаре «Проблемы публикации и возможности использования открытых данных в деятельности государственных органов власти»

  • | 15 июня | В «Яндексе» прошел Совет по открытым данным. Специалисты Роспатента и ФИПС приняли участие в заседании Совета

  • | 21 мая | В Аналитическом центре обсудили формирование требований по развитию Портала открытых данных Российской Федерации

  • | 9 апреля | Семинар «Публикация открытых данных: методические рекомендации, проблемы и пути решения»

  • | 2 апреля | Семинар «Нормативное правовое регулирование открытых данных: российский и зарубежный опыт»

  • | 26 марта | Семинар «Понятие, публикация и использование открытых данных: российский и международный опыт»

  • | 15 января | Правительственная комиссия по координации деятельности Открытого правительства утвердила «дорожную карту» «Открытые данные Российской Федерации на 2015-2016 гг.»

Разрозненность данных и отсутствие стандартов

Каждая служба публикует данные в произвольном виде.

Например это заголовки колонки из CSV-файла перечня карантинных зон:

Геокоординаты могут быть представлены в виде 2 колонок, в одной колонке через запяую или в GeoJSON.

А вот несколько вариантов представления списков:

Ко всему прочему данные разбросаны по разным ресурсам:

  • https://www.magnitogorsk.ru/opendata — Магнитогорск
  • http://opendata.cheladmin.ru — Челябинск
  • https://minvr.ru/opendata — Владивосток
  • http://data.ekburg.ru — Екатеринбург

Как узнать что это официальные сайты? И почему бы не публиковать данные в одном месте?

Как можно исправить ситуацию

ИМХО, ресурс аналогичный GitHub но для данных дал бы сильный толчок в развитии открытым данным.

Да, есть например data.world, но он пока не имеет всей той функциональности которая сделала бы его GitHub’ом для данных. Какими характеристиками должен обладать ресурс:

  • Визуализация — возможность визуализировать данные так как хочет автор и пользователи, а не так как это сделает система.
  • Стандартизованность — возможность задать структуру данных, отклонение от которой выдаст ошибку и не позволит загрузить данные.
  • API и интеграция — богатый API и возможность интеграции с различными источниками данных.
  • Социальность — обсуждение, оценка и рецензирование данных сообществом.
  • Международность — данные не должны размещаться на серверах в какой-то одной стране, чтобы избежать их блокирования со стороны государства.