Что такое открытые государственные данные
Data.gov.ru
открытые данные России
Вы здесь
Ваше мнение очень важно при доработке и совершенствовании «Портала открытых данных РФ»
Что такое открытые данные?
Из официального определения открытые государственные данные (открытые данные) – это информация (в том числе документированная), созданная в пределах своих полномочий государственными органами, либо поступившая в указанные органы и организации, а также информационно-аналитическими организациями, участвующими в публикации собственных открытых данных на территории Российской Федерации, которая подлежит размещению в сети Интернет в формате, обеспечивающем ее автоматическую обработку в целях повторного использования без предварительного изменения человеком (машиночитаемый формат), и может свободно использоваться в любых соответствующих закону целях любыми лицами независимо от формы ее размещения (простая совокупность сведений, база данных и т.д.)».
Основными потребителями открытых данных служат разработчики приложений и сервисов, использующие открытые данные как исходный материал для своих разработок, а также журналисты и другие заинтересованные лица, которые могут делать глубокие социально-экономические, научные исследования на основе «сырых» данных.
Целью раскрытия данных и их публикации в машиночитаемых форматах и есть облегчение к ним доступа заинтересованных лиц, которые могут их переработать и выдать ценные исследования, приложения, аналитику и т.д. Открытые данные являются своего рода основой для большого числа социально-значимых и общественно-полезных проектов.
Что такое открытые государственные данные
Любой государственный орган, орган местного самоуправления, подведомственные им организации обладает общественно значимой информацией, разрабатывает и выпускает документы. Такая информация и документы подлежат размещению в интернете. Чтобы общественно значимые материалы можно было легко использовать для создания на их основе полезных для граждан и бизнеса информационных сервисов, их следует публиковать в особом, так называемом машиночитаемом, формате. Этот формат должен обеспечивать автоматическую обработку опубликованных данных. Размещённые в таком формате материалы как раз и считаются открытыми данными : независимо от того, простая ли это совокупность сведений, официальный документ или информационная база, данные становятся пригодными для действительно свободного использования в любых соответствующих закону целях любыми лицами, что способствует расширению спроса на эту информацию с целью достижения социального и экономического эффекта от её применения.
Основные принципы открытых данных:
Инициатива по раскрытию данных является фундаментом открытого государственного управления во многих странах мира. С помощью открытых данных обеспечивается прозрачность работы органов государственной власти, формируется база для гражданского контроля, создаются новые услуги для граждан и бизнеса.
Раскрытие информации о деятельности государственных органов власти и органов местного самоуправления в форме открытых данных является одной из базовых задач при формировании системы «Открытое правительство».
Что такое открытые государственные данные
Раскрытие общедоступной информации органами государственной власти и органами местного самоуправления в форме открытых данных является одним из направлений государственной политики в сфере совершенствования государственного управления.
Открытые данные – это доступные в открытом доступе данные, которые можно многократно и бесплатно использовать (собирать, обрабатывать, анализировать, интегрировать в собственные информационные ресурсы и т.д.) с применением различных программных решений.
За период реализации государственной политики по развитию концепции открытых данных в России с 2012 по 2018 год созданы условия для развития открытых данных: приняты нормативные правовые акты, методические рекомендации и разработана технологическая инфраструктура.
Центральным элементом технологической инфраструктуры открытых данных является портал открытых данных Российской Федерации (data.gov.ru). Наряду с порталом открытых данных Российской Федерации созданы порталы открытых данных федеральных органов исполнительной власти и субъектов Российской Федерации, а также разделы открытых данных на официальных сайтах государственных органов и органов местного самоуправления.
Общедоступная информация Минэкономразвития России размещается на портале открытых данных Российской Федерации в соответствии с перечнем общедоступной информации о деятельности Минэкономразвития России, обязательной для размещения на портале открытых данных Российской Федерации в информационно-телекоммуникационной сети Интернет в форме открытых данных.
О том, как устроены открытые данные в России
Не секрет, что в России за последние годы, с одной стороны, стало больше открытых данных, с другой — накопилось немало критики.
Так неслучайно получилось, что тематика открытых данных — это то, чем я занимаюсь давно и знаю о большей части инициатив в этой области не по наслышке, а по собственному опыту участия. Здесь я постараюсь обойтись без ссылок на свои проекты, чтобы не нарушать правил сайта, их легко будет найти по их названиям в любом случае. Но постараюсь дать все ссылки на официальные ресурсы.
Поэтому, вместо предисловия, я представлюсь.
Меня зовут Иван Бегтин, я вот уже несколько лет продвигаю идею открытых данных в России, возглавляю небольшую некоммерческую организацию (Инфокультура) от лица которой и вместе с сотоварищами мы организуем соревнования, пропагандируем открытость данных среди госорганов.
Кроме всего прочего я вхожу в Совет по открытым данным при Правительственной комиссии по координации Открытого Правительства и ряд общественных и экспертных советов при органах власти и в курсе многих успешных (и провальных) государственных инициатив в этой области.
Ну и поскольку я, в том числе, в комментариях на Хабре читаю много вопросов, заданных явно или неявно, то на самые частые я отвечу в этой заметке, а также на те, что будут в комментариях.
Что сейчас происходит в России с открытыми данными?
Чтобы ответить на этот вопрос надо с самого начала разделить два понятия. Открытые данные — как открытую форму представления любых баз данных. Собранных ли активистами, подготовленных ли коммерческими компаниями или же опубликованных государственных органами. Открытые данные — это всеобъемлющий термин охватывающий все возможные источники появления данных, главное чтобы данные были доступны для свободного повторного использования и были машиночитаемыми (плюс соблюдение 8 принципов открытых данных о которых тут уже писалось.
А вот открытые государственные данные — это такой подвид открытых данных который производится изнутри государственной машины. Это может быть информация, как о самом государстве, так и то что госорганы собирают при выполнении их функций.
Исходя из этих определений можно сказать что то что в России происходит с открытыми данными вцелом — это на 100% зависит от нас самих, как мы собираем, публикуем, убеждаем и так далее публиковать данные, так это и происходит. Есть множество проектов которые существуют автономно от государства — это сообщество GIsLab, это наши проекты OpenGovData и Hubofdata и практически все краудпроекты на MediaWiki можно отнести к инициативам по открытым данным поскольку они предоставляют API для получения данных любым желающим.
Этот закон содержит набор поправок в федеральный закон от 9 февраля 2009 года N 8-ФЗ „Об обеспечении доступа к информации о деятельности государственных органов и органов местного самоуправления“ и в федеральный закон от 27 июля 2006 года N 149-ФЗ „Об информации, информационных технологиях и о защите информации“ о том что данные должны публиковаться в форматах открытых данных.
Далее в распоряжении Правительства Российской Федерации от 10 июля 2013 г. N 1187-р г. был представлен перечень тех данных которые должны публиковаться в первую очередь.
Полный перечень законов, распоряжений и постановлений собран, например, на портале открытых данных г. Москвы в разделе „Документы“. Там множество документов, как федеральных, так и тех что приняты московской мэрией.
2. Кто в России отвечает за открытые государственные данные?
Можно было бы сказать что Правительство целиком, но это не совсем так. Утверждение планов открытости ведомств, в которые входят и работы по открытым данным, занимается Совет по открытым данным. Совет по открытым данным — это название рабочей группы при Правительственной комиссии по координации деятельности Открытого Правительства.
Я также вхожу в этот совет и могу сказать что несмотря на громкое название у Совета нет практически никаких полномочий. Да и не может быть в виду российской структуры государственного управления в которой все советы носят исключительно консультационную форму. Фактически единственный ресурс совета — это возможность донести до его председателя Министра Абызову ту или иную позицию.
С другой стороны, в виду того что закон об открытых данных, это были поправки в 8-ФЗ, то методическое сопровождение раскрытия данных и создание федерального портала открытых данных осуществляет Минэкономразвития России.
Здесь надо сделать небольшое отступление. В 2012-2013 годах, когда тема открытых данных в России только-только приобретала форму государственной инициативы, был ведомственный спор между Минкомсвязи и Минэкономразвития о том какое ведомство будет курировать эту тему. В итоге победило тогда Минэкономразвития и в дальнейшем именно оно было основным исполнителем усилий по открытости данных.
Результатом этого было множество последствий, главное из которых было в том что акцент на раскрытии данных сместился от государственных информационных систем как это хотело Минкомсвязи, на официальные сайты госорганов требования к которым всегда задавало Минэкономразвития.
3. На какие деньги существуют все эти инициативы?
Тема открытых данных практически начисто отсутствует во всех государственных программах включая программу „Информационное общество“. За последние несколько лет существенные инвестиции в то чтобы открытые данные были доступны проводило лишь Правительство Москвы которое создало московский портал открытых данных и вплоть до того что рекламировало его на улицах города.
На федеральном уровне ничего подобного не было. Все члены совета по открытым данным работают без какой-либо компенсации их усилий.
Да и расходы на создание федерального портала открытых данных невелики.
Фактически, все заседания совета которые проходили и на которых присутствовали представители госорганов за это время сводились к тому чтобы убедить госорганы потратить усилия на открытие данных. В каких то случаях это приносило результаты, а в каких-то все разговоры разбивались на встречные просьбы »… а вы помогите чтобы нам выделили бюджет на XXX миллионов рублей и мы всё-всё-всё откроем. «. Самый яркий пример такого поведения был Росстат, похожая ситуация была с ЦИК России и многими другими ведомствами.
Аналогично со всеми субъектами федерации и муниципалитетами. Ни один из них денег на внедрение практики публикации открытых данных не получил, все усилия сводились к тому чтобы убедить их тратить собственные деньги на эти инициативы. Какие-то субъекты в этом продвинулись, а какие-то откровенно забили и просто саботировали раскрывая не данные, а их симуляцию.
4. Использует ли хоть кто-то в России открытые данные?
Если коротко, то да.
Да, данные используют и более чем активно. Используют активисты и бизнес, используют к коммерческих проектах, общественных и личных, используют для того чтобы улучшить существующие продукты, так и для того чтобы создать новые.
Есть несколько областей и наборов данных которые более чем востребованы. В первую очередь это такие данные как:
— База государственных и муниципальных закупок;
— Оперативные данные ЦБ РФ по валютам и открытые данные по банкам;
— База ФИАС (федеральная адресная информационная система);
— Данные по спутниковой группировке ГЛОНАСС
и многое другое.
Существует несколько десятков проектов по отслеживанию новых госмунзаказов (Закупки360, Бикотендер), по анализу контрагентов (Спарк.Интерфакс, Контур.Фокус, Коммерсант.Картотека) которые используют данные напрямую. Агрегируя данные о компаниях, о контрактах, закупках, лицензиях и прочем. Смешивая открытые данные и те которые они получают из коммерческих источников — они создают коммерческие продукты. В результате, на базе открытых данных существуют и развиваются состоявшиеся коммерческие продукты.
На основе базы ФИАС и до неё на основе базы КЛАДР работает значительное число сервисов по всей стране. Эта база, обычно, используется не для создания новых продуктов, а для улучшения удобства проверки адресов в многочисленных коммерческих информационных системах.
Данные ЦБ используются практически всеми сайтами показывающими официальные курсы валют и всеми сайтами по анализу банков и банковской системы вцелом.
Кроме этих данных есть много других — гораздо более узкоспециализированных и которые также активно используются, но чаще всего их пользователи себя не афишируют и малоизвестны.
5. И всё таки почему так мало примеров тех кто данные используют?
Главная причина в том основные пользователи данных — это коммерческие компании которые совершенно не заинтересованы, ни в том чтобы раскрывать свои доходы, ни в том чтобы рассказывать про свою бизнес модель. Да и вообще тратить на это время большинство из них не желает. Ко всему этому примешивается их опасение что рассказав о том как и сколько они зарабатывают на тех или иных данных у них сразу же начнутся проблемы и за те данные что они получают бесплатно им придется платить. Опасение не то чтобы небезосновательное, но и не то чтобы неоправданное.
По этой причине все те примеры что я называю — это примеры о которых я знаю и те примеры что на виду.
6. И всё равно полезных данных очень мало. Всё остальное это, либо бессмысленые наборы данных, либо с отвратным описанием
Полезных данных действительно мало. И я скажу больше, наиболее полезные и востребованные данные публиковались ещё до того как сам термин «открытые данные» появился в виде государственной инициативы.
ЦБ РФ — публикует данные уже с десяток лет в виде API через SOAP сервисы. База ФИАС появилась в виде открытых данных гораздо раньше. И данные по госконтрактам публикуются в машиночитаемом виде с 2008 года.
Все очень просто. Есть те данные которые госорганы публикуют в ответ на общественный или корпоративный запрос и те данные которые они публикуют в обязаловку по разнорядке.
Требования которые были сформулированы в законе об открытых данных и распоряжении правительства для большинства госорганов — это очередная назойливая муха. Они не понимают зачем это делать, они не понимают кому это нужно, они не понимают в чем польза от открытия данных и они не понимают какая им с этого выгода. Как результат мы получаем массу примеров «плохих данных» когда в разделах на сайтах органов власти данные публикуются без описания, без схем, с пустыми файлами данных или иными особенностями. Чаще всего такие данные публикуются представителями пресс-службы органов и те делают это всё по принципу «формального закрытия», бессодержательной публикации позволяющей поставить галочку в результатах.
7. Почему всё плохо?
Нельзя сказать что всё совсем плохо. У России не последние места в рейтингах открытости данных вроде Open Data Index и Open Data Barometer. Но причин радоваться, действительно мало, и причин у того что всё идет так тяжело множество.
Одна из причин в том что у открытых данных в России очень мало явно заявляющих свой интерес потребителей.
Дело в том что в мире основными потребителями открытых данных являются:
— некоммерческие организации и активисты (гражданское общество);
— журналисты;
— коммерческие компании;
— университеты.
С каждым из потребителей у нас в России есть свои проблемы.
Независимых некоммерческих организаций теперь почти нет. Все что жили на зарубежные гранты теперь, либо закрываются, либо перестраиваются под госгранты, либо резко сворачивают свою активность. Наша некоммерческая организация существует исключительно по то причине что все учредители это люди занимающиеся бизнесом и у нас была и есть возможность тратить немножко средств на её поддержание и в том что самые большие проекты мы делали при поддержке Фонда Кудрина. Единственного, пожалуй, который из фондов в России поддерживает общественные проекты на открытых данных. Других возможностей фактически нет. Государственные грантооператоры не выделяют средств на подобные проекты, коммерческих спонсоров для проектов на открытых данных найти очень сложно ну а брать иностранные гранты теперь табу.
Журналистика почти вся в России весьма далека от нейтральной подачи информации. Но даже провластные издания не взаимодействуют с госорганами на предмет открытости их данных для того чтобы их использовать в работе. Увы, за все эти годы направление журналистики данных так и не обрело заметных очертаний в нашей стране и до сих пор журналисты оказывают очень малое влияние на открытости государства в тех или иных вопросах. Пронзительные экономические аналитики, исследователи демографии, словоохотливые социологи — все они на страницах СМИ не формируют запроса к органам власти на открытость.
Коммерческие компании здесь всё просто — их очень мало. Коммерческие компании использующие открытые данные можно разделить на две категории. Первая группа — это тех кто живет за счет государственных заказов и данные им нужны чтобы показать свои компетенции в том чтобы больше заказов получить. И вторая группа живущая на информационном рынке крайне малочисленная и не желающая взаимодействовать с госорганами без острой необходимости. В основном по причинам глубокого недоверия государственной машине.
И наконец высшие учебные заведения. Увы, запроса со стороны ВУЗов на то чтобы данные были доступны для исследований, для возможности студентов использовать актуальные данные в своей работе, этого запроса просто нет. Если в мире университеты формируют собственные базы данных по направлениям исследований и работы их факультетов, то в России это если и есть, то в весьма ограниченных формах.
До введения санкций, закона об иностранных агентах и прочего ухудшения внешней и внутренней политики я бы сказал что однозначно да. Когда всё начиналось Россия была в G8, подписывала G8 Open Data Chapter, претендовала на участие в Open Government Partnership. Сейчас развитие темы открытых данных происходит при высоком сопротивлении государственного аппарата. Наиболее востребованные данные раскрываются с большим трудом. Детальная образовательная, криминальная и иная муниципальная статистика крайне труднодоступна. Государственные геоданные по прежнему открываются тяжело. Но многое другое возможно. Это климатические, транспортные и иные данные востребованные на практике.
9. Почему лично я во всём этом участвую?
Причин много. Главная в том что я ввязался открытые данные еще в 2009 году со злости что во всем мире эта тема развивается, а в России ничего нет. Другая в том что устройство «государства», не только российского — это моё давнее хобби. При том что наибольшие усилий приходились и приходятся не только на то чтобы убеждать чиновников в открытости данных, а в том чтобы самостоятельно собирать данные из разных источников и превращать в открытые данные.
— К заметке прилагаю пару опросов и как и обещал, готов ответить на все вопросы по существу в комментариях.
Открытые данные: всё, что может пойти не так, идёт не так
Сейчас множество всяких наборов данных в разных областях выкладывают под лицензией OpenData: скачивай и используй (но не искажай). Но раз эти данные открытые, то все их создают как им угодно. Отсюда множество проблем при обработке, начиная с получения и заканчивая интерпретацией. Мы работаем с открытыми данными последние пять лет, и за весь опыт работы накопилось немало интересных случаев. Под катом — основные проблемы и примеры ребусов, путешествий во времени и прочей чертовщины, с которой мы ежедневно боремся.
Скриншот с сайта реестра и соответствующий фрагмент выгрузки в XML
Где-то польза от открытости данных очевидна. Многие научные наборы открыты и приносят пользу обществу, например, вместе с инструментами для поиска и сравнения нуклеотидных и аминокислотных последовательностей BLAST на сайте Национального центра биотехнологической информации США распространяется также ежедневно обновляемая база GenBank, содержащая все аннотированные последовательности ДНК и РНК (сейчас там около 650 ГБ файлов). Или есть проект OpenStreetMap, который не нуждается в рекламе, и на сайте прямо написано, что они тоже Open Data.
Среди всего многообразия открытых данных особое место занимают государственные. Исторически эта тема восходит к американскому закону о свободе информации (FOIF), который вступил в силу более полувека назад — в 1967 году. В 2009 году был запущен портал data.gov, на котором сейчас размещено 312 тысяч наборов данных. Большая часть этих наборов весьма специфична (например, данные о размерах классов в школах Нью-Йорка или фид с ДТП в Остине в реальном времени), но и данных очень много. Кроме того, часто ведомства выкладывают данные и самостоятельно.
Самые популярные датасеты с data.gov
А что у нас? В 2002–2010 действовала программа «Электронная Россия» (в рамках неё открыли данные о гос. закупках), а в 2013 был принят закон об открытых данных (как в США), и в том же году запущен сайт data.gov.ru. На нём на текущий момент 24 тысячи наборов данных (читайте обзор в блоге «Информкультуры»). Если посмотреть на статистику скачивания данных на портале, то там с большим отрывом лидирует производственный календарь с 1995 по 2025 год (при этом данные после 2019 не обновлялись).
Самые популярные наборы данных на data.gov.ru
Есть даже данные из будущего!
Государственные открытые данные — область весьма специфическая. От работы с ними складывается впечатление, что данные выкладываются исключительно, чтобы соответствовать требованиям законодательства и показывать красивые графики о росте открытости. Например, один из подзаконных актов требует, чтобы все ведомства публиковали в виде открытых данных свои вакансии — и все публикуют.
Мы в Rusprofile занимаемся сбором различной информации о юридических лицах и индивидуальных предпринимателях, поэтому для нас актуальны только те наборы, которые относятся к этой области. Мы пытаемся собрать и показать максимум полезной информации — на данный момент получаем информацию из 42 различных источников. Все собранное группируется по компаниям/индивидуальным предпринимателям. Собственно, за доступ к красиво сформированной информации люди и готовы платить, она экономит им время. Но с этим возникают разного рода сложности.
Первое, с чем сталкиваешься, — проблемы с получением данных. Это может быть просто медленный или зарезанный канал, по которому нужно скачать огромные файлы без сжатия, а может быть какое-нибудь интересное ограничение скачивания, например, шейпинг трафика до 100 кб/с после первой минуты.
Вторая группа проблем — сложность с интерпретацией данных. Закон никак не регламентирует полноту документации, поэтому на выходе бывает разное, и часто — ничего полезного (вплоть до того, что даже типы полей указаны неверно). Приходится разбираться самостоятельно.
Третий тип сложностей связан с очисткой данных от всякого мусора и ошибок. Бывают просто ничего не несущие пустышки (например, XML-ка, в которой нет ни одного элемента и атрибута, даже обязательных по схеме), а бывает «тестовая прокуратура», проводящая, по-видимому, тестовые проверки тестовых компаний.
И, наконец, четвёртая группа проблем связана с атрибуцией данных — их ведь нужно показывать на страницах того или иного юридического лица или индивидуального предпринимателя. И к какому лицу относятся данные — не всегда легко понять.
За несколько лет работы с открытыми данными встретилось довольно много интересного. В статье я расскажу о нескольких забавных случаях, разъясню проблемы и способы их решения.
Нельзя просто так взять и скачать набор данных
Получение открытых данных, по идее, должно быть делом чрезвычайно простым. Обратился, допустим, по заранее известному адресу, который не меняется, прочитал актуальные метаданные по интересующим наборам, сверил даты актуальности, если есть более новое — скачал. Вот, Росстат, например, сразу предлагает выгрузить список (в CSV, правда, ну это уже детали) наборов открытых данных, а дальше по каждому набору скачать метаинформацию, тоже в CSV. Это не самый удобный формат, XML или JSON подошли бы лучше, но работать с этим можно. Надо только один раз понять, какие там разделители, какие там кавычки и как они экранируются, сделать оповещения, что формат, возможно, поменялся, но это так, мелочи.
Налоговая служба публикует много полезных наборов открытых данных, и там, кстати, часто довольно неплохая документация (особенно если это XSD к XML), и нечасто встречаются ошибки. Но вот список всех наборов с метаинформацией на страничке скачать нельзя. И «паспорт набора» приходится разбирать из HTML-кода, к счастью, за это время вёрстка ни разу не поменялась (но на этот случай мы предусмотрели специальное оповещение).
У Федеральной службы судебных приставов (ФССП) часть наборов есть аж в виде Linked data. Но это в виде связанных данных ФССП на данный момент опубликовало только три очень полезных набора: «Реестр отделов судебных приставов», «Телефонный справочник работников ФССП России» и «Справочник должностей ФССП России».
А вот реестры ведущихся и прекращённых по определённым причинам исполнительных производств почему-то доступны только в CSV. Каждый день приходится заново выгружать оба реестра целиком: первый занимает 2 ГБ, а второй — 3,5 ГБ. Они никак не сжимаются даже на уровне веб-сервера и раньше качались изнуряюще долго — бывало, по 10 часов и даже дольше. Потом стало немного лучше, но внезапные обрывы соединения никуда не делись.
Страница открытых данных на сайте ФССП. Красиво, правда?
Отсюда родилось решение, которое было заточено специально под сервера ФССП, но потом пригодилось во многих других местах: менеджер закачки в духе ReGet. Он запрашивает файл по частям через разные прокси-сервера, пытается ещё раз скачать те части, которые по какой-то причине получить с первого раза не удалось, аккуратно собирает весь файл, проверяет его целостность и уже потом только помещает в хранилище. Правда, иногда может оказаться так, что размер файла почему-то поменялся в процессе скачивания. В этом случае процесс начинается заново.
В целом, этот «менеджер закачки» оказался настолько удобным, что сейчас мы его используем для многих наборов открытых данных: он помогает вообще не думать о таких проблемах.
Ещё один случай, который заставил немало попотеть: единый реестр проверок. Кроме всяких эксцессов, когда полгода сайт находился «в техническом обслуживании» и не обновлялся (и мы даже жаловались в прокуратуру на… ту же прокуратуру), были и другие неприятности. Единый реестр проверок какое-то время генерировал динамические адреса доступа к файлам данных, причём веб-страница отправляла AJAX-запрос, который как раз их и возвращал. К счастью, в этом случае обошлось без headless-браузера: схема не менялась, и надо было просто отправить нужный запрос и получить ответ. Потом это исправили и адреса стали нормальные.
Единый реестр проверок доставлял и другие неприятности с получением данных: часто файлы были просто недоступны, и приходилось пытаться их скачивать несколько раз (вот здесь снова пригождается менеджер закачки). Также реестр проверок предоставляет отдельные наборы данных на каждый месяц и год (хотя по сути это один набор). Нам пришлось разработать специальный механизм, который автоматически находит и записывает новые месяцы и годы.
Чтобы понять данные Росстата, нужно стать Росстатом
Есть, конечно, данные по гос. закупкам — бумажная бюрократия, переведённая в XML, и оттого ещё более формализованная и запутанная. В целом там тоже неплохая документация по форматам (в виде XSD-схем), и чтобы окончательно разобраться, достаточно было несколько проконсультироваться со специалистом по соответствующим областям законодательства. После этого становится ясно, какие документы соответствуют какой части процесса и что со всем этим делать.
Краткая схема процесса гос. закупок
А вот бухгалтерская отчётность, которую за период с 2012 по 2018 год предоставляет Росстат, документирована просто восхитительно. Описание полей в структуре выглядит буквально следующим образом:
Но главная сложность с этими данными состояла в том, что совершенно неясно, что именно означают таинственные пятизначные числа, которые не совпадают ни с планом счетов, ни с номерами строк в бухгалтерской отчётности — те четырёхзначные.
Наконец, когда я увидел бумажные формы бухгалтерской отчётности, всё начало проясняться. Номера строк там действительно четырёхзначные, но есть ещё и номера столбцов — пятая цифра. Складываем все коды в Excel, рисуем таблицу и видим.
Скриншот в Jira, который всех убедил
Расположение цифр слева соответствует расположению пустых полей справа — гипотеза подтвердилась! Присутствующие и отсутствующие коды показателей в выгрузке точно соответствуют бумажной форме. Остальное было делом техники. На этом проблемы с бухгалтерской отчётностью не закончились, но они были уже куда проще.
В целом проблемы с интерпретацией данных решаются, если сопоставить различные источники друг с другом и, как правило, когда накапливается достаточное количество данных, всё становится понятно.
Долги времён Римской империи
Иногда в данных бывают косяки. Зачастую безобидные, когда, например, отгружается проверка по несуществующей организации, или у дисквалифицированного лица указан ИНН, который ничему не соответствует. В таких случаях эти данные просто можно игнорировать и никак не показывать, но ошибки бывают и более существенные. Одна из самых частых проблем — опечатки в датах. Например, исполнительное производство, открытое, судя по дате, ещё в Римской империи — в 0204 году), и помеченное закрытым в 2015 году. Есть производства из будущего, например, от 2189 года (8585/17/50004-ИП, от 22 мая). Довольно много таких курьёзов можно отфильтровать по датам, но, допустим, бывает и такое: сначала появляются сведения о контракте на гос. закупку у какой-нибудь фирмы, а только через несколько дней появляются сведения, что эта фирма вообще зарегистрирована в налоговой.
Долг из будущего
Иногда косяки бывают более хитрые. Например, всё та же незабвенная ФССП в один из дней выгрузила файл, в котором были перепутаны два столбца — номер исполнительного производства и номер исполнительного документа. А поскольку историю состояния по этим делам мы можем считать только сравнивая имеющиеся и новые файлы, то так вышло, что несколько миллионов исполнительных производств были помечены как закрытые. А на следующий день они переоткрылись, поскольку снова появились в файлах. Их приходится исправлять в ручном режиме, просто вычищая из БД все неверные данные.
Установить жёсткие правила, чтобы отфильтровывать ошибочные данные, не удаётся — кроме, пожалуй, случая с явно некорректными датами. Поэтому здесь мы действуем иначе: проверяем данные достаточно расслабленно, но при этом корректируем их по запросам пользователей. Так был разработан специальный механизм, который первоначально решал и проблему атрибуции.
Нейросеть vs. Бюрократия
И здесь я ещё раз вспоминаю о Федеральной службе судебных приставов. Помните, были истории, когда приставы по ошибке предъявляли требования полному тёзке должника? Так вот, с юридическими лицами происходит то же самое. Не вполне понятно, почему именно, но база ФССП (как доступная на сайте, так и, по-видимому, внутренняя), содержит только наименование и адрес организации, и в ней нет никаких реквизитов. При этом адрес может быть не юридический, а фактический, правда, в прошлом году эти поля всё-таки разделили (что, впрочем, не означает, что они не путаются). Можно предположить, что такие ошибки связаны с особенностями юридических процедур, но факт остаётся фактом — должников приходится искать по адресу и наименованию.
Один из наших пользователей по этому поводу написал:
Адский сайт. По-моему, они собирали совещания, где повесткой дня было: как сделать так, чтобы люди ничего не смогли найти даже по ИНН. И у них это получилось…
Атрибутировать производства оказалось весьма интересной задачей.
Здесь 48 означает код региона — Липецкую область. А ещё код региона может внезапно стоять в конце, вместо квартиры:
,ЕЛЕЦ Г,ПРОМЫШЛЕННАЯ УЛ,90,КОРП643,48
Пришлось вручную собрать разнообразные форматы адресов, подготовить на основе реальных адресов компаний тестовые данные и обучить небольшую нейронную сеть — сегментатор адресов. С разобранным адресом дальше уже дело техники: — найти нужную компанию, которая в определенный период была зарегистрирована по конкретному адресу, а эта информация у нас есть из ЕГРЮЛ. 100% точности, понятное дело, с такими исходными данными достичь не удастся, но большую часть должников мы успешно идентифицируем.
Аналогичный механизм пришлось делать и для картотеки арбитражных дел. Там часто бывают указаны реквизиты компаний, но иногда они перепутаны и требуется проверять все возможные соответствия, чтобы убедиться: нужные компании привязаны к нужным сторонам дела.
В целом автоматизировать всё это невозможно, и пользователи регулярно пишут в поддержку, что какое-то дело неверно атрибутировано. Для этих случаев был разработан так называемый механизм перепривязок. Мы, разумеется, не редактируем исходные данные, полученные из источников, но при этом храним таблицу переопределений — что-то вроде вклеенного в книгу списка опечаток. На одном из этапов обработки источника эти переопределения применяются, и в промежуточные представления, из которых отображается информация на сайте, уже попадают скорректированные данные.
Выводы
Работать с российскими государственными открытыми данными скучно не бывает. С одной стороны, часто приходится разбираться с какой-нибудь очередной новой предметной областью, где встречаются неожиданные глубины. Например, лицензирование различных сфер деятельности отличается довольно сильно, и нам нужно было свести их в единую структуру, чтобы показывать список лицензий у какой-нибудь компании. С другой стороны, есть и чисто технические вызовы: оптимизировать парсинг больших XML-файлов и сделать так, чтобы все интересующие пользователей данные отдавались быстро.
Всё это требует от разработчиков упорства и изобретательности в борьбе с артефактами цифровизации. Зато каждый раз, когда удаётся понять, что же на самом деле означают эти недокументированные цифры, или когда удаётся найти надёжный способ извлекать из данных нечто полезное, приходит чувство глубокого удовлетворения от очередной маленькой победы человека над бюрократией.