Привет, Хабр.
Мы — Анастасия Карасева и Елена Веретённик, научные сотрудники Прикладного Центра МАСТ Европейского университета в Санкт-Петербурге, а этот текст — о боли работы с открытыми неагрегированными данными госзакупок. Мы сделали свой первый самостоятельный дата-проект на данных из xml контрактов по 44-ФЗ, которые доступны в российской единой информационной системе «Закупки». Эта история — о страданиях, возрождении и ряде небольших открытий, которые помогут начинающим дата-сайентистам легче и увереннее пройти похожий путь в открытых хранилищах данных.
ЕИС «Закупки» — база открытых данных, в которой размещается различная документация о закупках начиная с 2011 года: извещения, контракты и пр. Данные, как правило, хранятся в зазипованных xml на ftp сервере. Структура папок и документов строго регламентирована справочниками, альбомами и схемами. Но не всё так однозначно…
(Помимо ЕИС, открытые данные о госзакупках — уже структурированные и обработанные — можно найти на сайтах «Госзатраты» и «Госрасходы», но там представлены не все тэги из оригинальных xml-файлов. Далее мы будем использовать для сравнения обработанные версии контрактов с «Госзатрат».)
Целью нашего проекта было исследование сверхурочной работы в госзакупках в разных регионах России, и нам лучше подходили открытые и необработанные данные: там была метка о времени (таймстамп). Эта метка создаётся автоматически и отражает действие специалиста по закупкам в режиме реального времени, а значит, может служить надёжным цифровым следом его работы.