Как стать автором
Обновить
50.97
Рейтинг

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга

Пока, ФИАС! Рассказываем, как устроен адресный справочник ГАР

Блог компании HFLabs Анализ и проектирование систем *Data Mining *Открытые данные *Хранение данных *

1 сентября 2021 года ФНС перестала обновлять свой адресный справочник в формате ФИАС. Относительно новый ГАР внезапно стал единственным государственным адресный реестром, доступным общественности. Рассказываем, что из себя представляет новый справочник и чем он отличается от ФИАС.

Читать далее
Всего голосов 22: ↑19 и ↓3 +16
Просмотры 6.7K
Комментарии 10

Новости

Парсим NFT транзакции на OpenSea

Python *Data Mining *Big Data *Открытые данные *
Tutorial

Примерно раз в год у меня появляется неутолимая жажда накопать много данных и что-то с ними сделать. В этот раз мой выбор пал на маркетплейс NFT OpenSea. Меня осенило что блокчейн - это про открытые данные, а учитывая 1.2 миллиона транзакций в сети ETH каждый день - то это ещё и много данных, так что точно должно быть интересно.

В этом туториале я расскажу откуда можно достать данные о транзакциях блокчейна ETH, и как эти данные анализировать, в частности, как находить самые дорогие транзакции. И самое главное - бонус, небольшая игра в сыщиков в конце статьи.

Читать далее
Всего голосов 16: ↑11 и ↓5 +6
Просмотры 3.3K
Комментарии 4

БДСМ с БД ПМО или как я работал с госданными

SQL *Открытые данные *Хранение данных *Читальный зал
Из песочницы

Росстат ежегодно публикует порядка 4 тысяч показателей государственной статистики. Они доступны всем без каких-либо ограничений по статусу, правам доступа и т.п. Но публикуя данные, Росстат прежде всего ориентируется на то, что пользователи будут работать с ними вручную (глазами и руками), хотя последние 20 лет, мягко говоря, это не совсем тренд.

Меня зовут Веденьков Максим, я работаю в ЦПУР (Центр перспективных управленческих решений), некоммерческой организации, которая проводит исследования на государственных данных с целью повышения информированности общества о происходящих в стране процессах. Также мы собираем, обогащаем и публикуем датасеты с государственными данными, как ранее опубликованными, так и теми, которые раньше не публиковались.

В этой статье хочу рассказать об одном из таких наборов данных. Большом, сложном, важном, но при этом доступном в крайне неудобном для исследователей формате — базе данных показателей муниципальных образований (БД ПМО).

Читать далее
Всего голосов 33: ↑32 и ↓1 +31
Просмотры 7.2K
Комментарии 14

Google отменяет бесплатный тариф G Suite Legacy. Как много сайтов в Рунете затронет такое решение и что с этим делать?

Блог компании МойОфис Администрирование доменных имен *Python *Открытые данные *Google Cloud Platform *
Tutorial
image

В январе Google объявила об окончательном закрытии бесплатного тарифа G Suite Legacy. Для новых пользователей free-версия была недоступна еще с 2012 года, однако каждый, кто оформил подписку до этого времени, мог продолжать пользоваться популярной облачной платформой (с 2020 года — Google Workspace) бесплатно на специальных условиях. Теперь же Google отказалась и от этого варианта: компания предлагает «ранним» пользователям перейти до 1 мая 2022 года на один из четырех платных тарифов Google Workspace, в противном случае, этот выбор произойдет автоматически.

Как одному из пользователей бесплатного тарифа G Suite Legacy мне стало интересно узнать и проанализировать объём его пользователей в российском сегменте интернета. Забегая вперед: я пришел к выводу, что количество доменов G Suite в зоне .ru может достигать 36 тысяч. О ходе моего небольшого исследования и размышлениях, как на нас повлияет решение Google, читайте под катом.
Читать дальше →
Всего голосов 28: ↑28 и ↓0 +28
Просмотры 8K
Комментарии 47

ЕГРЮЛ, доходы и расходы, налоги, количество сотрудников в XML и JSON бесплатно

Блог компании ITSOFT Big Data *Открытые данные *Законодательство в IT Финансы в IT

Налоговая отдаёт данные ЕГРЮЛ  по организации в виде PDF. Посредники за автоматический доступ по API хотят денег. На многих сайтах часть данных закрыто, часть функций недоступны бесплатно, и полно рекламы. 

Особенно интересно, что на некоторых сайтах предоставляющих данные по API имеется логотип Сколково. Это такой высокотехнологический бизнес, наверное, открытые данные продавать.

Налоговая просит 150 000 рублей в год за доступ к данным ЕГРЮЛ в виде сваленных в архивы XML-файлов. У ФНС классный бизнес. Вы проявляйте должную осмотрительность при выборе поставщиков, но доступ к данным за деньги. Если вы хотите получить доступ и к реестру индивидуальных предпринимателей (ЕГРИП), то платите ещё 150 000 рублей в год. Согласитесь 300 000 рублей в год приличная сумма.

Остальные реестры данных у налоговой доступны бесплатно. Однако, без базы ЕГРЮЛ их вряд ли можно использовать. Самая частая операция в бизнесе подставить реквизиты из ЕГРЮЛ по ИНН.

Сформировалась целая отрасль, можно сказать, торговцев воздухом открытыми данными, создающих ВВП из воздуха как бухгалтеры, работающие руками там, где должны работать программы. Сколько компаний платит налоговой по 300 000р. в год?! Сколько программистов занято написанием одинаковых по функциям парсеров, которые переводят данные из XML налоговой в SQL и JSON?! Сколько серверов заняты под одинаковые функции?! Где добавочная стоимость? Все вроде при деле, а за чей счёт банкет?

Ну, ладно, “скандалить, критиковать каждый может”(с) как говорил бессмертный товарищ Райкин. “А что ты предлагаешь?” — резонно вы меня спросите. А я вам отвечу.

Читать далее
Всего голосов 164: ↑162 и ↓2 +160
Просмотры 16K
Комментарии 137

Дефицита нет, менеджмент эффективен

Открытые данные *Управление персоналом *Читальный зал

Продавец предлагает дефицитный товар, безбожно накручивая цену, торгует из-под полы - сделка происходит на «сером рынке». И покупатель соглашается купить!

Эта статья является продолжением материала "Дефицита нет, платить не нужно".

Читать далее
Всего голосов 77: ↑56 и ↓21 +35
Просмотры 11K
Комментарии 103

Преступность в США и России: сравнительный обзор

Python *Открытые данные *Визуализация данных Инфографика

В предыдущем цикле статей я начал рассматривать открытые данные по преступности в США в разных контекстах (связь с расовой принадлежностью, преступления на почве нетерпимости, нападения на полицейских). Мне стало интересно сравнить преступность в США с ситуацией в нашей стране, благо эти данные тоже легко найти. Получилось познавательно. Интересно?

🎩🚬🔫 Да
Всего голосов 187: ↑157 и ↓30 +127
Просмотры 49K
Комментарии 467

Ларри Лессиг о создании Creative Commons 20 лет назад: «Мы были лучше, чем казались. Раньше наша доброта не была видна»

Open source *Creative Commons *Открытые данные *Законодательство в IT Копирайт
Перевод
Creative Commons была основана в штате Массачусетс 19 декабря 2001 года. Ещё в мае этого юбилейного года CC запустила фандрайзинговую кампанию, планируя серию интервью и мероприятий. Первые лицензии были опубликованы не в момент основания, а спустя год, поэтому праздник не заканчивается в этом году. 2022 год также будет юбилейным для CC. Её глава Кэтрин Стилер отметила, что CC — глобальное движение в 86 странах, а лицензии и юридические инструменты CC используются для распространения более, чем 2 миллиардов произведений.

В таком интервью один из основателей Лоуренс Лессиг вспомнил, что 20 лет назад весь мир спорил о двух переменах. Технологии дали возможность делиться контентом в больших масштабах, но законы были изменены так, чтобы всё больше контролировать доступ к контенту и его распространение. Обе стороны находились в состоянии «гонки вооружений». И многие люди боялись, что такой закон победит технологии в этой войне.

Как сказал Лессиг, некоторые из нас подумали, может ли быть что-то другое, кроме системы «все права сохранены». Мы могли бы попытаться создать схему «некоторые права сохранены». Лессиг задался вопросом: «вместо того, чтобы говорить «нет», можно ли сделать пометку „да, пожалуйста, возьми то, что я создал, и поделись с другими“?». Мы не хотели сказать музыкантам, что их работа должна быть бесплатной. Мы не хотели сказать режиссеру, что он не может продавать билеты. Мы не хотели никому грозить пальцем, мы просто хотели дать каждому возможность делать то, что человек хочет делать. Правда в том, что успехи CC не были достигнуты критикой других людей. Вместо этого CC просто дала лёгкую возможность делать правильные вещи, делать то, что автор считает правильным.

«Запуск» лицензий состоялся уже в Сан-Франциско 16 декабря 2002 года. К сотням собравшихся обратились сам Лессиг, Джон Перри Барлоу (автор Декларации независимости киберпространства) и, что необычно, Джек Валенти (лоббист от киноиндустрии).

Читать дальше →
Всего голосов 16: ↑15 и ↓1 +14
Просмотры 2.3K
Комментарии 3

Научные знания по свободной лицензии. Генеральная конференция ЮНЕСКО утвердила документ об «открытой науке»

Open source *Creative Commons *Открытые данные *Законодательство в IT Копирайт
Перевод
Некоммерческая организация Creative Commons (CC) горячо приветствует единогласное утверждение Рекомендации ЮНЕСКО по открытой науке (UNESCO Recommendation on Open Science) на 41-й Генеральной конференции ЮНЕСКО. Этот знаковый документ является важным шагом на пути к созданию мира, в котором обмен научными данными изначально будет открытым и инклюзивным.

Для CC большая честь быть частью глобального сообщества, которое разрабатывало, анализировало и пересматривало Рекомендацию. Мы твердо убеждены, что открытый доступ к знаниям является необходимым, хотя и недостаточным условием для решения больших комплексных проблем. Улучшенный обмен научными статьями, данными и научными образовательными ресурсами является необходимым условием для достижения прогресса в достижении Целей устойчивого развития ООН, глобальных вызовов, с которыми мы сталкиваемся сегодня.

Как показали пандемия COVID и изменение климата, существует серьезная необходимость ускорить прогресс в создании, обмене и распространении научных знаний. Рекомендации ЮНЕСКО по открытой науке и открытым образовательным ресурсам — это международные принципы, которыми могут руководствоваться правительства стран, спонсоры, образовательные учреждения, ученые, педагоги и организации гражданского общества, работая над созданием мира, в котором открытый доступ к знаниям является одним из основных прав человека.

Рекомендация устанавливает международный стандарт, определяющий понятия «открытая наука» и соответствующие правила и практики, направленные на улучшение обмена знаниями в мировом научном сообществе.
Читать дальше →
Всего голосов 12: ↑12 и ↓0 +12
Просмотры 1.7K
Комментарии 16

Парсим ГАР БД ФИАС в удобный формат в питоне. Бесплатно, без регистрации и СМС

OpenStreetMap *Геоинформационные сервисы *Big Data *Открытые данные *Data Engineering *
Tutorial

20160419_182146


Если вам зачем-то понадобилась полная адресная база России, то самый простой и дешевый способ ее заполучить — это скачать на сайте налоговой. Да, вот так вот просто все. Ну почти.


Да, это полная официальная адресная база России, просто в открытом доступе, никто ничего не спрашивает, просто раздают. Сделали на наши налоги, и честно всем, как скамейку в парке, отдают в пользование. Прекрасно? Да!


"В чем же подвох?", — спросите вы, прищурившись.


Кратко: формат ужасен, документация очень плоха и должного единообразия данных не наблюдается, чем успешно пользуются коммерческие компании, перепродающие бесплатные данные (иногда пылесосят имейлы). Но такую несправедливость можно исправить.

Читать дальше →
Всего голосов 29: ↑19 и ↓10 +9
Просмотры 6.8K
Комментарии 23

Как работать с HR-данными: беседа с Андреа Дерлер

Высокая производительность *Открытые данные *Управление персоналом *Бизнес-модели Будущее здесь
Перевод
image

Имея опыт исследований в области управления, науки и консультирования по вопросам человеческого капитала, Андреа Дерлер привносит свое увлечение человеческой динамикой в организации, чтобы возглавить наши исследования.
Читать дальше →
Всего голосов 6: ↑5 и ↓1 +4
Просмотры 559
Комментарии 0

Спутниковая интерферометрия для танцующих гор Ирана на Google Colab

Open source *Программирование *Геоинформационные сервисы *Открытые данные *Научно-популярное

В статье Танцующие горы Ирана по данным спутниковой интерферометрии показан очень необычно выглядящий результат спутниковой интерферометрии. Сегодня мы посмотрим, что же это значит и почему именно этого и следует ожидать. Ранее в статье PyGMTSAR, или спутниковая интерферометрия для всех с примерами Jupyter Python ноутбуков на Google Colab я рассказал про свой пакет для спутниковой интерферометрии на основе радарных снимков Sentinel-1 PyGMTSAR (Python GMTSAR), написанный именно для того, чтобы быстро и удобно получить и проанализировать результаты непосредственно в Python ноутбуке.


По ссылке вы найдете готовый ноутбук на Google Colab, позволяющий прямо в браузере выполнить всю обработку и увидеть результаты и, при желании, тут же поработать с ними: Yamchi DAM Interferograms Persistent Scatterer Interferometry (PSI) Analysis Для Debian Linux я сделал скрипт инициализации облачного инстанса GMTSAR.install.debian10.sh, а на Google Colab ноутбук автоматически установит все необходимые зависимости, просто следуйте подсказкам в ноутбуке.


Читать дальше →
Всего голосов 10: ↑9 и ↓1 +8
Просмотры 1.8K
Комментарии 7

Открытые данные Министерства культуры РФ — оказались не открытыми данными

Информационная безопасность *Открытые данные *Законодательство в IT Копирайт Научно-популярное

Мы узнали об этом, изучая ситуацию, которая сложилась вокруг использования открытых данных с сайта Министерства культуры РФ. Сначала Минкульт воплотил в них общедоступную информацию. Но затем Минкульт решил, что пора ограничить использование этих открытых данных.

Следуют подробности.
Всего голосов 41: ↑38 и ↓3 +35
Просмотры 13K
Комментарии 41

Сколько ты стоишь? Метод анализа вакансий с HR-агрегаторов

Алгоритмы *Открытые данные *Управление персоналом *Карьера в IT-индустрии Статистика в IT
Из песочницы

Конечно, когда мы решаемся сменить работу, мы исходим из своих личных побуждений и мотиваций; и очевидно, что увеличение своего материального положения — не последняя из причин. Но при ответе себе лично на вопрос «сколько я хочу получать» обычно оперируем своим собственным потреблением. Но случалось ли вам слышать именно на собеседовании такой вопрос: «А почему Вы хотите получать именно столько?» Мне случалось пару раз, и, признаюсь, в те разы терялся что ответить. Некоторые размышления меня натолкнули, что лучший ответ будет: «Столько предлагает рынок».

Читать далее
Всего голосов 13: ↑13 и ↓0 +13
Просмотры 7.8K
Комментарии 7

Вечная борьба с парсерами, которую мы, кажется, выиграли

Блог компании Rusprofile Информационная безопасность *Программирование *Открытые данные *

Каждый более или менее крупный сайт хоть раз, но пытались атаковать. Такое было и с нашим сервисом Rusprofile, люди пытались спарсить финансовые и юридические данные о компаниях, которые мы агрегируем у себя последние 5 лет. Поэтому наша команда написала неплохую систему защиты с несколькими эшелонами проверок В этот Новый год случилась DDoS-атака, которую наша система смогла отбить меньше чем за час. Сегодня расскажем, почему другим нужны ваши данные и можно ли защититься от подобных атак (спойлер: можно).

Читать далее
Всего голосов 73: ↑52 и ↓21 +31
Просмотры 17K
Комментарии 145

Находим аномалии в российской статистике COVID-19

Python *Открытые данные *Визуализация данных Здоровье
Из песочницы

Несмотря на рост заболеваемости covid-19 и горячих споров насчет принимаемых мер, разговоры про достоверность статистики немного поутихли. Кто-то согласен с руководством страны и считает, что с официальными данными все хорошо и они объективно описывают текущую ситуацию. Другие считают, что статистика безбожно врет и показатели, скорее всего, очень сильно занижены.

Последние часто ссылаются на совместное расследование «Медузы», «Медиазоны» и «Холода», которое утверждает, что в реестре Минздрава в 5 раз больше зарегистрированных случаев коронавируса, чем сообщается официально. Само расследование базируется на исследовании Сергея Шпилькина, который ранее с помощью статистических методов доказал фальсификации на выборах. В чем проблема этого исследования?

Читать далее
Всего голосов 190: ↑172 и ↓18 +154
Просмотры 52K
Комментарии 404

Почему на удалении от крупных городов избиратели ходят на участки охотнее и голосуют за партию власти

Big Data *Открытые данные *Визуализация данных Data Engineering *

    Действительно ли электоральные предпочтения сельских жителей существенно отличаются от предпочтений городских жителей?

   Зачем нужно срочно вводить электронное голосование в крупных городах России?

   Как выглядят на графиках и на карте России аномальное голосование?

    Подробные карты окрестностей городов России с результатами голосования на выборах в государственную Думу в 2021 году. 

Читать
Всего голосов 15: ↑14 и ↓1 +13
Просмотры 3.9K
Комментарии 13

Открытые данные: всё, что может пойти не так, идёт не так

Блог компании Rusprofile Программирование *Открытые данные *Визуализация данных

Сейчас множество всяких наборов данных в разных областях выкладывают под лицензией OpenData, то есть скачивай и используй (но не искажай). Но, конечно же, раз эти данные открытые, то все их создают как им угодно. Отсюда — множество проблем при обработке, начиная с получения и заканчивая интерпретацией. Мы работаем с открытыми данными последние пять лет, и за весь опыт работы накопилось немало интересных случаев. Под катом — основные проблемы и примеры ребусов, путешествий во времени и прочей чертовщины, с которой мы ежедневно боремся.

Читать далее
Всего голосов 21: ↑21 и ↓0 +21
Просмотры 5.5K
Комментарии 22

Делаем визуализацию распределения доходов населения России на основе данных Росстата

JavaScript *Открытые данные *Визуализация данных Инфографика
Tutorial

По данным Росстта в среднем житель России имеет доход 35 700 ₽ в месяц. Эта цифра мало что говорит о благосостоянии населения. Если взять двух человек — одного с доходом 70 000 ₽ и 1400 ₽, их средний ежемесячный доход будет равен ровно 35 700 ₽. Чтобы лучше продемонстрировать распределение доходов, я смастерил калькулятор, который позволяет посчитать количество людей с заданным диапазоном дохода и наглядно продемонстрировать их вклад в общий уровень доходов.

В этом посте я расскажу как от довольно скупых данных, которые доступны на сайте Росстата сгенерировать датасет для подробной инфографики.

Поехали!
Всего голосов 44: ↑43 и ↓1 +42
Просмотры 33K
Комментарии 123

PyGMTSAR, или спутниковая интерферометрия для всех с примерами Jupyter Python ноутбуков на Google Colab

Open source *Программирование *Геоинформационные сервисы *Открытые данные *Научно-популярное

После анализа модели Танцующие горы Ирана по данным спутниковой интерферометрии мне захотелось проверить набор гипотез и улучшить качество результатов. Как оказалось, ни один из существующих интерферометрических пакетов не позволяет этого сделать так, как мне нужно. Оценив фронт работ, я решил, что за месяц фулл-тайм работы я смогу написать свою систему спутниковой интерферометрии для радарных снимков Sentinel-1 на основе открытого продукта GMTSAR, реализовав собственные алгоритмы обработки данных и обеспечив удобную работу в среде Jupyter Python. По образованию я радиофизик и мой диплом магистра по моделированию голограмм в оптически нелинейных средах (равно моделированию интерференции) в свое время был признан победителем во всероссийском конкурсе, так что мне удалось уложиться в поставленные сроки и реализовать все запланированное — больше свободного времени на этот проект у меня просто нет. Итак, встречайте PyGMTSAR (Python GMTSAR) — по ссылке вы найдете готовые ноутбуки, которые в один клик можно запустить на Google Colab и прямо в браузере увидеть результаты и, при желании, тут же поработать с ними. Для Debian Linux я сделал скрипт инициализации облачного инстанса GMTSAR.install.debian10.sh, а на Google Colab ноутбуки автоматически установят все необходимые зависимости, что позволяет легко запускать их в "облаках".

Читать дальше →
Всего голосов 11: ↑11 и ↓0 +11
Просмотры 2.9K
Комментарии 9

Вклад авторов