Как стать автором
Обновить
3.85
Рейтинг

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга

Визуализация и анализ зимних температур Алматы за последние сто лет на Streamlit

Python *Открытые данные *Визуализация данных Экология
Из песочницы

Как менялись зимние температуры в Алматы за сто лет, анализ на Streamlit.

Читать далее
Рейтинг 0
Просмотры 469
Комментарии 0

Новости

Работа с отсутствующими значениями в Pandas

Python *Программирование *Открытые данные *Визуализация данных Машинное обучение *
Из песочницы
Tutorial

Когда значение данных для объекта для определенного наблюдения не сохраняется, это означает, что эта функция имеет недостающее значение. Обычно отсутствующее значение в наборе данных отображается как вопросительный знак , ноль, NaN или просто пустая ячейка. Но как можно справиться с недостающими данными?

Конечно, каждая ситуация отличается и должна оцениваться по-разному. Есть много способов справиться с недостающими значениями. Рассмотрим типичные варианты на примере набора данных - 'Titanic'. Эти данные являются открытым набором данных Kaggle.

Для анализа необходимо импортировать библиотеки Python и загрузить данные.

Для загрузки используется метод Pandas - read.csv(). В скобках указывается путь к файлу в кавычках, чтобы Pandas считывал файл во фрейм данных (Dataframes - df) с этого адреса. Путь к файлу может быть URL адрес или вашим локальным адресом файла.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 4.4K
Комментарии 10

Как вытянуть данные через официальный API ВК

API *ВКонтакте API *Открытые данные *Визуализация данных Интернет-маркетинг
Из песочницы

API ВКонтакте используют не только для сбора статистики, но и для отложенного постинга, отправки сообщений. Мы с командой активно применяем его для автоматизации отчетности по SMM и таргету. Поэтому поговорим про сценарии использования, когда нужно получить статистику из ВКонтакте для обработки в других системах. Кратко расскажем, как в целом работает API, поделимся методами, которыми пользуемся сами. В конце пройдемся по сложностям, от которых зависит результат.

Читать далее
Рейтинг 0
Просмотры 3.5K
Комментарии 1

«Тюрьма народов»: сколько, кто и за что сидит в США, России и Европе

Python *Открытые данные *Визуализация данных

Результат исследования данных из открытых источников по тюрьмам США, России и Европы. Статья расскажет вам о численности тюрем, заключённых, их распределению по возрасту, полу, совершённым преступлениям и о многом-многом другом... Каков процент наполнения тюрем в России и США? Каков уровень рецидивизма? За что сидит большинство заключённых? Сколько приходится заключённых на одного охранника? Сколько тратит правительство на уголовную систему?

Узнать ответы
Всего голосов 119: ↑89 и ↓30 +59
Просмотры 33K
Комментарии 78

Небезопасная разработка

Информационная безопасность *Разработка веб-сайтов *Открытые данные *GitHub История IT

Статья является продолжением статьи: История утечки персональных данных через Github.

Сегодняшняя подборка:

1. Персданные, пароли, рабочие секреты, все в куче

2. Пасхалка с персональными данными в рабочем проекте

3. Креды для доступа в даркнет

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 5K
Комментарии 7

История утечки персональных данных через Github

Информационная безопасность *Git *Открытые данные *GitHub Карьера в IT-индустрии

История про одного нерадивого участника воркшопа от GeekBrains и, как он случайно слил персональные данные и иную конфиденциальную информацию.

Читать далее
Всего голосов 6: ↑4 и ↓2 +2
Просмотры 5.8K
Комментарии 18

Чистый AutoML для “грязных” данных: как и зачем автоматизировать предобработку таблиц в машинном обучении

Блог компании Open Data Science Open source *Python *Открытые данные *Машинное обучение *

Обработка табличных данных средствами Python для использования в моделях машинного обучения - что может быть банальнее. Казалось бы. Иногда табличные данные бывают настолько "грязными", что их вычистка занимает гораздо больше времени, чем подготовка самой модели. Так зачем это делать самому, если с этим не хуже справится AutoML...

Ну и насколько они грязные
Всего голосов 15: ↑14 и ↓1 +13
Просмотры 3.2K
Комментарии 0

Пока, ФИАС! Рассказываем, как устроен адресный справочник ГАР

Блог компании HFLabs Анализ и проектирование систем *Data Mining *Открытые данные *Хранение данных *

1 сентября 2021 года ФНС перестала обновлять свой адресный справочник в формате ФИАС. Относительно новый ГАР внезапно стал единственным государственным адресный реестром, доступным общественности. Рассказываем, что из себя представляет новый справочник и чем он отличается от ФИАС.

Читать далее
Всего голосов 25: ↑22 и ↓3 +19
Просмотры 16K
Комментарии 16

Парсим NFT транзакции на OpenSea

Python *Data Mining *Big Data *Открытые данные *
Tutorial

Примерно раз в год у меня появляется неутолимая жажда накопать много данных и что-то с ними сделать. В этот раз мой выбор пал на маркетплейс NFT OpenSea. Меня осенило что блокчейн - это про открытые данные, а учитывая 1.2 миллиона транзакций в сети ETH каждый день - то это ещё и много данных, так что точно должно быть интересно.

В этом туториале я расскажу откуда можно достать данные о транзакциях блокчейна ETH, и как эти данные анализировать, в частности, как находить самые дорогие транзакции. И самое главное - бонус, небольшая игра в сыщиков в конце статьи.

Читать далее
Всего голосов 16: ↑11 и ↓5 +6
Просмотры 6.2K
Комментарии 4

БДСМ с БД ПМО или как я работал с госданными

SQL *Открытые данные *Хранение данных *Читальный зал
Из песочницы

Росстат ежегодно публикует порядка 4 тысяч показателей государственной статистики. Они доступны всем без каких-либо ограничений по статусу, правам доступа и т.п. Но публикуя данные, Росстат прежде всего ориентируется на то, что пользователи будут работать с ними вручную (глазами и руками), хотя последние 20 лет, мягко говоря, это не совсем тренд.

Меня зовут Веденьков Максим, я работаю в ЦПУР (Центр перспективных управленческих решений), некоммерческой организации, которая проводит исследования на государственных данных с целью повышения информированности общества о происходящих в стране процессах. Также мы собираем, обогащаем и публикуем датасеты с государственными данными, как ранее опубликованными, так и теми, которые раньше не публиковались.

В этой статье хочу рассказать об одном из таких наборов данных. Большом, сложном, важном, но при этом доступном в крайне неудобном для исследователей формате — базе данных показателей муниципальных образований (БД ПМО).

Читать далее
Всего голосов 33: ↑32 и ↓1 +31
Просмотры 7.7K
Комментарии 14

Google отменяет бесплатный тариф G Suite Legacy. Как много сайтов в Рунете затронет такое решение и что с этим делать?

Блог компании МойОфис Администрирование доменных имен *Python *Открытые данные *Google Cloud Platform *
Tutorial
image

В январе Google объявила об окончательном закрытии бесплатного тарифа G Suite Legacy. Для новых пользователей free-версия была недоступна еще с 2012 года, однако каждый, кто оформил подписку до этого времени, мог продолжать пользоваться популярной облачной платформой (с 2020 года — Google Workspace) бесплатно на специальных условиях. Теперь же Google отказалась и от этого варианта: компания предлагает «ранним» пользователям перейти до 1 мая 2022 года на один из четырех платных тарифов Google Workspace, в противном случае, этот выбор произойдет автоматически.

Как одному из пользователей бесплатного тарифа G Suite Legacy мне стало интересно узнать и проанализировать объём его пользователей в российском сегменте интернета. Забегая вперед: я пришел к выводу, что количество доменов G Suite в зоне .ru может достигать 36 тысяч. О ходе моего небольшого исследования и размышлениях, как на нас повлияет решение Google, читайте под катом.
Читать дальше →
Всего голосов 28: ↑28 и ↓0 +28
Просмотры 9K
Комментарии 47

ЕГРЮЛ, доходы и расходы, налоги, количество сотрудников в XML и JSON бесплатно

Блог компании ITSOFT Big Data *Открытые данные *Законодательство в IT Финансы в IT

Налоговая отдаёт данные ЕГРЮЛ  по организации в виде PDF. Посредники за автоматический доступ по API хотят денег. На многих сайтах часть данных закрыто, часть функций недоступны бесплатно, и полно рекламы. 

Особенно интересно, что на некоторых сайтах предоставляющих данные по API имеется логотип Сколково. Это такой высокотехнологический бизнес, наверное, открытые данные продавать.

Налоговая просит 150 000 рублей в год за доступ к данным ЕГРЮЛ в виде сваленных в архивы XML-файлов. У ФНС классный бизнес. Вы проявляйте должную осмотрительность при выборе поставщиков, но доступ к данным за деньги. Если вы хотите получить доступ и к реестру индивидуальных предпринимателей (ЕГРИП), то платите ещё 150 000 рублей в год. Согласитесь 300 000 рублей в год приличная сумма.

Остальные реестры данных у налоговой доступны бесплатно. Однако, без базы ЕГРЮЛ их вряд ли можно использовать. Самая частая операция в бизнесе подставить реквизиты из ЕГРЮЛ по ИНН.

Сформировалась целая отрасль, можно сказать, торговцев воздухом открытыми данными, создающих ВВП из воздуха как бухгалтеры, работающие руками там, где должны работать программы. Сколько компаний платит налоговой по 300 000р. в год?! Сколько программистов занято написанием одинаковых по функциям парсеров, которые переводят данные из XML налоговой в SQL и JSON?! Сколько серверов заняты под одинаковые функции?! Где добавочная стоимость? Все вроде при деле, а за чей счёт банкет?

Ну, ладно, “скандалить, критиковать каждый может”(с) как говорил бессмертный товарищ Райкин. “А что ты предлагаешь?” — резонно вы меня спросите. А я вам отвечу.

Читать далее
Всего голосов 164: ↑162 и ↓2 +160
Просмотры 19K
Комментарии 139

Дефицита нет, менеджмент эффективен

Открытые данные *Управление персоналом *Читальный зал

Продавец предлагает дефицитный товар, безбожно накручивая цену, торгует из-под полы - сделка происходит на «сером рынке». И покупатель соглашается купить!

Эта статья является продолжением материала "Дефицита нет, платить не нужно".

Читать далее
Всего голосов 77: ↑56 и ↓21 +35
Просмотры 12K
Комментарии 103

Преступность в США и России: сравнительный обзор

Python *Открытые данные *Визуализация данных Инфографика

В предыдущем цикле статей я начал рассматривать открытые данные по преступности в США в разных контекстах (связь с расовой принадлежностью, преступления на почве нетерпимости, нападения на полицейских). Мне стало интересно сравнить преступность в США с ситуацией в нашей стране, благо эти данные тоже легко найти. Получилось познавательно. Интересно?

🎩🚬🔫 Да
Всего голосов 187: ↑157 и ↓30 +127
Просмотры 56K
Комментарии 467

Ларри Лессиг о создании Creative Commons 20 лет назад: «Мы были лучше, чем казались. Раньше наша доброта не была видна»

Open source *Creative Commons *Открытые данные *Законодательство в IT Копирайт
Перевод
Creative Commons была основана в штате Массачусетс 19 декабря 2001 года. Ещё в мае этого юбилейного года CC запустила фандрайзинговую кампанию, планируя серию интервью и мероприятий. Первые лицензии были опубликованы не в момент основания, а спустя год, поэтому праздник не заканчивается в этом году. 2022 год также будет юбилейным для CC. Её глава Кэтрин Стилер отметила, что CC — глобальное движение в 86 странах, а лицензии и юридические инструменты CC используются для распространения более, чем 2 миллиардов произведений.

В таком интервью один из основателей Лоуренс Лессиг вспомнил, что 20 лет назад весь мир спорил о двух переменах. Технологии дали возможность делиться контентом в больших масштабах, но законы были изменены так, чтобы всё больше контролировать доступ к контенту и его распространение. Обе стороны находились в состоянии «гонки вооружений». И многие люди боялись, что такой закон победит технологии в этой войне.

Как сказал Лессиг, некоторые из нас подумали, может ли быть что-то другое, кроме системы «все права сохранены». Мы могли бы попытаться создать схему «некоторые права сохранены». Лессиг задался вопросом: «вместо того, чтобы говорить «нет», можно ли сделать пометку „да, пожалуйста, возьми то, что я создал, и поделись с другими“?». Мы не хотели сказать музыкантам, что их работа должна быть бесплатной. Мы не хотели сказать режиссеру, что он не может продавать билеты. Мы не хотели никому грозить пальцем, мы просто хотели дать каждому возможность делать то, что человек хочет делать. Правда в том, что успехи CC не были достигнуты критикой других людей. Вместо этого CC просто дала лёгкую возможность делать правильные вещи, делать то, что автор считает правильным.

«Запуск» лицензий состоялся уже в Сан-Франциско 16 декабря 2002 года. К сотням собравшихся обратились сам Лессиг, Джон Перри Барлоу (автор Декларации независимости киберпространства) и, что необычно, Джек Валенти (лоббист от киноиндустрии).

Читать дальше →
Всего голосов 16: ↑15 и ↓1 +14
Просмотры 2.3K
Комментарии 3

Научные знания по свободной лицензии. Генеральная конференция ЮНЕСКО утвердила документ об «открытой науке»

Open source *Creative Commons *Открытые данные *Законодательство в IT Копирайт
Перевод
Некоммерческая организация Creative Commons (CC) горячо приветствует единогласное утверждение Рекомендации ЮНЕСКО по открытой науке (UNESCO Recommendation on Open Science) на 41-й Генеральной конференции ЮНЕСКО. Этот знаковый документ является важным шагом на пути к созданию мира, в котором обмен научными данными изначально будет открытым и инклюзивным.

Для CC большая честь быть частью глобального сообщества, которое разрабатывало, анализировало и пересматривало Рекомендацию. Мы твердо убеждены, что открытый доступ к знаниям является необходимым, хотя и недостаточным условием для решения больших комплексных проблем. Улучшенный обмен научными статьями, данными и научными образовательными ресурсами является необходимым условием для достижения прогресса в достижении Целей устойчивого развития ООН, глобальных вызовов, с которыми мы сталкиваемся сегодня.

Как показали пандемия COVID и изменение климата, существует серьезная необходимость ускорить прогресс в создании, обмене и распространении научных знаний. Рекомендации ЮНЕСКО по открытой науке и открытым образовательным ресурсам — это международные принципы, которыми могут руководствоваться правительства стран, спонсоры, образовательные учреждения, ученые, педагоги и организации гражданского общества, работая над созданием мира, в котором открытый доступ к знаниям является одним из основных прав человека.

Рекомендация устанавливает международный стандарт, определяющий понятия «открытая наука» и соответствующие правила и практики, направленные на улучшение обмена знаниями в мировом научном сообществе.
Читать дальше →
Всего голосов 12: ↑12 и ↓0 +12
Просмотры 1.9K
Комментарии 16

Парсим ГАР БД ФИАС в удобный формат в питоне. Бесплатно, без регистрации и СМС

OpenStreetMap *Геоинформационные сервисы *Big Data *Открытые данные *Data Engineering *
Tutorial

20160419_182146


Если вам зачем-то понадобилась полная адресная база России, то самый простой и дешевый способ ее заполучить — это скачать на сайте налоговой. Да, вот так вот просто все. Ну почти.


Да, это полная официальная адресная база России, просто в открытом доступе, никто ничего не спрашивает, просто раздают. Сделали на наши налоги, и честно всем, как скамейку в парке, отдают в пользование. Прекрасно? Да!


"В чем же подвох?", — спросите вы, прищурившись.


Кратко: формат ужасен, документация очень плоха и должного единообразия данных не наблюдается, чем успешно пользуются коммерческие компании, перепродающие бесплатные данные (иногда пылесосят имейлы). Но такую несправедливость можно исправить.

Читать дальше →
Всего голосов 29: ↑19 и ↓10 +9
Просмотры 8.3K
Комментарии 23

Как работать с HR-данными: беседа с Андреа Дерлер

Высокая производительность *Открытые данные *Управление персоналом *Бизнес-модели Будущее здесь
Перевод
image

Имея опыт исследований в области управления, науки и консультирования по вопросам человеческого капитала, Андреа Дерлер привносит свое увлечение человеческой динамикой в организации, чтобы возглавить наши исследования.
Читать дальше →
Всего голосов 6: ↑5 и ↓1 +4
Просмотры 621
Комментарии 0

Спутниковая интерферометрия для танцующих гор Ирана на Google Colab

Open source *Программирование *Геоинформационные сервисы *Открытые данные *Научно-популярное

В статье Танцующие горы Ирана по данным спутниковой интерферометрии показан очень необычно выглядящий результат спутниковой интерферометрии. Сегодня мы посмотрим, что же это значит и почему именно этого и следует ожидать. Ранее в статье PyGMTSAR, или спутниковая интерферометрия для всех с примерами Jupyter Python ноутбуков на Google Colab я рассказал про свой пакет для спутниковой интерферометрии на основе радарных снимков Sentinel-1 PyGMTSAR (Python GMTSAR), написанный именно для того, чтобы быстро и удобно получить и проанализировать результаты непосредственно в Python ноутбуке.


По ссылке вы найдете готовый ноутбук на Google Colab, позволяющий прямо в браузере выполнить всю обработку и увидеть результаты и, при желании, тут же поработать с ними: Yamchi DAM Interferograms Persistent Scatterer Interferometry (PSI) Analysis Для Debian Linux я сделал скрипт инициализации облачного инстанса GMTSAR.install.debian10.sh, а на Google Colab ноутбук автоматически установит все необходимые зависимости, просто следуйте подсказкам в ноутбуке.


Читать дальше →
Всего голосов 10: ↑9 и ↓1 +8
Просмотры 1.9K
Комментарии 7

Открытые данные Министерства культуры РФ — оказались не открытыми данными

Информационная безопасность *Открытые данные *Законодательство в IT Копирайт Научно-популярное

Мы узнали об этом, изучая ситуацию, которая сложилась вокруг использования открытых данных с сайта Министерства культуры РФ. Сначала Минкульт воплотил в них общедоступную информацию. Но затем Минкульт решил, что пора ограничить использование этих открытых данных.

Следуют подробности.
Всего голосов 41: ↑38 и ↓3 +35
Просмотры 14K
Комментарии 43

Вклад авторов