Как менялись зимние температуры в Алматы за сто лет, анализ на Streamlit.
Открытые данные *
Данные будут свободны!
Новости
Работа с отсутствующими значениями в Pandas
Когда значение данных для объекта для определенного наблюдения не сохраняется, это означает, что эта функция имеет недостающее значение. Обычно отсутствующее значение в наборе данных отображается как вопросительный знак , ноль, NaN или просто пустая ячейка. Но как можно справиться с недостающими данными?
Конечно, каждая ситуация отличается и должна оцениваться по-разному. Есть много способов справиться с недостающими значениями. Рассмотрим типичные варианты на примере набора данных - 'Titanic'. Эти данные являются открытым набором данных Kaggle.
Для анализа необходимо импортировать библиотеки Python и загрузить данные.
Для загрузки используется метод Pandas - read.csv(). В скобках указывается путь к файлу в кавычках, чтобы Pandas считывал файл во фрейм данных (Dataframes - df) с этого адреса. Путь к файлу может быть URL адрес или вашим локальным адресом файла.
Как вытянуть данные через официальный API ВК
API ВКонтакте используют не только для сбора статистики, но и для отложенного постинга, отправки сообщений. Мы с командой активно применяем его для автоматизации отчетности по SMM и таргету. Поэтому поговорим про сценарии использования, когда нужно получить статистику из ВКонтакте для обработки в других системах. Кратко расскажем, как в целом работает API, поделимся методами, которыми пользуемся сами. В конце пройдемся по сложностям, от которых зависит результат.
«Тюрьма народов»: сколько, кто и за что сидит в США, России и Европе
Результат исследования данных из открытых источников по тюрьмам США, России и Европы. Статья расскажет вам о численности тюрем, заключённых, их распределению по возрасту, полу, совершённым преступлениям и о многом-многом другом... Каков процент наполнения тюрем в России и США? Каков уровень рецидивизма? За что сидит большинство заключённых? Сколько приходится заключённых на одного охранника? Сколько тратит правительство на уголовную систему?
Небезопасная разработка
Статья является продолжением статьи: История утечки персональных данных через Github.
Сегодняшняя подборка:
1. Персданные, пароли, рабочие секреты, все в куче
2. Пасхалка с персональными данными в рабочем проекте
3. Креды для доступа в даркнет
История утечки персональных данных через Github
История про одного нерадивого участника воркшопа от GeekBrains и, как он случайно слил персональные данные и иную конфиденциальную информацию.
Чистый AutoML для “грязных” данных: как и зачем автоматизировать предобработку таблиц в машинном обучении
Обработка табличных данных средствами Python для использования в моделях машинного обучения - что может быть банальнее. Казалось бы. Иногда табличные данные бывают настолько "грязными", что их вычистка занимает гораздо больше времени, чем подготовка самой модели. Так зачем это делать самому, если с этим не хуже справится AutoML...
Пока, ФИАС! Рассказываем, как устроен адресный справочник ГАР
1 сентября 2021 года ФНС перестала обновлять свой адресный справочник в формате ФИАС. Относительно новый ГАР внезапно стал единственным государственным адресный реестром, доступным общественности. Рассказываем, что из себя представляет новый справочник и чем он отличается от ФИАС.
Парсим NFT транзакции на OpenSea
Примерно раз в год у меня появляется неутолимая жажда накопать много данных и что-то с ними сделать. В этот раз мой выбор пал на маркетплейс NFT OpenSea. Меня осенило что блокчейн - это про открытые данные, а учитывая 1.2 миллиона транзакций в сети ETH каждый день - то это ещё и много данных, так что точно должно быть интересно.
В этом туториале я расскажу откуда можно достать данные о транзакциях блокчейна ETH, и как эти данные анализировать, в частности, как находить самые дорогие транзакции. И самое главное - бонус, небольшая игра в сыщиков в конце статьи.
БДСМ с БД ПМО или как я работал с госданными
Росстат ежегодно публикует порядка 4 тысяч показателей государственной статистики. Они доступны всем без каких-либо ограничений по статусу, правам доступа и т.п. Но публикуя данные, Росстат прежде всего ориентируется на то, что пользователи будут работать с ними вручную (глазами и руками), хотя последние 20 лет, мягко говоря, это не совсем тренд.
Меня зовут Веденьков Максим, я работаю в ЦПУР (Центр перспективных управленческих решений), некоммерческой организации, которая проводит исследования на государственных данных с целью повышения информированности общества о происходящих в стране процессах. Также мы собираем, обогащаем и публикуем датасеты с государственными данными, как ранее опубликованными, так и теми, которые раньше не публиковались.
В этой статье хочу рассказать об одном из таких наборов данных. Большом, сложном, важном, но при этом доступном в крайне неудобном для исследователей формате — базе данных показателей муниципальных образований (БД ПМО).
Google отменяет бесплатный тариф G Suite Legacy. Как много сайтов в Рунете затронет такое решение и что с этим делать?
В январе Google объявила об окончательном закрытии бесплатного тарифа G Suite Legacy. Для новых пользователей free-версия была недоступна еще с 2012 года, однако каждый, кто оформил подписку до этого времени, мог продолжать пользоваться популярной облачной платформой (с 2020 года — Google Workspace) бесплатно на специальных условиях. Теперь же Google отказалась и от этого варианта: компания предлагает «ранним» пользователям перейти до 1 мая 2022 года на один из четырех платных тарифов Google Workspace, в противном случае, этот выбор произойдет автоматически.
Как одному из пользователей бесплатного тарифа G Suite Legacy мне стало интересно узнать и проанализировать объём его пользователей в российском сегменте интернета. Забегая вперед: я пришел к выводу, что количество доменов G Suite в зоне .ru может достигать 36 тысяч. О ходе моего небольшого исследования и размышлениях, как на нас повлияет решение Google, читайте под катом.
ЕГРЮЛ, доходы и расходы, налоги, количество сотрудников в XML и JSON бесплатно
Налоговая отдаёт данные ЕГРЮЛ по организации в виде PDF. Посредники за автоматический доступ по API хотят денег. На многих сайтах часть данных закрыто, часть функций недоступны бесплатно, и полно рекламы.
Особенно интересно, что на некоторых сайтах предоставляющих данные по API имеется логотип Сколково. Это такой высокотехнологический бизнес, наверное, открытые данные продавать.
Налоговая просит 150 000 рублей в год за доступ к данным ЕГРЮЛ в виде сваленных в архивы XML-файлов. У ФНС классный бизнес. Вы проявляйте должную осмотрительность при выборе поставщиков, но доступ к данным за деньги. Если вы хотите получить доступ и к реестру индивидуальных предпринимателей (ЕГРИП), то платите ещё 150 000 рублей в год. Согласитесь 300 000 рублей в год приличная сумма.
Остальные реестры данных у налоговой доступны бесплатно. Однако, без базы ЕГРЮЛ их вряд ли можно использовать. Самая частая операция в бизнесе подставить реквизиты из ЕГРЮЛ по ИНН.
Сформировалась целая отрасль, можно сказать, торговцев воздухом открытыми данными, создающих ВВП из воздуха как бухгалтеры, работающие руками там, где должны работать программы. Сколько компаний платит налоговой по 300 000р. в год?! Сколько программистов занято написанием одинаковых по функциям парсеров, которые переводят данные из XML налоговой в SQL и JSON?! Сколько серверов заняты под одинаковые функции?! Где добавочная стоимость? Все вроде при деле, а за чей счёт банкет?
Ну, ладно, “скандалить, критиковать каждый может”(с) как говорил бессмертный товарищ Райкин. “А что ты предлагаешь?” — резонно вы меня спросите. А я вам отвечу.
Дефицита нет, менеджмент эффективен
Продавец предлагает дефицитный товар, безбожно накручивая цену, торгует из-под полы - сделка происходит на «сером рынке». И покупатель соглашается купить!
Эта статья является продолжением материала "Дефицита нет, платить не нужно".
Преступность в США и России: сравнительный обзор
В предыдущем цикле статей я начал рассматривать открытые данные по преступности в США в разных контекстах (связь с расовой принадлежностью, преступления на почве нетерпимости, нападения на полицейских). Мне стало интересно сравнить преступность в США с ситуацией в нашей стране, благо эти данные тоже легко найти. Получилось познавательно. Интересно?
Ларри Лессиг о создании Creative Commons 20 лет назад: «Мы были лучше, чем казались. Раньше наша доброта не была видна»
В таком интервью один из основателей Лоуренс Лессиг вспомнил, что 20 лет назад весь мир спорил о двух переменах. Технологии дали возможность делиться контентом в больших масштабах, но законы были изменены так, чтобы всё больше контролировать доступ к контенту и его распространение. Обе стороны находились в состоянии «гонки вооружений». И многие люди боялись, что такой закон победит технологии в этой войне.
Как сказал Лессиг, некоторые из нас подумали, может ли быть что-то другое, кроме системы «все права сохранены». Мы могли бы попытаться создать схему «некоторые права сохранены». Лессиг задался вопросом: «вместо того, чтобы говорить «нет», можно ли сделать пометку „да, пожалуйста, возьми то, что я создал, и поделись с другими“?». Мы не хотели сказать музыкантам, что их работа должна быть бесплатной. Мы не хотели сказать режиссеру, что он не может продавать билеты. Мы не хотели никому грозить пальцем, мы просто хотели дать каждому возможность делать то, что человек хочет делать. Правда в том, что успехи CC не были достигнуты критикой других людей. Вместо этого CC просто дала лёгкую возможность делать правильные вещи, делать то, что автор считает правильным.
«Запуск» лицензий состоялся уже в Сан-Франциско 16 декабря 2002 года. К сотням собравшихся обратились сам Лессиг, Джон Перри Барлоу (автор Декларации независимости киберпространства) и, что необычно, Джек Валенти (лоббист от киноиндустрии).
Научные знания по свободной лицензии. Генеральная конференция ЮНЕСКО утвердила документ об «открытой науке»
Для CC большая честь быть частью глобального сообщества, которое разрабатывало, анализировало и пересматривало Рекомендацию. Мы твердо убеждены, что открытый доступ к знаниям является необходимым, хотя и недостаточным условием для решения больших комплексных проблем. Улучшенный обмен научными статьями, данными и научными образовательными ресурсами является необходимым условием для достижения прогресса в достижении Целей устойчивого развития ООН, глобальных вызовов, с которыми мы сталкиваемся сегодня.
Как показали пандемия COVID и изменение климата, существует серьезная необходимость ускорить прогресс в создании, обмене и распространении научных знаний. Рекомендации ЮНЕСКО по открытой науке и открытым образовательным ресурсам — это международные принципы, которыми могут руководствоваться правительства стран, спонсоры, образовательные учреждения, ученые, педагоги и организации гражданского общества, работая над созданием мира, в котором открытый доступ к знаниям является одним из основных прав человека.
Рекомендация устанавливает международный стандарт, определяющий понятия «открытая наука» и соответствующие правила и практики, направленные на улучшение обмена знаниями в мировом научном сообществе.
Парсим ГАР БД ФИАС в удобный формат в питоне. Бесплатно, без регистрации и СМС
Если вам зачем-то понадобилась полная адресная база России, то самый простой и дешевый способ ее заполучить — это скачать на сайте налоговой. Да, вот так вот просто все. Ну почти.
Да, это полная официальная адресная база России, просто в открытом доступе, никто ничего не спрашивает, просто раздают. Сделали на наши налоги, и честно всем, как скамейку в парке, отдают в пользование. Прекрасно? Да!
"В чем же подвох?", — спросите вы, прищурившись.
Кратко: формат ужасен, документация очень плоха и должного единообразия данных не наблюдается, чем успешно пользуются коммерческие компании, перепродающие бесплатные данные (иногда пылесосят имейлы). Но такую несправедливость можно исправить.
Как работать с HR-данными: беседа с Андреа Дерлер
Имея опыт исследований в области управления, науки и консультирования по вопросам человеческого капитала, Андреа Дерлер привносит свое увлечение человеческой динамикой в организации, чтобы возглавить наши исследования.
Спутниковая интерферометрия для танцующих гор Ирана на Google Colab
В статье Танцующие горы Ирана по данным спутниковой интерферометрии показан очень необычно выглядящий результат спутниковой интерферометрии. Сегодня мы посмотрим, что же это значит и почему именно этого и следует ожидать. Ранее в статье PyGMTSAR, или спутниковая интерферометрия для всех с примерами Jupyter Python ноутбуков на Google Colab я рассказал про свой пакет для спутниковой интерферометрии на основе радарных снимков Sentinel-1 PyGMTSAR (Python GMTSAR), написанный именно для того, чтобы быстро и удобно получить и проанализировать результаты непосредственно в Python ноутбуке.
По ссылке вы найдете готовый ноутбук на Google Colab, позволяющий прямо в браузере выполнить всю обработку и увидеть результаты и, при желании, тут же поработать с ними: Yamchi DAM Interferograms Persistent Scatterer Interferometry (PSI) Analysis Для Debian Linux я сделал скрипт инициализации облачного инстанса GMTSAR.install.debian10.sh, а на Google Colab ноутбук автоматически установит все необходимые зависимости, просто следуйте подсказкам в ноутбуке.
Открытые данные Министерства культуры РФ — оказались не открытыми данными
Мы узнали об этом, изучая ситуацию, которая сложилась вокруг использования открытых данных с сайта Министерства культуры РФ. Сначала Минкульт воплотил в них общедоступную информацию. Но затем Минкульт решил, что пора ограничить использование этих открытых данных.
Вклад авторов
-
ibegtin 1116.0 -
ruASG 873.0 -
shukshinivan 460.0 -
ilusha_sergeevich 415.0 -
Meklon 366.0 -
S0mbre 347.0 -
alexanderkuk 347.0 -
DEADStop 340.0 -
J_o_k_e_R 258.0 -
Rassudov 247.0