В данной статье представлен способ максимально быстро получить результат используя Google Colab в качестве платформы для обучения модели HTR.
Открытые данные *
Данные будут свободны!
- Новые
- Лучшие
- Все
- ≥0
- ≥10
- ≥25
- ≥50
- ≥100
Что же не так с любыми электронными голосованиями?
Данная публикация написана по мотивам поста «Что же не так с ДЭГ в Москве?». Его автор описывает, как можно выгрузить и расшифровать данные по электронному голосованию, а также приводит целый список замечаний к его текущей системе.
Статья хорошая, её выводы и замечания я полностью поддерживаю, но мне захотелось дополнить её в обеих частях. Первая — с анализом того, как в процессе голосования менялись отданные за различных кандидатов голоса (и обнаруженные в этом аномалии); вторая — моя позиция о фундаментальных недостатках любого электронного голосования, которые неустранимы на практике (особенно в современной России).
UPD: Добавил также графики по партийным спискам + отметил некоторые странности в соотношении выданных/полученных транзакций в самом начале (возможно, это объяснимо техническими проблемами).
Геоаналитика с помощью Python и открытых данных: пошаговое руководство
Геоаналитика с помощью Python: GeoPandas, folium, Uber H3, OSM + примеры как можно определять лучшие локации для поиска помещений под открытие кофейни (и не только).
Данные выборов получили, теперь деобфусцируем и очищаем
В 2021 году Центризбирком РФ обфусцировал статистические данные выборов на своем сайте. Несколько дней назад я сделал и выложил в комментариях к новости на хабре деобфускатор, чтобы помочь исследователям обнаружить статистические аномалии в результатах. Сегодня взял день отпуска, написать этот пост и поделиться очищенными данными в формате sqlite по федеральному избирательному округу, которыми поделился @illusionofchaos в посте Получаем данные результатов выборов с сайта Центризбиркома РФ
Под катом я предлагаю еще раз посмотреть, какими техническими методами затрудняли анализ программисты сайта ЦИК-а. Новых идей там нет, решения примитивные , даже обидно что кто-то за них квартиру получил[*]. Вся работа по написанию деобфускатора заняла меньше рабочего дня (точнее вечера + полночи). Основная цель этой статьи не в описании методов, а дополнительный анонс деобфускатора для исследователей. Обсуждать решение применить методики запутывания на государственном сайте куда интереснее, но этим бессмысленно заниматься в интернете.
Итак, они реализовали четыре метода:
Получаем данные результатов выборов с сайта Центризбиркома РФ
Прочитав новость о том, что Центризбирком РФ выложил результаты выборов на своем сайте в обфусцированном виде, многие начали публиковать в комментариях свои варианты деобфускаторов, как с использованием OCR, так и без него. Но я подумал, что есть более первостепенная задача — а именно выгрузка и сохранение данных с сайта ЦИК, так как они могут в любой момент измениться, и никто этого не заметит.
Кому интересны только сырые обфусцированные данные, архив с ними можно скачать здесь (внимание: в распакованном виде файлы занимают 11 ГБ). А кому интересно как я их получил, и какие методы обфускации в них применяются — добро пожаловать под кат.
Как спарсить любой сайт?
Меня зовут Даниил Охлопков, и я расскажу про свой подход к написанию скриптов, извлекающих данные из интернета: с чего начать, куда смотреть и что использовать.
Написав тонну парсеров, я придумал алгоритм действий, который не только минимизирует затраченное время на разработку, но и увеличивает их живучесть, робастность и масштабируемость.
Без GPS и геолокации: узнаём местоположение пользователя, используя сим-карту
Рассказываю, как в Android получить доступ к местоположению устройства без использования GPS или службы определения местоположения. Для этого понадобится лишь... сим-карта.
И, да, даже если вы параноик, это совсем не значит, что за вами не следят.
«Жижитализация» по-украински. Или как неумелые реформы ставят под угрозу персональные данные жителей целой страны
Украина - первое в мире государство, приравнявшее электронные паспорта к физическим документам
Е-паспорт отныне имеет одинаковую юридическую силу с бумажным и ID-картой. Пока украинцы отдыхали, наслаждаясь выходными, и праздновали День Независимости (24 августа) - за день до этого, 23 августа вступил в силу новый закон № 1368-ІХ, что закрепляет на наивысшем законодательном уровне определение е-паспортов и полностью приравнивает их к физическим аналогам. Отныне е-паспорта в разработанном правительством мобильном приложении «Дия» можно использовать при путешествиях наземным и авиа транспортом в пределах Украины, в банках, медицинских учреждениях, для получения административных услуг и прочего.
Недавно созданное Министерство цифровой трансформации громко и с гордостью заявляет, что «Украина стала первым государством в мире с цифровыми паспортами, которые имеют такую же юридическую силу, что и бумажные документы.» Но что может скрываться за этой инновацией? Вспомним некоторые из них новостей в недалёком прошлом.
Частично данные темы были рассмотрены в одном из спецвыпусков "IT Guild Ukraine", - часть информации будет приведена далее.
Домик в деревне, потоп, и цифровые модели рельефа
Сбылась мечта вашего детства—вы присмотрели себе домик в деревне! Домик в отличном состоянии, из окна прекрасный вид, под самым окном тихо журчит речка Переплюйка, жизнь прекрасна! Вы совсем было собрались его купить, но вдруг достали телефон и зачем-то решили почитать новости. А там—изменения климата, очередное наводнение неважно где, с разрушениями и жертвами. И вдруг вы с беспокойством смотрите на речку Переплюйку прямо перед вами, и думаете, а не превратится ли она в случае чего в бурный поток, смывающий всё нажитое непосильным трудом? Давайте посмотрим, чем технологии ГИС (геоинформационных систем) могут вам помочь, и почему свободный доступ граждан к географическим данным полезен для принятия решений.
Немного о вариабельности SARS-CoV-2
На сегодняшний день применяется не менее четырёх способов классификации вариантов SARS-CoV-2 (или hCoV-19). Проще всего с непривычки запутаться в ветвях филогенетического дерева (кладах), по-разному обозначаемых двумя конкурирующими организациями – GISAID (gisaid.org) и Nextstrain (nextstrain.org). Лавинообразное нарастание количества вариантов вируса усложняет восприятие и понимание подобных обозначений, поэтому деление на клады постепенно вытесняется делением на линии, обозначенным как PANGOLIN (Phylogenetic Assignment of Named Global Outbreak LINeages). Для такого деления используется секвенирование вирусных геномов и построение их полного филогенетического дерева.
Танцующие горы Ирана по данным спутниковой интерферометрии
Территория северо-западного Ирана на границе с Каспийским морем выделяется своей сейсмической необузданностью, как во времена молодости нашей планеты. В недрах этого района и сегодня продолжаются процессы нефтегазообразования, например, поблизости от вулкана Дамаванд, геологическую модель которого я показывал ранее. Недавно я занимался вопросом устойчивости плотины Ямчи в провинции Ардебиль и полученные результаты оказались настолько удивительными, что я хочу ими здесь поделиться. Пусть в предыдущих статьях я уже показывал, как растут горы, но чтобы горы еще и танцевали — это мало где удастся увидеть! Как обычно, все данные доступны в GitHub репозитории Yamchi Dam, Ardabil, North Iran.
Плотина выделена красным кольцом, далее от нее в направлении к правому верхнему краю картинки течет река, питающая город Ардебиль. Озеро и плотина растут вверх со коростью около 10 см в год, а сам город с такой же скоростью погружается вниз. Но самое интересное в том, как именно происходит это движение — хотя значение вертикального смещения за год велико, это лишь малая часть общей картины.
Трехлетняя работа в Общественном совете при Казначействе России и новый Профсоюзный общественный совет
Последние 10 лет я занимаюсь открытыми данными, в основном финансовыми, веду общественный проект АНО “Инфокультура” “Госзатраты” (clearspending.ru) и веду телеграм-канал “Ах, Минфин” о том, как публикуются финансовые данные в России и как в них разобраться обычным гражданам. Последние три года я также была членом Общественного совета при Федеральном казначействе (ОС ФК), о котором и пойдет речь в данном посте.
На днях был выбран новый состав Общественного совета, поэтому пришло время подвести итоги моей работы в рамках ОС ФК. В первую очередь, хотела бы поблагодарить коллег по Совету и отдельно его председателя, а также сотрудников Федерального казначейства, которые старались сделать Казначейство более открытым, а работу Совета осмысленной и полезной.
Сформулирую несколько тезисов о работе в Общественном совете.
Война за наши данные. Что сейчас происходит внутри Консорциума World Wide Web
Может быть, не все знают. В интернете работает Консорциум Всемирной паутины (World Wide Web Consortium или W3C). Именно он разрабатывает принципы и стандарты, которые потом внедряют производители браузеров, аппаратуры и ПО. Так достигается совместимость между продуктами разных компаний. Интернет становится удобным и универсальным. Не приходится волноваться, что браузер или смартфон не сможет открывать какой-то сайт.
Форум W3C — один из самых увлекательных уголков интернета. Это онлайн-сообщество, где собираются люди, которые управляют Всемирной паутиной. Создатели крупнейших сайтов, разработчики браузеров, рекламщики, защитники конфиденциальности пользователей, ученые и так далее. Именно здесь главные разработчики таких компаний как Google и Apple представляют предложения по новым техническим стандартам. Остальная часть сообщества их обсуждает, и, если все пойдет хорошо, консорциум в конечном счете принимает новые правила, и они постепенно расходятся по всему интернету.
Сайт некоммерческой организации
Члены W3C принимают решения на основе консенсуса на публичных форумах, в GitHub и встречах Zoom с тщательно задокументированными протоколами. Постепенно создается редкий архив разговоров между некоторыми из самых секретных компаний мира, поскольку они открыто работают над новыми правилами для интернета.
Но в последнее время этот дух всеобщего сотрудничества упал. W3C стал ключевым полем битвы в войне за конфиденциальность в Сети. Последний год, вдали от внимания обычного потребителя или законодателей, люди, которые на самом деле управляют интернетом, собрались в этом небольшом сообществе инженеров и спорят о том, что такое конфиденциальность, как управлять данными пользователей, и какие стандарты нам нужно принять для будущего.
Персональные данные и всё, что о них нужно знать
1. Истоки правового регулирования персональных данных на западе и России;
2. Виды персональных данных и основные понятия ФЗ № 152;
3. Ответственность за нарушение персональных данных;
4. Судебная практика.
В последние десятилетия мы часто слышим в новостной ленте о том, как слили персональные данные, о так называемом «пробиве» информации о человеке. Роскомнадзор постоянно объясняет: как не стать жертвой мошенников, а эксперты дают нам рекомендации по цифровой гигиене.
Вроде как все понимают, что такое персональные данные и многие даже с уверенностью скажут, что к ним относятся паспортные данные, пароли, личная и семейная тайна. Однако, кто знает точные перечень персональных данных? Откуда вообще пошло правовое регулирование этих данных? Какую ответственность несут нарушители права на защиту персональных данных? Как воспринимают персональные данные суды?
Сегодня поговорим обо всём этом и попытаемся конкретизировать эту текучую субстанцию – персональные данные.
Декаданс венчурного капитала: как взращиваются современные «единороги»
DoorDash предлагал своим клиентам пиццу за $16 из ресторана, где она стоит $24. Сервис проката самокатов Bird терял $27 на каждые заработанные $10. Примеров компаний, предоставляющих субсидируемый инвесторами сервис масса: Uber, Lyft, Lime, WeWork, AirBnB и другие. Весь их «дисрапшн» заключался в продаже доллара за полцены. Сейчас они резко поднимают стоимость своих услуг, но по-прежнему несут миллиарды убытков.
OrganicMaps — релиз форка Maps.me с открытым кодом
Открытые данные в России в 2021 году
Открытые данные в России, официально существуют уже 8 лет, 10 июня 2013 года был мой пост на хабре о принятии соответствующего закона.
Что изменилось за эти годы? Стало ли лучше или хуже? Работают ли порталы открытых данных? Публикуются ли данные?
Для тех кто интересуется состоянием открытых данных в России, я решил актуализировать цифры и собрать в виде набора фактов:
Датасет о мобильных приложениях
Моя основная работа связана с мобильной рекламой, и время от времени мне приходится работать с данными о мобильных приложениях. Я решил сделать некоторые данные общедоступными для тех, кто хочет попрактиковаться в построении моделей или получить представление о данных, которые можно собрать из открытых источников. В этой статье я представлю датасет и, используя его, построю одну модель.
Как свободное программное обеспечение может ускорить цифровизацию
Софт с открытым кодом незаменим при внедрении технологий искусственного интеллекта и больших данных. IT-стартапы уже не используют проприетарные решения. От государства проектам Open Source Software (OSS) нужна грантовая поддержка, универсальная платформа и грамотная политика в сфере подготовки кадров. В России вопросы развития этого направления в 2021 году включены во второй пакет мер поддержки IT-отрасли.
OpenNotes — когда пациент знает, чем он болен и как его лечат
Обычно вы посещаете врача по случаю болезни или ежегодного медицинского обследования. Во время приема доктор измеряет несколько показателей — пульс, артериальное давление, вес, — которые зачастую не позволяют судить о состоянии здоровья в целом. При наличии подозрений на серьёзное заболевание вас могут отправить на более подробные исследования и анализы или к профильному специалисту. А что если ежегодный медосмотр далеко не самой эффективный метод? Рутинное обследование предоставляет врачу довольно мало информации, но при этом отнимает достаточно много времени. Несвоевременность или недостаточность информации не позволяет вовремя диагностировать серьёзные проблемы со здоровьем. Ваша медицинская карта по большей части состоит из спорадических измерений, констатаций фактов и диагностических кодов, удобных для выписки счетов за услуги. Слишком многое в процессе сбора и использования медицинской информации служит потребностям исключительно врачей, аптек, больниц и страховых компаний. Акцент получения и анализа должен быть смещён в сторону пациентов.
Вклад авторов
-
ibegtin 1116.0 -
ruASG 862.6 -
shukshinivan 460.0 -
ilusha_sergeevich 415.0 -
Meklon 366.0 -
alexanderkuk 347.0 -
DEADStop 340.0 -
J_o_k_e_R 258.0 -
Rassudov 247.0 -
VladFX 246.0