Как стать автором
Обновить
7.43
Рейтинг

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга

Сервис для оперативной оценки стоимости своих навыков на рынке труда

Открытые данные *Карьера в IT-индустрии Статистика в IT

Уважаемые читатели, хочу представить Вашему вниманию свой небольшой проект https://sugar-beet.herokuapp.com/, который является воплощением идеи описанной в своей предыдущей статье Сколько ты стоишь? Метод анализа вакансий с HR-агрегаторов. Стадию развитию его можно определить как MVP. Однако, к сожалению, Heroku отказывается от бесплатного тарифа 28 ноября 2022 года, что печально. Собственно выкладываю текущую версию на всеобщее обозрение, через 2 месяца она всё равно "превратится в тыкву". Приветствую всех заинтересовавшихся.

Читать далее
Всего голосов 12: ↑11 и ↓1 +10
Просмотры 9.5K
Комментарии 11

Новости

Исследуем микроорганизмы Байкала. Открытый проект MaritimeAI и Yandex Cloud

Блог компании Яндекс Open source *Открытые данные *Машинное обучение *Экология


Всем привет! Я работаю в MaritimeAI, и вместе с Yandex Cloud мы строим систему, которая позволяет учёным в НИИ биологии Иркутского государственного университета мониторить экологию озера Байкал.

Ещё недавно подсчёт и определение разнообразных видов планктона сотрудники выполняли вручную: с помощью микроскопа, глаз и бланка, в котором отмечали наличие того или иного организма. Мы решили это автоматизировать — а заодно поделиться датасетом с сообществом на Гитхабе. В конце поста поясню, кому может быть полезен датасет, как он будет обновляться и что ещё появится в репозитории. Но давайте обо всём по порядку.
Читать дальше →
Всего голосов 19: ↑19 и ↓0 +19
Просмотры 2.1K
Комментарии 13

Четыре функции для быстрой работы с Big Data

Python *Big Data *Открытые данные *Визуализация данных *

Я часто пользуюсь функциями для работы с большими данными. Они позволяют упросить и ускорить работу. Некоторые я нашел на просторах интернета, другие написал сам. Сегодня хочу поделиться четырьмя из них, может кому-то будет полезно.

Читать далее
Всего голосов 11: ↑9 и ↓2 +7
Просмотры 5.7K
Комментарии 8

Введение в анализ генетической информации с использованием TensorFlow

Блог компании OTUS Python *Открытые данные *Машинное обучение *Data Engineering *

Относительная доступность методов секвенирования ДНК и большое количество доступной в открытых источниках генетической информации сделала актуальной разработку нейронных сетей, предназначенных для анализа цепочек ДНК и поиска корреляций между признаками и геномной последовательностью. В статье мы рассмотрим основы кодирования генетической информации и обсудим дополнение от исследовательской команды генетики Google Nucleus для Tensorflow, который позволяет считывать основные форматы кодирования генетической информации и представлять их в виде набора данных, которые могут быть проанализированы с использованием тензорных графов на основе Tensorflow.

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Просмотры 1.8K
Комментарии 0

Одна панель, чтобы объединить все визуализации. Panel for Python

Блог компании OTUS Python *Открытые данные *Визуализация данных *

Качественная визуализация данных не менее важна для анализа данных, чем методы математической обработки. На сегодняшний день существуют десятки (если не сотни) библиотек для визуализации наборов данных на Python, но иногда в них встречаются уникальные возможности и хотелось бы иметь возможность объединить различные инструменты в единой панели. В статье мы рассмотрим основы библиотеки panel для реализации реактивной модели интерактивных визуализаций и попробуем объединить визуализации из разных библиотек в одном dashboard.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Просмотры 3.5K
Комментарии 1

Ищем скрытые смыслы. Графовые нейронные сети на основе Spektral

Блог компании OTUS Python *Открытые данные *TensorFlow *

Развитие методов глубокого машинного обучения привело к росту популярности нейронных сетей в задачах распознавания образов, машинного перевода, генерации изображений и текстов и многих других. С 2009 года нейронные сети попытались применить напрямую в задачах обработки графов (к которым могут относиться системы веб-страниц, связанных ссылками, словари с определенными отношениями между словами, граф социальных связей и другие) и среди возможных задач можно определить поиск кластеров узлов, создание новых графов на основе имеющейся информации о структуре графа, расширение графа и предсказание новых связей и другие. Сейчас выделяют несколько типов нейронных сетей на основе графов - сверточные графовые сети (Convolutional Graph Network), графовые изоморные сети (Graph Isomorphism Network) и многие другие и они часто используются для анализа цитирования статей, исследования текста (представление предложения как графа с указанием типов отношений между словами), изучения взаимосвязанных структур (например, исследования белковых молекул, в частности сеть Alphafold использует модель GNN) и т.д. В статье мы рассмотрим некоторые общие вопросы создания и обучения графовых сетей на основе библиотеки Python Spektral.

Читать далее
Всего голосов 10: ↑9 и ↓1 +8
Просмотры 2.6K
Комментарии 0

Кратко об OData

Разработка веб-сайтов *Поисковые технологии *Data Mining *Открытые данные *
Tutorial

Протокол OData (или Open Data Protocol) не часто встречается на практике. Чаще мы видим собственные решения по поводу проектирования RESTful API и тратим на это много времени. Но за долгое время существования REST, уже были собраны лучшие практики, которые слились в OData. На просторах интернета не много ресурсов для изучения. Давайте исправим это. В этой статье приведены основные варианты использования OData с примерами.

Что внутри?
Всего голосов 14: ↑14 и ↓0 +14
Просмотры 5.8K
Комментарии 48

Могут ли компьютеры изобретать? Создаем аналог ТРИЗ на нейронных сетях архитектуры Трансформер

Открытые данные *Машинное обучение *Искусственный интеллект Natural Language Processing *
Из песочницы

Современные языковые модели достигли впечатляющих результатов в некоторых задачах, которые раньше были под силу только человеческому разуму. Так, например, некоторые модели могут без затруднений искать ответы на вопросы, сформулированные на естественном языке в огромных массивах текстовой информации, при этом они не "подсматривают" во внешние источники, а хранят все знания в своей памяти (например, некоторые модели архитектуры T5). Можно пойти дальше и задаться целью создать языковую модель для решения специфичной изобретательской задачи, которая может стоять перед техническим экспертом. В рамках данной публикации попробуем ответить на вопрос могут ли современные нейронные сети генерировать решения изобретательских задач по описанию текущего состояния технической системы и проблемы, которую необходимо устранить.

Читать далее
Всего голосов 21: ↑15 и ↓6 +9
Просмотры 6K
Комментарии 56

Мистика культурных ценностей Петербурга глазами аналитика

Python *Открытые данные *Визуализация данных *
Из песочницы

На днях мне позвонил друг и сказал, что хочет остановиться в Питере на пару-тройку дней и посмотреть старинные памятники архитектуры нашей культурной столицы. Спросил совета, — где бы ему остановиться поближе к центру города, чтобы успеть посмотреть Летний сад и все такое

А поскольку буквально на днях я завершил вводную часть курса Аналитик данных, то и решил потренироваться на друге в применении логики такого анализа. Забегая вперед, скажу, что результат меня несколько удивил, возможно где-то в моей логике ошибка. Если так, то поправьте меня. Я только учусь.

Погрузиться в исследование
Всего голосов 13: ↑10 и ↓3 +7
Просмотры 4K
Комментарии 19

Особенности эксплуатации морально устаревшего парка станков и оборудования в современной России

Высокая производительность *Анализ и проектирование систем *Открытые данные *
Из песочницы

В стремительно развивающемся мире важно соответствовать заданным темпам совершенствования технологических процессов. Однако, не все предприятия готовы к модернизации. Это может быть связано и с излишней экономией на оборудовании, либо отсутствием такой возможности в финансовом отношении.

Один из основных вопросов, с которым сталкивается руководство таких предприятий – «Как с помощью морально устаревшего парка станков реализовывать тот же объем продукции, который бы исполнялся на самом современном оборудовании?». Сложно, но не невозможно.

Читать далее
Всего голосов 11: ↑10 и ↓1 +9
Просмотры 5.1K
Комментарии 13

Интервью с создателями Organic Maps — открытых мобильных карт на основе OpenStreetMap

Open source *OpenStreetMap *Открытые данные *Интервью

В июне прошлого года вышла первая версия программы Organic Maps - бесплатных мобильных карт для Android и iOS с открытым исходным кодом. Об этом событии я опубликовал небольшую заметку на Хабре. Весь год шла интенсивная разработка, а число установок превысило 100 тысяч. Я решил взять небольшое интервью у разработчиков Organic Maps и обсудить с ними итоги года работы и планы на будущее.

Читать далее
Всего голосов 63: ↑62 и ↓1 +61
Просмотры 11K
Комментарии 68

И пусть страна подождёт: технические работы на ЕИС

Блог компании Европейский университет в Санкт-Петербурге IT-инфраструктура *Открытые данные *

Это Анастасия Карасева и Елена Веретённик, научные сотрудники Прикладного Центра МАСТ при Европейском университете в Санкт-Петербурге, и в этом тексте мы подробно расскажем о регламентных работах в единой информационной системе «Закупки» и о том, как они связаны со сверхурочной работой специалистов по госзакупкам.

Единая информационная система «Закупки» (ЕИС) — цифровая среда, где в России осуществляются государственные закупки. В ЕИС есть две части: открытая и закрытая. Данные из открытой части доступны для анализа: их можно использовать as is или взять обработанными с сайта «Госзатраты». Нам довелось поработать с ЕИС в ходе проекта про сверхурочную работу специалистов по госзакупкам. Наше исследование было посвящено сверхурочной работе «закупщиков». Мы оценивали долю закупок, опубликованных в ЕИС в нерабочее время (в будни с 19:00:01 до 07:59:59 и в выходные) в разных регионах и у разных организаций. Мы обнаружили, что открытыми данными из ЕИС не так-то легко воспользоваться. Но это было не единственное открытие.

В какой-то момент мы увидели, что в отдельные рабочие дни доля неурочных закупок могла достигать 100%.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 2.3K
Комментарии 2

Астрологи объявили неделю страданий. +3 Неочевидные сложности в работе с открытыми данными о госзакупках

Блог компании Европейский университет в Санкт-Петербурге Открытые данные *

Привет, Хабр.

Мы — Анастасия Карасева и Елена Веретённик, научные сотрудники Прикладного Центра МАСТ Европейского университета в Санкт-Петербурге, а этот текст — о боли работы с открытыми неагрегированными данными госзакупок. Мы сделали свой первый самостоятельный дата-проект на данных из xml контрактов по 44-ФЗ, которые доступны в российской единой информационной системе «Закупки». Эта история — о страданиях, возрождении и ряде небольших открытий, которые помогут начинающим дата-сайентистам легче и увереннее пройти похожий путь в открытых хранилищах данных.

ЕИС «Закупки» — база открытых данных, в которой размещается различная документация о закупках начиная с 2011 года: извещения, контракты и пр. Данные, как правило, хранятся в зазипованных xml на ftp сервере. Структура папок и документов строго регламентирована справочниками, альбомами и схемами. Но не всё так однозначно…

(Помимо ЕИС, открытые данные о госзакупках — уже структурированные и обработанные — можно найти на сайтах «Госзатраты» и «Госрасходы», но там представлены не все тэги из оригинальных xml-файлов. Далее мы будем использовать для сравнения обработанные версии контрактов с «Госзатрат».) 

Целью нашего проекта было исследование сверхурочной работы в госзакупках в разных регионах России, и нам лучше подходили открытые и необработанные данные: там была метка о времени (таймстамп). Эта метка создаётся автоматически и отражает действие специалиста по закупкам в режиме реального времени, а значит, может служить надёжным цифровым следом его работы. 

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 1.4K
Комментарии 3

Что быстро проверить у контрагента, чтобы не нарваться на мошенника

Блог компании HFLabs API *Открытые данные *Разработка под e-commerce *

Владельцы компаний знают: перед тем как подписывать договор, контрагента хорошо бы проверить. Иначе рискуешь отдать деньги мошеннику или банкроту. Только времени и сил на проверку часто не хватает. Рассказываем, что с этим делать.

Читать далее
Всего голосов 7: ↑5 и ↓2 +3
Просмотры 2.5K
Комментарии 12

Визуализация и анализ зимних температур Алматы за последние сто лет на Streamlit

Python *Открытые данные *Визуализация данных *Экология
Из песочницы

Как менялись зимние температуры в Алматы за сто лет, анализ на Streamlit.

Читать далее
Всего голосов 12: ↑12 и ↓0 +12
Просмотры 2.9K
Комментарии 2

Работа с отсутствующими значениями в Pandas

Python *Программирование *Открытые данные *Визуализация данных *Машинное обучение *
Из песочницы
Tutorial

Когда значение данных для объекта для определенного наблюдения не сохраняется, это означает, что эта функция имеет недостающее значение. Обычно отсутствующее значение в наборе данных отображается как вопросительный знак , ноль, NaN или просто пустая ячейка. Но как можно справиться с недостающими данными?

Конечно, каждая ситуация отличается и должна оцениваться по-разному. Есть много способов справиться с недостающими значениями. Рассмотрим типичные варианты на примере набора данных - 'Titanic'. Эти данные являются открытым набором данных Kaggle.

Для анализа необходимо импортировать библиотеки Python и загрузить данные.

Для загрузки используется метод Pandas - read.csv(). В скобках указывается путь к файлу в кавычках, чтобы Pandas считывал файл во фрейм данных (Dataframes - df) с этого адреса. Путь к файлу может быть URL адрес или вашим локальным адресом файла.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 11K
Комментарии 10

Как вытянуть данные через официальный API ВК

API *ВКонтакте API *Открытые данные *Визуализация данных *Интернет-маркетинг *
Из песочницы

API ВКонтакте используют не только для сбора статистики, но и для отложенного постинга, отправки сообщений. Мы с командой активно применяем его для автоматизации отчетности по SMM и таргету. Поэтому поговорим про сценарии использования, когда нужно получить статистику из ВКонтакте для обработки в других системах. Кратко расскажем, как в целом работает API, поделимся методами, которыми пользуемся сами. В конце пройдемся по сложностям, от которых зависит результат.

Читать далее
Рейтинг 0
Просмотры 7.1K
Комментарии 1

«Тюрьма народов»: сколько, кто и за что сидит в США, России и Европе

Python *Открытые данные *Визуализация данных *

Результат исследования данных из открытых источников по тюрьмам США, России и Европы. Статья расскажет вам о численности тюрем, заключённых, их распределению по возрасту, полу, совершённым преступлениям и о многом-многом другом... Каков процент наполнения тюрем в России и США? Каков уровень рецидивизма? За что сидит большинство заключённых? Сколько приходится заключённых на одного охранника? Сколько тратит правительство на уголовную систему?

Узнать ответы
Всего голосов 119: ↑89 и ↓30 +59
Просмотры 38K
Комментарии 79

Небезопасная разработка

Информационная безопасность *Разработка веб-сайтов *Открытые данные *GitHub *История IT

Статья является продолжением статьи: История утечки персональных данных через Github.

Сегодняшняя подборка:

1. Персданные, пароли, рабочие секреты, все в куче

2. Пасхалка с персональными данными в рабочем проекте

3. Креды для доступа в даркнет

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 5.1K
Комментарии 7

История утечки персональных данных через Github

Информационная безопасность *Git *Открытые данные *GitHub *Карьера в IT-индустрии

История про одного нерадивого участника воркшопа от GeekBrains и, как он случайно слил персональные данные и иную конфиденциальную информацию.

Читать далее
Всего голосов 6: ↑4 и ↓2 +2
Просмотры 6.1K
Комментарии 18

Вклад авторов