Как стать автором
Обновить
328.48
Рейтинг

Python *

Высокоуровневый язык программирования

Сначала показывать
Порог рейтинга

Анализируем речь с помощью Python: Как и о чем говорят на YouTube-канале «вДудь»?

Python *API *Визуализация данных Машинное обучение *Искусственный интеллект

Выход практически каждого ролика на канале «вДудь» считается событием, а некоторые из этих релизов даже сопровождаются скандалами из-за неосторожных высказываний его гостей.

Сегодня при помощи статистических подходов и алгоритмов ML мы будем анализировать прямую речь. В качестве данных используем интервью, которые журналист Юрий Дудь (признан иностранным агентом на территории РФ) берет для своего YouTube-канала. Посмотрим с помощью Python, о чем таком интересном говорили в интервью на канале «вДудь».

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 1K
Комментарии 6

Новости

Как с помощью Python создать приложение для расшифровки речи в реальном времени

Блог компании SkillFactory Разработка веб-сайтов *Python *Программирование *Голосовые интерфейсы
Перевод
Tutorial

Научить ИИ разговаривать шёпотом — непростая задача даже сегодня. Но мы покажем, насколько простыми стали распознавание и транскрипция речи, по крайней мере, на поверхности. Интересно? Тогда добро пожаловать под кат.

Читать далее
Всего голосов 7: ↑6 и ↓1 +5
Просмотры 2.7K
Комментарии 3

Как ускорить Python с помощью C-расширений. Часть 2

Блог компании МТС Python *C *
Tutorial

Привет, Хабр! Меня зовут Игорь Алимов, я ведущий разработчик группы Python в МТС Digital, и это вторая часть статьи, посвященной тому, как писать быстрый код на Python с использованием C-расширений. Я расскажу о всех нюансах и приведу конкретный пример применения этого метода.

Первую часть статьи читайте здесь, чтобы увидеть продолжение – переходите под кат!

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 1.9K
Комментарии 3

Собираем генератор данных на Blender. Часть 2: Камера

Блог компании Friflex Python *Машинное обучение *Искусственный интеллект
Tutorial

Всем привет! На связи Глеб, в предыдущей статье мы рассмотрели работу с объектами на Blender. Но для того, чтобы создать минимально жизнеспособный генератор, нужно разобраться в том, как работают камеры.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Просмотры 926
Комментарии 0

Как я дообучал Tesseract и что из этого получилось

Блог компании Росатом Python *
Из песочницы
Tutorial

Решал я как-то задачку по поиску сущностей в отсканированных документах. Чтобы работать с текстом, надо его сначала получить из картинки, поэтому приходилось использовать OCR. Выбор пал на одну из самых популярных и доступных библиотек Tesseract. С ее помощью задача решается очень неплохо и процент распознавания текста достаточно высокий, особенно на хороших сканах. Но нет предела совершенству, а так же ввиду наличия большого количества документов сомнительного качества, поулучшав пайплайн разными методами, было принято решение попробовать улучшить и сам тессеракт.

Инструкция от разработчиков https://tesseract-ocr.github.io/tessdoc/Home.html не всегда сразу понятна и очевидна, поэтому и появилась мысль записать свой опыт в эту статью.

У меня на компьютере стоит Linux Mint 20.2 Cinnamon, поэтому все действия происходят в этой системе и я не могу гарантировать, что все получится точно так же в Windows или Mac.

Для начала необходимо установить бибилиотеку tesseract на компьютер. Делается это достаточно просто. Сначала проверю версию, которая уже установлена (как правило в комплекте с Linux уже есть пакет tesseract). В терминале набираем

Читать далее
Всего голосов 10: ↑10 и ↓0 +10
Просмотры 1.9K
Комментарии 5

Компьютерное зрение в поиске атмосферных осадков

Python *Программирование *Машинное обучение *

Компьютерное зрение решает задачи поиска, отслеживания и классификации объектов в самых разнообразных областях: промышленности, медицине, сфере безопасности. Одно из возможных новых применений компьютерного зрения — выявление атмосферных осадков при помощи видеокамер наружного наблюдения. О том, как можно реализовать такой алгоритм и поговорим в этом посте.

Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Просмотры 784
Комментарии 2

Добавляйте единицы измерения в имена

Блог компании билайн бизнес Python *Программирование *Java *Совершенный код *
Перевод

Есть одна ловушка читаемости кода, которой легко избежать, если вы о ней знаете; тем не менее она встречается постоянно: это отсутствующие единицы измерения. Рассмотрим три фрагмента кода на Python, Java и Haskell:

time.sleep(300)

Thread.sleep(300)

threadDelay 300

Сколько «спят» эти программы? Программа на Python выполняет задержку на пять минут, программа на Java — на 0,3 секунды, а программа на Haskell — на 0,3 миллисекунды.

Как это можно понять из кода? А никак. Вам просто нужно знать, что аргументом time.sleep являются секунды, а threadDelay — микросекунды. Если вы часто ищете эту информацию, то рано или поздно её запомните, но как сохранить читаемость кода для людей, никогда не встречавшихся с time.sleep?
Читать дальше →
Всего голосов 58: ↑50 и ↓8 +42
Просмотры 12K
Комментарии 103

Как сделать ИИ для поиска алмазов в Minecraft

Блог компании SkillFactory Python *Машинное обучение *Искусственный интеллект Игры и игровые консоли
Перевод

В случайно сгенерированном мире Minecraft найдём алмазы с помощью ИИ. Как обученный с подкреплением агент проявит себя в одной из самых сложных задач игры? Подробностями делимся к старту флагманского курса по Data Science.

Читать далее
Всего голосов 10: ↑9 и ↓1 +8
Просмотры 7.3K
Комментарии 4

Визуализация и анализ зимних температур Алматы за последние сто лет на Streamlit

Python *Открытые данные *Визуализация данных Экология
Из песочницы

Как менялись зимние температуры в Алматы за сто лет, анализ на Streamlit.

Читать далее
Всего голосов 12: ↑12 и ↓0 +12
Просмотры 1.9K
Комментарии 1

Внедрение автотестов UI web-приложения через связку Python, Selenium и QASE (ч.2)

Python *Тестирование веб-сервисов *
Tutorial

Шесть месяцев назад на Habr была написана первая статья по этой теме. В ней описаны процессы, позволившие запустить автотестирование имеющегося web-приложения. Текущая статья описывает доработанный подход к тестированию того же web-приложения.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 728
Комментарии 0

Анонс: митап «Быстрый бэкенд». MongoDB, оптимизация алгоритмов и диагностика проблем в больших проектах

Блог компании Joom Python *Программирование *MongoDB *Go *
Привет, Хабр. Мы задумали встретиться офлайн в Москве и поговорить о том, как строить быстрый бэкенд и развивать его. Будут доклады о том, как живётся с большим кластером MongoDB, как битмап-индексы помогают быстро искать по каталогам и то, как анализировать большие объемы Jaeger-трейсов. Читайте пост: ниже тезисы и ссылка на регистрацию, встречаемся 4 июня.



Читать дальше →
Всего голосов 10: ↑9 и ↓1 +8
Просмотры 960
Комментарии 3

Анализ аудиоданных (часть 1)

Python *Программирование *Визуализация данных Машинное обучение *Звук
Tutorial

Каждый аудиосигнал содержит характеристики. Из MFCC (Мел-кепстральных коэффициентов), Spectral Centroid (Спектрального центроида) и Spectral Rolloff (Спектрального спада) я провела анализ аудиоданных и извлекла характеристики в виде среднего значения, стандартного отклонения и skew (наклон) с помощью библиотеки librosa.

Для классификации “живого” голоса (класс 1) и его отделению от синтетического/конвертированного/перезаписанного голоса (класс 2) я использовала алгоритм машинного обучения - SVM (Support Vector Machines) / машины опорных векторов. SVM работает путем сопоставления данных с многомерным пространством функций, чтобы точки данных можно было классифицировать, даже если данные не могут быть линейно разделены иным образом. Для работы я использовала математическую функцию, используемой для преобразования (известна как функция ядра) - RBF (радиальную базисную функцию).

В первой части анализа аудиоданных разберем:

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 1.7K
Комментарии 7

Авто преписка в тг с привязкой к Google Calendar

Python *
Recovery mode

Всем привет!

У меня была такая проблема что я каждый день когда ложился спать всегда ставил в нике преписку что то по типу [БУДУ ЗАВТРА В 8:00] так вот в какой то момент меня это доконало и я решил сделать так что бы скрипт сам делал мне эту преписку, но будет брать события с Google Calendar. Думаю это довольно удобно ведь так можно будет записывать в календарь все свои дела а скрипт будет автоматически ко времени преписывать их к нику.

давайте начнем!

и начнем мы с самого сложного, настройкой своего гугл аккаунта

заходим на этот сайт https://console.cloud.google.com/ входим в аккаунт гугл (не бойтесь его потерять, это официальный сайт гугла) и заполняем небольшую анкету:

первым делом мы видим такую картину

Читать далее
Всего голосов 12: ↑3 и ↓9 -6
Просмотры 2K
Комментарии 7

Собираем генератор данных на Blender. Часть 1: Объекты

Блог компании Friflex Python *Машинное обучение *Искусственный интеллект
Tutorial

Привет, Хабр! Меня зовут Глеб. Я работаю в компании Friflex над проектами по оцифровке спорта. Работая над idChess (приложением для распознавания и аналитики шахматных партий), мы расширяем наш датасет синтетическими данными. В качестве движка используем Blender. В этой статье рассмотрим основы взаимодействия с объектами, получение доступа через API, перемещение, масштабирование и вращение.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 1.8K
Комментарии 4

«Ваша сезонность, сэр!»: ищем тренд и прогнозируем спрос с помощью временных рядов, SARIMA и Python. Ч.1

Python *CRM-системы *Big Data * *
Tutorial

Как вы можете помнить по первой статье "Маркетинговая аналитика на Python. Пишем код для RFM-сегментации", более 8 лет я работаю в сфере маркетинга для B2B и примерно столько же бешусь от дилетантского подхода к аналитике, который тянет за собой ряд проблем с определением ключевых метрик эффективности для компании (и, как следствие, с мотивацией сотрудников):

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Просмотры 1.4K
Комментарии 5

Подгон под MNIST-овский датасет

Python *Машинное обучение *TensorFlow *
Из песочницы
Перевод

В интернете можно найти 1000 и 1 статью по тренингу мнистовского датасета для распознавания рукописных чисел. Однако когда дело доходит до практики и начинаешь распознавать собственные картинки, то модель справляется плохо или не справляется вовсе. Преобразуем произвольное изображение числа под MNIST-овский датасет.

Читать далее
Всего голосов 12: ↑10 и ↓2 +8
Просмотры 763
Комментарии 0

Работа с фреймворками Python: преимущества и проблемы

Блог компании Southbridge Python *Программирование *IT-инфраструктура *Карьера в IT-индустрии

Фреймворки помогают ускорить разработку и сделать её приятнее. Программу, которая раньше писалась неделю и занимала 1000 строк, с помощью фреймворка вы можете создать за пару часов и уместить в 50 строчках кода. Некоторые решения даже поставляются в виде подписки на сервисы, и программисту остаётся только написать шаблонный код — остальное сервис сделает сам. Несмотря на всё это, в российском IT всё равно чаще выбирают писать что-то своё, тратя на это много сил, времени и денег. Почему так происходит, попытались разобраться с Денисом Наумовым, Techlead и Data Engineer в Skyeng. 

Читать далее
Всего голосов 20: ↑12 и ↓8 +4
Просмотры 5.3K
Комментарии 2

StyleGAN3 — изображения в разном стиле одним кликом

Блог компании SkillFactory Python *Машинное обучение *Дизайн игр *
Перевод
Tutorial

В конце 2018 года в nVidia выпустили первую StyleGAN — и сегодня любители технологий с воодушевлением смотрят в будущее безграничных развлекательных медиа, генерируемых ИИ. Это будущее на практике показывает автор, материалом которого делимся к старту флагманского курса по Data Science.

Читать далее
Всего голосов 16: ↑15 и ↓1 +14
Просмотры 5.2K
Комментарии 0

Классификация гистологических изображений со светлоклеточным раком почки, используя Keras

Python *Машинное обучение *Искусственный интеллект TensorFlow *
Из песочницы

Мой первый любительский проект по классификации изображений со светлоклеточным раком почки, используя модели глубокого обучения, имплементированные на Keras. Весь пайплайн включал такие этапы, как:

1)    Получение полнослайдовых изображений (WSI) – подготовка датасета.

2)    Аннотация изображений

3)    Получение готового датасета (Train, Validation и Test)

4)    Выбор и тренировка моделей

5)    Тестирование моделей

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Просмотры 1.3K
Комментарии 5

Распределение вычислительной мощности между несколькими ПК

Python *Программирование *

В ходе работы возникла задач обработки огромного объема (~500 Гб) аудиозаписей в условиях ограниченного времени. На одном ПК обработка заняла бы не менее месяца, что не вписывалось в установленные заказчиком сроки. Возникла идея подключения компьютеров коллег, у которых ночью ПК «отдыхают».

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Просмотры 2.4K
Комментарии 12

Вклад авторов

Работа

Data Scientist
128 вакансий
Python разработчик
161 вакансия