Как стать автором
Обновить

Битва медведей: Pandas против Polars

Время на прочтение 8 мин
Количество просмотров 4.3K
Блог компании Spectr Python *Big Data *Машинное обучение *Искусственный интеллект
Обзор

Привет! На связи Грегори Салиба из Spectr.

Возможно, вы прочитали название статьи и подумали, что попали на программу «В мире животных». Но нет, речь пойдет о сравнении двух  гигантов аналитики данных в Python: Pandas и Polars. В этой статье мы подробно рассмотрим вопрос быстродействия этих двух решений в части работы с файлами больших объемов.

В статье мы сравним скорость обработки на примере конкретной задачи одного из проектов, разработку которого ведет наша команда.

Читать далее
Всего голосов 17: ↑15 и ↓2 +13
Комментарии 14

Что нового в Python за март — обсуждаем в прямом эфире

Время на прочтение 1 мин
Количество просмотров 1.5K
Разработка веб-сайтов *Python *Django *Flask *

Привет! В рамках Moscow Python Podcast поделимся интересными на наш взгляд новостями и апдейтами мира Python. Выпуск проведем 7 апреля в 14:00 по Москве. Обсудим LTS-релиз Django 4.2, релизы Pandas 2.0 и PyTorch 2.0 и другие новости последнего месяца. Больше под катом.

Читать далее
Всего голосов 13: ↑12 и ↓1 +11
Комментарии 0

Новая библиотека для анализа данных Pandas AI: стоит ли пробовать?

Время на прочтение 3 мин
Количество просмотров 1.1K
Python *Data Mining *Big Data *

Появилась новая библиотека Pandas AI - надстройка над популярной библиотекой для анализа данных Pandas.

Как уверяют разработчики, Pandas AI в свою очередь расширяет возможности Pandas за счет искусственного интеллекта.

Ниже краткий обзор.

Принцип работы Pandas AI

В редакторе кода задаете любой вопрос про данные на естественном языке и без написания кода получаете готовый ответ по вашим данным.

Какие вопросы можно задать? Любые вопросы, связанные с подготовкой, очисткой данных, визуализацией, исследовательским анализом данных, машинным обучением и т.д.

Простой пример, если спросить про данные о зарплате: "Кто в компании зарабатывает больше?". Pandas AI ответит: "Оливия зарабатывает больше".

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 1

Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas

Уровень сложности Простой
Время на прочтение 15 мин
Количество просмотров 949K
Блог компании Open Data Science Python *Data Mining *Визуализация данных *Машинное обучение *
Туториал


Открытый курс машинного обучения mlcourse.ai сообщества OpenDataScience – это сбалансированный по теории и практике курс, дающий как знания, так и навыки (необходимые, но не достаточные) машинного обучения уровня Junior Data Scientist. Нечасто встретите и подробное описание математики, стоящей за используемыми алгоритмами, и соревнования Kaggle Inclass, и примеры бизнес-применения машинного обучения в одном курсе. С 2017 по 2019 годы Юрий Кашницкий yorko и большая команда ODS проводили живые запуски курса дважды в год – с домашними заданиями, соревнованиями и общим рейтингом учаcтников (имена героев запечатлены тут). Сейчас курс в режиме самостоятельного прохождения.

Читать дальше →
Всего голосов 44: ↑43 и ↓1 +42
Комментарии 61

Data-driven подход к продакшну / Фильтры по акциям

Время на прочтение 6 мин
Количество просмотров 3.2K
Блог компании AGIMA Веб-аналитика *Growth Hacking *
data analysis

Что вас ждет в статье:
Описание подхода, который мы применили для исследования фильтров на сайте одного из наших клиентов, а также детальное описание технологий.

На кого рассчитана статья:
Статья будет интересна веб-аналитикам и всем, кто сталкивается с задачами исследования пользовательского опыта на основе количественных данных.

Дисклеймер:
Все описанное в статье является лишь мнением автора (Артем Кулбасов, веб-аналитик AGIMA) и не является единственно верным решением задачи. Многие описанные в статье технологии могут быть заменены аналогами.

Читать дальше →
Всего голосов 19: ↑13 и ↓6 +7
Комментарии 2

Расчет оттока клиентов банка (решение задачи с помощью Python)

Время на прочтение 2 мин
Количество просмотров 16K
Занимательные задачки Python *
Из песочницы
Хочу поделиться опытом решения задачи по машинному обучению и анализу данных от Kaggle. Данная статья позиционируется как руководство для начинающих пользователей на примере не совсем простой задачи.
Читать дальше →
Всего голосов 19: ↑14 и ↓5 +9
Комментарии 10

Призрак локомотива или биржевой рынок через призму корреляций

Время на прочтение 12 мин
Количество просмотров 6.3K
Python *Data Mining *Машинное обучение *
Recovery mode
В этой статье будет продемонстрирована техника обработки информации по биржевым котировкам с помощью пакета pandas (python), а также изучены некоторые «мифы и легенды» биржевой торговли посредством применения методов математической статистики. Попутно кратко рассмотрим особенности использования библиотеки plotly.

Одной из легенд трейдеров является понятие «локомотива». Описать ее можно следующим образом: есть бумаги «ведущие» и есть бумаги «ведомые». Если поверить в существование подобной закономерности, то можно «предсказывать» будущие движения финансового инструмента по движению «локомотивов» («ведущих» бумаг). Так ли это? Есть ли под этим основания?
image
Читать дальше →
Всего голосов 12: ↑10 и ↓2 +8
Комментарии 10

Как быстрее всего сфоткать 35 билбордов в Москве

Время на прочтение 5 мин
Количество просмотров 7.9K
Python *Геоинформационные сервисы *
Идеи, чем заняться на выходных, ITшники черпают из сотни разных источников. Я, к примеру, недавно увидел конкурс Открытого чемпионата школ по Экономике, заключающегося в том, чтобы сфотографировать максимальное число билбордов Чемпионата. Адреса организаторы любезно предоставили. И несмотря на то, что приз взрослому там не светит (это школьный конкурс), тем не менее крайне интересно было бы узнать, за какое минимальное время можно решить такую задачу.


Читать дальше →
Всего голосов 18: ↑18 и ↓0 +18
Комментарии 15

Идентификация мошенничества с использованием Enron dataset. Часть 2-ая, поиск оптимальной модели

Время на прочтение 9 мин
Количество просмотров 3.1K
Python *Машинное обучение *

Представляю вашему вниманию вторую часть статьи о поиске подозреваемых в мошениничестве на основе данных из Enron Dataset. Если вы не читали первую часть, ознакомиться с ней можно здесь.


Сейчас речь пойдет про процесс построения, оптимизации и выбора модели, которая даст ответ: стоит ли подозревать человека в мошеничестве?


Enron
Читать дальше →
Всего голосов 11: ↑10 и ↓1 +9
Комментарии 0

Как оптимизировать pandas при работе с большими datasetами (очерк)

Время на прочтение 3 мин
Количество просмотров 8K
Python *
Туториал
Когда памяти вагоны и/или dataset небольшой можно смело закидывать его в pandas безо всяких оптимизаций. Однако, если данные большие, остро встает вопрос, как их обрабатывать или хотя бы считать.

Предлагается взглянуть на оптимизацию в миниатюре, дабы не вытаскивать из сети гигантские датасеты.

В качестве датасета будем использовать хабрастатистику с комментариями пользователей за 2019 г., которая является общедоступной благодаря одному трудолюбивому пользователю:
dataset

В качестве инфо-основы будет использоваться ранее переведенная статья с Хабра, в которой намешано много интересного.
Читать дальше →
Всего голосов 12: ↑10 и ↓2 +8
Комментарии 8

Хабрастатистика: анализируем комментарии читателей. Часть 2, ответы на вопросы

Время на прочтение 4 мин
Количество просмотров 5.5K
Программирование *Веб-аналитика *Статистика в IT Социальные сети и сообщества Инфографика
Привет Хабр.

В предыдущей части были проанализированы сообщения пользователей этого сайта, что вызвало достаточно оживленную дискуссию на тему различных параметров (числа сообщений, рейтинга, «кармы» и пр). Таких вопросов накопилось достаточно, чтобы сделать вторую часть.



Тех кому интересно, какова длина самой большой дискуссии в комментариях за этот год, какая может быть максимальная и минимальная «карма» у пользователей, и другая статистика, прошу под кат.
Читать дальше →
Всего голосов 61: ↑59 и ↓2 +57
Комментарии 137

Задача: извлечь ключевые выражения из текста на русском языке. NLP на Python

Время на прочтение 6 мин
Количество просмотров 34K
Занимательные задачки Python *Алгоритмы *Машинное обучение *
Из песочницы
Что было нужно в самом начале:

  • программа, «выуживающая» из сырого текста на русском языке уникальные названия продукции по определенной отрасли. Сырой текст — текст, который писал человек, просто излагая свои мысли и не заботясь о формировании или выделении какого-либо списка слов;
  • автоматически получаемый список слов;
  • минимальная ручная или автоматизированная обработка для преобразования списка в набор хештегов или ключевых слов к тексту.

Полагаю, что неявно с проблемой многие сталкиваются ежедневно, после написания или анализа статьи, поста, комментария, заметки, отчета и т.д. Вот и мне по роду деятельности приходилось сталкиваться с данной проблемой по многу раз в день. Поэтому, можно сказать, к идее автоматизации меня привела «лень», в хорошем смысле этого слова.

Сейчас, когда я пишу эту статью, сохранилась идея, но набор данных конечного результата сильно изменился:

  • выбираются не слова, а ключевые выражения и в том числе слова;
  • список ключевых выражений размечен 16-ю различными маркерами;
  • все слова текста (в том числе и не ключевые) лемматизированы – приведены в начальную форму или унифицированы под выведенный формат;
  • каждое слово в тексте имеет дополнительную аналитику, относящуюся к положению по тексту и числу повторений.

Результаты работы ПО nrlpk (Natural Russian Language Processing by the Keys) подготавливают данные для:

  • анализа текстов неограниченного круга тематик и отраслей (разработка и тестирование проводилось по материалам тематики промышленности и ВПК — Военно-Промышленного Комплекса);
  • автоматической рубрикации, классификации, каталогизации, предметизации материалов (online площадки);
  • контроля и фильтрации по содержимому с настройками реакции системы (службам и системам безопасности в замкнутых контурах или online);
  • многослойной разметки текстов (ИИ).

Качество

Открыть полный текст
Всего голосов 12: ↑10 и ↓2 +8
Комментарии 23

Изменение климата: анализируем температуру в разных городах за последние 100 лет

Время на прочтение 4 мин
Количество просмотров 43K
Python *Программирование *Визуализация данных *Научно-популярное Инфографика
Туториал
Привет, Хабр.

Про изменение климата сейчас не говорит только ленивый. И случайно найдя неплохой сайт с историческими данными, стало интересно проверить — как же реально менялась температура с годами. Для теста мы возьмем данные с нескольких городов и проанализируем их с помощью Pandas и Matplotlib. Заодно выясним, действительно ли челябинские морозы настолько суровы, и где теплее, в Москве или Петербурге.



Также обнаружилось еще несколько любопытных закономерностей. Кому интересно узнать подробности, прошу под кат.
Читать дальше →
Всего голосов 59: ↑52 и ↓7 +45
Комментарии 88

Какой язык выбрать для работы с данными — R или Python? Оба! Мигрируем с pandas на tidyverse и data.table и обратно

Время на прочтение 19 мин
Количество просмотров 14K
Python *Data Mining *Big Data *R *Data Engineering *
Туториал

По запросу R или Python в интернете вы найдёте миллионы статей и километровых обсуждений по теме какой из них лучше, быстрее и удобнее для работы с данными. Но к сожалению особой пользы все эти статьи и споры не несут.



Цель этой статьи — сравнить основные приёмы обработки данных в наиболее популярных пакетах обоих языков. И помочь читателям максимально быстро овладеть тем, который они ещё не знают. Для тех кто пишет на Python узнать как выполнять всё то же самое в R, и соответственно наоборот.


В ходе статьи мы разберём синтаксис наиболее популярных пакетов на R. Это пакеты входящие в библиотеку tidyverse, а также пакет data.table. И сравним их синтаксис с pandas, наиболее популярным пакетом для анализа данных в Python.


Мы пошагово пройдём весь путь анализа данных от их загрузки до выполнения аналитических, оконных функций средствами Python и R.

Читать дальше →
Всего голосов 21: ↑20 и ↓1 +19
Комментарии 23

Визуальное представление выборов в Санкт-Петербурге — магия накрутки голосов

Время на прочтение 6 мин
Количество просмотров 18K
Python *Data Mining *Геоинформационные сервисы *Big Data *Визуализация данных *
Из песочницы
Привет!

В сентябре этого (2019) года прошли выборы Губернатора Санкт-Петербурга. Все данные о голосовании находятся в открытом доступе на сайте избирательной комиссии, мы не будем ничего ломать, а просто визуализируем информацию с этого сайта www.st-petersburg.vybory.izbirkom.ru в нужном для нас виде, проведем совсем несложный анализ и определим некоторые «волшебные» закономерности.

Обычно для подобных задач я использую Google Colab. Это сервис, который позволяет запускать Jupyter Notebook'и, имея доступ к GPU (NVidia Tesla K80) бесплатно, это заметно ускорит парсинг данных и их дальнейшую обработку. Мне понадобились некоторые подготовительные работы перед импортом.

%%time 
!apt update
!apt upgrade
!apt install gdal-bin python-gdal python3-gdal 
# Install rtree - Geopandas requirment
!apt install python3-rtree 
# Install Geopandas
!pip install git+git://github.com/geopandas/geopandas.git
# Install descartes - Geopandas requirment
!pip install descartes

Далее импорты.

import requests 
from bs4 import BeautifulSoup 
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import geopandas as gpd
import xlrd

Описание используемых библиотек


  • requests — модуль для запроса на подключение к сайту

  • BeautifulSoup — модуль для парсинга html и xml документов; позволяет получить доступ напрямую к содержимому любых тегов в html

  • numpy — математический модуль с базовым и необходимым набором математических функций

  • pandas — библиотека для анализа данных

  • matplotlib.pyplot — модуль-набор методов построения

  • geopandas — модуль для построения карты выборов

  • xlrd — модуль для чтения табличных файлов

Настал момент собирать сами данные, парсим. Избирком позаботился о нашем времени и предоставил отчетность в таблицах, это удобно.
Читать дальше →
Всего голосов 56: ↑51 и ↓5 +46
Комментарии 25

Как переписать SQL-запросы на Python с помощью Pandas

Время на прочтение 2 мин
Количество просмотров 14K
Блог компании Plarium Python *SQL *
Перевод
В этой статье June Tao Ching рассказал, как с помощью Pandas добиться на Python такого же результата, как в SQL-запросах. Перед вами — перевод, а оригинал вы можете найти в блоге towardsdatascience.com.

image
Фото с сайта Unsplash. Автор: Hitesh Choudhary

Получение такого же результата на Python, как и при SQL-запросе


Часто при работе над одним проектом нам приходится переключаться между SQL и Python. При этом некоторые из нас знакомы с управлением данными в SQL-запросах, но не на Python, что мешает нашей эффективности и производительности. На самом деле, используя Pandas, можно добиться на Python такого же результата, как в SQL-запросах.
Читать дальше →
Всего голосов 13: ↑10 и ↓3 +7
Комментарии 18

Black [O]lives Matter: раса, криминал и огонь на поражение в США. Часть 1

Время на прочтение 9 мин
Количество просмотров 16K
Python *Data Mining *Открытые данные *

Действительно ли полицейские в США стреляют больше в чернокожих, чем в представителей других рас? Связано ли применение силы полицией с расой? Связана ли криминальность с расой? Какова вероятность быть застреленным полицейским в США, если ты белый и если ты чернокожий? Вооружимся открытыми данными, python, pandas и постараемся пролить чуть-чуть света, отставив в сторону пропаганду и политику.

Мне любопытно
Всего голосов 31: ↑20 и ↓11 +9
Комментарии 45

Black [O]lives Matter: раса, криминал и огонь на поражение в США. Часть 2

Время на прочтение 15 мин
Количество просмотров 32K
Python *Data Mining *Открытые данные *

В первой части статьи я описал предпосылки для исследования, его цели, допущения, исходные данные и инструменты. Сейчас можно без дальнейших разглагольствований сказать гагаринское...

Поехали!
Всего голосов 108: ↑102 и ↓6 +96
Комментарии 386

Black [O]lives Matter: раса, криминал и огонь на поражение в США. Часть 3

Время на прочтение 25 мин
Количество просмотров 15K
Python *Data Mining *Открытые данные *

Продолжаем наше исследование, посвященное ситуации в США со стрельбой полицейских и уровнем преступности среди представителей белой и черной (афроамериканской) рас. Напомню, что в первой части я рассказал о предпосылках исследования, его целях и принятых оговорках / допущениях; а во второй части была демонстрация анализа взаимосвязи между расовой принадлежностью, преступностью и гибелью от рук служб правопорядка. В этот раз посмотрим на географическое распределение анализируемых данных по штатам США.

Читать далее
Всего голосов 54: ↑47 и ↓7 +40
Комментарии 208

Преступления на почве расизма в США: статистический анализ

Время на прочтение 16 мин
Количество просмотров 8.7K
Python *Data Mining *Big Data *Открытые данные *
После моей недавней статьи (части 1, 2, 3) о криминале и полицейской стрельбе в США и их связи с расовой принадлежностью я решил продолжить эту тему и в таком же ключе проанализировать другие открытые данные — благо, таких еще достаточно благодаря программе криминальной отчетности ФБР.

Сегодня будем исследовать данные по преступлениям, совершенным на почве нетерпимости. Сначала посмотрим на всю статистику целиком, а затем подробно рассмотрим именно расовую нетерпимость и конкретно преступления, совершаемые белыми и черными на почве вражды к белым и черным.
Читать дальше →
Всего голосов 24: ↑20 и ↓4 +16
Комментарии 41
1