Результаты поиска по запросу «[pandas]» / Хабр

Публикации Хабы Компании Пользователи Комментарии

GregTMJ 31 мая в 16:26

Битва медведей: Pandas против Polars

8 мин

4.3K

Блог компании Spectr Python *Big Data *Машинное обучение *Искусственный интеллект

Обзор

Привет! На связи Грегори Салиба из Spectr.

Возможно, вы прочитали название статьи и подумали, что попали на программу «В мире животных». Но нет, речь пойдет о сравнении двух гигантов аналитики данных в Python: Pandas и Polars. В этой статье мы подробно рассмотрим вопрос быстродействия этих двух решений в части работы с файлами больших объемов.

В статье мы сравним скорость обработки на примере конкретной задачи одного из проектов, разработку которого ведет наша команда.

+13

Voldar 6 апр в 10:08

Что нового в Python за март — обсуждаем в прямом эфире

1 мин

1.5K

Разработка веб-сайтов *Python *Django *Flask *

Привет! В рамках Moscow Python Podcast поделимся интересными на наш взгляд новостями и апдейтами мира Python. Выпуск проведем 7 апреля в 14:00 по Москве. Обсудим LTS-релиз Django 4.2, релизы Pandas 2.0 и PyTorch 2.0 и другие новости последнего месяца. Больше под катом.

+11

vasilevafb 14 июн в 12:18

Новая библиотека для анализа данных Pandas AI: стоит ли пробовать?

3 мин

1.1K

Python *Data Mining *Big Data *

Появилась новая библиотека Pandas AI - надстройка над популярной библиотекой для анализа данных Pandas.

Как уверяют разработчики, Pandas AI в свою очередь расширяет возможности Pandas за счет искусственного интеллекта.

Ниже краткий обзор.

Принцип работы Pandas AI

В редакторе кода задаете любой вопрос про данные на естественном языке и без написания кода получаете готовый ответ по вашим данным.

Какие вопросы можно задать? Любые вопросы, связанные с подготовкой, очисткой данных, визуализацией, исследовательским анализом данных, машинным обучением и т.д.

Простой пример, если спросить про данные о зарплате: "Кто в компании зарабатывает больше?". Pandas AI ответит: "Оливия зарабатывает больше".

cotique 28 фев 2017 в 12:45

Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas

Простой

15 мин

949K

Блог компании Open Data Science Python *Data Mining *Визуализация данных *Машинное обучение *

Туториал

Открытый курс машинного обучения mlcourse.ai сообщества OpenDataScience – это сбалансированный по теории и практике курс, дающий как знания, так и навыки (необходимые, но не достаточные) машинного обучения уровня Junior Data Scientist. Нечасто встретите и подробное описание математики, стоящей за используемыми алгоритмами, и соревнования Kaggle Inclass, и примеры бизнес-применения машинного обучения в одном курсе. С 2017 по 2019 годы Юрий Кашницкий yorko и большая команда ODS проводили живые запуски курса дважды в год – с домашними заданиями, соревнованиями и общим рейтингом учаcтников (имена героев запечатлены тут). Сейчас курс в режиме самостоятельного прохождения.

Читать дальше →

+42

lobanov1 16 мая 2017 в 13:36

Data-driven подход к продакшну / Фильтры по акциям

6 мин

3.2K

Блог компании AGIMA Веб-аналитика *Growth Hacking *

Что вас ждет в статье:
Описание подхода, который мы применили для исследования фильтров на сайте одного из наших клиентов, а также детальное описание технологий.

На кого рассчитана статья:
Статья будет интересна веб-аналитикам и всем, кто сталкивается с задачами исследования пользовательского опыта на основе количественных данных.

Дисклеймер:
Все описанное в статье является лишь мнением автора (Артем Кулбасов, веб-аналитик AGIMA) и не является единственно верным решением задачи. Многие описанные в статье технологии могут быть заменены аналогами.

Читать дальше →

born_2fuck 24 мая 2017 в 12:18

Расчет оттока клиентов банка (решение задачи с помощью Python)

2 мин

16K

Занимательные задачки Python *

Из песочницы

Хочу поделиться опытом решения задачи по машинному обучению и анализу данных от Kaggle. Данная статья позиционируется как руководство для начинающих пользователей на примере не совсем простой задачи.

Читать дальше →

optimusqp 27 июл 2017 в 18:08

Призрак локомотива или биржевой рынок через призму корреляций

12 мин

6.3K

Python *Data Mining *Машинное обучение *

Recovery mode

В этой статье будет продемонстрирована техника обработки информации по биржевым котировкам с помощью пакета pandas (python), а также изучены некоторые «мифы и легенды» биржевой торговли посредством применения методов математической статистики. Попутно кратко рассмотрим особенности использования библиотеки plotly.

Одной из легенд трейдеров является понятие «локомотива». Описать ее можно следующим образом: есть бумаги «ведущие» и есть бумаги «ведомые». Если поверить в существование подобной закономерности, то можно «предсказывать» будущие движения финансового инструмента по движению «локомотивов» («ведущих» бумаг). Так ли это? Есть ли под этим основания?

Читать дальше →

feriat 13 апр 2017 в 15:02

Как быстрее всего сфоткать 35 билбордов в Москве

5 мин

7.9K

Python *Геоинформационные сервисы *

Идеи, чем заняться на выходных, ITшники черпают из сотни разных источников. Я, к примеру, недавно увидел конкурс Открытого чемпионата школ по Экономике, заключающегося в том, чтобы сфотографировать максимальное число билбордов Чемпионата. Адреса организаторы любезно предоставили. И несмотря на то, что приз взрослому там не светит (это школьный конкурс), тем не менее крайне интересно было бы узнать, за какое минимальное время можно решить такую задачу.

Читать дальше →

+18

veesot 7 окт 2018 в 15:41

Идентификация мошенничества с использованием Enron dataset. Часть 2-ая, поиск оптимальной модели

9 мин

3.1K

Python *Машинное обучение *

Представляю вашему вниманию вторую часть статьи о поиске подозреваемых в мошениничестве на основе данных из Enron Dataset. Если вы не читали первую часть, ознакомиться с ней можно здесь.

Сейчас речь пойдет про процесс построения, оптимизации и выбора модели, которая даст ответ: стоит ли подозревать человека в мошеничестве?

Читать дальше →

zoldaten 17 сен 2019 в 22:00

Как оптимизировать pandas при работе с большими datasetами (очерк)

3 мин

Python *

Туториал

Когда памяти вагоны и/или dataset небольшой можно смело закидывать его в pandas безо всяких оптимизаций. Однако, если данные большие, остро встает вопрос, как их обрабатывать или хотя бы считать.

Предлагается взглянуть на оптимизацию в миниатюре, дабы не вытаскивать из сети гигантские датасеты.

В качестве датасета будем использовать хабрастатистику с комментариями пользователей за 2019 г., которая является общедоступной благодаря одному трудолюбивому пользователю:
dataset

В качестве инфо-основы будет использоваться ранее переведенная статья с Хабра, в которой намешано много интересного.

Читать дальше →

DmitrySpb79 19 сен 2019 в 23:34

Хабрастатистика: анализируем комментарии читателей. Часть 2, ответы на вопросы

4 мин

5.5K

Программирование *Веб-аналитика *Статистика в IT Социальные сети и сообщества Инфографика

Привет Хабр.

В предыдущей части были проанализированы сообщения пользователей этого сайта, что вызвало достаточно оживленную дискуссию на тему различных параметров (числа сообщений, рейтинга, «кармы» и пр). Таких вопросов накопилось достаточно, чтобы сделать вторую часть.

Тех кому интересно, какова длина самой большой дискуссии в комментариях за этот год, какая может быть максимальная и минимальная «карма» у пользователей, и другая статистика, прошу под кат.

Читать дальше →

+57

137

avl33 20 сен 2019 в 10:11

Задача: извлечь ключевые выражения из текста на русском языке. NLP на Python

6 мин

34K

Занимательные задачки Python *Алгоритмы *Машинное обучение *

Из песочницы

Что было нужно в самом начале:

программа, «выуживающая» из сырого текста на русском языке уникальные названия продукции по определенной отрасли. Сырой текст — текст, который писал человек, просто излагая свои мысли и не заботясь о формировании или выделении какого-либо списка слов;
автоматически получаемый список слов;
минимальная ручная или автоматизированная обработка для преобразования списка в набор хештегов или ключевых слов к тексту.

Полагаю, что неявно с проблемой многие сталкиваются ежедневно, после написания или анализа статьи, поста, комментария, заметки, отчета и т.д. Вот и мне по роду деятельности приходилось сталкиваться с данной проблемой по многу раз в день. Поэтому, можно сказать, к идее автоматизации меня привела «лень», в хорошем смысле этого слова.

Сейчас, когда я пишу эту статью, сохранилась идея, но набор данных конечного результата сильно изменился:

выбираются не слова, а ключевые выражения и в том числе слова;
список ключевых выражений размечен 16-ю различными маркерами;
все слова текста (в том числе и не ключевые) лемматизированы – приведены в начальную форму или унифицированы под выведенный формат;
каждое слово в тексте имеет дополнительную аналитику, относящуюся к положению по тексту и числу повторений.

Результаты работы ПО nrlpk (Natural Russian Language Processing by the Keys) подготавливают данные для:

анализа текстов неограниченного круга тематик и отраслей (разработка и тестирование проводилось по материалам тематики промышленности и ВПК — Военно-Промышленного Комплекса);
автоматической рубрикации, классификации, каталогизации, предметизации материалов (online площадки);
контроля и фильтрации по содержимому с настройками реакции системы (службам и системам безопасности в замкнутых контурах или online);
многослойной разметки текстов (ИИ).

Качество

Открыть полный текст

DmitrySpb79 28 сен 2019 в 10:46

Изменение климата: анализируем температуру в разных городах за последние 100 лет

4 мин

43K

Python *Программирование *Визуализация данных *Научно-популярное Инфографика

Туториал

Привет, Хабр.

Про изменение климата сейчас не говорит только ленивый. И случайно найдя неплохой сайт с историческими данными, стало интересно проверить — как же реально менялась температура с годами. Для теста мы возьмем данные с нескольких городов и проанализируем их с помощью Pandas и Matplotlib. Заодно выясним, действительно ли челябинские морозы настолько суровы, и где теплее, в Москве или Петербурге.

Также обнаружилось еще несколько любопытных закономерностей. Кому интересно узнать подробности, прошу под кат.

Читать дальше →

+45

selesnow 16 мар 2020 в 10:56

Какой язык выбрать для работы с данными — R или Python? Оба! Мигрируем с pandas на tidyverse и data.table и обратно

19 мин

14K

Python *Data Mining *Big Data *R *Data Engineering *

Туториал

По запросу R или Python в интернете вы найдёте миллионы статей и километровых обсуждений по теме какой из них лучше, быстрее и удобнее для работы с данными. Но к сожалению особой пользы все эти статьи и споры не несут.

Цель этой статьи — сравнить основные приёмы обработки данных в наиболее популярных пакетах обоих языков. И помочь читателям максимально быстро овладеть тем, который они ещё не знают. Для тех кто пишет на Python узнать как выполнять всё то же самое в R, и соответственно наоборот.

В ходе статьи мы разберём синтаксис наиболее популярных пакетов на R. Это пакеты входящие в библиотеку tidyverse, а также пакет data.table. И сравним их синтаксис с pandas, наиболее популярным пакетом для анализа данных в Python.

Мы пошагово пройдём весь путь анализа данных от их загрузки до выполнения аналитических, оконных функций средствами Python и R.

Читать дальше →

+19

uncontrollable 10 ноя 2019 в 23:50

Визуальное представление выборов в Санкт-Петербурге — магия накрутки голосов

6 мин

18K

Python *Data Mining *Геоинформационные сервисы *Big Data *Визуализация данных *

Из песочницы

Привет!

В сентябре этого (2019) года прошли выборы Губернатора Санкт-Петербурга. Все данные о голосовании находятся в открытом доступе на сайте избирательной комиссии, мы не будем ничего ломать, а просто визуализируем информацию с этого сайта www.st-petersburg.vybory.izbirkom.ru в нужном для нас виде, проведем совсем несложный анализ и определим некоторые «волшебные» закономерности.

Обычно для подобных задач я использую Google Colab. Это сервис, который позволяет запускать Jupyter Notebook'и, имея доступ к GPU (NVidia Tesla K80) бесплатно, это заметно ускорит парсинг данных и их дальнейшую обработку. Мне понадобились некоторые подготовительные работы перед импортом.

%%time 
!apt update
!apt upgrade
!apt install gdal-bin python-gdal python3-gdal 
# Install rtree - Geopandas requirment
!apt install python3-rtree 
# Install Geopandas
!pip install git+git://github.com/geopandas/geopandas.git
# Install descartes - Geopandas requirment
!pip install descartes

Далее импорты.

import requests 
from bs4 import BeautifulSoup 
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import geopandas as gpd
import xlrd

Описание используемых библиотек

requests — модуль для запроса на подключение к сайту

BeautifulSoup — модуль для парсинга html и xml документов; позволяет получить доступ напрямую к содержимому любых тегов в html

numpy — математический модуль с базовым и необходимым набором математических функций

pandas — библиотека для анализа данных

matplotlib.pyplot — модуль-набор методов построения

geopandas — модуль для построения карты выборов

xlrd — модуль для чтения табличных файлов

Настал момент собирать сами данные, парсим. Избирком позаботился о нашем времени и предоставил отчетность в таблицах, это удобно.

Читать дальше →

+46

Plarium 31 июл 2020 в 16:50

Как переписать SQL-запросы на Python с помощью Pandas

2 мин

14K

Блог компании Plarium Python *SQL *

Перевод

В этой статье June Tao Ching рассказал, как с помощью Pandas добиться на Python такого же результата, как в SQL-запросах. Перед вами — перевод, а оригинал вы можете найти в блоге towardsdatascience.com.

Фото с сайта Unsplash. Автор: Hitesh Choudhary

Получение такого же результата на Python, как и при SQL-запросе

Часто при работе над одним проектом нам приходится переключаться между SQL и Python. При этом некоторые из нас знакомы с управлением данными в SQL-запросах, но не на Python, что мешает нашей эффективности и производительности. На самом деле, используя Pandas, можно добиться на Python такого же результата, как в SQL-запросах.

Читать дальше →

S0mbre 4 сен 2020 в 04:20

Black [O]lives Matter: раса, криминал и огонь на поражение в США. Часть 1

9 мин

16K

Python *Data Mining *Открытые данные *

Действительно ли полицейские в США стреляют больше в чернокожих, чем в представителей других рас? Связано ли применение силы полицией с расой? Связана ли криминальность с расой? Какова вероятность быть застреленным полицейским в США, если ты белый и если ты чернокожий? Вооружимся открытыми данными, python, pandas и постараемся пролить чуть-чуть света, отставив в сторону пропаганду и политику.

Мне любопытно

S0mbre 4 сен 2020 в 08:18

Black [O]lives Matter: раса, криминал и огонь на поражение в США. Часть 2

15 мин

32K

Python *Data Mining *Открытые данные *

В первой части статьи я описал предпосылки для исследования, его цели, допущения, исходные данные и инструменты. Сейчас можно без дальнейших разглагольствований сказать гагаринское...

Поехали!

+96

386

S0mbre 10 сен 2020 в 03:33

Black [O]lives Matter: раса, криминал и огонь на поражение в США. Часть 3

25 мин

15K

Python *Data Mining *Открытые данные *

Продолжаем наше исследование, посвященное ситуации в США со стрельбой полицейских и уровнем преступности среди представителей белой и черной (афроамериканской) рас. Напомню, что в первой части я рассказал о предпосылках исследования, его целях и принятых оговорках / допущениях; а во второй части была демонстрация анализа взаимосвязи между расовой принадлежностью, преступностью и гибелью от рук служб правопорядка. В этот раз посмотрим на географическое распределение анализируемых данных по штатам США.

+40

208

S0mbre 15 сен 2020 в 02:47

Преступления на почве расизма в США: статистический анализ

16 мин

8.7K

Python *Data Mining *Big Data *Открытые данные *

После моей недавней статьи (части 1, 2, 3) о криминале и полицейской стрельбе в США и их связи с расовой принадлежностью я решил продолжить эту тему и в таком же ключе проанализировать другие открытые данные — благо, таких еще достаточно благодаря программе криминальной отчетности ФБР.

Сегодня будем исследовать данные по преступлениям, совершенным на почве нетерпимости. Сначала посмотрим на всю статистику целиком, а затем подробно рассмотрим именно расовую нетерпимость и конкретно преступления, совершаемые белыми и черными на почве вражды к белым и черным.

Читать дальше →

+16