Как одно изменение конфигурации PostgreSQL улучшило производительность медленных запросов в 50 раз

PostgreSQL

Из песочницы

Здравсвуйте, хабровчане! Предлагаю вашему вниманию перевод статьи «How a single PostgreSQL config change improved slow query performance by 50x» автора Pavan Patibandla. Она очень сильно мне помогла улучшить производительность PostgreSQL.

В Amplitude наша цель — предоставить простую в использовании интерактивную аналитику продуктов, чтобы каждый мог найти ответы на свои вопросы о продукте. Чтобы обеспечить удобство работы, Amplitude должен быстро предоставить эти ответы. Поэтому, когда один из наших клиентов пожаловался на то, сколько времени потребовалось для загрузки раскрывающегося списка свойств события в пользовательском интерфейсе Amplitude, мы приступили к детальному изучению проблемы.

Отслеживая задержку на разных уровнях, мы поняли, что одному конкретному запросу PostgreSQL потребовалось 20 секунд для завершения. Для нас это стало неожиданностью, так как обе таблицы имеют индексы в соединяемом столбце.

Медленный запрос

План выполнения PostgreSQL для этого запроса был для нас неожиданным. Несмотря на то, что в обеих таблицах есть индексы, PostgreSQL решил выполнить Hash Join с последовательным сканированием большой таблицы. Последовательное сканирование большой таблицы занимало большую часть времени запроса.

План выполнения медленого запроса

Я изначально подозревал, что это может быть из-за фрагментации. Но после проверки данных я понял, что в эту таблицу данные только добавляются и практически не удаляются оттуда. Так как очистка места с помощью VACUUM здесь не очень поможет, я начал копать дальше. Затем я попробовал этот же запрос на другом клиенте с хорошим временем ответа. К моему удивлению, план выполнения запроса выглядел совершенно иначе!

План выполнения того же запроса на другом клиенте

Интересно, что приложение A получило доступ только к 10 раз большему количеству данных, чем приложение B, но время отклика было в 3000 раз больше.

Чтобы увидеть альтернативные планы запросов PostgreSQL, я отключил хеш-соединение и перезапустил запрос.

Альтернативный план выполнения для медленного запроса

Ну вот! Тот же запрос завершается в 50 раз быстрее при использовании вложенного цикла вместо хэш-соединения. Итак, почему PostgreSQL выбрал худший план для приложения A?

При более тщательном рассмотрении предполагаемой стоимости и фактического времени выполнения для обоих планов предполагаемые соотношения стоимости и фактического времени выполнения были очень разными. Основным виновником этого несоответствия была оценка стоимости последовательного сканирования. PostgreSQL подсчитал, что последовательное сканирование было бы лучше, чем 4000+ сканирований индекса, но в действительности сканирование индекса было в 50 раз быстрее.

Это привело меня к параметрам конфигурации random_page_cost и seq_page_cost. Значения PostgreSQL по умолчанию 4 и 1 для random_page_cost, seq_page_cost, которые настроены для HDD, где произвольный доступ к диску дороже, чем последовательный доступ. Однако эти затраты были неточными для нашего развертывания с использованием тома gp2 EBS, которые являются твердотельными накопителями. Для нашего развертывания случайный и последовательный доступ практически одинаков.

Я изменил значение random_page_cost на 1 и повторил запрос. На этот раз PostgreSQL использовал Nested Loop, и запрос выполнялся в 50 раз быстрее. После изменения мы также заметили значительное снижение максимального времени отклика от PostgreSQL.

Общая производительность медленного запроса значительно улучшилась

Если вы используете SSD и используете PostgreSQL с конфигурацией по умолчанию, я советую вам попробовать настроить random_page_cost и seq_page_cost. Вы можете быть удивлены сильным улучшением производительности.

От себя добавлю, что я выставил минимальные параметры seq_page_cost = random_page_cost = 0.1, чтобы отдать приоритет данным в памяти над дисковыми, так как у меня выделено большое количество ОЗУ для PostgreSQL (размер ОЗУ превышает размер базы на диске). Не очень понятно, почему сообщество postgres до сих пор использует настройки по-умолчанию, актуальные для сервера с небольшим объемом ОЗУ и дисками HDD, а не для современных серверов. Надеюсь в скором времени это исправят.

Теги:

postgresql performance

Комментарии 10

movnet вчера в 20:30
–5
Спасибо но уже где-то было ...https://amplitude.engineering/how-a-single-postgresql-config-change-improved-slow-query-performance-by-50x-85593b8991b0
- megapro17 вчера в 21:28
  +5
  Здравсвуйте, хабровчане! Предлагаю вашему вниманию перевод статьи «How a single PostgreSQL config change improved slow query performance by 50x» автора Pavan Patibandla. Она очень сильно мне помогла улучшить производительность PostgreSQL.
  
  Статью читать пробовали?
yurybx вчера в 20:30
0
Интересно, а есть рекомендации по оптимизации Microsoft SQL Server под твердотельные накопители?
- yleo вчера в 23:21
  0
  M$ где-то хвалился что они сами детектируют SSD/HDD (точнее говоря измеряют метрики).
SergeyMax вчера в 21:32
+5
размер ОЗУ превышает размер базы на диске). Не очень понятно, почему сообщество postgres до сих пор использует настройки по-умолчанию, актуальные для сервера с небольшим объемом ОЗУ и дисками HDD
У вас не ОЗУ большое, у вас просто база маленькая)
alexesDev вчера в 22:01
0
Эта тема целиком раскрыта тут www.youtube.com/watch?v=aaecM4wKdhY
ky0 сегодня в 02:31
0
Не очень понятно, почему сообщество postgres до сих пор использует настройки по-умолчанию, актуальные для сервера с небольшим объемом ОЗУ и дисками HDD, а не для современных серверов. Надеюсь в скором времени это исправят.

Не исправят, потому что это не ошибка. Параметры постгреса по умолчанию установлены таким образом, чтобы база запускалась на чём угодно, включая холодильники и кофеварки. Для оптимизации производительности его нужно настраивать (сюрприз!). Поздравляю автора статьи с этим открытием.
- edogs сегодня в 03:05
  0
  Исправляют что-то не только из-за ошибок, но и из-за добавления удобства.
  
  В mysql, например, раньше были примеры конфигов — my-small, my-large, my-medium, my-huge, в базе годились как и для холодильника (меньше 64мб), так и для вполне приличного вдс (1-2гб). И даже был отдельный пример для 4гб с подключением иннодб my-innodb-heavy-4G
  
  Да, безусловно, в идеальном мире, базу данных должен настраивать администратор под конкретные задачи, блаблабла. Но в подавляющем большинстве случаев этих конфигов хватало для того, что бы на свежеподнятом вдс не напарываться на дурацкие проблемы прямо из коробки и не надо было звать дорогостоящего администратора или разбираться с этими нюансами самостоятельно.
- BugM сегодня в 03:12
  +3
  Подход не очень правильный. Автоконфигуратор от Постгреса для настройки под типовые конфигурации был бы очень полезен и приятен.
  
  Юзкейс:
  Надо поставить Постгрес вот на эту машину. Конфигурация машины известна, примерный профиль нагрузки тоже известен. Хочется в красивой менюшке потыкать кнопочки и готово. Более-менее оптимальные настройки выставлены.
  Добавить возможность сохранить конфиг и применять его на другие такие же машины и вообще хорошо будет.
  - panchmp сегодня в 07:11
    
    0
    так ведь есть
    pgconfigurator.cybertec.at

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Как одно изменение конфигурации PostgreSQL улучшило производительность медленных запросов в 50 раз

Читают сейчас

Похожие публикации

PostgreSQL 9.6: Параллелизация последовательного чтения

Java & PostgreSQL — встреча с Альваро Эрнандесом, Санкт-Петербург

Производительность приложений на основе PostgreSQL: явные и скрытые задержки

Комментарии 10

Что обсуждают

Самое читаемое

Хабр рекомендует

Онлайн-курсы школы ИКРА — это практические программы, нужные для работы прямо сейчас

JPoint — международная конференция по Java-технологиям: 5-6 апреля, Москва

Аккаунт

Разделы

Информация

Услуги

Приложения

Как одно изменение конфигурации PostgreSQL улучшило производительность медленных запросов в 50 раз

Читают сейчас

Похожие публикации

PostgreSQL 9.6: Параллелизация последовательного чтения

Java & PostgreSQL — встреча с Альваро Эрнандесом, Санкт-Петербург

Производительность приложений на основе PostgreSQL: явные и скрытые задержки

Заказы

Что обсуждают

Самое читаемое

Хабр рекомендует

Онлайн-курсы школы ИКРА — это практические программы, нужные для работы прямо сейчас

JPoint — международная конференция по Java-технологиям: 5-6 апреля, Москва

Аккаунт

Разделы

Информация

Услуги

Приложения