Как стать автором
Обновить

Как мы строили систему мониторинга. Тернистый путь к стабильной работе сложных IT-систем

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 4.1K
Блог компании Amvera IT-инфраструктура *DevOps *
Кейс

К тому, что описано в статье, мы пришли через череду даунтаймов и багов, которые приходилось править “на горячую”. Происходили сбои во время бета-теста, но все равно тема обеспечения стабильной работы для нас болезненная. За знания пришлось заплатить дорогую цену - неудобства пользователей. Мы сами еще только на полпути к построению той системы обеспечения стабильной работы, какой нам бы хотелось ее видеть. Но надеюсь, наш опыт поможет кому-то не повторять наших ошибок и сразу все сделать правильно. 

Статья не имеет цели создать какое-то принципиально новое знание о мониторинге, которого нет у опытного SRE инженера. Но, возможно, будет полезна в качестве отправной точки для изучения технологического стека тем, кто только начинает погружаться в вопрос. 

Начнем с того, в каких случаях и какой мониторинг обычно используется.

Читать далее
Всего голосов 6: ↑4 и ↓2 +2
Комментарии 7

Огонь, вода и всякие трубы: от чего защищает ЦОД система мониторинга

Уровень сложности Простой
Время на прочтение 11 мин
Количество просмотров 1.8K
Блог компании Wiren Board IT-инфраструктура *Серверное администрирование *Хранилища данных *Инженерные системы *

Бывали ли вы когда-нибудь внутри настоящего дата-центра? Мы проведем экскурсию и покажем, как устроен ЦОД изнутри.

Также мы поговорим о проблемах, с которыми сталкивается оператор при эксплуатации ЦОД. И как можно от них защититься?

Главный инструмент защиты – грамотная система мониторинга. Мы расскажем, как она облегчает жизнь и экономит деньги.

Интересно? Читайте нашу новую статью.

Читать далее
Всего голосов 13: ↑13 и ↓0 +13
Комментарии 5

Zabbix-мониторинг российского микрокомпьютера Repka Pi

Время на прочтение 12 мин
Количество просмотров 3.3K
Блог компании FirstVDS Системное администрирование *Программирование микроконтроллеров *Разработка на Raspberry Pi *Компьютерное железо

В этой статье я расскажу о настройке Zabbix-мониторинга российского одноплатного микрокомпьютера Repka Pi 3, разработанного НПО Рэйнбовсофт (Rainbowsoft) из Саратова. Помимо параметров, доступных для мониторинга с помощью стандартного агента Zabbix, с помощью шаблона  zabbix-agent-on-repka-pi, рассмотренного в этой статье, вы сможете поставить на контроль температуру CPU и GPU, а также тактовую частоту ядер процессора.

Читать далее
Всего голосов 14: ↑13 и ↓1 +12
Комментарии 31

С каким бэкграудом идти в SRE-инженеры: кейсы по внедрению и лайфхаки от специалистов

Время на прочтение 9 мин
Количество просмотров 2K
Блог компании Southbridge Информационная безопасность *IT-инфраструктура *DevOps *Kubernetes *

Задумывались ли вы о переходе из кодинга фич в сторону инфраструктурной разработки? Любопытство к SRE практикам растет, поскольку устойчивость и надежность приложений стали главными факторами успеха на рынке. В этом материале мы собрали для вас успешные карьерные кейсы действующих SRE-инженеров.

Читать далее
Всего голосов 9: ↑9 и ↓0 +9
Комментарии 5

Алерты Grafana в виде кода: Начните работу с Terraform и Grafana Alerting

Время на прочтение 7 мин
Количество просмотров 3.6K
Блог компании OTUS API *
Перевод

Инфраструктура алертинга часто бывает сложной, в ней множество фрагментов пайплайна, которые то и дело находятся в разных местах. Масштабирование такой инфраструктуры для многих команд и организаций является особенно трудной задачей.

Читать далее
Всего голосов 12: ↑12 и ↓0 +12
Комментарии 0

Обзор Coroot — Open Source-утилиты для наблюдаемости: установка, настройка, возможности, плюсы и минусы

Уровень сложности Средний
Время на прочтение 6 мин
Количество просмотров 6.8K
Блог компании Флант Open source *DevOps *Kubernetes *
Обзор

DevOps- и SRE-командам важно знать как можно больше о работе приложений, за которые они отвечают: как эти приложения работают в разных условиях, как их показатели меняются со временем, в какой точке можно ускорить работу, тем самым улучшив показатели производительности и доступности сервисов. Для всех этих задач важны показатели наблюдаемости (observability). Реализовать наблюдаемость можно при помощи технологии eBPF, которой уже более 10 лет.

Чтобы легко адаптировать статистику eBPF и получать из нее полезную информацию, нужен дополнительный инструмент. Одним из них и является Open Source-решение Coroot. Coroot — это observability-инструмент, который превращает данные телеметрии в полезную информацию, помогая быстро выявлять и устранять проблемы с приложениями. В статье проверим, какие у него есть возможности.

Читать далее
Всего голосов 40: ↑40 и ↓0 +40
Комментарии 3

SRE MELT: USE, RED, LETS, STELA

Уровень сложности Простой
Время на прочтение 12 мин
Количество просмотров 1.1K
Блог компании OTUS IT-инфраструктура *
Обзор

Привет Хабр! Сегодня поговорим об основных практиках мониторинга в рамках SRE.

Если вы не можете найти никаких проблем, значит, их не существует! В контексте видимости систем можно предположить, что если мы не обнаружим никаких проблем, скорее всего, у нас есть слепое пятно.

Читать далее
Всего голосов 8: ↑7 и ↓1 +6
Комментарии 0

Муки выбора, или Как найти идеальную систему мониторинга. Опыт dBrain

Время на прочтение 9 мин
Количество просмотров 4.5K
Блог компании dBrain IT-инфраструктура *DevOps *Микросервисы *Kubernetes *

Не секрет, что микросервисы мало запустить. За их работой нужно следить, чтобы не было сбоев, а следовательно и недовольных пользователей. Для этого, нужны системы мониторинга и логирования. Команда платформы dBrain собрала свой универсальный стек системы мониторинга. Сегодня расскажем, какие проблемы возникают с мониторингом и как их решить.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 0

Мониторинг черных ящиков и котов в мешке через eBPF

Уровень сложности Средний
Время на прочтение 11 мин
Количество просмотров 2.7K
Блог компании QIWI Анализ и проектирование систем *IT-инфраструктура *Проектирование и рефакторинг *DevOps *
Кейс

Привет! Меня зовут Петр Бобров, в QIWI я отвечаю за отказоустойчивость, расскажу немного историй про сторонних вендоров, у всех они разные. У нас есть карточный процессинг, потому что мы банк, у нас банковская лицензия, проводим много платежей. Еще можно черными ящиками считать и базы данных: кто знает, как там работает Oracle, кто знает, как работает Linux внутри? Думаю, очень немного людей разбирается в этом, как оно работает на низком уровне. 

Мониторить такие вещи достаточно проблематично, особенно, если нужно соответствовать стандарту PCI/DSS, который запрещает выкладывать логи приложений в общий доступ, потому что там потенциально хранятся определенные карточные данные в открытом виде, а в софте отсутствуют какие-то вменяемые интерфейсы, которые тебе могут посылать данные в твои системы мониторинга. В общем, проблем достаточно много, даже бывает такое, что говорили: «Не лезьте со своими SQL-запросами в нашу базу, вы портите нам производительность». Ситуация удручающая, так что мы захотели как-то это поправить. 

Сейчас я покажу пример самописного мониторинга, который я сам мог сделать своим ограниченным интеллектуальным ресурсом. В этом примере мне хочется сфокусироваться на (не)сложности его реализации, а не на содержательном компоненте постановки задачи, хотя мне он тоже был довольно интересен.

Читать далее
Всего голосов 25: ↑24 и ↓1 +23
Комментарии 1

Мониторинг FastAPI-приложения с помощью Grafana и Prometheus — пошаговое руководство

Уровень сложности Простой
Время на прочтение 12 мин
Количество просмотров 3.8K
Блог компании Southbridge IT-инфраструктура *DevOps *
Перевод

Мониторинг играет решающую роль в обеспечении производительности, доступности и стабильности FastAPI-приложений. Отслеживание ключевых показателей и выявление потенциальных проблем поможет разработчикам вовремя принимать решения и улучшить его работу. В этом гайде мы рассмотрим, как настроить мониторинг FastAPI-приложения с помощью двух мощных инструментов: Grafana и Prometheus.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 0

В РФ разработают и внедрят систему мониторинга контента онлайн-кинотеатров

Время на прочтение 3 мин
Количество просмотров 2.5K
Законодательство в IT

Источник: Анатолий Жданов / Коммерсантъ

Роскомнадзор предлагает начать следить за контентом онлайн-кинотеатров. Разработка технического задания для системы контроля будет возложена на компанию «М 13». Ранее она создала систему мониторинга СМИ «Катюша» для администрации президента.

18 июня подведомственный Роскомнадзору Главный радиочастотный центр подвел итоги тендера на разработку концепции и проекта технического задания по созданию автоматизированной системы контроля выполнения владельцами аудиовизуальных сервисов требований закона «Об информации». Начальная стоимость закупки составляла 1,8 млн рублей. Но «М 13» предложили выполнить заказ за 1,5 млн рублей.
Читать дальше →
Всего голосов 10: ↑7 и ↓3 +4
Комментарии 7

Провайдеры РФ изучают потенциал установки мониторингового ПО на оборудование пользователей для улучшения качества услуг

Время на прочтение 3 мин
Количество просмотров 5.6K
Сетевые технологии *Настольные компьютеры Ноутбуки Сетевое оборудование IT-компании


По данным издания «Известия», крупнейшие операторы связи в России рассматривают вопрос по установке на абонентские устройства отслеживающего уровень сетевого сервиса специального программного обеспечения, которое позволит им превентивно узнавать о проблемах с доступом в интернет у пользователей. Это может помочь более оперативно распознавать и устранять аварийные ситуации и нештатные моменты при оказании сетевых услуг, так как клиенту не нужно будет самому дозваниваться в контакт-центр и объяснять сотрудникам поддержки суть проблемы.
Читать дальше →
Всего голосов 9: ↑9 и ↓0 +9
Комментарии 37

Минкомсвязи выделило 2,2 млрд на создание системы мониторинга действий чиновников

Время на прочтение 3 мин
Количество просмотров 6.3K
Законодательство в IT Финансы в IT
В России разрабатывается федеральная государственная информационная система «Единая информационная система управления кадровым составом государственной гражданской службы РФ». Эта система будет проверять данные о доходах и расходах чиновников, собирать сведения об интернет-страницах кандидатов на государственные должности и противодействовать коррупции.

В целом, система будет представлять собой совокупность средств обработки информации и средств телекоммуникаций, которые используются для решения наиболее важных управленческих задач государственной службы. Главная цель разворачивания такой системы — организация деятельности кадровых подразделений органов государственной власти на федеральном и региональном уровнях в составе единой информационной системы.
Читать дальше →
Всего голосов 9: ↑9 и ↓0 +9
Комментарии 22

Дата-центры Facebook патрулируют роботы

Время на прочтение 2 мин
Количество просмотров 4.1K
Карьера в IT-индустрии Робототехника IT-компании


Согласно информации издания Business Insider, инженеры Facebook уже некоторое время используют различные мобильные роботизированные решения для мониторинга, обслуживания инженерных и информационных систем в некоторых дата-центрах компании.
Читать дальше →
Всего голосов 14: ↑10 и ↓4 +6
Комментарии 4

Мониторинг в Grafana — стартуем 15 мая

Время на прочтение 3 мин
Количество просмотров 744
Блог компании Southbridge

Давным-давно в галактике удаленного мониторинга, во времена Древней Республики, великие джедаи использовали свои силы, чтобы чувствовать бесконечные потоки данных и мониторить состояние галактики. С тех пор прошло много времени, но мониторинг остается важной частью разработки и поддержки любого проекта. А лучший инструмент для этого — Grafana!

Всех, кто хочет стать настоящими джедаями мониторинга и овладеть силами, необходимыми для понимания состояния ваших приложений и систем, мы приглашаем на наш курс «Мониторинг в Grafana». На нём вы научитесь работать со связкой Prometheus+Grafana, разбираться в работе системы и читать созданные графики. 

Читать далее
Всего голосов 13: ↑12 и ↓1 +11
Комментарии 1

Охотники за НЛО выпустили открытую систему для наблюдения за небом

Время на прочтение 1 мин
Количество просмотров 1.5K
Open source *Гаджеты Астрономия

Команда разработчиков представила проект для наблюдения за небом Sky360. Члены команды считают, что государства скрывают факты появления НЛО в атмосфере нашей планеты, поэтому стремятся развернуть международную открытую сеть для мониторинга.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 3

Капитан Смоллетт приглашает поговорить про мониторинг под шашлыки

Время на прочтение 2 мин
Количество просмотров 740
Блог компании Southbridge

Капитан Смоллетт из мультика «Остров сокровищ» — символ нашего бесплатного проекта Школа мониторинга. Он появился во втором выпуске, который мы провели в апреле, и пока не собирается уходить. Напротив, капитан сменил китель на летний наряд и готов пригласить всех на третью Школу мониторинга, от которой веет шашлыками и прохладой. Она пройдёт 20–21 июня.

Читать далее
Всего голосов 11: ↑11 и ↓0 +11
Комментарии 0

«SRE: Observability» — старт потока 30 марта

Время на прочтение 3 мин
Количество просмотров 197
Блог компании Southbridge

30 марта стартует курс «SRE: Observability» для всех, кто хочет научиться агрегировать SLO/SLI в одну или несколько высокоуровневых метрик. Курс подойдет всем, кто хочет предотвращать сбои в работе еще до жалоб пользователей и бизнеса.

После обучения вы сможете работать с единым стандартом сбора и построения пирамиды метрик, который масштабируемой на любые команды.

Читать далее
Всего голосов 9: ↑8 и ↓1 +7
Комментарии 0

«Вымпелком» купил 20% разработчика аудиосистемы Voca Tech

Время на прочтение 2 мин
Количество просмотров 484
IT-инфраструктура *Финансы в IT IT-компании

Оператор «Вымпелком» объявил о покупке 20% головной структуры создателей системы речевой аналитики для розницы Voca Tech, принадлежащей казахстанской ТОО Dybys Tech, сообщил «Коммерсантъ». Таким образом российская телеком-компания намерена выйти на рынки стран СНГ.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 0

Система мониторинга Okmeter внесена в единый реестр российского ПО

Время на прочтение 2 мин
Количество просмотров 2.5K
Блог компании Флант Системное администрирование *IT-инфраструктура *DevOps *

Система мониторинга ИТ-инфраструктуры Okmeter включена в Росреестр. Это уже второе решение компании «Флант», которое зарегистрировано в реестре; первым стала Kubernetes-платформа Deckhouse.

Читать далее
Всего голосов 29: ↑27 и ↓2 +25
Комментарии 3
1