Southbridge, Москва - Обеспечиваем стабильную работу highload-проектов / Статьи / Хабр

Как стать автором

Обеспечиваем стабильную работу highload-проектов

Профиль Блог 584 Новости 24 Вакансии Подписчики 29K

Polina_Averina 9 июля в 14:52

Я работал в Черногории и Сербии, но вернулся в Ставрополь. История DevOps-инженера

Блог компании SouthbridgeIT-эмиграцияКарьера в IT-индустрииУдалённая работа

Павел Селиванов почти 3 года прожил на Балканах. Сначала в Черногории, потом в Сербии. Мы побеседовали с Павлом, и он рассказал о жизни в Европе, черногорских квартирах и сербской кухне, а еще почему баня с пельменями — это вам не СПА с равиоли.

Читать дальше

+38

18K

Показать еще

geniyoctober 2 июля в 09:00

АМА-сессия Слёрма по service mesh. Часть 2

Блог компании SouthbridgeСистемное администрированиеСерверное администрированиеDevOpsМикросервисы

Продолжение сессии вопросов и ответов по service mesh, добавлены вопросы от участников мероприятия. Сессия прошла в рамках подготовки к интенсиву Слёрм по service mesh.

Марсель Ибраев, СТО Слёрм, вёл мероприятие, а Александр Лукьянченко, тимлид в команде архитектуры Авито, и Иван Круглов, Staff Software Engineer в Databricks, делились экспертизой.
Оба инженера имеют опыт не просто с работы какой-то конкретной реализацией service mesh, но с построением собственного, что намного круче.

Читать дальше →

+6

424

Polina_Averina 1 июля в 08:44

Эволюция распределённых систем в Kubernetes

Блог компании SouthbridgeDevOpsМикросервисыKubernetesServerless

Перевод

Фото Cenk Batuhan Özaltun, Unsplash.com

Обзор

Облачные платформы должны предоставлять современным распределённым приложениям возможности, связанные с управлением жизненным циклом, взаимодействием, привязками и состояниями.
Kubernetes хорошо поддерживает управление жизненным циклом, но для остального использует другие платформы с помощью концепции sidecar-контейнеров и операторов.
В будущем распределённые системы на базе Kubernetes будут состоять из нескольких сред выполнения, где бизнес-логика будет ядром приложения, и «меха»-компоненты (прим. переводчика: «меха» — сокращение от mechanics) в виде сайдкаров будут предлагать большие возможности в виде распределённых примитивов «из коробки».
Такая разделённая меха-архитекура связывает элементы бизнес-логики и улучшает операции второго дня, вроде патчинга, апгрейдов и долгосрочной поддержки.

На конференции QCon в марте я рассказывал об эволюции распределённых систем в Kubernetes. Главный вопрос: что будет после микросервисов? У вас наверняка есть мнение на этот счет. У меня оно тоже есть. В конце вы узнаете, что я думаю. Но для начала давайте обсудим потребности распределённых систем. Как эти потребности развиваются с годами, начиная с монолитных приложений до Kubernetes и таких новых проектов, как Dapr, Istio, Knative, и как они меняют наши методы работы с распределёнными системами. Попробуем сделать несколько прогнозов на будущее.

Читать дальше →

+8

3.3K

geniyoctober 30 июня в 09:00

Зачем инженеру эксплуатации знать Python: три кейса из практики

Блог компании SouthbridgeСистемное администрированиеPythonIT-инфраструктураDevOps

7 июня наша команда запустила для 90 участников первый поток курса по Python, созданного специально для инженеров эксплуатации и системных администраторов. Там разбираем админские библиотеки, пишем операторы и модули, настраиваем интеграции, а в конце каждый студент напишет свой проект и получит код-ревью.

Анонсируя второй поток, который стартует 11 октября, делимся историей Артёма Чекунова, Senior DevOps Engineer в Chartboost. Артём рассказывает, как познакомился с Python, и описывает несколько реальных кейсов его применения: для анализа потребления ресурсов в облаке и bare-metal, сборки тяжелого софта, мониторинга серверов Elasticsearch.

Читать дальше →

+7

6.3K

geniyoctober 24 июня в 09:00

Что такое service mesh, когда внедрять, альтернативы Istio и другие ответы экспертов с АМА-сессии Слёрм по service mesh

Блог компании SouthbridgeСистемное администрированиеDevOpsМикросервисыKubernetes

Публикуем сессию вопросов и ответов по service mesh. Сессия прошла в рамках подготовки к интенсиву Слёрм по service mesh. На Youtube есть запись.

Эксперты отвечали на самые популярные вопросы по технологии service mesh и вопросы участников мероприятия. Ключевые вопросы АМА-сессии:

Что такое service mesh,
Когда внедрять,
Альтернативы Istio,
Почему Envoy используется в service mesh, а не Nginx.

Марсель Ибраев, СТО Слёрм, вёл мероприятие, а Александр Лукьянченко, тимлид в команде архитектуры Авито, и Иван Круглов, Staff Software Engineer в Databricks, делились экспертизой.
Оба инженера имеют опыт не просто с работы какой-то конкретной реализацией service mesh, но с построением собственного, что намного круче.

Читать дальше →

+8

2K

Polina_Averina 23 июня в 14:27

«Изменить настройки в голове гораздо сложнее, чем на сервере». Как мы ищем инженеров в Southbridge

Блог компании SouthbridgeУправление персоналомКарьера в IT-индустрииDevOpsУдалённая работа

Ещё в 2020 в Southbridge не было специалиста по подбору персонала, а большинство наших инженеров устроились на работу без видеоинтервью. Мы даже не знали, как они выглядят.
Эта статья про то, как ищем новых инженеров сейчас, какие шаги нужно будет пройти после отклика на вакансию и на что обратить внимание на каждом из этих этапов.

Читать дальше →

+18

3.6K

geniyoctober 23 июня в 09:00

Stargate: что это, как работает и зачем использовать

Блог компании SouthbridgeNoSQLАдминистрирование баз данныхApacheBig Data

Stargate — это open source фреймворк для работы с Apache Cassandra. Как он устроен и какие преимущества даёт, на конференции Cassandra Day Russia 2021 рассказал Дмитрий Бурлачков, Software Engineer в DataStax и один из разработчиков Stargate. Под катом расшифровка его доклада.

Читать дальше →

+10

1.3K

Polina_Averina 18 июня в 06:37

Контролируем удаление с финализаторами

Блог компании SouthbridgeСистемное администрированиеСерверное администрированиеDevOpsKubernetes

Перевод

Фото с сайта Unsplash.com

В Kubernetes не так-то просто что-то удалить — вы уверены, что удалили объект, но оказывается, что он все еще присутствует в кластере. Вы, конечно, можете выполнять команду kubectl delete в повседневных операциях и надеяться на лучшее, но знание принципов работы delete команд в Kubernetes поможет вам понять, почему некоторые объекты остаются после удаления.

В этой статье мы рассмотрим:

Какие свойства ресурса влияют на удаление.
Как финализаторы и ссылки на родителя-владельца управляют удалением объектов.
Как можно использовать propagationPolicy, чтобы изменить порядок удаления.
Как работает удаление, с примерами.

Читать дальше →

+8

1.8K

geniyoctober 17 июня в 19:50

Интервью с Марселем Ибраевым о распиле монолита или «Успех распила монолита – грамотный менеджмент»

Блог компании SouthbridgeПрограммированиеIT-инфраструктураУправление проектамиKubernetes

«Я как-то видел, когда в команду разработки закинули задачу распилить монолит. И всё. Люди должны были работать в два раза больше – это ужасно».

Когда поступает похожий запрос, важно не наворотить дел и понять, как избежать новых трудностей. Об этом рассказал Марсель Ибраев, технический директор Слёрма.

Марсель поделился непростым кейсом из своего опыта, высказал мнение, что всё начинается с менеджмента и как может выглядеть обучение распилу монолита. Этот материал не очередное руководство к действию. Это интервью с человеком, который набил не одну шишку при выстраивании правильного распила.

Читать дальше →

+10

2.3K

Polina_Averina 15 июня в 14:02

Постмортем инцидентов для начинающих

Блог компании SouthbridgeПрограммированиеСерверное администрированиеУправление проектамиDevOps

Перевод

Фото с сайта Unsplash.com

Успешные постмортемы без поиска виноватых помогают учиться на инцидентах, чтобы не допускать подобных ошибок в будущем.

Постмортем — это сам и процесс, и его результат, то есть документ, где вы описываете инцидент, его разрешение и меры, которые можно принять, чтобы такого больше не повторилось.

Читать дальше →

+10

2.5K

Polina_Averina 11 июня в 10:30

Знакомьтесь: Argo Rollouts v1.0

Блог компании SouthbridgeСистемное администрированиеСерверное администрированиеDevOpsKubernetes

Перевод

Правильный подход к Progressive Delivery

Команда Argo с гордостью представляет Argo Rollouts v1.0! Узнайте, зачем был запущен этот проект и как мы работали над ним. Инструкции по установке см. на странице релизов.

Читать дальше →

+11

1.9K

Polina_Averina 8 июня в 15:27

Бенчмаркинг Linkerd и Istio

Блог компании SouthbridgeСистемное программированиеDevOpsМикросервисыKubernetes

Перевод

Фото с сайта linkerd.io

Пару лет назад ребята из Kinvolk сравнили производительность Linkerd и Istio и узнали, что Linkerd значительно быстрее и меньше Istio везде, кроме одной области. Linkerd использовала больше процессорных ресурсов в плоскости данных (data plane). Недавно мы повторили эти эксперименты с последними версиями обеих service mesh. Как показывают результаты, Linkerd не только по-прежнему заметно быстрее Istio, но и использует на порядок меньше ресурсов памяти и процессора в плоскости данных (data plane). Причем это происходит, даже если число запросов в секунду в три с лишним раза больше, чем в бенчмарке Kinvolk. Вы легко можете это повторить.

А теперь подробности.

Читать дальше →

+14

1.5K

Polina_Averina 4 июня в 11:04

xPaste от Southbridge для пересылки паролей и кода

Блог компании SouthbridgeИнформационная безопасностьOpen source

Время от времени нам нужно обмениваться с клиентами и коллегами паролями, фрагментами кода или логами. О сервисах для одноразовых url, с помощью которых можно передавать пароли, уже много писали на Хабре, например, здесь и вот тут. Мы тоже когда-то использовали Pastebin, но потом создали свой сервис xPaste. Сегодня рассказываем, зачем он нам, и делимся исходниками.

Читать дальше →

+12

1.4K

Polina_Averina 24 мая в 11:00

Service Mesh Wars, прощаемся с Istio

Блог компании SouthbridgeСистемное администрированиеDevOpsМикросервисыKubernetes

Перевод

Фото Brian McGowan, Unsplash.com

Мы использовали Istio в продакшене почти два года, но больше не хотим. Я расскажу, чем мы недовольны и как выбрали другую service mesh.

Читать дальше →

+22

4.8K

Polina_Averina 21 мая в 12:40

Разработка производительной модели обработки данных для Cassandra

Блог компании SouthbridgeNoSQLАдминистрирование баз данныхApacheBig Data

В DataStax работают над созданием производительной модели данных для Apache Cassandra. В чём заключается эта работа и как её делать правильно, на конференции Cassandra Day Russia 2021 рассказал Артём Чеботко, Solutions Architect в DataStax.

Речь пойдет о разработке производительной модели данных для Apache Cassandra. Над этой задачей я долгое время работаю в DataStax. Есть довольно большое количество проектов и use cases, в которых нужна была производительная модель данных. Мы поговорим о методологии и как это сделать правильно.
Начнем с более простых вещей. Обсудим, как Cassandra хранит данные, чтобы понимать, на что нужно особенно обращать внимание. Потом обсудим методологию. Здесь также есть 3 примера, о которых я хотел бы поговорить. Они разные, в них есть разные оптимизации, которые можно обсудить.

Читать дальше →

+6

1.4K

geniyoctober 21 мая в 10:35

Kafka, Lamoda и непреодолимое желание учиться

Блог компании SouthbridgeБлог компании LamodaIT-инфраструктураУчебный процесс в ITРаспределённые системы

Никита Галушко, разработчик подразделения Online Shop Lamoda, в онлайн-гостях у учебного центра Слёрм поделился своими впечатлениями от курса по Kafka, рассказал, как используют эту технологию и какие проблемы решают в отделе R&D (Research and Development).

«Как быстро мы упремся в сетевой канал, который использует Kafka — через года два или раньше?»

Lamoda — один из крупнейших интернет-магазинов в России и СНГ. Чтобы покупатели пользовались сайтом без проблем и радовались быстрой отгрузке и доставке, IT-системами в Lamoda занимаются 340 сотрудников: разработчики, QA-инженеры, аналитики, DevOps-специалисты, продуктовые менеджеры, дизайнеры. Узнаем, как в этой системе крутятся винтики.

Читать дальше →

+13

4.5K

Polina_Averina 19 мая в 13:00

Масштабируем кластер Kubernetes до 7500 нод

Блог компании SouthbridgeСистемное администрированиеСерверное администрированиеDevOpsKubernetes

Перевод

Фото Carles Rabada, Unsplash.com

Мы заскейлили кластер Kubernetes до 7500 нод, создав масштабируемую архитектуру для крупных моделей, вроде GPT-3, CLIP и DALL·E, и для небольших итеративных исследований, например, законов масштабирования для нейронных моделей языка. Кластер Kubernetes такого размера — редкость, и действовать нужно осторожно, зато мы получили простую инфраструктуру, в которой специалисты по машинному обучению работают быстрее и могут масштабироваться без изменения кода.

Читать дальше →

+13

3.2K

geniyoctober 18 мая в 18:00

Когда без выделенного DevOps — уже никуда. Кейс компании Geecko

Блог компании SouthbridgeРазработка игрDevOpsОблачные сервисыИнтервью

SberCraft, CyberCode, Luxcity — возможно, вы слышали об этих играх или даже участвовали в них. Всё это — Geecko рук дело. Самые крупные проекты Geecko собирают по 20 тыс. игроков, при этом до недавних пор в компании не было выделенной команды для поддержки инфраструктуры.

СТО компании Никита Обухов и директор по маркетингу Ирина Фёдорова рассказали об инциденте, который стал одним из аргументов всерьёз задуматься об инфраструктурных переменах, переезде на K8s и найме команды DevOps.

Что внутри:

потеря контроля над Facebook,
внезапный наплыв трафика в пятницу вечером,
грант от Microsoft Azure, переезд между облаками и сложности трансформации.

Поехали!

Читать дальше →

+9

2.9K

geniyoctober 18 мая в 12:00

Создать кластер за 120 секунд: открытый курс по Managed Kubernetes

Блог компании SouthbridgeСистемное администрированиеIT-инфраструктураОблачные сервисыKubernetes

Учебный центр «Слёрм» и Selectel совместными усилиями создали курс по Managed Kubernetes, доступ к урокам предоставляется бесплатно.

Спикеры курса познакомят с Managed Kubernetes Selectel и научат работать с кластерами.
Покажут популярные кейсы использования, разберут мультизональный кластер и расскажут, как рассчитать стоимость проекта.

По окончании курса вы сможете решать главную задачу – организация контейнерной инфраструктуры.

Кому подойдёт курс

Администраторам, готовым приобрести практический опыт использования Kubernetes.
Инженерам, оптимизирующим затраты на рутинные задачи по разворачиванию и поддержке кластеров Kubernetes.
Разработчикам, желающим получать контейнерную инфраструктуру быстрее.

Читать дальше →

+28

2.7K

geniyoctober 12 мая в 14:07

«SRE — это не только про алертинг и постмортемы, а ещё про то, чтобы до продакшена не доходил код, который будит ночью»

Блог компании SouthbridgeПрограммированиеIT-инфраструктураУчебный процесс в ITDevOps

21 мая в «Слёрме» начнётся интенсив по SRE. На три полных дня участники погрузятся в теорию и практику поддержки высоконагруженных сервисов. Никаких задач по работе, никаких семейных дел — только учёба. Под катом рассказываем, что вас ждёт, если решите присоединиться.

Читать дальше →

+4

1.5K

1