Как стать автором
Обновить

Администрирование

Сначала показывать
Порог рейтинга
Уровень сложности

Data Consistency: как быть уверенным, что с данными всё ок

Уровень сложности Средний
Время на прочтение 11 мин
Количество просмотров 342
SQL *Data Mining *Big Data *Data Engineering *
Туториал

Я довольно долгое время работала аналитиком в Яндекс.Метрике - системе web аналитики. Такие системы помогают сайтам собирать и анализировать поведение пользователей на их сайтах.

Естественно, в таких продуктах как аналитические системы, данные - это главная ценность. Поэтому одна из моих задач как аналитика был мониторинг того, что с данными всё ок.

В этой статье я хочу поделиться своим опытом по решению этой комплексной задачи и бонусом покажу примеры использования array функций в ClickHouse, которые могут помочь вам посчитать действительно сложные метрики.

Поехали
Рейтинг 0
Комментарии 0

Новости

Мой терминал: alacritty, zsh, tmux, nvim

Время на прочтение 7 мин
Количество просмотров 1K
Настройка Linux *VIM **nix *Софт
Из песочницы

В этой статье я расскажу о том, как я выстроил работу с терминалом в Linux под себя и какие инструменты использовал для этого.

Читать далее
Всего голосов 12: ↑10 и ↓2 +8
Комментарии 3

Реквием по красной панде

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 2.2K
DevOps *Data Engineering *
Ретроспектива

Apache Kafka - давно уже стала стандартом для распределенного лога, буфера для потоков данных. Можно сказать, что технология прочно вошла в разряд "скучных". Множество статей на хабре, медиуме, видео на ютубе, обширное сообщество в телеграме. Подводные камни известны, специалистов много, уровень зрелости дошел до такой стадии, что начали принимать достаточно сложные KIP типа отказа от Apache Zookeeper и т. п.

Но мы же айтишники, зуд улучшательства и непрерывного повышения качества (чтобы ни скрывалось под этой фразой) у нас в крови. И вот она - Redpanda, которая обещает нам полную совместимость с протоколом kafka, и еще кучу бонусов сверху.

Привет, меня зовут Стас, последние 5 лет я работаю на позиции data platform engineer. Из них Apache Kafka была одной из составляющих моих платформ данных около 3 лет. Эта статья будет итогом более чем полугода эксплуатации в продуктиве кластера redpanda. Спойлер: вчера я поднял из гита удаленные плейбуки для кафки и вернул ее в продакшн обратно, прощай мечта...

Читать далее
Всего голосов 16: ↑15 и ↓1 +14
Комментарии 6

Налоговые льготы для ИТ-компаний: детали из практики применения

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 382
IT-инфраструктура *Законодательство в IT Финансы в IT
FAQ
Recovery mode

В условиях принятых мер налоговой поддержки российским ИТ-компаниям, являющимся плательщиками налога на прибыль и страховых взносов, законодательство дает возможность воспользоваться пониженной (нулевой) налоговой ставкой по налогу на прибыль, применить пониженный тариф страховых взносов.

Названные льготы действуют для периода 2022 - 2024 годов.

Читать далее
Всего голосов 5: ↑2 и ↓3 -1
Комментарии 0

Истории

Как сделать из Python-скрипта исполняемый файл

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 3.5K
Блог компании Southbridge Python *Big Data *Data Engineering *
Туториал
Перевод

Вы изучаете данные и хотите поделиться своим кодом Python с другими, не раскрывая исходный код и не требуя от них установки Python и других компонентов? Если да, то вас может быть интересна конвертация вашего скрипта Python в исполняемый файл.

Читать далее
Всего голосов 19: ↑13 и ↓6 +7
Комментарии 10

Балансировка нагрузки: простыми словами о всей мощи двух случайных вариантов

Время на прочтение 7 мин
Количество просмотров 1.6K
Блог компании Издательский дом «Питер» Программирование *Алгоритмы *Серверная оптимизация *Распределённые системы *
Перевод
image

В мире динамического выделения ресурсов и балансировки нагрузки есть много интересных алгоритмов, но один из самых известных и занимательных – так называемый «метод двух случайных выборов». Он привносит очень простое изменение в процедуру случайного выделения ресурсов, а качество результатов от этого улучшается экспоненциально. Мне посчастливилось реализовать именно эту технику в гигантском масштабе, чтобы оптимизировать использование ресурсов в AWS Lambda, но мне всё равно долго не удавалось «прочувствовать» этот метод интуитивно. В этом посте хочу познакомить вас с той метафорической картиной этого алгоритма, которую я для себя составил, и которая очень удобна для понимания других продвинутых техник в этой области.
Читать дальше →
Всего голосов 10: ↑10 и ↓0 +10
Комментарии 3

Типичная задача на собеседовании: URL Shortener

Уровень сложности Средний
Время на прочтение 6 мин
Количество просмотров 2.7K
IT-инфраструктура *Usability *Accessibility *Хранилища данных *
Кейс
Recovery mode

Один из моих знакомых недавно сходил на собеседование, на котором его попросили спроектировать укорачиватель ссылок. Он растерялся и задачу — как хотел интервьюер — не осилил, а потом нашел в интернете популярное решение и попросил меня прокомментировать. Полная формулировка поставленной проблемы: «Как бы вы разработали службу сокращения URL-адресов, подобную TinyURL

К моему сожалению, я — человек любознательный, поэтому я не закрыл окно чата, а пошел почитать, как принято в высшем свете такую задачу нынче решать. То, что я увидел, заставило меня набросать свою собственную архитектурку, потому что даже в страшном сне согласиться с предложенным по ссылке дизайном — не вариант. В тексте ниже я заочно дискутирую с автором решения по ссылке выше.

Читать далее
Всего голосов 15: ↑9 и ↓6 +3
Комментарии 32

Июньский дайджест нового серверного оборудования

Время на прочтение 5 мин
Количество просмотров 1.7K
Блог компании Selectel IT-инфраструктура *Облачные сервисы *Компьютерное железо IT-компании

Производители оборудования каждый день засыпают нас новостями о новинках и изменениях в продуктах. Для того, чтобы оставаться на волне, мы в Selectel следим за этими новостями, а подходящее и актуальное железо внедряем и используем в наших дата-центрах.
Мне показалось интересным рассмотреть ряд «‎железных» новостей, а также кратко рассказать об опыте и планах использования некоторых новинок.

Заинтересовало? Тогда приглашаю под кат.
Читать дальше →
Всего голосов 28: ↑28 и ↓0 +28
Комментарии 1

Data Quality в банке — знаем цену каждой ошибки

Уровень сложности Простой
Время на прочтение 11 мин
Количество просмотров 391
Блог компании Газпромбанк Big Data *Data Engineering *

Финансовый сектор уже давно одна большая "дата", когда банк принимает решение о том, выдать ли человеку или компании кредит, он анализирует сотни метрик. Я руковожу стримом Data Quality в Газпромбанке и расскажу о том, как мы решаем проблемы при интеграции с внешними источниками информации, какие оценочные метрики используем и как экспериментируем с моделями, прогоняя неверные данные.

Откуда берутся ошибки и чем внешние источники данных отличаются от внутренних

Чем больше данных, тем больше проблем, связанных с их качеством, причем к ошибкам может привести огромное количество причин.  Некоторые — банальные. Например, оператор при вводе персональных данных неправильно перепечатал ФИО из паспорта. Есть ошибки в проектировании систем. Скажем, разработчики проигнорировали требование к длине поля ввода данных. Например, поле «Паспорт выдан» ограничили 35 символами. Понятно, что нужно больше, но в системе сохраняются только первые 35 введенных символов: «ФМС Тверского района по городу Моск». Бывает, не учли, что какие-то данные вообще надо сохранять, а они потом потребовались. Например, пол клиента. Могут возникнуть сложности, связанные с потерей части данных при передаче информации из системы в систему в ходе ETL/ELT-процессов. При этом стоит разделять проблемы с качеством внутренних данных, которые находятся во внутрикорпоративных системах, и внешних, поступающих из сторонних источников. У нас в банке отлажены процессы по улучшению качества данных (КД), поэтому оно постоянно растет и стабильно выше, чем КД из внешних источников.

еще про данные
Всего голосов 2: ↑1 и ↓1 0
Комментарии 1

Как настроить подключение к ClickHouse в FineBI V6.0?

Уровень сложности Простой
Время на прочтение 2 мин
Количество просмотров 184
Визуализация данных *Хранилища данных *
Туториал

В последнее время в работе часто сталкиваюсь с вопросом про подключение FineBI V6.0 к ClickHouse - столбцовой системе управления базами данных (СУБД) для онлайн обработки аналитических запросов (OLAP). Ловите пошаговую инструкцию.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 0

Extremum Seeking Control в системе адаптивного круиз-контроля автомобиля

Уровень сложности Средний
Время на прочтение 8 мин
Количество просмотров 505
Блог компании ЦИТМ Экспонента Matlab *Транспорт Инженерные системы *
Туториал

Существует множество подходов к управлению адаптивным круиз-контролем: ПИД-контроллеры, управление на основе нечеткой логики, MPC-контроллеры и др. MPC-контроллеры, из-за решения задачи оптимизации в пределах каждого шага расчета, довольно требовательны к целевой платформе. Остальные способы управления, несмотря на простоту настройки и физической реализации, не способны обеспечить оптимальное функционирование во всех режимах движения. Промежуточным решением этой проблемы является применение экстремального управления или управления на основе поиска экстремума (Extremum Seeking Control). В данной статье кратко коснемся того, что же такое управление на основе поиска экстремума, в чём его преимущества и недостатки, а также предложим общие рекомендации по настройке таких контроллеров. Тут вы не найдете исчерпывающих объяснений по всем тонкостям управления, материал представляет собой больше «быстрый взгляд» на возможный подход к управлению системой адаптивного круиз-контроля.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Комментарии 3

Все, что нужно знать про GPU: история технологии, архитектура графических процессоров и сферы их применения

Время на прочтение 12 мин
Количество просмотров 1.7K
Блог компании ГК ITGLOBAL.COM Работа с видео *Графический дизайн *Облачные сервисы *Процессоры
Обзор

GPU — графический процессор, который предназначен для ускорения рендеринга графики и параллельных вычислений. Он произвел настоящую революцию в том, как мы взаимодействуем с цифровым контентом. Будь то визуальные эффекты в видеоиграх, вычисления в алгоритмах машинного обучения или анимация в высококлассных программах для 3D-дизайна.

Роль GPU выходит за рамки рендеринга графики. С появлением вычислений общего назначения на графических процессорах (GPGPU) эти процессоры нашли применение в областях, где требуются высокопроизводительные вычисления. Например, ускорение задач искусственного интеллекта (ИИ), глубокое обучение до высокоскоростной аналитики данных и научные симуляции.

В этом материале мы рассмотрим историю GPU, архитектуру графического процессора и области его применения.

Читать далее
Всего голосов 10: ↑9 и ↓1 +8
Комментарии 0

Мы вложились в создание ненужного клиентам девайса и случайно повысили эффективность промышленных производств

Уровень сложности Средний
Время на прочтение 12 мин
Количество просмотров 1.6K
Блог компании ЭНКОСТ Промышленное программирование *Управление проектами *Инфографика Инженерные системы *
Кейс

Здравствуйте! Я Владимир Зайцев, основатель и генеральный директор компании Encost (Энкост). С 2013 г. мы помогаем клиентам-производственникам экономить на электроэнергии, но это отдельная история: мы пытались заработать, создав онлайн-калькулятор цен на электричество, а по факту стали сами корпеть над расчётами и переводить клиентов на более выгодные тарифы. В 2021 г. мы опять хотели заработать, помогая клиентам экономить электроэнергию, но сокрушительно промахнулись с запросом и чуть было не остались с любовно созданным и никому не нужным девайсом на руках. Но в итоге, после сбора обратной связи и допилов, мы превратили этот ненужный девайс в систему мониторинга для промышленных производств – Энкост Мониторинг. Вот эту историю с неожиданным поворотом я и хочу сегодня рассказать.

 Мне это кажется важным, потому что простая и дешевая система, созданная случайно, внезапно закрыла потребности мелких и средних производств. Раньше для них на рынке просто не было других подходящих систем мониторинга загрузки оборудования. Волею случая мы стали первыми, кто вообще услышал запрос небольших производственников. Возможно, моя история наведет других технарей и айтишников на полезные мысли о перспективах сотрудничества с отечественными производителями.

«Заработаем на онлайн-калькуляторе расчета электроэнергии! Что может пойти не так?»

 В начале этого пути мы толком ничего о производствах не знали и узнавать не планировали – просто с 2013 г. помогали юрлицам снижать затраты на электроэнергию. Сначала сделали онлайн-сервис – калькулятор, который показывал, из чего складывается ценообразование (для юрлиц это довольно замороченный процесс, у многих компаний был запрос плана: «Хотим убедиться, что не переплачиваем за электричество»). Собственник брал информацию со счетчика электроэнергии (это массив значений о почасовом потреблении за месяц), загружал эти данные на сайт, указывал параметры: регион, поставщик электроэнергии и прочее. Система на выходе выдавала все возможные варианты тарифа, доступные потребителю, и собственник мог понять: использует он сейчас самый выгодный для себя тариф или переплачивает.

Читать далее
Всего голосов 22: ↑21 и ↓1 +20
Комментарии 0

Generative AI. Как программистам держать нос по ветру

Уровень сложности Средний
Время на прочтение 11 мин
Количество просмотров 2.2K
Блог компании АСКОН Машинное обучение *Облачные сервисы *Искусственный интеллект
Мнение

Вряд ли найдётся тот, кто ещё не знаком с ChatGPT, Midjourney, StableDiffusion - такая популярность говорит сама за себя. Хайп вокруг генеративного искусственного интеллекта (далее - ИИ) не утихает и уже начинает немного надоедать. Но мы, как разработчики, должны оставаться в курсе событий и принимать реальность такой, какая она есть.

А реальность такова:

• Использование Copilot и его аналогов, ChatGPT и других генеративных нейросетей увеличивает вашу продуктивность.

• Бизнес активно ищет возможности оптимизировать процессы или внедрить новые фичи на основе генеративного ИИ.

Давайте разберём каждое из этих утверждений.

Читать далее
Всего голосов 16: ↑14 и ↓2 +12
Комментарии 0

Японский SSD (sardine state disk)

Уровень сложности Простой
Время на прочтение 2 мин
Количество просмотров 7.6K
Блог компании Cloud4Y Хранение данных *Гаджеты
Обзор

В декабре 2018 японский студент-химик с ником ni28_xp опубликовал фотографию USB-накопителя, сделанной из анчоуса. Звучит максимально странно даже для Японии, не так ли?

Читать далее
Всего голосов 27: ↑16 и ↓11 +5
Комментарии 12

Импортозамещение ITSM или как не купить кота в мешке

Уровень сложности Средний
Время на прочтение 9 мин
Количество просмотров 802
Блог компании К2Тех IT-инфраструктура *Help Desk Software *Service Desk *Управление проектами *
Обзор

Когда волна импортозамещения окончательно превратилась для российских компаний в цунами, каждая из них была вынуждена определиться с позицией в новом океане возможностей. По этой теме было сказано уже много, но в этой статье я хочу сфокусироваться на ITSM-решениях. И если заменить большую и сложную ERP или CRM крайне проблематично — да и не очень много вариантов замены доступно, — то идея «импортозаместить» ITSM-систему выглядит реализуемой меньшими усилиями и затратами. Но при этом позволяет показать, что компания слышит «посылы», исполняет указы и уже вовсю приступила к замене иностранного ПО на отечественное. Тем более, что как раз на рынке ITSM-решений в РФ есть то необходимое разнообразие, среди которого каждый сможет выбрать, что ему нужно.

Сегодня для многих наших заказчиков ответ на вопрос «Мигрировать или нет?» стал однозначным, и поэтому все чаще мы слышим: «А есть ли у вас понятное сравнение отечественных ITSM-платформ?». Спрос всегда рождает предложение! Так что мы в К2Тех, собрав весь свой 15-летний опыт, внимательно посмотрели на актуальные решения российских вендоров, на наши внедрения этих решений и сравнили их между собой. Как именно сравнили? Читайте под катом!

Читать далее
Всего голосов 5: ↑3 и ↓2 +1
Комментарии 0

Как мы упростили жизнь высоконагруженным сервисам с Platform V SessionsData. Часть 3

Уровень сложности Средний
Время на прочтение 5 мин
Количество просмотров 237
Блог компании Сбер Анализ и проектирование систем *Хранилища данных *Облачные сервисы *Микросервисы *

Привет, Хабр! С вами Андрей Чернов — Java-архитектор микросервисов в СберТехе.

Это третья часть материала про то, как мы развиваем Platform V SessionsData — высокопроизводительное распределённое in-memory хранилище для общего контекста сессионных запросов key-value. В первой части я рассказал, почему мы решили создать собственный микросервис, а во второй — как нам удаётся достигать высокой доступности сервиса. Сегодня поговорим о том, какие наработки помогут нам и дальше развивать Platform V SessionsData.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 0

Data science курсы. Топ 7, которые работают в 2023

Время на прочтение 9 мин
Количество просмотров 3.6K
Big Data *Учебный процесс в IT Карьера в IT-индустрии Data Engineering *
Обзор

Топ 7 школ предлагающих Data Science курсы, рассмотрим и покритикуем их детально. Если верить тому что вещает весь ютуб (не только связанный с программированием, а вообще весь), то наряду с нуль кодингом, и оперированием нейронными сетями — Data science захватит мир. И они будут им управлять, а мы им прислуживать. Причем чем глупее саентолог, тем агрессивней он! Ну что‑же, значит настало время разобраться в том, что такое Data science курсы, и почему их продвижение стало таким прибыльным.

Читать далее
Всего голосов 12: ↑6 и ↓6 0
Комментарии 5

Повышение энергоэффективности установок тоннельной вентиляции московского метрополитена при замене главных вентиляторов

Время на прочтение 18 мин
Количество просмотров 2K
Научно-популярное Физика Транспорт Экология Инженерные системы *

Экономическая оптимизация технических решений в системах общеобменной вентиляции

В предыдущей статье было упомянуто два типа крупных вентиляторов для проветривания тоннелей метрополитена, которые при большой  разнице в производительности по воздуху (70 и 110 м3/с) имели одинаковую мощность 75кВт.

Рекуперация и теплоутилизация в системах общеобменной вентиляции

Мне даже попалась статья про попытки увеличить энергетическую эффективность стандартных тоннельных вентиляторов за счёт выкидывания из них лишних деталей. (см.ссылку. ниже)

Вентиляторные установки тоннельной вентиляции нового поколения

Читать далее
Всего голосов 15: ↑12 и ↓3 +9
Комментарии 14

Будущее управления знаниями: что можно внедрить сейчас с прицелом на перспективу

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 854
Блог компании TEAMLY Исследования и прогнозы в IT *Облачные сервисы *Искусственный интеллект
Мнение

От современной базы знаний до цифровых двойников. Что поможет компаниям управлять своими знаниями выше, быстрее, сильнее. И зачем все это нужно.

Читать далее
Всего голосов 4: ↑0 и ↓4 -4
Комментарии 2