Как стать автором
Обновить
7.64

Apache *

Свободный веб-сервер

Сначала показывать
Порог рейтинга
Уровень сложности

Apache NlpCraft 1.0.0. Упрощение использования и расширение возможностей

Время на прочтение 7 мин
Количество просмотров 421
Open source *Scala *API *Apache *Natural Language Processing *
Обзор

Apache NlpCraft - библиотека с открытым исходным кодом, предназначенная для интеграции языкового интерфейса с пользовательскими приложениями. Новая версия 1.0.0 привнесла в проект наиболее существенные изменения за все время его существования. 

Основные идеи развития библиотеки были изложены в данной заметке, вкратце напомню их суть:

1. Предельное упрощение, отказ от всех вспомогательных enterprise возможностей, предельно точная фокусировка продукта.

2. Максимальная  плагабильность, позволяющая контролировать все элементы обработки текста и как следствие, решающая проблему поддержки мультиязычности.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 0

Новости

Управляем пользователями и топиками Apache Kafka с помощью оператора Kubernetes

Уровень сложности Средний
Время на прочтение 8 мин
Количество просмотров 5.2K
Блог компании CloudMTS Администрирование баз данных *Apache *DevOps *Kubernetes *
Кейс
Всем привет!

Меня зовут Иван Гулаков, я техлид DevOps-команды, отвечающей за инфраструктуру, где работают облачные сервисы #CloudMTS.

Сегодня я расскажу, как с помощью самописного оператора Kubernetes мы автоматизировали управление пользователями и топиками наших Kafka-кластеров.

image
Читать дальше →
Всего голосов 23: ↑23 и ↓0 +23
Комментарии 6

Как мы распараллелили CatBoost на Spark

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 970
Блог компании X5 Tech Apache *Big Data *Kubernetes *Data Engineering *
Кейс

Привет, Хабр! Я занимаюсь инженерией данных в Х5 Tech. В этой статье я решил поделиться проблемами, с которыми столкнулись при распараллеливании CatBoost на Spark, и как мы нашли решение. Возможно, это не rocket science, но если бы со мной поделились такими ответами заранее, я бы сэкономил себе пару вечеров свободного времени.

Читать далее
Всего голосов 7: ↑6 и ↓1 +5
Комментарии 0

Специфика DataOPS в Учи.ру

Время на прочтение 8 мин
Количество просмотров 989
Блог компании Учи.ру Apache *Big Data *DevOps *Kubernetes *

Привет, Хабр! Меня зовут Сергей Поляков и я DataOps‑инженер в Учи.ру. Наша платформа объединяет почти 19 млн пользователей, которые совершают сотни миллионов действий. При этом нам важно хранить эти данные, чтобы совершенствовать продукт. Главная задача Data‑инженеров — поддерживать стабильную инфраструктуру и внедрять инструменты для централизованной работы с данными. Я расскажу, какие решения по автоматизации и DevOps‑практики мы используем для этого.

Инфраструктура и источники данных

Наша инфраструктура располагается на проекте Data Warehouse. Примерный объем хранилища данных — около 100 ТБ и ежедневная дельта — в районе 10 ТБ. Все данные мы размещаем в облачном хранилище от Selectel.

Основными источниками данных являются:

Читать далее
Всего голосов 2: ↑1 и ↓1 0
Комментарии 1

Истории

Взлетаем с управляемым кластером Kafka в #CloudMTS. Несколько советов для старта

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 1.2K
Блог компании CloudMTS Высокая производительность *Системное администрирование *Apache *Распределённые системы *
Обзор
image

Привет, Хабр!

Меня зовут Дмитрий Быстриков, я Technical Product Owner в команде Managed Service for Apache Kafka в #CloudMTS. Сегодня я расскажу, что умеет наша Kafka и чему научится в ближайшее время. Для тех, кто дочитает до конца, я приготовил несколько советов от наших инженеров по настройке кластера. Если интересно, прошу под кат.

Читать дальше →
Всего голосов 8: ↑8 и ↓0 +8
Комментарии 0

Создайте конвейер потоковой обработки событий в реальном времени с помощью Kafka, BigQuery & Looker Studio

Время на прочтение 10 мин
Количество просмотров 1.5K
Блог компании Southbridge IT-инфраструктура *Apache *Терминология IT IT-компании
Перевод

Создание простого проекта потоковой обработки событий – не самая простая задача. В сегодняшней статье мы расскажем, как можно достаточно просто сделать это при помощи Kafka, BigQuery & Looker Studio.

Приложения для потоковой обработки в реальном времени иногда могут быть сложными. Пытаясь узнать о них, важно выбрать практический вариант использования, чтобы обеспечить увлекательный и эффективный процесс обучения. Надеемся, что с помощью приведенного в этой статье примера вы сможете легко понять основы создания приложения в реальном времени.

Читать далее
Всего голосов 10: ↑9 и ↓1 +8
Комментарии 1

Выбираем формат хранения данных в экосистеме Hadoop

Время на прочтение 5 мин
Количество просмотров 1.6K
Программирование *Apache *Hadoop *Data Engineering *
Кейс

Привет, %username%! Меня зовут Кирилл Фурзанов, я Data Scientist в Сбере, участник профессионального сообщества NTA. При формировании витрин данных и датасетов в экосистеме Hadoop одним из важных вопросов является выбор оптимального способа хранения данных в hdfs. Рассмотрим один из важных вопросов при создании витрины – выбор соответствующего формата файла для хранения.

Читать далее
Всего голосов 6: ↑3 и ↓3 0
Комментарии 11

Повторная обработка данных на платформе управления цифровыми ресурсами в Netflix

Время на прочтение 7 мин
Количество просмотров 1.2K
Блог компании Southbridge Системное администрирование *IT-инфраструктура *Apache *DevOps *
Кейс
Перевод

Netflix ушел, а технологии остались. Поэтому мы решили перевести оригинальную статью за авторством Meenakshi Jindal о том, как стриминговый сервис обрабатывает данные с помощью Apache Kafka.

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Комментарии 0

Обновляем платформу 1С на сервере под управлением Linux

Время на прочтение 5 мин
Количество просмотров 11K
Настройка Linux *IT-инфраструктура *Apache *Отладка * *
Из песочницы

Данная статья является, по сути, моей методичкой о том как перевести сервер 1С и прилегающие сервисы, работающие под Linux на новую версию платформы.

Действуя по этой методичке вы сможете пройти короткий путь по переводу своей инфраструктуры на новую версию платформы в конце 2022 года.

Читать далее
Всего голосов 17: ↑17 и ↓0 +17
Комментарии 17

AIRFLOW ETL let's start гайд за 5 минут

Время на прочтение 2 мин
Количество просмотров 1.7K
Python *Amazon Web Services *Apache *
Из песочницы

Всем привет! Меня зовут Михаил. Данная статья адресована тем, кто хотел бы познакомиться с Airflow и тем как его можно применять в организации рутинных процессов инфообмена.

Читать далее
Всего голосов 6: ↑2 и ↓4 -2
Комментарии 3

Используем аннотацию @Transactional like a pro

Время на прочтение 20 мин
Количество просмотров 11K
Блог компании Росбанк Высокая производительность *Java *Apache *Микросервисы *

Привет, Хабр! Меня зовут Никита Летов, я тимлид бэкенд-разработки мобильного приложения Росбанка для физических лиц. Этот пост входит в серию постов по разработке бэкенд-микросервисов на Java и Spring и является адаптацией моего доклада с JPoint 2022

Также хочу предупредить, что данный пост не cookbook и не предоставляет идеально приготовленное решение какой-либо бизнес-проблемы. Это разбор одной технологии, которая при правильном использовании может помочь вам в решении реальной проблемы. А может и не помочь — всё зависит от ее природы.

Читать далее
Всего голосов 17: ↑16 и ↓1 +15
Комментарии 11

Apache Airflow vs Prefect

Время на прочтение 7 мин
Количество просмотров 1.8K
Блог компании OTUS Apache *
Перевод

В мире современного дата-инжиниринга и MLOps необходимость оркестрации распределенных конвейеров данных с применением платформ управления рабочими процессами (workflow management platforms) становятся все очевиднее. Инструменты оркестрации рабочих процессов могут взять на себя тяготы обработки и распределения данных между системами и задачами, что по-прежнему является довольно сложным процессом. 

Оркестрация рабочих процессов является естественным ответом на растущую с течением времени сложность рабочих процессов и конвейеров. Очень часто команды разработчиков начинают с управления и обработки задач вручную, включая очистку данных, обучение, отслеживание результатов, развертывание и т. д. Но по мере усложнения задач и рабочих процессов ручная оркестрация становится все более трудоемкой. 

Это стало причиной развития платформ управления рабочими процессами и оркестрации в последние годы. 

Читать далее
Всего голосов 4: ↑3 и ↓1 +2
Комментарии 0

Обзор End-to-End Exactly-Once семантики в Apache Flink (с Apache Kafka!)

Время на прочтение 8 мин
Количество просмотров 921
Блог компании OTUS Apache *
Перевод

Релиз Apache Flink 1.4.0 в декабре 2017 года стал знаковым событием для потоковой обработки данных с помощью Flink: была представлена новая фича под названием TwoPhaseCommitSinkFunction (соответствующий issue в Jira), которая извлекает общую логику протокола двухфазной фиксации транзакции (two-phase commit protocol) и позволяет создавать end-to-end exactly-once приложения с Flink и набором источников и потребителей данных, включая Apache Kafka версии 0.11 и выше. Она обеспечивает уровень абстракции и для достижения end-to-end exactly-once семантики требует от пользователя реализовать всего лишь пару методов.

Если вы уже услышали все, что вам нужно было услышать, позвольте нам указать вам соответствующий раздел в документации Flink, где вы можете прочитать о том, как использовать TwoPhaseCommitSinkFunction.

Но если вы хотите узнать больше, то в этой статье мы поделимся подробным обзором этой фичи и того, что Flink оставляет за кулисами.

Читать далее
Всего голосов 9: ↑7 и ↓2 +5
Комментарии 0

Мониторинг в NiFi. Часть третья. Задачи отчетности Site-to-Site

Время на прочтение 19 мин
Количество просмотров 1.1K
Блог компании Neoflex Open source *Apache *Big Data *

В предыдущих частях мы рассмотрели вопросы мониторинга потоков данных и состояния системы средствами GUI NiFi и задач отчетности. В этой части поближе познакомимся с задачами отчетности Site-to-Site. При отправке данных из одного экземпляра NiFi в другой можно использовать множество различных протоколов, однако, предпочтительным является NiFi Site-to-Site. Данный протокол предлагает безопасную и эффективную передачу данных из узлов в одном экземпляре NiFi, производящем данные, на узлы в другом экземпляре, являющимся приемником этих данных.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 0

Мониторинг в Apache NiFi. Часть вторая

Время на прочтение 14 мин
Количество просмотров 2.3K
Блог компании Neoflex Apache *Big Data *

Задачи отчетности (Reporting Tasks)

В первой статье мы рассмотрели вопросы мониторинга потоков данных и состояния системы средствами GUI NiFi. Теперь рассмотрим, как передать необходимые метрики и отчеты об ошибках и состоянии кластера во внешние системы. NiFi предоставляет возможность сообщать о состоянии, статистике, показателях и информации мониторинга внешним службам с помощью интерфейса задач отчетности (Reporting Task).

Apache NiFi предоставляет несколько вариантов задач отчетности для поддержки внешних систем мониторинга, таких как AmbariGrafana, Prometheus и т. д. Разработчик может создать пользовательскую задачу отчетности или настроить встроенные задачи для отправки метрик NiFi во внешние системы мониторинга.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 7

Построение сложных маршрутов в Apache Camel с помощью компонента Direct

Время на прочтение 3 мин
Количество просмотров 1K
Разработка веб-сайтов *Java *Apache *
✏️ Технотекст 2022

В данной статье я бы хотел раскрыть тему создания сложных маршрутов в Apache Camel с помощью компонента Direct.

Читать далее
Всего голосов 4: ↑3 и ↓1 +2
Комментарии 3

Тестирование Kafka Streams: глубокий разбор

Время на прочтение 12 мин
Количество просмотров 2.1K
Блог компании Росбанк Тестирование IT-систем *Apache *

Привет! Меня зовут Иван Пономарёв, я разработчик в Synthesized, преподаю в МФТИ и EEUAS. На этом митапе Росбанка и Jug.ru я расскажу о тестировании Kafka Streams и, в частности, об особенностях инструмента TopologyTestDriver. Этот доклад я подготовил совместно с Джоном Рослером (John Roesler), разработчиком из Confluent, коммитером и одним из продакт-менеджеров Apache Kafka.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 0

9 продуктов для создания дашбордов

Время на прочтение 8 мин
Количество просмотров 12K
Open source *Apache *Big Data *Визуализация данных *DevOps *

Семь Open Source и два low-code-продукта для визуализации BI-аналитики от AFFINAGE

Для решение клиентских задач мы постоянно ищем способы сделать лучше. И очень часто сделать лучше значит сменить продукт. Поэтому мы постоянно анализируем рынок различных nocode-решений. Мы решили поделиться накопленными знаниями о такой важной задаче как построение аналитических дашбордов.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 21

Синхронный «запрос-ответ» с использованием REST и Apache Kafka

Время на прочтение 8 мин
Количество просмотров 9.9K
Блог компании Иннотех Высокая производительность *Программирование *Java *Apache *

Подружить REST и Apache Kafka кажется нетривиальной задачей. Однако с ней удалось справиться экспертам Группы «Иннотех». Ведущий разработчик Кирилл Воронин рассказал подробности решения задачи перевода асинхронных запросов в синхронные.

Читать далее
Всего голосов 22: ↑12 и ↓10 +2
Комментарии 13

Машинное обучение с Apache Cassandra и Apache Spark

Время на прочтение 7 мин
Количество просмотров 1.7K
Блог компании OTUS NoSQL *Apache *Машинное обучение *
Перевод

В первой статье из серии об использовании Apache Cassandra в машинном обучении мы обсудили цели и задачи машинного обучения, и поговорили почему Cassandra — превосходный инструмент для обработки больших наборов данных. Также рассмотрели технологический стек, используемый Uber, Facebook и Netflix. Обе статьи основаны на воркшопе Machine Learning with Apache Cassandra and Apache Spark (Машинное обучение с помощью Apache Cassandra и Apache Spark).

В этой статье мы рассмотрим интеграцию Apache Spark с Cassandra и построение эффективных алгоритмов и решений. Мы также обсудим обучение с учителем, без учителя и метрики машинного обучения. Примеры и упражнения доступны на GitHub.

Читать далее
Всего голосов 7: ↑6 и ↓1 +5
Комментарии 0