Как стать автором
Обновить

Администрирование

Сначала показывать
  • Новые
  • Лучшие
Порог рейтинга
  • Все
  • ≥0
  • ≥10
  • ≥25
  • ≥50
  • ≥100

Как писать посты в стиле Артемия Лебедева? Подробный анализ телеграм-канала и кое-что еще

Serverless *Визуализация данных Искусственный интеллект Машинное обучение *

Дисклеймер номер один: 18+. В этой статье присутствует ненормативная лексика, так как автор текстов, которые мы анализируем, не стесняется в выражениях. Мы не хотим никого задеть или оскорбить чьи-то чувства, присутствие мата объясняется лишь объектом нашего исследования.

Все знают телеграм-канал Артемия Лебедева, в котором очень часто можно увидеть хлесткое матерное слово, а некоторые его посты и вовсе неоднозначны. Я и мой коллега Егор решили как следует разобраться в семантике текстов Артемия, скачали все посты телеграм-канала и проанализировали его словарный диапазон. Сегодня мы обсудим важные этапы исследования и, что самое главное, обсудим аналитические выводы о телеграм-канале Артемия Лебедева

Изначально, мы поставили перед собой следующие задачи: собрать тексты всех постов и метаинформацию о них, получить динамику подписчиков на канале, а после провести описательный и семантический анализы собранных данных. Но нам удалось сделать даже больше — в результате мы смогли обучить нейронную сеть на текстах Артемия Лебедева.
Теперь мы можем писать тексты для тг-канала Лебедева без него самого. Правда-правда.
Хотите узнать как?

Читать дальше →
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 482
Комментарии 0

Новости

Хранители данных: как устроена работа с DWH в Lamoda

Блог компании Lamoda Oracle *IT-инфраструктура *Хранение данных *Хранилища данных *

Всем привет! Меня зовут Юлия Скогорева, я системный аналитик в команде Center of excellence в Lamoda, которая входит в дирекцию данных и аналитики.

Если бизнесу нужны какие-то данные для принятия важных решений, то на помощь приходит наша команда. Мы тщательно изучаем множество микросервисов, чтобы определить, какие же данные нужны для решения бизнес-целей, формируем архитектуру хранилища, пишем скрипты запросов и витрин данных, строим юниверсы, делаем отчеты и дашборды. Большая часть работы не обходится без участия команды DWH-разработки.

В статье я расскажу, как устроено хранилище данных в Lamoda, что находится на каждом его слое, с помощью каких инструментов мы визуализируем данные, сколько у нас отчетов и зачем используем APEX.

Читать далее
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 328
Комментарии 3

А все ли врут? Продолжаем издеваться над NVME

Блог компании RUVDS.com Системное администрирование *Серверная оптимизация *Серверное администрирование *Компьютерное железо
Tutorial

А пока мои коллеги пытаются разобраться с проблемами серверных NVME Raid массивов, я решил посмотреть на проблему с другого ракурса. Ведь NVME — это не только жёсткий диск, но и три-четыре протокола быстропередаваемых данных.

Для многих из нас nvme означает, что мы купили новый компьютер или ультрабук. Жёсткий диск, подключённый напрямую к шине PCIE, позволяет существенно снизить задержки передачи данных и ускорить любую систему. NVME — это ключ к загрузке любой системы за 3 секунды.

Но, на самом деле сам по себе NVME — это не стандарт для жёстких дисков. NVME расшифровывается как NVM Express. NVM, в свою очередь, означает Non-volatile memory, И в первую очередь — это спецификация протокола, который позволяет производить эффективный доступ к данным, хранящимся в энергонезависимой памяти.

А как мы хорошо знаем, протоколы можно запускать на разных носителях. В этой статье мы будем издеваться над моим лэптопом с Ubuntu Linux 21 на борту, подключая его жёсткий диск к разным серверам. Вы можете посетовать, что всё это игрушки, но хороший администратор со свитчем, позволяющим поддерживать скорости более 10 гигабит в секунду, должен взять это на заметку. Вы можете получить удалённый доступ к вашим nvme жёстким дискам через tcp/ip без уловок и мошенства.

Поехали.
Читать дальше →
Всего голосов 26: ↑26 и ↓0 +26
Просмотры 1.8K
Комментарии 1

Cloudera Streaming Analytics: унификация пакетной и потоковой обработки в SQL

Блог компании Cloudera Big Data *Хранилища данных *Hadoop *Data Engineering *

Cloudera Streaming Analytics: унификация пакетной и потоковой обработки в SQL

В октябре 2020 года Cloudera приобрела компанию Eventador, а в начале 2021 года был выпущен продукт Cloudera Streaming Analytics (CSA) 1.3.0. Это был первый релиз, который включал в себя SQL Stream Builder (SSB), полученный в результате интеграции наработок Eventador в продукт для аналитики потоквых данных на базе Apache Flink.

SQL Stream Builder (SSB) - это новый компонент со своим дружелюбным веб-интерфейсом, позволяющий анализировать потоковые и исторические данные в режиме реального времени в SQL, под капотом которого работает Apache Flink.

Читать далее
Рейтинг 0
Просмотры 86
Комментарии 0

Разработка приложения редактирования отзывов в Power Apps на базе связанных списков Sharepoint

Разработка для Office 365 *Облачные сервисы
Tutorial

В данной работе создадим приложение с вложенным списком и на его примере рассмотрим функционал и возможности Power Apps при наличии связей между таблицами с данными. Для удобства пользователей данные из двух списков будут одновременно отображаться на одном экране.

В качестве решаемой задачи будет реализовано приложение для редактирования отзывов оставленных клиентами ReviewSP для наших специалистов AccountSP.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Просмотры 223
Комментарии 2

Dependency Injection в системе автоматизации сборок NUKE. Ответы на вопросы «зачем?» и «как?»

.NET *ASP *C# *Системы сборки *DevOps *
Tutorial

Всем привет, сегодня поговорим о внедрении Dependency Injection (далее - DI) в Nuke и рассмотрим моё видение. Кто не знаком с Nuke вы можете ознакомиться или на официальном сайте или посмотреть вот эту презентацию, если коротко - то это очень удобная система автоматизации сборок, которая по факту консольное приложение на C#.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Просмотры 498
Комментарии 2

Основатель Signal: «Первые впечатления от web3»

Информационная безопасность *Хранение данных *Облачные сервисы Распределённые системы *Криптовалюты
Перевод

Несмотря на то, что я считаю себя криптографом, меня не особенно привлекает слово "крипто". Не думаю, что я уже староват, но я гораздо чаще кликаю на мемы в духе "Интернет всё помнит" о том, как "крипто" раньше означало "криптография", чем на последние новости об NFT.

Но учитывая всё то внимание, которое в последнее время уделяется тому, что сейчас называют web3, я решил более тщательно изучить то, что происходит в этой сфере, чтобы точно ничего не упустить...

Читать далее
Всего голосов 60: ↑58 и ↓2 +56
Просмотры 18K
Комментарии 36

Почему DevOps и Agile не работают в России, часть первая, Enterprise

Управление проектами *Управление персоналом *DevOps *IT-компании

Пару лет назад, человек из Wrike написал серию статей про красную корпоративную культуру, причём во второй части буквально в 3 абзацах был весь смысл 4 статей. Было написано очень завуалировано и мягко, я же сегодня распишу, по сути, этот абзац в целую статью на примере крупных игроков российского рынка, в которых я поработал, сравню с малым бизнесом, в котором я работал ранее, а также с гос. структурами (спойлер, отличии с последними – минимальное).  

Я не буду таким добрым как автор там, и напишу про многие вещи прямо.

Читать далее
Всего голосов 55: ↑38 и ↓17 +21
Просмотры 17K
Комментарии 61

Китайская азбука

Стандарты связи

В инете часто встречается вопрос: "А как китайцы передают азбукой Морзе свои иероглифы?". Да всё просто! У них давно принята специальная гражданская таблица, в которой каждый иероглиф (из примерно 7000, т.е. далеко не все 40000+, что знает образованный китаец) зашифрован четырехзначным числом. И эта таблица есть у всех телеграфистов.

На картинке приведена первая страница из этой книги, с кодами от 0001 до 0200. На самом деле последняя - книга дореформенная, посему листается и читается (и поля пронумерованы) справа налево и сверху вниз (0001 - справа вверху, 0002 под ним и т.д.).

Ещё особеность - цифры они передают укороченные: a, u, v, 4, 5, 6, b, d, n, t. Числа в большинстве не совпадают с передаваемым кодом: 0 - 0001 (ttta); 2 - 0037 (ttvb); 3 - 0005 (ttt5)...

Военные китайцы в своих шифрах тоже применяют в основном 4-значные группы. Но шифрование там, конечно же, идет иное.

Так что если в диапазоне от 3 до 6 мГц (в зависимости от сезона и времени суток) услышите четырехзначные группы из символов выше - это точно китайские телеграфисты.

Иногда для передачи китайского текста применяют фонетическую замену на латиницу. В этом случае текст пишется как псевдоанглийский: "cho ping hao".

Читать далее
Всего голосов 14: ↑14 и ↓0 +14
Просмотры 4.8K
Комментарии 23

Связываем две локальные сети с помощью Wireguard VPN на выделенном сервере

Информационная безопасность *Сетевые технологии *
Tutorial

Эта статья о том как настроить Wireguard VPN в локальной сети, если вам достался роутер от провайдера без возможности его прошивки и полноценной настройки. Для настройки VPN поставим в локальной сети сервер. И настроим, чтобы все клиенты обоих локальных сетей имели прозрачный доступ к обоим LAN.

Читать далее
Всего голосов 11: ↑10 и ↓1 +9
Просмотры 5.1K
Комментарии 5

KODI: собираем удобный и функциональный медиацентр для дома. Часть 11. Kodi+Plex

Настройка Linux *Open source *Работа с видео *Видеотехника DIY или Сделай сам
Tutorial

В очередной публикации о медиацентре Kodi поговорим о том, как сделать его еще более универсальным и комфортным. Не будем сравнивать и выбирать между Kodi и Plex - будем использовать их вместе, одновременно и на одном физическом сервере. Для чего это нужно, как настроить и работать с этим - поговорим в деталях.

Читать дальше →
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 8.8K
Комментарии 29

Мой новый домашний сервер, часть 1: выбор железа

Системное администрирование *Хранение данных *Компьютерное железо DIY или Сделай сам
Не то, чтобы это было кому-то интересно, но на такую тему тексты пишутся легко и непринуждённо, потому решил написать. Разбив на несколько частей — про выбор железа, выбор софта, сборку (хотя тут не уверен, это обычно самое скучное) и настройку софта (там уже повеселее).

Домашний сервер у меня дома уже много лет существует. По-моему, первый был на базе к6-2 собран ещё в начале нулевых. С того времени сменилось много разных вариантов, быстрых и медленных, больших и маленьких, виндовых и линуксовых. Последние десять лет сервером у меня работает HP Microserver, сперва был Gen7, а где-то с 2015 — Gen8, который был куплен с целероном и двумя гигабайтами ОЗУ, а затем «прокачан» до Xeon'a и 16GB (максимум).

На фото — момент переезда из gen7 в gen8.


Читать дальше →
Всего голосов 61: ↑58 и ↓3 +55
Просмотры 27K
Комментарии 266

Amazon S3 — детективное расследование внутренней архитектуры

Анализ и проектирование систем *Amazon Web Services *Облачные сервисы Распределённые системы *

Мне понравился опыт прошлого расследования по фейсбуку, и я решил организовать очередную серию, теперь про Amazon. Для нетерпеливых — в самом конце статьи описан итоговый вариант архитектуры Amazon S3 и проанализированы его свойства.



Не так давно Амазон объявил о переходе S3 с модели eventual consistency на strong consistency, то есть, предоставления гарантии read-after-write, чтения того, что было только что записано. Сообщество отреагировало, но как-то очень вяло: Amazon S3 Now Delivers Strong Read-After-Write Consistency


Первое, что лично мне подумалось в ответ на эти новости: а как же теорема CAP?

Читать дальше →
Всего голосов 32: ↑32 и ↓0 +32
Просмотры 7.7K
Комментарии 10

03. С прозрачными воротами и яркою звездой

Глобальные системы позиционирования *OpenStreetMap *Хранение данных *Старое железо DIY или Сделай сам
Tutorial

Предыдущие статьи о реверсе данных автомобильных навигаторов Siemens/VDO Dayton CARMiN:

Реверс черного тессеракта

01 Сшей красное с красным, желтое с желтым, белое с белым. Наверняка будет хорошо

02. Я уже даже не вижу код. Я вижу блондинку, брюнетку и рыжую

Получив в прошлой статье полную раскладку по значениям чисел и цифр типа блока 0xA, информации по странам, естественным следующим шагом будет попытка провести разбор типа блока 0x0С, информации по городам.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 1.3K
Комментарии 0

Идеальный каталог, пример использования

PHP *PostgreSQL *SQL *Хранение данных *

Я разрабатываю библиотеку для работы с Entity Attribute Value (репозиторий), сокращенно EAV (структура базы данных для хранения произвольных данных). В конце прошлой статьи я спросил у вас о чём мне ещё надо написать, вы попросили показать пример использования и сделать замеры быстродействия. Про замеры быстродействия статья была, эта будет о примере использования.

Назначение библиотеки

Прежде чем рассказать об использовании, надо обозначить цели этого использования. Первая цель это автоматизировать запись произвольных данных. Вторая цель - читать ранее записанные данные и делать произвольные выборки по этим данным.

Для этих двух целей применяется EAV, но он существенно замедляется при увеличении объёма данных, и главная цель библиотеки это сделать скорость работы с данными независимой от объёма данных.

Это достигается за счёт использования материализованных представлений и таблиц, и главная задача которую решает библиотека, это синхронизации данных между таблицами EAV и конкретными таблицами, выделенными под каждую категорию (Entity - сущность). Конечно сущность может быть выделена в материализованное представление, библиотека оставляет выбор за пользователем.

В статье будут приведены примеры того как задать произвольный набор атрибутов для произвольной сущности и как сделать выборку данных с произвольными условиями.

И конечно будут примеры того как для уже созданной сущности добавить новый атрибут, новую позицию и как обновить значения "позиции каталога".

Читать далее
Всего голосов 12: ↑8 и ↓4 +4
Просмотры 2.8K
Комментарии 17

Пример применения кода Рида-Cоломона

Алгоритмы *Беспроводные технологии *Программирование микроконтроллеров *Схемотехника *Звук

Пример применения кода Рида-Cоломона

О чём это всё?

Всем привет! Наконец дошли руки описать то как я проверял на практике знания, полученные в ходе написания трёх статей об избыточном кодировании по методу Рида-Соломона (раздватри)

Читать далее
Всего голосов 91: ↑91 и ↓0 +91
Просмотры 11K
Комментарии 32

Заметки о мониторинге #2 — Метрики и правила их именования

Системное администрирование *IT-инфраструктура *Серверное администрирование *

Сегодня я бы хотел более подробно остановиться на том, что такое метрики, как они связаны с временными рядами, а также рассказать о правилах именования метрик. Эта статья будет полезна разработчикам, впервые сталкивающимся с необходимостью инструментировать свой код и добавлять прикладные метрики.

Читать далее
Всего голосов 9: ↑9 и ↓0 +9
Просмотры 4.4K
Комментарии 0

Настройка маршрутизации в сети с неподконтрольным роутером

Информационная безопасность *Сетевые технологии *
Tutorial

В данной статье описано как можно настроить прозрачное для клиентов использование ресурсов из луковой сети (The Onion Router aka TOR) и VPN соединение с другими сетями если провайдер предоставил вам роутер с минимальными возможностями настройки, сохраняя при этом возможность полноценно использовать роутер. Для этого поставим и настроим свой сервер в локальной сети.

Думаю данная статья не тянет на полноценное руководство. Слишком разные возможности и потребности у людей - например разное железо. Скорее некоторый указатель пути по которому можно пойти для настройки.

Читать далее
Всего голосов 6: ↑5 и ↓1 +4
Просмотры 13K
Комментарии 20

Больше подводных кабелей, хороших и разных: новые крупные проекты от интернет-компаний

Блог компании Selectel IT-инфраструктура *Разработка систем связи *IT-компании

В ноябре прошлого года протяженность подводных интернет-магистралей превысила 1 млн км, о чем мы уже писали. Тогда же говорили о том, что интернет-инфраструктура продолжает развиваться активнейшим образом, так что вскоре должны появиться новые подводные кабели.

Так и случилось — сейчас стало известно о нескольких новых проектах. Кроме того, развиваются и те, что уже реализованы. Компании их совершенствуют и развивают, причем даже в праздники. Под катом — о том, что появилось нового за последние несколько недель.
Читать дальше →
Всего голосов 45: ↑44 и ↓1 +43
Просмотры 6.1K
Комментарии 3

Кунг-фу стиля Linux: делиться — это плохо

Блог компании RUVDS.com Настройка Linux *Системное администрирование **nix *
Перевод
В детском саду вы узнали о том, что делиться — это хорошо. Но, если речь заходит о компьютерной безопасности, часто оказывается, что не всё так однозначно. Концепция пространств имён (namespaces) появилась в ядре Linux начиная с версии 2.6.24. Это случилось много лет назад, но использование пространств имён не стало массовым явлением, несмотря на то, что существуют инструменты для работы с ними. Разумеется, задумываться о пространствах имён нужно далеко не всегда. Но это одна из тех вещей, которые, если в них возникает необходимость, дают нам просто бесценные возможности. Если описать эти возможности в двух словах, то получится, что пространства имён позволяют предоставить процессу его собственные, приватные ресурсы, и, что важнее, запретить процессу доступ к ресурсам из других пространств имён.



На самом деле мы, работая в Linux, постоянно пользуемся этой концепцией. Каждый запускаемый нами процесс существует в среде, описываемой неким набором пространств имён. Почему я говорю тут о «наборе» пространств имён? Дело в том, что существуют пространства имён, используемые для управления различными ресурсами. Например, можно настроить особое сетевое пространство имён, которое позволит предоставить процессу его собственный набор сетевых ресурсов — таких, например, как таблицы маршрутизации и правила файрвола.

Поговорим о том, как в Linux организована работа с пространствами имён, и о том, что они скрывают.
Читать дальше →
Всего голосов 47: ↑45 и ↓2 +43
Просмотры 19K
Комментарии 4