Как стать автором
Обновить

Машинное обучение в ЦОД: Можно ли доверить ИИ управление инфраструктурой?

Время на прочтение7 мин
Количество просмотров1.5K
Всего голосов 4: ↑4 и ↓0+6
Комментарии6

Комментарии 6

Начали оптимизировать затраты электрики и сразу уперлись в том, что оптимизировать нечего :) Т.е. проблемы и задачи по ее решению получается нет

Дальше решили прогнозировать отказы - тут у меня тоже вопрос. Не, вы конечно в своей области спец, я сомнению не подвергаю. Но если вы такие их себя надежные и правильные - может стоит просто менять "комплектующие" по сроку и все? Это снимет кучу вопросов, хотя чуток повысить регулярную стоимость содержания

Честно говоря, я вообще не понял, причем тут ИИ? По идее сначала долна быть пробема, а потом уже остальное. Да и зачем вставлять ИИ там, где скорее всего хватит детерминированной логики ... вот у меня прямая аналогия с климатом для дома, который учитывает температуру снаружи. И без никакого ИИ все работает

Отчасти вы правы. Именно об этом мы и говорим, что не всякое решение, которое вам приносят как "вундервафлю", которая решит все ваши проблемы - таковой является.
Сейчас идет волна популярности интеграции ИИ и машинного обучения везде, где можно и нельзя.
С другой стороны - если вы являетесь оператором ЦОД, где несколько очередей, оборудование вводилось в эксплуатацию в разные периоды и объем самого оборудования очень большой, то предиктивный анализ уже может показать свою востребованность. Объясню максимально просто: у вас обслуживание проводится с определенной периодичностью, если дефект начинает проявляться в интервале между обслуживаниями - при обычной схеме мониторинга вы его не выявите пока авария не произойдет, а в случае аналитики, система сможет отследить отклонение в работе до того как эти отклонения станут критическими

Объясню максимально просто: у вас обслуживание проводится с определенной периодичностью, если дефект начинает проявляться в интервале между обслуживаниями - при обычной схеме мониторинга вы его не выявите пока авария не произойдет, а в случае аналитики, система сможет отследить отклонение в работе до того как эти отклонения станут критическими

Ну для этого же и есть мониторинг. Он либо покажет, либо нет. Потому что если дефект проявился между интервалами, значит ... для этого должна быть причина. Вы же себе противоречите. Если есть отклонение и оно "измеримо", значит оно может быть распознано "мониторингом". Значит "мониторинг" рулит

А если случится отказ - против вас математика, так как вы словили кейс, который маловероятен. И даже если ИИ его примет во внимание, следующий shit случится в другом месте. Т.е. есь условно 1000 видов отказов, которые все маловероятны, и проявляют себя по разному. И обучение на одном ДЦ или групе ДЦ - это математически ничтожно

Но если нет - для этого есть слова "склад", "резерв" и т.д.

Мониторинг показывает значения в моменте и имеет уставки по пороговым значениям. Вышли за условный "предел" - это "авария". В случае же предиктивного анализа идёт проверка статистической базы и сравнение параметров в группе - на сколько показания выбиваются из общей "картины" и к чему это может привести. Это разовое отклонение или закономерное.

Склад и резерв - это прекрасно. Но не все хранят на складе. Есть запасные части, которые могут иметь определённый срок поставки. И вот тут как раз играет преимущество работы на упреждение - позаботиться о наличии запасных частей до наступления непосредственно аварии.

 В случае же предиктивного анализа идёт проверка статистической базы и сравнение параметров в группе - на сколько показания выбиваются из общей "картины" и к чему это может привести. Это разовое отклонение или закономерное.

Подсказка: если у вас 5 сбоев в год - это уже статистика или еще нет?

Ответ, чтобы что-либо анализировать статистическими методами, наверное надо иметь соответствующую базу, где количество событий будет ....

Есть запасные части, которые могут иметь определённый срок поставки. И вот тут как раз играет преимущество работы на упреждение - позаботиться о наличии запасных частей до наступления непосредственно аварии.

См. выше, про возможность такой работы

Плюс условно я - бизнес. Мой бизнес требует, чтобы я давал 99.95. ОК, я просто докупаю оборудование, которое стоит в резерве и все. Я не занимаюсь непонятными вещами, а просто условно на 5% увеличивают доступные ресурсы.

Ну и ... что вы хотите увидеть за 2 месяца? Можно реальный пример, что вот вы увидели, и "умное решение" предотвратило сбой за этот период?

Начнем с того, что ПО собирает статистику не отказов, а рабочих параметров в реальном времени и складывает это в базу. На основании этой базы и строится прогноз. Пример: у вас за 1 месяц напряжение было в диапазоне 200-240В, и вот система записывала эти данные, они были вразнобой, поскольку электроснабжение от города - такое себе по качеству. И тут вдруг, у вас стабильно начинает идти напряжение 250В. С одной стороны, для системы мониторинга это еще не критическое значение, порог настроен на, допустим, 260В (перенапряжение) - то есть аварии или предупреждения еще может не быть. А вот система, проанализировав предыдущие показатели, скажет - эй, ребят, у вас тут что-то не то с напряжением, может пострадать то, то и то.
Второй вариант. У вас работают кондиционеры. Срок службы вентиляторов - около 40 тысяч часов наработки. Да, цифра условная, но тем не менее. И у вас таких кондиционеров штук 50, например. Вентиляторы работают, все окей. Но система записывает все меха-часы работы и предупредит - вот у этого вентилятора ресурс почти выработан. Это не значит, что вы должны его заменить - проведите осмотр, обслуживание. Если с ним все ОК, он прекрасно может работать дальше. Но опять же - представим ситуацию, что вы его осмотрели, все было прекрасно, а через 2 дня, система пишет - на вентиляторе упал расход. И вроде бы не критично, и вроде вентилятор не остановился - но звоночек уже тревожный.
Понимаю, вы можете возразить, что все это решается запасными частями, это ваше право. Если вы внимательно перечитаете статью, то увидите, что мы никак не продвигаем данные решения и не говорим "вот, это то, без чего вы жить не сможете". Мы лишь говорим, о том, что такие решения есть. Мы с ними ознакомились, нашли те или иные плюсы и минусы и рассказываем о них.
Так же в статье мы писали, что мы не проводили натурные испытания на реальном ЦОД, только анализ данных с тестовых стендов. И, например, если поставить в систему "старую" свинцовую батарею, то тут же будет уведомление о том, что в таком-то стринге упало напряжение - проверьте, что-то вы не то сделали. Моточасы вентиляторов, компрессоров, отслеживание высокого и низкого давления в холодильном контуре и их корреляция с параметрами наружного воздуха (отслеживание опасности остановки кондиционирования по высокому давлению) и так далее.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий