Давным-давно, в далёкой-далёкой галактике 1 марта Хабр объявил начало сезона «Машинное обучение», и вот настало время подводить итоги. За чтением хардкорных конкурсных текстов месяц пролетел незаметно. Мы узнали много интересного о нейросетях и неочевидных способах взаимодействия с ними, пополнили свою коллекцию туториалов и в очередной раз убедились в актуальности темы Machine Learning для читателей Хабра.
Мы не получили ответ на главный вопрос Вселенной, жизни и всего такого, но зато нам известен лучший автор сезона ML. Впрочем, у него были достойные соперники, их тексты привлекли много внимания и породили холивары в комментариях. Под катом наградим победителя новым макбуком, познакомимся с участниками сезона, пофлудим о Machine Learning и обсудим перспективы этого направления.
Подводим итоги сезона
Напомним, что сезон прошёл на хабе «Машинное обучение», который мы ведём совместно с ВТБ. За 12 месяцев здесь опубликовали более 1400 статей. 70 статей из них имеют рейтинг 100+. Правда, за последние 12 месяцев только 10 статей перешагнули отметку 90+. Рейтинг самого хаба стремится к 900 (893,21). Некоторые тексты были прочитаны 300 тысяч раз и более. Например, за последний год одна из публикаций набрала более 384 тысяч просмотров.
Пока количество просмотров у публикаций участников сезона несколько скромнее, но всё ещё впереди. Тем более что это отборный хардкор, который априори не может привлечь аудиторию в таком же объёме, как научпоп.
Участники, их статьи и вся статистика — под катом. Знакомимся, изучаем — или сохраняем интригу и пропускаем спойлер.
Под катом таблица со всеми текстами — участниками сезона Machine Learning. Не смотрите в неё, если не хотите заспойлерить себе победившую статью:
В этом сезоне, как и ожидалось, мы получили большое количество статей, так или иначе связанных с ChatGPT — от использования чата для повышения качества тестирования до особенностей распознавания с его помощью спортивных событий. Намекнём и на то, что текст-победитель также связан с этой хайповой темой.
Однако не чатом единым: в результате усилий конкурсантов коллекция нашего хаба пополнилась текстами на темы фракталов в ML, подходов по поиску похожих изображений, расчёта транспортного потока на основе YOLOv5 и DeepSORT, подбора гиперпараметров и архитектур нейронных сетей.
Обожаемый нами отборный технохардкор приятно разбавляли публикации вроде «10 ошибок в карьере ML-инженера». В общем, всё было так, как мы любим. За это мы благодарим авторов и предоставляем им слово.
Слово участникам сезона
Зачем писать о Machine Learning, что интересного в этой теме
Мне нравятся сложные задачи и автоматизация. Возможно, что в мире есть задачи, которые могут решить всего несколько человек. Или только один. Именно такие задачи и привлекают.
Machine Learning — объединение математики и программирования, при котором теоретическая математика и практические вычисления органично дополняют друг друга. Некоторые вопросы, которые довольно затруднительно решаются на уровне теории и формул, могут быть решены достаточно оперативно перебором вариантов и мощными параллельными вычислениями. Возможно, подобное решение формально не будет считаться теоретически обоснованным, но будет реально работать на практике. И наоборот, понимание теории происходящих процессов, таких как, например, градиентный спуск и соответствующая оптимизация, может направить вычислительную мощь в правильное русло. В результате сокращённые и оптимизированные вычисления приведут к решению поставленной задачи.
Написание статьи помогает структурировать мысли. По мере написания и проверки вылезают белые пятна. Предполагая критику, неоднократно проверишь, уменьшишь количество ошибок, переформулируешь. А получая комментарии, видишь слабые места, смотришь на ситуацию совершенно другим взглядом. Это сильно прокачивает навыки в той сфере, которой занимаешься.
Возможно, статья какой-то фразой, предположением, выводом дополнит чей-то пазл и поспособствует решению поставленной задачи. Возможно, чей-то комментарий к статье дополнит мой пазл или чей-то ещё. В любом случае очередная сложная задача, превращающая искусственный интеллект в приятного и полезного помощника, будет решена. Вот почему я пишу на тему Machine Learning.
Анатолий Белов
ака @AnatolyBelov
Какие области применения машинного обучения наиболее интересны
Примеров использования ML с явными эффектами для бизнеса в фармацевтическом производстве множество: выявление отклонений и поиск их корневых причин, видеоаналитика для контроля процессов и персонала, компьютерное зрение для замены ручных операций в лабораториях и на производственных линиях, создание цифровых двойников для сокращения времени на эксперименты и определения оптимальных условий производства биологических препаратов, предиктивное техническое обслуживание оборудования. Всё это — вместе и по отдельности — помогает нам не только оптимизировать и ускорить рабочие процессы, но и увеличить эффективность без потери качества.
Для нас в BIOCAD это важно, потому что таким образом мы можем повысить доступность инновационной терапии, в которой нуждаются пациенты.
Василий Вологдин
ака@biocad data science team lead
Какие метрики качества модели машинного обучения наиболее важны
Советую как можно раньше пробовать работать руками, набивать свои первые шишки. Учиться можно бесконечно долго: всегда будут курсы, которые вы ещё не прошли, темы, которые не изучили, фреймворки, с которыми не подружились.
В каждом из вас будет оставаться то же ощущение страха перед практикой, как на берегу перед первым нырком. Да, холодно. Да, неприятно. Однако чтобы научиться плавать, нужно плавать. Теория — как учебники по плаванию за спиной тонущего.
Отправьте своё первое решение в текущем соревновании на Kaggle, хотя бы подходящее по формату. Запишитесь на ближайший хакатон и пробейтесь в любую команду, в какую возьмут. Попросите ChatGPT придумать идею для вашего первого pet-проекта — и ему же задавайте вопросы на каждом шагу, на котором будете спотыкаться.
You don't have to be great to start. But you have to start to be great
Это зависит от задачи конкретной машинной модели: регрессивной, классификационной, прогнозирующей, CV и т. д. Важна и структура данных, на которых модель будет обучаться: категории — классы, дискретные числа, неструктурированные типы данных (изображения/тексты). Для задач классификации основные метрики — матрица запутанности и производные, рассчитывающиеся на её основе — Accuracy/Precision/Recall/F-score, для регрессии — R2, RMSE, MAE MAPE.
Например, в нашей последней исследовательской работе по созданию модели спроса поездок для определения качества модели используется преимущественно RMSE и R2 (который в свою очередь объясняет изменчивость спроса за счёт независимых переменных-регрессоров, в нашем случае — погодными метриками). MAPE в данной ситуации не подходит в связи с нерегулярностью спроса на кикшеринг, так как сравнение нуля и дискретного числа равна inf.
Что можно посоветовать начинающим в машинном обучении
karpov.courses
Школа Data Science
Сделайте частью своего досуга просмотр выступлений, лекций и блогов специалистов — находите спикеров/авторов, которые вам нравятся, и следите за выходом их материалов. Если быть внимательным к себе, должно получиться естественное и приятное времяпровождение.
Всегда пытайтесь заглянуть глубже, чем дано в каком-либо описании метода. Пытайтесь понять, почему сделано так, а не иначе. Какие преимущества у того, что есть, а какие недостатки. Ведите записи — записывайте свои мысли, идеи, выкладки. Хоть на листочках разрозненных, хоть в специальном софте — но записывайте.
Следует избегать соблазна найти тёплое место и остановиться в нём в развитии. Эта стратегия гарантирует отложенный кризис. Лучше маленький шаг, но каждый день, чем большими шагами быстро дойти, но поломать себя и лёжа ждать урагана. Маленькие, но регулярные вложения дадут неожиданно большой эффект со временем. Делайте в своё удовольствие и по силам.
Николай Стрекопытов
ака @nstrek, Deep Learning Researcher and Developer
Будущее машинного обучения: какие технологии в этой области могут появиться в ближайшее время
На наших глазах машинное обучение меняет профессию аудитора. Если раньше анализ бизнес-процессов компании занимал много времени и сил, то сегодня аудиторы больше времени могут уделять поиску возможностей улучшения работы компании, а для решения рутинных задач использовать инструменты из арсенала ML.
В прошлом — начале этого года в развитии машинного обучения произошёл прорыв, от успехов в обработке естественного языка и компьютерном зрении до новых сфер внедрения машинного обучения в продукты компаний. Стандартное программное обеспечение и устройства, которые компании и рядовые потребители используют ежедневно, становятся умнее — и будут становиться ещё умнее с внедрением технологий ИИ. Одновременно с этим приложения, изначально построенные вокруг машинного обучения, будут укреплять свои позиции и продолжат стирать границы между реальностью и научной фантастикой.
Если говорить об отдельных трендах и технологиях, во-первых, продолжится дальнейшая специализация направлений, таких как NLP, CV, мультимодальные модели и т. д., а также появятся новые направления. Во-вторых, дальнейшее развитие получит prompt engineering: появятся новые подходы, prompt-технологии, имитирующие ход мыслей человека. В-третьих, вероятно, в ближайшее время будет наблюдаться дефицит тестовых данных для обучения больших языковых моделей — следовательно, может возникнуть потребность в инструментах аугментации текстовых данных. Но рост моделей будет продолжаться, так как уже обнаружен так называемый emergent ability больших моделей. И последнее: инструменты сжатия нейронных сетей скорее всего продолжат своё развитие.
NewTechAudit
Какие источники информации (кроме Хабра) Вы рекомендуете по ML?
Телеграм-каналы: Abstract DL, эйай ньюз, DLStories позволят не пропускать новости о выходе новых моделей и появлении новых подходов;
Youtube — есть множество каналов на тему машинного обучения, я выделю Yannic Kilcher: классно разбирает статьи по машинному обучению и периодически публикует выпуски с новостями индустрии и подборкой полезных новых инструментов;
https://towardsdatascience.com — ближайший аналог ML-Хабра на английском языке. Базируется на платформе medium, так что за доступ более чем к трём статьям придется платить, наверное.
https://arxivxplorer.com — умный поиск с использованием моделей от OpenAI по научным работам с сайта arxiv. По опыту могу сказать, что этот поиск помогает находить работы лучше, чем Google.
Антон Рябых
ака @lenant, CTO, Лид машинного обучения в Doubletapp
Ура победителю сезона!
Вот и он — @Rai220 победитель нашего ML-сезона, заслуженный обладатель Apple MacBook Air 13 и достойный получатель гранта на 30 000 рублей для подготовки следующей классной статьи.
Лавры победителя присвоены автору хабрасообществом за приделывание рук к ChatGPT: в статье подробно описывается бот, который исполняет код в рантайме. Статья, в которой помимо прочего описываются проявления нейросетью способности к метапознанию, набрала 16 тысяч просмотров, 53 плюсика и более сотни комментариев.
Слово победителю
Наше блиц-интервью тоже посвятили ChatGPT: как автор познакомился с чатом, как родилась идея конкурсной статьи, о перспективах развития технологии и бесперспективности искусственных попыток ограничить развитие искусственного интеллекта.
Я уже несколько лет активно использую продукты Open.ai в повседневной работе и для pet-проектов. Первые проблески того, что это не «просто статистика», заметил ещё в GPT-2, но тогда это сложно было продемонстрировать. С появлением ChatGPT я стал уделять работе с ней практически всё свободное время, и вот захотелось поделиться одним из экспериментов с читателями Хабра.
Сама идея заставить бота писать код и сразу его выполнять, по-видимому, лежала на поверхности, так как через несколько дней после выхода статьи Open.ai показал точно такое же решение в виде одного из плагинов.
Никто не знает, что произойдёт дальше. Мы стали свидетелями фазового перехода, когда рост размера сетей вдруг привёл к появлению у них совершенно новых свойств и способностей, которые никто не ожидал, в том числе и сами разработчики. Думаю, никто сегодня не сможет предсказать, ждут ли нас в будущем подобные скачки способностей. Скептики вроде Яна Лекуна не предсказывали тех результатов LLM, которые мы наблюдаем сейчас, так что делать большую ставку на то, что они не ошибутся снова, я бы не стал.
Что касается ограничения развития сетей — по-моему, это бесполезно. Всегда найдутся те, кто будет продолжать разработку и эксперименты.
Думаю, люди будущего назовут 2023-й годом начала технологической сингулярности. Мой прогноз: ChatGPT и им подобные очень быстро проникнут почти во все области деятельности, ведь это практически универсальный инструмент для работы с языком, а язык используется абсолютно везде.
Константин Крестников
AI RnD и автор канала RoboFuture
Выводы
Сезон завершился, призы раздали, ответ на главный вопрос Вселенной, жизни и всего такого — продолжим искать на хабе. Обязательно пишите, если есть мысли по этому и другим вопросам, связанным с машинным обучением, — в виде комментариев или статью на хаб ML. Сезон подтвердил, что интерес к этой теме есть и будет, так что ждём ваших крутых публикаций.
А если вы хотите узнать о машинном обучении больше, пообщаться с экспертами — 13-14 апреля приглашаем на конференцию ВТБ по машинному обучению, анализу данных и технологиям ИИ Data Fusion, которую проводит ВТБ. Онлайн-трансляция всех стримов мероприятия будет вестись на сайте конференции.