Наглядно о том, почему трансформеры работают настолько хорошо
- Блог компании SkillFactory,
- Занимательные задачки,
- Математика,
- Искусственный интеллект,
- Natural Language Processing
- Перевод
![](https://webcf.waybackmachine.org/web/20210623004200im_/https://habrastorage.org/getpro/habr/upload_files/136/65d/182/13665d182260a4244aff9411324d7a18.jpg)
Трансформеры за последние несколько лет штурмом захватили мир NLP, а сегодня они с успехом применяются в выходящих за рамки NLP приложениях. Они обладают такими возможностями благодаря модулю внимания, который схватывает отношения между всеми словами последовательностей. Но самый важный вопрос — как именно трансформеры делают это? Попытаемся ответить и понять, почему трансформеры способны выполнять такие вычисления. Итак, цель статьи, чуть сокращённым переводом которой мы делимся к старту курса о машинном и глубоком обучении, — разобраться не только с тем, как что-то работает, но и почему работает так. Чтобы понять, что движет трансформерами, мы должны сосредоточиться на модуле внимания. Начнём с входных данных и посмотрим, как они обрабатываются.