![](https://webcf.waybackmachine.org/web/20221006050815im_/https://habrastorage.org/getpro/habr/upload_files/404/731/f7f/404731f7f6141b9928bf22fc3c7acf7d.jpeg)
На хайпе нейронных сетей особую популярность приобрели end-to-end системы распознавания речи. И это неудивительно, ведь можно «просто» взять нейронную сеть известной архитектуры, скормить ей обучающий датасет и ждать результата. Но на практике все оказывается не так просто.
В этой статье мы попробуем рассказать, почему несмотря на эксперименты с нейронными end-to-end сетями, мы продолжаем использовать гибридную архитектуру, состоящую из акустической и лингвистической модели, работающих независимо и в чем заключаются достоинства и недостатки разных архитектур распознавания речи.