Дисклеймер номер один: 18+. В этой статье присутствует ненормативная лексика, так как автор текстов, которые мы анализируем, не стесняется в выражениях. Мы не хотим никого задеть или оскорбить чьи-то чувства, присутствие мата объясняется лишь объектом нашего исследования.
Все знают телеграм-канал Артемия Лебедева, в котором очень часто можно увидеть хлесткое матерное слово, а некоторые его посты и вовсе неоднозначны. Я и мой коллега Егор решили как следует разобраться в семантике текстов Артемия, скачали все посты телеграм-канала и проанализировали его словарный диапазон. Сегодня мы обсудим важные этапы исследования и, что самое главное, обсудим аналитические выводы о телеграм-канале Артемия Лебедева.
Изначально, мы поставили перед собой следующие задачи: собрать тексты всех постов и метаинформацию о них, получить динамику подписчиков на канале, а после провести описательный и семантический анализы собранных данных. Но нам удалось сделать даже больше — в результате мы смогли обучить нейронную сеть на текстах Артемия Лебедева.
Теперь мы можем писать тексты для тг-канала Лебедева без него самого. Правда-правда.
Хотите узнать как?