Всем привет!
Представляю краткий tutorial по дообучению EasyOCR. возможно обучение на Google colab.
AI, ANN и иные формы искусственного разума
Всем привет!
Представляю краткий tutorial по дообучению EasyOCR. возможно обучение на Google colab.
Дайджест перспективных проектов за прошлый месяц с короткими описаниями, чтобы вы точно не пропустили ничего интересного, а может и вспомнили о полезных вам продуктах.
Этот учебник поможет вам легко создать yolov4 в облаке с включенным графическим процессором, чтобы вы могли выполнять обнаружение объектов за миллисекунды!
В этой статье мы расскажем, как устроены технологии распознавания речи, и опишем архитектуру собственного решения. В конце статьи – бесплатный телеграм-бот для теста системы распознавания речи, описанной в статье.
Частенько бывает такая ситуация, когда программист ругает менеджера из за рабочего конфликта. Суть критики сводится к тому что менеджер вообще не понимает как устроена “реальная реальность” и пытается везде выехать на “софт-скилах”. Занимается “нетворкингом” вместо изучения чего то хотя бы на начальном уровне, в общем балабольствует и манипулирует понятиями и шаблонами оторванными от реального понимания действительности. А потом этот же программист, в своё свободное время, мечтая о собственном успешном стартапе, пытается создать ИИ общего назначения на основе языковой модели, загружает в обучающий набор данных гигабайты текстов и картинок, ожидая при этом практичного рассудочного мышления от создаваемой нейросети.
В преддверии международной выставки GITEX Global 2022 в Дубае (ОАЭ), в которой принимает участие и наша компания, мы решили рассказать об истории этого мероприятия – о том, как всё начиналось, какие технологии были представлены и что интересного можно посмотреть.
А также приглашаем всех посетить предстоящую выставку не вставая с дивана! Поднобности под катом.
Всё описанное далее, личное мнение, претендующее на единственно верное, но не факт, что являющееся таковым. Все лица, компании, метафоры - выдуманные и к реальности отношения не имеют.
Однажды, беседуя с коллегами по цеху о том, почему я не очень хочу заниматься именно беспилотными автомобилями, я сказал, что я не верю в них. А точнее я не верю в их коммерческий запуск в ближайшие пять лет, на что моя подруга позже дала ремарку, что это одно и то же, да и я не выгляжу как человек, который в это не верит. И я вдохновился это всё довольно чётко (хотя где-то почти везде в моём тексте будет включаться режим пьяного деда) обосновать. Так родилась идея лонгрида о том, почему я считаю, что в течение пяти лет если Full Self Driving и появится, то далеко не в коммерческом масштабе.
Хотя мысли все эти могут казаться непоследовательными, от того, что тесно взаимосвязаны, я постараюсь их изложить в порядке некоторой приоритетности проблем (на мой скромный взгляд, конечно), от наиболее поверхностных проблем, до наиболее фундаментальных.
И чтобы не застрять в tl;dr, где я буду описывать сказанные проблемы, вот вам содержание, которое отражает кратко их суть.
Технологии искусственного интеллекта сегодня повсеместно внедряются в бизнес-процессы компаний из самых разных секторов экономики: производство, финансы, медицина и др. Поэтому вполне логично предположить, что и юридическая сфера также в скором времени подвергнется трансформации, которая позволит по-новому взглянуть на хорошо всем известные процессы анализа документов, оценки рисков, подготовки договоров и т.п.
Мы предлагаем задуматься о том, как будут выглядеть на горизонте 3-5 лет основные бизнес-процессы юридических компаний и департаментов.
В настоящее время U-сеть занимает доминирующее положение в сфере решения задач по сегментации изображений, особенно в области медицинской визуализации. Среди большинства из предложенных на сегодняшний день U-сетей в качестве базовых структур широко используются сверточные нейронные сети (CNN).
Однако CNN могут эффективно использовать только информацию ближнего радиуса действия (“последних 100 метров”) (или локальную) из-за небольшого размера ядра свертки, что не позволяет им в достаточной степени исследовать данные в задачах, содержащих компоненты с зависимостями на больших расстояниях.
Трансформеры, обычно используемые для обработки естественного языка (NLP), могут эффективно исследовать информацию на дальних расстояниях, но недостаточно надежны в работе с данными вблизи, как это делают CNN.
Чтобы использовать возможности CNN для компенсации недостатков трансформеров и с другой стороны в задачах сегментации изображений, Чен (Chen) и др. предложили TransUNet, которая также является первой моделью сегментации изображения, построенная на основе трансформера. Стоит также отметить, что авторы удостоверились в перспективности объединения CNN и трансформеров, сначала попытавшись использовать чистую архитектуру трансформера для сегментации изображения. Однако она не сработала так же хорошо, как внедрение CNN в их архитектуру, поскольку трансформеры не так хороши при эксплуатации локальных возможностей, как CNN.
Привет, я Антон Маслов, ведущий разработчик в MTS AI.
В предыдущих статьях я рассказывал о том, как работает распознавание изображений на чипе KL520 с помощью нейросети Tiny YOLOv3, а так же о том, как устроена, из чего состоит и как собирается прошивка чипов KL520. И вот теперь, когда мы познакомились с технологией Edge AI в общих чертах, мы можем отправиться в самое увлекательное путешествие и создать на базе KL520 собственный оригинальный девайс!
Созданная проектировщиками и инженерами из Stability AI, CompVis и LAION, "Stable Diffusion" отбирает право на обладание титулом новой современной модели преобразования текста в изображение с открытым исходным кодом у Craiyon, ранее известного как DALL-E-Mini.
Хотя генерирование изображений из текста уже воспринимается как древняя технология, Stable Diffusion сумела привнести инновации, и это ещё более удивительно, учитывая, что это проект с открытым исходным кодом.
Давайте углубимся в детали и узнаем, что Stable Diffusion припасла для научного сообщества.
Помню, как еще в школе на Basic я писал программу-переводчик. И это было то время, когда ты сам составлял словарь, зашивал перевод каждого слова, а затем разбивал строки на слова и переводил каждое слово в отдельности. В то время я, конечно же, не мог и представить, как сильно продвинутся технологии, и программы-переводчики станут в основе использовать механизмы глубокого обучения с архитектурой трансформера и блоками внимания.
В это раз я решил окунуться немного в прошлое и сделать то, что хорошо сделать тогда у меня не получилось.
Вчера OpenAI выпустили Whisper. По сути они просто опубликовали веса набора больших (и не очень) рекуррентных трансформеров для распознавания речи и статью (и самое главное, в статье ни слова про compute и ресурсы). И естественно уже вчера и сегодня утром мне в личку начали сыпаться сообщения, мол всё, распознавание речи решено, все идеально классно и быстро работает, расходимся.
Постараемся разобраться под катом. Короткий ответ, если вам лень читать - для языков, кроме английского, скорее всего это далеко от правды (проверил я на русском). На английском наверное стоит сделать отдельный и чуть более подробный разбор, если эта статья наберет хотя бы 50 плюсов.
Кортокая версия.
Я набил API и python библиотеку, которые позволяют искать картинки похожую на искомую.
API бесплатный, на один запрос выдает до 20 похожих картинок.
В базе данных 18 миллионов изображений. Надеюсь, в ближайшее время, добавлю еще 50M.
API: LINK
python wrapper: LINK
Web Demo: LINK. Можно загрузить свою картинку или воспользоваться текстовым поиском. Можно кликать на картинки в результате поиска и смотреть что найдет по ней. Хороший вопрос за сколько шагов можно дойти от чего-то невинного до порнухи или хотя бы обнаженки.
Представьте на секунду, что вы очень азартный игрок, который только что попал в казино и не может выбрать, за какой игровой автомат ему сесть. Или один муравей из колонии, выбирающий по какому пути ему пойти на поиски пищи. Или даже вы – это целый маркетплейс, который думает, какую же цену, ему поставить на тот или иной товар!
На первый взгляд может показаться, что все эти странные ситуации никак не связаны. Но это только на первый взгляд. Если откинуть все необычность ситуации, то перед нами дилемма исследования-использования. Посудите сами: как азартный игрок, вы хотите найти автомат, дающий больше всего денег – это использование, но вы не знаете, какой это автомат и ищите его, дергая ручки и сравнивая выигрыши – это исследование. Как часто вам нужно подходить к игровому автомату, который, по вашему мнению самый прибыльный, а как часто нужно сомневаться в этом и пробовать другие? Как часто муравью нужно идти по тому пути, где товарищи-муравьи уже протоптали тропинку, а как часто стоит рискнуть и пойти своей дорогой? Как часто нужно менять цену, чтобы поспевать за инфляцией и спросом пользователей, а еще при этом максимизировать прибыль?