Как стать автором
Обновить

Моя лента

Тип публикации
Порог рейтинга
Уровень сложности
Предупреждение
Войдите или зарегистрируйтесь, чтобы настроить фильтры
Пост

Как добиться идеального качества локализации с автоматическим переводом нейронками?

Да все просто -- дать контекст!

Казалось бы, ML продукт, а на сайте перевод уровня 90-x. :) Train -- это ПОЕЗД, понимаешь ли, а модели -- это режимы. :)

Испанский стыд...
Испанский стыд...

Обычно типичная проблема «олд-скульного» подхода -- недостаток контекста. Даже если переводить самыми современными нейросетями, нельзя абсолютно всегда получать корректный результат, если подавать на вход какие-нибудь пункты меню, либо отдельные названия предметов в игре, либо пункты меню на сайте. Просто потому, что слова могут иметь несколько значений.

Современное решение довольно простое. Текстовые файлы для локализаций должны описываться в специальном формате, где каждый элемент будет иметь контекст, который используется лишь для описания объекта для нейросети, а само целевое слово/предложение будет выделяться (например, квадратыми скобками [ ] ) .

Например, у нас какой-то редактор с комнатой и кнопка "изменить пол". Без понимания контекста любая нейронка переведет это как "change gender", так что переводчику прийдется вручную эту ошибку исправлять.

Но если мы укажем "пункт меню для изменения дизайна вида поверхности пола в помещении: [изменить пол]", то нейросеть поймет контекст и выдаст нам корректный результат. Нам остается только взять нужный текст внутри квадратных скобок, отбросив ненужный уже контекст.

Теги:
0
Комментарии 0

Новости

Статья

«Да кто такой этот ваш FinOps?»: считаем и оптимизируем потребление кластера Kubernetes с помощью OpenCost

Время на прочтение 10 мин
Количество просмотров 13

Вне зависимости от того, кто вы: небольшой стартап или развитая компания — задача управления затратами особенно важна. Модное понятие FinOps, оно же Financial Operations или Cloud Financial Operations, помогает организациям наиболее эффективно и экономически выгодно использовать облачные ресурсы.

Но как FinOps работает на практике? В этой статье рассмотрим один из способов применения этого подхода в управлении кластерами. Познакомимся с инструментом OpenCost и обсудим его работу в Kubernetes. Подробности под катом!
Читать дальше →
Рейтинг 0
Комментарии 0
Новость

Microsoft работает над новыми функциями Paint

Время на прочтение 1 мин
Количество просмотров 25

Microsoft представит ещё больше новых функций для Paint. Как заметил пользователь X, редактор изображений скоро получит переработанную настройку кисти. 

Читать далее
Рейтинг 0
Комментарии 0
Статья

Проблема чистого листа: что делать, если в голове пусто, а от тебя ждут креатива

Время на прочтение 3 мин
Количество просмотров 26

Данные советы применимы не только к творческим задачам, но и к обычным, а также к решению проблем и написанию кода. В общем, если нужно что-то сделать, а вы не знаете, с чего начать. Автору (мне) и ее знакомым, по крайней мере, они не раз спасали подгорающую сами знаете что. =)

К сожалению, представители творческих профессий (писатели, сценаристы, художники, авторы и креаторы…) частенько сталкиваются с так называемой “проблемой чистого листа”. Это когда тебе очень нужно создать что-то, но ты сидишь перед “чистым листом”, как дурак, и совсем не знаешь, с чего начать. Или одну и ту же фразу, один и тот же скетч переделываешь по 100 раз, не в силах продвинуться дальше определенной точки, когда всё уже должно пойти как по маслу. Знакомо? Мне тоже… 

В этой статье я хочу поделиться несколькими личными хитростями, как обойти творческий кризис и поймать музу за хвост.

Читать далее
Рейтинг 0
Комментарии 0

Истории

Статья

Опальный миллиардер: история основателя Alibaba Джека Ма

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 205

История жизни основателя Alibaba, Джека Ма, начинается в городе Ханчжоу, что в китайской провинции Чжэцзян, где он родился 10 сентября 1964 года. Его настоящее имя — Юнь, но его прозвали Джеком туристы, которым было сложно произносить китайское имя будущего миллиардера. 

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 0
Статья

Как нейросети помогли нам сократить нагрузку на операторов контакт-центра и сэкономить 396 человеко-часов

Уровень сложности Средний
Время на прочтение 3 мин
Количество просмотров 79

Привет! Меня зовут Дима Офицеров, я продакт-менеджер клиентского сервиса ЮMoney. Моя команда разрабатывает собственное ПО для обслуживания пользователей, обучает искусственный интеллект в виде Манибота, работает над автоматизацией и оптимизацией процессов.

В статье расскажу о Data Science в клиентском сервисе и на примере покажу, что для работы с большим объёмом данных не всегда нужен многочисленный штат специалистов.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 0
Новость

Крошечная криптографическая метка сможет подтвердить подлинность практически любой вещи

Время на прочтение 4 мин
Количество просмотров 290

Исследователи Массачусетского технологического института разработали криптографическую метку, которая использует терагерцовые волны для проверки подлинности предметов. Аутентификация происходит за счёт распознавая уникального рисунка микроскопических металлических частиц, подмешенных в клей, на котором держится метка.

Читать далее
Всего голосов 5: ↑3 и ↓2 +1
Комментарии 0
Новость

WorksPad MDM — новая система управления мобильными устройствами на российском рынке

Время на прочтение 2 мин
Количество просмотров 96

Компания «РуПост» объявляет о выходе системы управления мобильными устройствами WorksPad MDM как части интегрированной платформы обеспечения управляемой мобильной работы сотрудников WorksPad EMM (Enterprise Mobile Management).

EMM-системы позволяют реализовать комплексный подход к управлению мобильными устройствами, приложениями и контентом в корпоративной среде, предоставляя ИТ-специалистам необходимые для этого инструменты и технологии. Ключевым элементом данной системы является модуль управления мобильными устройствами (MDM, Mobile Device Management).

Решение дает возможность предприятиям, ищущим замену иностранным EMM-платформам, организовать работу на планшетах, портативных телефонах и других подобных устройствах, включая как защищенные мобильные рабочие места, так и централизованное управление мобильными устройствами на iOS и Android. Оно позволяет администрировать Mobile Device в сети, настраивать и обновлять ПО, а также удалять информацию в случае потери или кражи устройства.

Благодаря супераппу класса Mobile Device Management организации получают возможность обеспечить безопасный доступ сотрудников к корпоративным данным, четко разграничивая рабочее и личное пространство. Политики настройки и аудита мобильного устройства на уровне ОС, а также корпоративной сети Wi-Fi доставляются и применяются автоматически. Корпоративный контент, такой как почта и документы, запускается в защищенном контейнере.

WorksPad MDM поддерживает типовые функции, характерные для решений Mobile Device Management, парольные политики, позволяет настроить уровень приватности и другие параметры, а также установить необходимые политики безопасности.

Читать далее
Рейтинг 0
Комментарии 0
Статья

Обрезать нельзя сжать. Как ускорить метрики проекта без больших вложений

Уровень сложности Средний
Время на прочтение 8 мин
Количество просмотров 185

Мы не раз читали на Хабре, почему важно иметь быстрые сайты, как это влияет на посещаемость, время на странице, глубину и прочее. Но каждый раз это инструкции о том, как поменять инфраструктуру серверов, потратить десятки часов на разработку и ощутимое количество денег. В случае больших корпораций, конечно же, такие действия оправданы. А маленькие стартапы обычно таким и вовсе не занимаются, фокусируясь на других задачах. Мы же оказались где-то посередине. У нас были плохие показатели, но времени на какие-то значительные изменения не было. И несмотря на наличие ресурсов мы решили пойти самым простым путём и, как и гласит закон Парето, получить 80% результата за 20% усилий. Меня зовут Савичев Игорь, я работаю в Самолете и мы занимаемся цифровизацией строительства на российском рынке. Мы развиваем IT-технологии в разных направлениях от девелопмента до финтеха. И сегодня я расскажу, можно ли сделать себе хорошо, быстро и не очень дорого.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 1
Статья

Как увеличить продажи интернет-магазина: 5 трендов e-commerce

Уровень сложности Простой
Время на прочтение 9 мин
Количество просмотров 56

В 2024 году электронная коммерция продолжает набирать обороты, меняя традиционные подходы компаний к обслуживанию клиентов и модели покупательского поведения. Этот год представляется ключевым в эволюции онлайн-торговли, предвещая внедрение инноваций, которые могут радикально преобразовать эту сферу.

Узнайте о свежих трендах в e-commerce
Всего голосов 1: ↑0 и ↓1 -1
Комментарии 0
Статья

Нелинейные корреляции. Моя любимая статистическая мера: D Хёфдинга

Уровень сложности Средний
Время на прочтение 25 мин
Количество просмотров 106

Предположим, у вас есть две последовательности чисел, которые вы хотите сравнить, чтобы измерить, насколько они связаны или зависимы друг от друга. Это действительно довольно общий сеттинг: две последовательности могут представлять временные ряды, так что у вас есть таблица с тремя столбцами и кучей строк. Первый столбец будет временем (скажем, с часовыми интервалами), а затем по одному столбцу для каждой последовательности; первый, например, может быть средней ценой акции за этот интервал, а второй - объемом торгуемых акций за этот интервал. Или вы могли бы сравнить процентное изменение цены одной акции по сравнению с другой. Конечно, это вовсе не обязательно должны быть временные ряды: у вас также может быть всего два столбца (то есть вообще без столбца времени). Первый может быть ростом американца старше 30 лет в дюймах, а второй — весом того же человека в фунтах. Или, чтобы использовать более актуальный пример, каждый столбец может представлять вектор эмбеддингов некоторых предложений на английском языке от определенной модели LLM. Первый столбец может быть вектором от модели Mixtral 8x7B для строки "I love my 3 sons" (Я люблю моих трех сыновей), а другой — от той же модели для строки "I cherish my 5 daughters" (Я дорожу моими пятью дочерьми).

В каждом из этих случаев у нас есть две последовательности данных, которые мы хотим сравнить. Проблема заключается в том, что в самой общей ситуации мы не имеем ни малейшего представления о том, какова может быть природа связи, или даже есть ли связь, о которой стоит говорить. Что, если две последовательности полностью независимы, как записи бросков двух разных честных кубиков? Что, если данные немного искажены и содержат некоторые экстремальные выбросы, которые искажают наиболее общие виды мер, на которые вы могли бы захотеть посмотреть, такие как среднее значение и дисперсия каждого столбца отдельно? Вы могли бы подумать сейчас: «Погодите, разве ответ на это — просто посмотреть на корреляцию?» И это действительно хорошая идея для проверки, поскольку это наиболее часто используемая мера ассоциации между двумя наборами данных.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Комментарии 0
Статья

Sega: история успеха на аркадном рынке (часть 1)

Уровень сложности Простой
Время на прочтение 11 мин
Количество просмотров 316
image

Сейчас Sega известна любому геймеру. А уже в далёкие восьмидесятые японская корпорация была одной из самых крупных компаний, создававших инновационные тайтлы. Без того, что создала Sega тогда на аркадном рынке, не было бы и развития как этого самого рынка, так и развития игр для домашних систем. В этом материале – о самых интересных аркадных играх от Sega, выпущенных в восьмидесятых!
Читать дальше →
Всего голосов 15: ↑14 и ↓1 +13
Комментарии 0
Статья

Взрывной рост георекламы: что нужно знать рекламодателям в 2024 году

Время на прочтение 5 мин
Количество просмотров 102

Возникновение новых технологий и спрос на персонализацию привели к взрывному росту геомаркетинга. Эксперты прогнозируют, что прирост рынка location-based-рекламы будет составлять 14% ежегодно.

Гео внедряют во все виды интернет-рекламы, например в таргетированную и контекстную. Но есть и особый вид размещения, который понимают под «георекламой» в русском языке – продвижение в сервисах навигации. В этой статье расскажем, что нужно знать рекламодателям о геомаркетинге и продвижении в онлайн-картах.

Читать далее
Всего голосов 2: ↑0 и ↓2 -2
Комментарии 0

Ближайшие события

Статья

Вижу цель, не иду к ней: как приводить проекты к результату

Время на прочтение 6 мин
Количество просмотров 206

Всем привет!  

Меня зовут Екатерина Гроцкая, я прошла долгий путь в IT — от оператора call-центра до техлида продукта в МТС Диджитал. И чем бы я ни занималась — поддержкой пользователей, сопровождением и разработкой продуктов — я сталкивалась с одной и той же проблемой: мы часто закапываемся в детали реализации и забываем, ради чего вообще начинали всё делать, какова была наша цель. История выглядит знакомой? Набив шишек, я нашла решение — в статье делюсь своими кейсами и выводами из них.  

Мне интересно. Что дальше?
Всего голосов 2: ↑0 и ↓2 -2
Комментарии 1
Статья

Анатомия мошенничества «Заработай онлайн»

Уровень сложности Простой
Время на прочтение 8 мин
Количество просмотров 688

Все мы неоднократно отвечали на телефонные звонки от так называемых “сотрудников МВД” и “служб безопасности” банков. Если не вы лично, то кто-то из знакомых или родственников, сталкивались с аферистами при покупке или продаже товаров на Авито или Юле. Лично меня эти радости не обошли стороной. С учетом долгоиграющей карьеры в информационной безопасности (более 15 лет) я не могу остаться равнодушным к проблеме мошенничества в интернете и спекуляции на человеческих слабостях. Именно поэтому поделюсь с вами историей о том, как меня пытались вовлечь в схему развода на деньги простым призывом заработать онлайн. 

Читать далее
Всего голосов 13: ↑12 и ↓1 +11
Комментарии 2
Новость

Google в 2023 году выпустила около 10 млн смартфонов Pixel и планирует превысить этот результат в 2024 году

Время на прочтение 1 мин
Количество просмотров 462

За 2023 год Google выпустила порядка 10 млн Pixel и планирует произвести более 10 млн смартфонов в текущем году, пишет Nikkei Asia со ссылкой свой источник. Корпорация намерена наладить выпуск Pixel в Индии не раньше второго квартала 2024 года в целях диверсификации своей цепочки поставок за пределами Китая.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Комментарии 10
Новость

Кибершпионы, хактивисты, вымогатели: аналитики F.A.С.С.T. назвали главные киберугрозы 2024 года

Время на прочтение 3 мин
Количество просмотров 153

Сегодня команда компании F.A.C.C.T. представила новый ежегодный аналитический отчет «Киберпреступность в России и СНГ. Анализ, тренды, прогнозы. 2023–2024 гг.». Наше новое исследование станет незаменимым практическим руководством по стратегическому и тактическому планированию проактивной киберзащиты для руководителей групп кибербезопасности, аналитиков SOC, CERT, специалистов по реагированию на инциденты, Threat Intelligence и Threat Hunting, а также компаниям из различных секторов. 

Специально для читателей Хабра, собрали основные ключевые выводы из отчета.

Читать далее
Рейтинг 0
Комментарии 1
Новость

WhatsApp добавил четыре новых способа форматирования текста

Время на прочтение 1 мин
Количество просмотров 680

В WhatsApp добавили четыре новых параметра форматирования текста в сообщениях. Новые функции уже доступны, для получения доступа к ним надо обновить приложение на своём устройстве.

Читать далее
Всего голосов 10: ↑7 и ↓3 +4
Комментарии 3
Статья

Как я опираюсь на инженерный подход в вопросе своего долголетия

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 1.1K

Если вы не курите, не занимаетесь экстремальными видами спорта и не переписываетесь за рулём, то с 80% вероятностью вы умрёте от развития и последствий следующих четырёх (в порядке смертоносности) проблем. Или, как Питер Аттия в своей книге Outlive, красочно и устрашающе назвал их «Четырьмя всадниками смерти» (The Four Horsemen).

Читать далее
Всего голосов 13: ↑10 и ↓3 +7
Комментарии 9
Пост

В 16:00 начинаем вебинар «Аналитические инструменты для ленивых».

Присоединяйтесь! Все участники получат бонусы для работы с ML-проектами.

Подробнее о программе вебинара →

Смотрите трансляцию прямо в этом посте или переходите на YouTube.

Теги:
+3
Комментарии 0