Как стать автором
Обновить
9.66
Рейтинг

Поисковые технологии *

От AltaVista до Яндекса

Сначала показывать
  • Новые
  • Лучшие
Порог рейтинга
  • Все
  • ≥0
  • ≥10
  • ≥25
  • ≥50
  • ≥100

Эффективное геометрическое хеширование пространства признаков для быстрого точного поиска наиболее близких дескрипторов

Поисковые технологии *Алгоритмы *Математика *Машинное обучение *
Перевод
Tutorial

При решении задачи распознавания лиц в компании Оксаджайл (Oxagile) был разработан новый алгоритм эффективного геометрического хеширования пространства лицевых признаков с целью быстрого поиска двух наиболее близких по косинусному расстоянию лицевых дескрипторов. Разработанный алгоритм обладает той же точностью, что и метод простого перебора и, в то же время, он приблизительно в сто раз быстрее. С более подробным описанием алгоритма можно познакомиться в англоязычном оригинале настоящей статьи.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 1.5K
Комментарии 4

Новости

Опасность редизайна для позиций вашего сайта

Веб-дизайн *Поисковые технологии *Интерфейсы *Управление e-commerce *
Recovery mode

Всегда ли обновление дизайна — это хорошо для сайта с точки зрения SEO? Нет, не всегда. Более того, часто редизайн влечет за собой ухудшение позиций. Так может, лучше не трогать то, что и так работает?

Опыт показывает, что изменение и обновление дизайна сайта раз в несколько лет — решение в очень правильное. Оно помогает улучшить юзабилити, увеличить конверсии и поднять позиции. Но почему тогда многие владельцы сайтов сталкиваются с совершенно обратным эффектом?

Читать далее
Всего голосов 7: ↑0 и ↓7 -7
Просмотры 1.4K
Комментарии 0

Сравнение эффективности поиска: Elasticsearch и конкуренты

Поисковые технологии *
Перевод

В области поисковых систем с открытым исходным кодом появилось несколько новых интересных игроков. Мы решили внимательно изучить некоторые из них, чтобы узнать, насколько они сравнимы с Elasticsearch - как по набору функций, так и по производительности.

Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Просмотры 4K
Комментарии 18

Они убивают SEO: 5 нюансов разработки, которые являются роковыми для поискового продвижения

Поисковые технологии *Управление e-commerce *
Recovery mode

Почему случаются просадки сайтов? Кто в этом виноват? Эти вопросы уже не первый год нам задают многие владельцы онлайн-ресурсов, которые обращаются за услугами SEO. Интересно, что чьей-то определенной вины может и не быть, однако неосторожные действия, касающиеся технической составляющей, вполне могут повлечь за собой подобный результат. Чтобы понять, что же привело к просадкам, стоит разобраться, какие факторы способны спровоцировать потери трафика, даже если каждый специалист, работавший с сайтом, отлично выполнил свои задачи.

В этой статье мы покажем, какие 5 ошибок, допущенных при разработке, могут стать роковыми для SEO. Детально их рассмотрим и подскажем решения. Кроме того, разберемся, почему важно, чтобы оптимизаторы и разработчики работали рука об руку. Итак, приступим.

Читать далее
Всего голосов 10: ↑0 и ↓10 -10
Просмотры 4.4K
Комментарии 5

Обработка русского языка на Java

Поисковые технологии *Программирование *Java *Kotlin *Natural Language Processing *
Tutorial

Рассказ пойдет об одной новой, общедоступной Java/Kotlin библиотеке, для работы с русским языком. Она позволяет получить исходные формы + морфологическую информацию для большинства слов русского языка. Статья предназначена для тех, кто создает ботов, обрабатывает сообщения и занимается поиском. Для справки, ключевое отличие лемматизации от стеммизации (урезания до нормализованной формы) состоит в том, что лемма удовлятворяет правилам языка, например для слова "яблоками" леммой будет "яблоко", а не просто урезанный корень. Лемма может быть и более сложной, например для слова люди, начальная форма – человек. В этой статье мы рассмотрим способ быстрого извлечения такой информации из морфологического словаря.

Запустить процесс
Всего голосов 10: ↑10 и ↓0 +10
Просмотры 4.8K
Комментарии 13

Какой софт использует ЦРУ и АНБ для дата-майнинга

Блог компании ITSumma Поисковые технологии *Data Mining *Big Data *Киберпанк


После утечки данных от Сноудена стало понятно, что АНБ собирает данные на всех граждан до совершения преступлений, а не на конкретных подозреваемых после преступления.

Аналогичную практику сбора разведданных на всех граждан до совершения преступления начали практиковать и в других странах, в том числе России. Речь идёт о длительном хранении интернет-трафика, сведений о перемещении, звонков, записей видеонаблюдения и т.д. Это очень удобно, ведь в случае необходимости найдутся улики практически на любого человека.

Разумеется, для быстрого поиска в таком огромном массиве данных требуется специальный софт.
Читать дальше →
Всего голосов 31: ↑31 и ↓0 +31
Просмотры 10K
Комментарии 4

Делаем быстрый поиск по неточному совпадению среди 100 миллионов товаров

Поисковые технологии *.NET *Алгоритмы *C# *Разработка под e-commerce *
Tutorial

Это четвертая статья с этой картинкой для привлечения внимания. Она каким-то удивительным образом опять подошла по смыслу.

Мы делаем проект по управлению большими каталогами товаров, и нам потребовалось быстро искать товары по неточному совпадению.

Забегая вперед, скажу, что от идеи до рабочего решения на продакшене прошло пять часов.

Исходная ситуация такова: таблица в MS SQL базе, 50 миллионов записей, записи добавляются постоянно, удаляются или обновляются крайне редко. Средняя длина названия товара составляет 64 символа. Поиск по неточному совпадению работает, для этого используются триграммы и полнотекстовый индекс по столбцу с триграммами. Ранжирование результатов осуществляется при помощи функции CONTAINSTABLE. Результаты получаются релевантные, но поиск работает откровенно медленно, 2-5 секунд на запрос, в зависимости от длины запроса. Мы хотим ускорить его раз в 20, а лучше в 100 подручными средствами.

Читать далее
Всего голосов 12: ↑12 и ↓0 +12
Просмотры 4.2K
Комментарии 18

Как работает распознавание лиц? Разбор

Блог компании Droider.Ru Поисковые технологии *Алгоритмы *Софт Фототехника
Среднестатистический человек может идентифицировать знакомое лицо в толпе с точностью 97,53%. Вы скажете, это немало и будете правы. Но это ничто по сравнению с современными алгоритмами, которые добились точности 99,8% еще в 2014 году. А в последние несколько лет они достигли практически совершенства! Современный алгоритм, использующийся в камерах видеонаблюдения в Москве способен обрабатывать 1 миллиард изображений менее чем за полсекунды с точностью близкой к 100%.


Этот алгоритм насколько крут, что уже в этом году в Московском Метро планируют ввести систему прохода по лицу — FacePay. При этом нам обещают, что система будет работать даже если человек в медицинской маске.


Как вы понимаете, жизнь уже не будет прежней. Поэтому давайте разберемся:

  • Как работают алгоритмы распознавания лиц?
  • Страшны ли эти алгоритмы на самом деле и где их применяют во благо?
  • А также поговорим какого будущего нам ждать.
Читать дальше →
Всего голосов 18: ↑15 и ↓3 +12
Просмотры 7K
Комментарии 29

PunkSpider: поисковик уязвимых сайтов готов к рестарту

Блог компании GlobalSign Информационная безопасность *Поисковые технологии *


История развивается по спирали. На хакерской конференции DEF CON 29 в 2021 году состоялся анонс новой версии PunkSpider — поисковой системы по уязвимостям в веб-приложениях, своеобразного аналога Shodan, только для веб-сайтов. Сканер уязвимостей с фаззингом (перебор всех вариантов) проверяет сайты на наличие самых распространённых, удобно эксплуатируемых багов — и сообщает о них всему интернету.

PunkSpider успешно работал с 2014 по 2018 годы. Потом его пришлось закрыть из-за множества жалоб от компаний, чьи сайты становились лёгкими мишенями для взлома. Но сейчас разработчики разобрались с юридическими проблемами и готовы возобновить проект.

На данную минуту PunkSpider ещё не запустили, на сайте висит заглушка, опубликована только ссылка на расширение для Chrome.
Читать дальше →
Всего голосов 10: ↑10 и ↓0 +10
Просмотры 3.6K
Комментарии 2

Гуглояз – как Google ограничивает мысли о борьбе с монополиями

Поисковые технологии *Бизнес-модели Финансы в IT
Перевод
— Разве ты не понимаешь, что весь смысл новояза в том, чтобы сузить диапазон мышления? В итоге мыслепреступление станет попросту невозможным, поскольку не будет слов, которыми его можно было бы выразить.
— «1984», Джордж Оруэлл

Не так давно люди, активно интересующиеся вопросами SEO, могли заметить, что я вступил в перебранку в твиттере с парочкой сотрудников Google. Страсти там реально накалились.

Иногда работать представителем Google за деньги бывает трудновато.

Всё началось с того, что я поставил под сомнение этичность и направленность против конкуренции таких действий Google, как поднятие в рейтинге собственных материалов, касающихся таких слов, как “SEO” и “robots.txt” (из моих областей интереса), а также Google Flights, YouTube, окошек «People Also Ask» и других особенностей поисковика, которые появляются среди самых первых результатов.

Нечестная конкуренция Google связанная с поднятием собственных сервисов в результатах поиска – проблема давно известная. Правительства разных стран проводят расследования таких действий и работают над новыми законами, касающимися этих и других проблем, связанных с монополизацией.
Читать дальше →
Всего голосов 78: ↑73 и ↓5 +68
Просмотры 31K
Комментарии 178

Передовые технологии на службе СЭД

Поисковые технологии *CRM-системы *Kotlin *Исследования и прогнозы в IT Облачные сервисы
Из песочницы
Tutorial

В статье монографически раскрываются современные аспекты разработки документо-ориентированных систем основанных на собственном опыте. Все исследования и реализация технологий последовательно выполнены в ряде проектов на протяжении последних 3-х лет, где частично или полностью использовался представленный подход. Пошагово показан путь создания высоконагруженной СЭД и одновременно формирования в рамках полученной платформы многофункциональной CRM.

Стратегия разработки подчинена парадигме: если технологии позволяют не расширять инфраструктуру при допустимом ущербе качества с сохранением стабильности и доступности – инфраструктура не расширяется. Данная парадигма минимизирует вероятные точки отказа, уменьшает стоимость разработки проекта и в итоге стоимость инфраструктуры.

Читать далее
Всего голосов 12: ↑11 и ↓1 +10
Просмотры 1.9K
Комментарии 2

Бывший сотрудник Яндекса выпустил бесплатный поисковик с блек… листами, но без рекламы

Разработка веб-сайтов *Поисковые технологии *Google API *Поисковая оптимизация

Здравствуйте, меня зовут Дмитрий Карловский и я крайне опечален качеством поиска современных поисковиков.

Например, обсуждали мы как-то в $mol-чате стоит ли делать "человеко-понятную" псевдостатику в урлах вида /snjat-dvushku/s-remontom/v-vihino для SEO, или всё же сеошники - шарлатаны, гадающие на поисковой гуще. Решили проверить кто там у нас в топе по запросу "квартира купить однокомнатная горьковская" и получили такой результат:

Дыбенко, Лесная, Жопа Мира, всё, что угодно, только не то, что спрашивали. Первые 4 результата - нерелевантный мусор. А потом сервис самого же Яндекса. Как так получилось, что в 2к21, в эпоху машинного обучения и GPT-3, у нас получился поиск хуже, чем на заре интернета?

Отгадка
Всего голосов 119: ↑98 и ↓21 +77
Просмотры 51K
Комментарии 200

Бывшие сотрудники Google запустили первый платный поисковик. От его успеха зависит будущее интернета

Блог компании gms & g-mate Поисковые технологии *Развитие стартапа

В плане интерфейса от Google пока далеко не ушли

Два бывших топ-менеджера Google создали поисковик без рекламы и с защитой личных данных, и теперь надеются привлечь людей, которые устали от того, что «они — это продукт». Подписка на поисковик (странная фраза, правда?) стоит $4,95 в месяц. Компания уже привлекла $77,5 млн, в ней работает 60 человек, 30% из которых ранее трудились на Google. Создатели рассчитывают отобрать себе несколько процентов поискового трафика, а там, возможно, и изменить наше отношение к рекламе в Сети.

Читать дальше →
Всего голосов 49: ↑48 и ↓1 +47
Просмотры 62K
Комментарии 278

Закон о «приземлении» иностранных интернет-порталов

Блог компании ITSOFT Мессенджеры *Поисковые технологии *Законодательство в IT Социальные сети и сообщества

Дума рассмотрела в первом чтении проект закона «О деятельности иностранных лиц в информационно-телекоммуникационной сети «Интернет» на территории Российской Федерации», его также уже называют законом о «приземлении» иностранных информационных гигантов на территории России.

Кто подпадает под действие закона? Те, у кого суточная аудитория на протяжении трех месяцев составляет более 500 тысяч человек. Понятно, что речь идет о гигантах информационного рынка, но в проекте закона указано, что это может быть любой иностранный сайт, с аудиторией полумиллиона россиян в сутки. Причем под аудиторией понимается и обработка сведений о пользователях, находящихся на территории РФ, то есть сам пользователь может и не заходить на ресурс, но если его данные обрабатываются, то как говорится «плюс 1». Причем закон касается не только иностранных соцсетей и информационных порталов, в его поле зрения входят и провайдеры хостинга, рекламные агентства, почтовые сервисы и мессенджеры.

Под приземлением в законе понимается: создание зарубежными компаниями филиалов на территории России, организация на своем ресурсе форм обратной связи с пользователями и регистрация личного кабинета на порталах органов власти. Иностранцам также надо будет установить счетчик посетителей его ресурса, рекомендуемый российским надзорным органом.

Какие же последствия ждут иностранцев, которые без энтузиазма воспримут новшество? Перечислим от простого к сложному:

Последствия для иностранцев
Всего голосов 18: ↑13 и ↓5 +8
Просмотры 5K
Комментарии 44

Как провести технический аудит сайта через Screaming Frog?

Разработка веб-сайтов *Поисковые технологии *Клиентская оптимизация *Тестирование веб-сервисов *
Recovery mode

Наличие технических ошибок на сайте может негативно сказаться на его ранжировании, что в свою очередь приведет к снижению поискового трафика и позиций в поисковых системах.

Чтобы выявить технические ошибки, необходимо провести комплексный технический SEO-аудит сайта. Одним из основных помощников в этой сложной и трудозатратной задаче для нас выступает десктопная программа Screaming Frog.

Читать далее
Всего голосов 2: ↑0 и ↓2 -2
Просмотры 3.4K
Комментарии 0

Укрощаем Manticoresearch

Поисковые технологии *Sphinx *
Tutorial

Manticoresearch это Open Source проект, форк проекта sphinxsearch от Андрея Аксенова и его команды. Проект позиционирует себя как открытое высокопроизводительное решение для полнотекствого поиска. Судя по бенчмаркам (правда от самих создателей Мантикоры), средняя "по больнице" скорость превышает скорость популярного Elasticsearch.

Я постараюсь научить вас, как устроены индексы в manticoresearch.

Я расскажу вам, как их можно потюнить и даже покажу с графиками и картинками на живом примере что на что влияет.

Давайте спустимся в подвал...
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 1.7K
Комментарии 4

Знакомство с ArangoDB

Поисковые технологии *Программирование *NoSQL *Администрирование баз данных *
Из песочницы

ArangoDB – мультимодельная БД с возможностью хранения данных как графов, документов и ключ-значение.

Читать далее
Всего голосов 13: ↑9 и ↓4 +5
Просмотры 2.4K
Комментарии 2

I feel Brave: новый анонимный поиск открыт для всех

Блог компании Brave Поисковые технологии *Браузеры
Перевод

Запускаем публичную бету нашего независимого от адтех-гигантов поиска https://search.brave.com/, который предоставляет не имеющую аналогов анонимность.

I feel Brave
Всего голосов 15: ↑15 и ↓0 +15
Просмотры 5.4K
Комментарии 34

Как Яндекс применил генеративные нейросети для поиска ответов

Блог компании Яндекс Поисковые технологии *Алгоритмы *Машинное обучение *Natural Language Processing *


Только что мы представили новую версию поиска Y1. Она включает в себя комплекс технологических изменений. В том числе улучшения в ранжировании за счёт более глубокого применения трансформеров. Подробнее об этом направлении мой коллега Саша Готманов уже рассказывал в нашем блоге. В новой версии модель стала мощнее: количество параметров возросло в 4 раза. Но сегодня мы поговорим о других изменениях.

Когда человек вводит запрос в поисковик, он ищет информацию или способ решения своей задачи. Наша глобальная цель — помогать находить такие ответы, причём сразу в наиболее ёмком виде, чтобы сэкономить людям время. Этот тренд на ускорение решения пользовательских задач особенно заметен в последние годы. К примеру, теперь многие пользователи задают свои вопросы не текстом в поиске, а голосовому помощнику. И тут нам на помощь пришли огромные генеративные нейросети, которые способны перерабатывать, суммаризировать и представлять в ёмком виде тексты на естественном языке. Пожалуй, самой неожиданной особенностью таких сетей стала возможность быстро обучаться на всё новые задачи без необходимости собирать большие датасеты.

Сегодня мы поделимся опытом создания и внедрения технологии YaLM (Yet another Language Model), которая теперь готовит ответы для Поиска и Алисы. В этом мне помогут её создатели — Алексей Петров petrovlesha и Николай Зинов nzinov. Эта история основана на их докладе с Data Fest 2021 и описывает опыт внедрения модели в реальные продукты, поэтому будет полезна и другим специалистам в области NLP. Передаю слово Алексею и Николаю.

Всего голосов 70: ↑68 и ↓2 +66
Просмотры 28K
Комментарии 16

Наша анонимность утрачена?

Информационная безопасность *Поисковые технологии *IT-инфраструктура *IT-стандарты *

IT-технологии развиваются с каждым годом. Многие корпорации полным ходом развивают технологические подходы в области сбора и обработки полученной информации. Одним из таких подходов является использование баз данных цифровых отпечатков пользователей сети Интернет.

Отпечатки цифровых устройств или «цифровые портреты» применяются третьими лицами, не только для генерации рекламы, но и для мошенничества и «кражи личности». Пользователи сети сами того не подозревая отдают персональные и корпоративные данные, не только без согласия, но и без необходимого контроля. А Вы защищаете свой цифровой портрет?

Читать далее
Всего голосов 34: ↑21 и ↓13 +8
Просмотры 12K
Комментарии 55

Вклад авторов