Как стать автором
Обновить
2.22
Рейтинг

Поисковые технологии *

От AltaVista до Яндекса

Сначала показывать
Порог рейтинга

Децентрализованный поиск для свободного веба

Поисковые технологии *JavaScript *Алгоритмы *Rust *Распределённые системы *

Возможно ли создать поисковую систему, которую тяжело подвергнуть цензуре, влиянию и блокировке?

Говоря техническим языком, возможно ли выполнять полнотекстовый поиск не имея удаленного сервера, удобным для пользователя способом, одновременно храня поисковый индекс в peer-to-peer системе и имея возможность быстро обновлять поисковый индекс?

Да, это возможно!

Под катом описание архитектуры поискового движка Summa на Rust и набора приемов, позволивших ответить утвердительно на все вопрос

Читать далее
Всего голосов 65: ↑63 и ↓2 +61
Просмотры 7.7K
Комментарии 21

Новости

Способ представления числовых ключей для обратного поискового индекса

Блог компании МойОфис Поисковые технологии *C++ *Алгоритмы *

Числа — совершенно особенная категория текстовых объектов. Они могут быть представлены разными способами: от зачастую многословного и не всегда согласованного между собой ряда убывающих числительных до записи арабскими или римскими цифрами, с разбивкой запятыми или точками, с пробелами или без них.

Не проще обстоят дела и с программным представлением таких объектов.

Читать далее
Всего голосов 38: ↑36 и ↓2 +34
Просмотры 3K
Комментарии 8

150+ хакерских поисковых систем и инструментов

Блог компании Бастион Информационная безопасность *Поисковые технологии *

Все таргетированные хакерские атаки начинаются с разведки. Социальные инженеры, красные команды и отдельные пентестеры также собирают информацию о своих целях перед тем, как перейти к активным действиям. Им помогают десятки инструментов и хаков. Под катом ссылки на некоторые из них.

Пост состоит из 8 объемных разделов:

1. метапоисковики и поисковые комбайны;

2. инструменты для работы с дорками;

3. поиск по электронной почте и логинам;

4. поиск по номерам телефонов;

5. поиск в сети TOR;

6. поиск по интернету вещей, IP, доменам и поддоменам;

7. поиск данных об уязвимостях и индикаторов компрометации;

8. поиск по исходному коду.

В этом списке собраны инструменты, которые члены нашей команды используют в работе. И все же, эта подборка пригодится не только пентестерам, но и разработчикам, журналистам, HR, маркетологам и всем, кто много ищет в интернете. Знания — это сила. Используйте их во благо.

Читать далее
Всего голосов 64: ↑61 и ↓3 +58
Просмотры 27K
Комментарии 5

Как Яндекс перепридумал поиск для разработчиков

Блог компании Яндекс Поисковые технологии *Программирование *Алгоритмы *Машинное обучение *

У вас бывало, что открываешь поиск, ищешь что-то по программированию и не находишь ответ? Тогда эта история для вас. 

Меня зовут Алексей Степанов, я руковожу службой исследований машинного обучения поиска Яндекса. Сегодня я расскажу непростую историю. Она про проблему, до решения которой у нас слишком долго не доходили руки. Из поста вы узнаете, почему стандартная метрика качества поиска не учитывала интересы разработчиков и как мы её улучшили. Расскажу про новую нейросеть CS YATI, обученную понимать таких же айтишников, как и мы. Ну и про грабли на нашем пути тоже расскажу, куда без них.

Этот пост основан на моём докладе с Data Fest 2022, но не во всём (мой коллега Максим Хурсанов @Maxim2207 существенно расширил историю).

Читать далее
Всего голосов 89: ↑87 и ↓2 +85
Просмотры 30K
Комментарии 66

Часть 4. Ищем матчи в Dota 2 по названиям роликов на YouTube с помощью BERT и OpenDota

Поисковые технологии *Python *Data Mining *Машинное обучение *

Представьте, что с одной стороны у вас есть видео на YouTube с интересными моментами из матча по Dota 2. А с другой стороны база данных всех матчей. Как для видео найти соответствующую запись в БД? Этой задачей мы сегодня и займемся.

Читать далее
Всего голосов 10: ↑9 и ↓1 +8
Просмотры 2.2K
Комментарии 0

Как с помощью BERT организовать поиск похожих текстов

Поисковые технологии *Машинное обучение *

Что нужно, чтобы с помощью BERT организовать поиск похожих текстов, а также как можно решить задачу многоклассовой классификации нестандартным способом.

Читать далее
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 1.5K
Комментарии 0

Персональное ранжирование на Авто.ру: как не потерять главный смысл поиска по параметрам

Блог компании Яндекс Поисковые технологии *Алгоритмы *Машинное обучение *


Поиск по базе объявлений — совсем не то же самое, что поиск по интернету. Он параметрический, а не полнотекстовый: вы можете с помощью фильтров однозначно определить, что вам нужно, сузив область поиска. Поэтому и ранжирование в нём, на первый взгляд, играет не настолько большую роль — казалось бы, документов или карточек в выдаче не так много, чтобы дополнительно их ранжировать. Но это справедливо для небольшой базы и только для одного поискового сценария.

В параметрическом поиске Авто.ру действует правило: незачем строить за пользователя предположения о том, что он имел в виду. Мы в любом случае покажем все объявления, соответствующие поисковым фильтрам в запросе. Роль движка ранжирования — отсортировать карточки так, чтобы наиболее релевантные для конкретного пользователя оказались выше, не более. Я работаю над этим уже несколько месяцев, сейчас расскажу об устройстве движка и первых результатах.
Читать дальше →
Всего голосов 19: ↑16 и ↓3 +13
Просмотры 3.1K
Комментарии 6

Как быстро реализовать поиск на корпоративном портале

Блог компании Selectel Поисковые технологии *PostgreSQL *IT-компании

Привет, меня зовут Антон Щербак, я разработчик корпоративного портала Selectel. Это внутренняя система, где можно узнать новости компании, поучаствовать в Selectel Game (это наша собственная геймификация рабочих достижений) и, конечно, найти необходимого коллегу или структуру.

Нас уже более 700, и иногда поиск человека превращается в выпуск ток-шоу «Жди меня». Поэтому у нас была задача сделать его более удобным и приводящим к нужному результату. Под катом рассказываю, к какому решению мы в итоге пришли и как реализовали.
Читать дальше →
Всего голосов 48: ↑48 и ↓0 +48
Просмотры 4.2K
Комментарии 8

Кратко об OData

Разработка веб-сайтов *Поисковые технологии *Data Mining *Открытые данные *
Tutorial

Протокол OData (или Open Data Protocol) не часто встречается на практике. Чаще мы видим собственные решения по поводу проектирования RESTful API и тратим на это много времени. Но за долгое время существования REST, уже были собраны лучшие практики, которые слились в OData. На просторах интернета не много ресурсов для изучения. Давайте исправим это. В этой статье приведены основные варианты использования OData с примерами.

Что внутри?
Всего голосов 14: ↑14 и ↓0 +14
Просмотры 6.9K
Комментарии 48

Manticore — альтернатива Эластику на C++ с 21-летней историей

Поисковые технологии *Sphinx *Администрирование баз данных *

5 лет назад мы форкнули Manticore из open source версии некогда популярного open source поискового движка Sphinx 2.3.2. У нас было два пакетика травы, семьдесят пять ампул мескалина, три C++ разработчика, один саппорт-инженер, опытный пользователь, менеджер, мать пятерых детей, помогающая нам на полставки и гора багов, крэшей и технических долгов. И вот, по прошествии 5 лет и сотен новых пользователей мы готовы сказать, что Manticore можно использовать как альтернативу Elasticsearch и для полнотекстового поиска и для аналитики данных.

В этой статье хочется: вспомнить как всё начиналось и что было до SOLR и Elasticsearch, максимально объективно обрисовать текущую ситуацию, попытаться понять куда нам двигаться дальше.

Читать далее
Всего голосов 117: ↑117 и ↓0 +117
Просмотры 13K
Комментарии 83

Как работает быстрый текстовый поиск для WordPress

WordPress *Поисковые технологии *Open source *PHP *MySQL *

Много лет мы (команда Epsilon Web Manufactory) занимались разработкой сайтов и разных приложений на заказ, в основном это были проекты на базе популярного движка WordPress. И как правило самой сложной и интересной задачей всегда был полнотекстовый поиск. Если на сайте были только статьи и какие-то кастомные типы записей, содержащие заголовок и основной текст, то достаточно было использовать встроенный класс WP_Query, который с небольшой подстройкой входных параметров отлично справлялся с задачей. Но это было лет 10-12 назад.

Читать далее
Всего голосов 17: ↑16 и ↓1 +15
Просмотры 3.2K
Комментарии 43

Поисковик Bing ходит по всем приватным ссылкам из Outlook. И это проблема

Блог компании Дата-центр «Миран» Информационная безопасность *Разработка веб-сайтов *Поисковые технологии *
Перевод


Предисловие. Microsoft и другие компании в последнее время выступают против паролей. Призывают использовать более безопасные и удобные методы 2FA. Среди альтернативных вариантов — авторизация через «волшебные ссылки», то есть через почтовый ящик.

Один разработчик попытался реализовать такую систему, но напоролся на совершенно неожиданное препятствие… Оказалось, кто-то ходит по приватным одноразовым ссылкам до пользователя — и авторизуется вместо него! Вы уже догадались, кто это.

Далее слово автору.
Читать дальше →
Всего голосов 36: ↑34 и ↓2 +32
Просмотры 11K
Комментарии 37

Поиск Brave: 2.5 миллиарда запросов за первый год и запуск пользовательских фильтров ранжирования

Блог компании Brave Поисковые технологии *Браузеры
Перевод

Ровно год назад мы запустили наш поиск, чтобы дать возможность каждому отказаться от медвежьих услуг Большого Брата и воспользоваться конфиденциальной и непредвзятой альтернативой не только Google и Bing, но и провайдерам типа DuckDuckGo или Startpage, которые так или иначе сидят на плечах техгигантов. 

Теперь поиск Brave официально выходит из беты и представляет уникальную технологию создания собственных фильтров ранжирования для всех.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Просмотры 1.8K
Комментарии 9

Почему идентификация лиц невозможна — так, как этого хочет заказчик?

Поисковые технологии *IT-инфраструктура *Алгоритмы *Искусственный интеллект

Кто все эти люди и кто из них я?

Ща разберемся?
Всего голосов 15: ↑6 и ↓9 -3
Просмотры 2.4K
Комментарии 20

Истории

Как Яндекс Карты с помощью отзывов улучшают поиск организаций

Блог компании Яндекс Поисковые технологии *Алгоритмы *Геоинформационные сервисы *Машинное обучение *


Раньше Карты, Поиск и Алиса отвечали на запросы об организациях, во многом основываясь на данных от самих организаций. Это был нормальный компромисс, но всегда можно сделать лучше.

Теперь учитываются ещё и реальные отзывы людей. Тем самым запросы, по которым раньше выдача была менее релевантной, обрабатываются качественнее, и мы можем решить больше пользовательских задач. Давайте расскажу, как мы к этому шли, и покажу примеры.
Читать дальше →
Всего голосов 17: ↑16 и ↓1 +15
Просмотры 3.6K
Комментарии 18

Дискуссии в Brave Search: ответы от живых людей, а не SEO-спамеров

Блог компании Brave Поисковые технологии *Поисковая оптимизация *
Перевод

Когда люди ищут что-то в интернете, они хотят получить полезные, релевантные результаты, а не мусор, спам и белый шум. К несчастью, специалисты превратили «оптимизацию»‎ по поиску, SEO, в настоящую науку и большой бизнес. Результат? Страницы выдачи поиска от гугла и его друзей забиты рекламой и автоматизированным контентом (SEO-спамом) от рекламщиков, которые пытаются обмануть поиск и поднять рейтинг своих сайтов в поисковой выдаче.

Это нас не устраивает. Для борьбы с подобными махинациями мы запускаем новый мощный инструмент поиска Brave, под названием Дискуссии. 

Что это и как это работает?
Всего голосов 4: ↑3 и ↓1 +2
Просмотры 1.2K
Комментарии 4

Коллективное распознавание смысла

Поисковые технологии *Семантика *Алгоритмы *Natural Language Processing *

Предлагаемый материал является приложением в книге [1].

Современная цивилизация оказалась на перекрестке, на котором нужно выбрать смысл жизни. Из-за развития технологий большинство населения планеты может оказаться «лишним» - не востребованным в производстве ценностей. Есть и  другой вариант, когда каждый человек является высшей ценностью, абсолютной индивидуальностью и может быть незаменимо полезен в технологиях коллективного разума.

В восьмидесятых годах прошлого века задача создания научного направления «коллективный разум» была поставлена. Коллективный разум определяется ...

Читать далее
Всего голосов 10: ↑6 и ↓4 +2
Просмотры 3.5K
Комментарии 8

Чем кончилась история с нашим обращением в ФАС против Яндекса

Блог компании Туту.ру Поисковые технологии *Законодательство в IT
Сегодня «Дело о колдунщиках» закрыто в ФАС.

Напомню, краткая предыстория была про то, что группа ИТ-компаний Рунета объединилась и обратилась в ФАС с вопросом, нормально ли, что поиск даёт больше преимуществ собственным юрлицам Яндекса. Мы хотели вернуть нейтральность поиска, чего, собственно, и удалось достичь в результате мирового соглашения.

Формальный результат — вот, политика интеграции с поиском, где партнёры Яндекса (то есть внешние компании) и Сервисы Яндекса имеют паритет. Ещё один интересный документ здесь.

Пара выдержек:
…обеспечение равного доступа всех Партнеров как в части объема предоставленной информации, так и в части визуального и функционального представления в поисковой выдаче, вне зависимости от того, являются ли они третьими лицами или Сервисами Яндекса, ко всем действующим и будущим форматам обогащения поисковой выдачи…
…осуществление ранжирования различных форм Партнерской интеграции на странице поисковой выдачи Поисковой системы на основании единых алгоритмов…
…недопустимость манипулирования результатами поисковой выдачи для преимущественного продвижения Сервисов Яндекса. При формировании результатов поиска собственные сервисы Яндекса отражаются на тех же условиях, в том же визуальном оформлении и по тем же правилам, что и сервисы третьих лиц;

Время покажет, как это будет работать на практике, но ниже я расскажу чуть больше деталей.
Читать дальше →
Всего голосов 89: ↑83 и ↓6 +77
Просмотры 33K
Комментарии 85

Как мы делали свой поиск в Ozon: эволюция архитектуры от SQL до O2

Блог компании Ozon Tech Высокая производительность *Поисковые технологии *Анализ и проектирование систем *Микросервисы *
✏️ Технотекст 2022

Привет, Хабр! Меня зовут Сергей, я руководитель команды поиска в Ozon. Сегодня я расскажу об эволюции наших поисковых систем: как всё начиналось более 20 лет назад с обычных SQL-запросов, как мы осваивали Sphinx и Elasticsearch и как сейчас наш собственный поисковый движок O2 на базе Apache Lucene выдерживает нагрузку в десятки тысяч RPS в сезон распродаж. Исторические хроники восстанавливались по воспоминаниям современников и представлены для полноты картины. Новейшая история описана на основе собственного опыта, поэтому подробностей будет на порядок больше. Поехали!

Читать далее
Всего голосов 56: ↑56 и ↓0 +56
Просмотры 14K
Комментарии 23

Алгебра текста без формул

Поисковые технологии *Семантика *Алгоритмы *Natural Language Processing *

Статья является рефератом Книги [1], основанной на представленных ранее публикациях [2], [3], [4] и [5].

Читать далее
Всего голосов 4: ↑2 и ↓2 0
Просмотры 2.4K
Комментарии 5

Вклад авторов