Как стать автором
Обновить
36.08
Рейтинг

Поисковые технологии *

От AltaVista до Яндекса

Сначала показывать
Порог рейтинга

Коллективное распознавание смысла

Поисковые технологии *Семантика *Алгоритмы *Natural Language Processing *

Предлагаемый материал является приложением в книге [1].

Современная цивилизация оказалась на перекрестке, на котором нужно выбрать смысл жизни. Из-за развития технологий большинство населения планеты может оказаться «лишним» - не востребованным в производстве ценностей. Есть и  другой вариант, когда каждый человек является высшей ценностью, абсолютной индивидуальностью и может быть незаменимо полезен в технологиях коллективного разума.

В восьмидесятых годах прошлого века задача создания научного направления «коллективный разум» была поставлена. Коллективный разум определяется ...

Читать далее
Всего голосов 10: ↑6 и ↓4 +2
Просмотры 2.5K
Комментарии 8

Новости

Чем кончилась история с нашим обращением в ФАС против Яндекса

Блог компании Туту.ру Поисковые технологии *Законодательство в IT
Сегодня «Дело о колдунщиках» закрыто в ФАС.

Напомню, краткая предыстория была про то, что группа ИТ-компаний Рунета объединилась и обратилась в ФАС с вопросом, нормально ли, что поиск даёт больше преимуществ собственным юрлицам Яндекса. Мы хотели вернуть нейтральность поиска, чего, собственно, и удалось достичь в результате мирового соглашения.

Формальный результат — вот, политика интеграции с поиском, где партнёры Яндекса (то есть внешние компании) и Сервисы Яндекса имеют паритет. Ещё один интересный документ здесь.

Пара выдержек:
…обеспечение равного доступа всех Партнеров как в части объема предоставленной информации, так и в части визуального и функционального представления в поисковой выдаче, вне зависимости от того, являются ли они третьими лицами или Сервисами Яндекса, ко всем действующим и будущим форматам обогащения поисковой выдачи…
…осуществление ранжирования различных форм Партнерской интеграции на странице поисковой выдачи Поисковой системы на основании единых алгоритмов…
…недопустимость манипулирования результатами поисковой выдачи для преимущественного продвижения Сервисов Яндекса. При формировании результатов поиска собственные сервисы Яндекса отражаются на тех же условиях, в том же визуальном оформлении и по тем же правилам, что и сервисы третьих лиц;

Время покажет, как это будет работать на практике, но ниже я расскажу чуть больше деталей.
Читать дальше →
Всего голосов 83: ↑77 и ↓6 +71
Просмотры 30K
Комментарии 80

Как мы делали свой поиск в Ozon: эволюция архитектуры от SQL до O2

Блог компании Ozon Tech Высокая производительность *Поисковые технологии *Анализ и проектирование систем *Микросервисы *

Привет, Хабр! Меня зовут Сергей, я руководитель команды поиска в Ozon. Сегодня я расскажу об эволюции наших поисковых систем: как всё начиналось более 20 лет назад с обычных SQL-запросов, как мы осваивали Sphinx и Elasticsearch и как сейчас наш собственный поисковый движок O2 на базе Apache Lucene выдерживает нагрузку в десятки тысяч RPS в сезон распродаж. Исторические хроники восстанавливались по воспоминаниям современников и представлены для полноты картины. Новейшая история описана на основе собственного опыта, поэтому подробностей будет на порядок больше. Поехали!

Читать далее
Всего голосов 36: ↑36 и ↓0 +36
Просмотры 6.4K
Комментарии 18

Алгебра текста без формул

Поисковые технологии *Семантика *Алгоритмы *Natural Language Processing *

Статья является рефератом Книги [1], основанной на представленных ранее публикациях [2], [3], [4] и [5].

Читать далее
Всего голосов 4: ↑2 и ↓2 0
Просмотры 1.8K
Комментарии 5

Найти за полсекунды: сравниваем похожие фотографии

Блог компании Конференции Олега Бунина (Онтико) Высокая производительность *Поисковые технологии *PHP *Алгоритмы *

Привет, меня зовут Петр и я работаю в Badoo в команде биллинга. В этой статье я хочу поделиться своим опытом работы над пет-проектом по созданию хранилища фотографий с возможностью поиска дубликатов. Я расскажу, с каким багажом я вошел в этот проект, в чем заключалась задача и как её решал. В конце поделюсь результатами и почему я считаю, что это один из лучших проектов, которым я занимался. 

Однажды мои знакомые попросили сделать им хранилище изображений для их проекта по модерации внешних ресурсов. Условия: срок хранения до трех лет, фотографии при этом присылаются неравномерно, в среднем поток — 150.000 картинок в сутки.

Казалось бы, достаточно банальная задача. Если бы не еще одно условие: хорошо бы сопоставлять фотографии с уже имеющимися: искать дубликаты и помечать их. 

Читать далее
Всего голосов 54: ↑53 и ↓1 +52
Просмотры 9.3K
Комментарии 7

Успешное изобретение для Умного поиска hh.ru

Блог компании HeadHunter Поисковые технологии *Big Data *

Мы запатентовали собственную разработку для «Умного поиска» и вошли в число финалистов конкурса Роспатента «Успешный патент» где выявляют самые классные изобретения по итогам 2020-2021 годов. В конкурсе приняли участвовали еще 128 российских правообладателей.

Читать далее
Всего голосов 13: ↑8 и ↓5 +3
Просмотры 2.2K
Комментарии 19

Анонимно, пожалуйста

Информационная безопасность *Поисковые технологии *Хранение данных *
Из песочницы

В наше время проблема анонимности стоит очень остро, с каждым днем пользователи сети все больше стараются заботиться о своей цифровой гигиене и сохранения конфиденциальной информации таковой. Поэтому я решил сделать обзор популярных (и не очень) поисковиков, на сколько они соответствуют ожиданиям пользователей.

Читать далее
Всего голосов 18: ↑11 и ↓7 +4
Просмотры 35K
Комментарии 26

Про уход Web of Science и Scopus из РФ

Поисковые технологии *Профессиональная литература
image

Вчера со ссылкой на телеграм-канал вице-президента РАН Алексея Ремовича Хохлова на некоторых информационных площадках начала распространяться информация вида: «Web of Science и Scopus покидают РФ и РБ, 97,5% научной информации станет недоступно».
TJournal (заблокирован РКН) дает также пояснения:
Scopus — библиографическая база данных научного издательства Elsevier. Она содержит цитирования и аннотации к более чем 20 тысячам академических статей. Цитирование в Scopus'e указывает на высокий уровень текста и ценится в академическом сообществе, журнал о проблемах образования DOXA.
Web of Science — это сайт, который открывает доступ к множеству баз данных. На них учёные ищут нужные им тексты.

Тем не менее, в этих сообщениях допущены некоторые неточности.
Читать дальше →
Всего голосов 55: ↑51 и ↓4 +47
Просмотры 38K
Комментарии 148

Как мы «завели» десятки команд в один кластер OpenSearch и разделили доступы

Блог компании Инфосистемы Джет Поисковые технологии *Open source *

У OpenSearch неоднозначная репутация. Некоторые специалисты считают, что его развитие остановилось на версии Elasticsearch 7.10.2. Но это не сделало OpenSearch динозавром, обреченным на постепенный упадок. Продукт развивается и выдает аналогичный Elasticsearch функционал, и даже больше — возможности, которые вообще недоступны в базовой лицензии Elasticsearch.В этом посте расскажем о том, на что способен OpenSearch и как мы боролись с его недостатками. Всё это — на примере внедрения, где в одном кластере нам пришлось наладить разделение доступов для десятка команд, не теряя при этом отказоустойчивости.

Читать далее
Всего голосов 11: ↑11 и ↓0 +11
Просмотры 1.3K
Комментарии 6

Репутационные агентства: интернет герои или аморальные монстры

Поисковые технологии *Клиентская оптимизация *Управление продуктом *Управление медиа *
Recovery mode

Ранее мы уже рассматривали, что такое репутация в интернете, кому и зачем она нужна, а также то, какие инструменты, помогают представить продукт в интернете в выгодном для нас свете. Сегодня же мы посмотрим на работу репутационных агентств через другую призму, а именно, призму морали. Попытаемся разобраться: является ли работа репутационных агентств безнравственной или же методы репутационщиков могут быть оправданы?

Мораль в сфере маркетинга и рекламы

Небольшая ремарка вместо вступления:

Давайте немного разберемся с определениями, и сразу отметим, что мы не будем углубляться в философию и прочие области человеческого знания, а определим мораль - как некоторую совокупность представлений о хорошем и плохом, о добре и зле, правильном и неправильном, принятую для большей части абстрактного общества. Аморальным будем считать нечто лживое и фальшивое, нечто, оставляющее неприятный осадок, нечто, идущее вопреки нашему представлению о добром и правильном. А моральное определим, соответственно, как противоположность первому.

Представим ситуацию: вы работаете Pr-менеджером, рекламным агентом, интернет-маркетологом, называйте как хотите (утрирую), - вашей основной задачей является продажа, вы должны составить такой образ/упаковку продукта, благодаря которому его захочется купить. Если товар имеет непрезентабельный вид - можно заказать профессиональную фотосессию и воспользоваться фоторедакторами, если товар не обладает выдающимися характеристиками - можно написать красивый и складный продающий текст, если продукт мало узнаваем - можно влиться в хайповый инфоповод или привлечь медиаперсон для рекламы. 

Читать далее
Всего голосов 5: ↑0 и ↓5 -5
Просмотры 832
Комментарии 2

Определение приоритетов SEO-оптимизации страниц

Поисковые технологии *Клиентская оптимизация *Веб-аналитика *
Recovery mode

Шаблон таблицы + видео-инструкция по использованию, для эффективного определения приоритетов постраничной SEO-оптимизации.

Читать далее
Всего голосов 13: ↑5 и ↓8 -3
Просмотры 2.1K
Комментарии 0

Полезный опыт: Как работает автоматизация базы знаний для техподдержки пользователей крупных порталов

Поисковые технологии *Хранение данных *Управление сообществом *Управление персоналом *

Сегодня хочется поговорить о технической поддержке, а точнее о тонкостях, которые обеспечивают ее работу. Недавно мы закончили проект по организации базы знаний, которая помогает выполнять свою работу техподдержке электронных сервисов крупных порталов. Результаты автоматизации говорят о том, что подобный подход может оказаться полезен и для других проектов, и в этом посте я расскажу о распределении ролей и процессов в созданной информационной системе. Заинтересованные найдут под катом — подробный рассказ о том, как работает база знаний СТП (службы техподдержки) для сервисов портала. А я буду рад любой обратной связи, мнениям и, конечно же, предложениям, как можно еще улучшить работу по поддержанию подобной базы знаний.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 3K
Комментарии 3

Библиотека PHP для поиска видео по скриншоту

Поисковые технологии *PHP *Работа с видео *
Tutorial

Перед всеми нами ежедневно встаёт задача поиска информации. Требуется найти текст, изображения, аудио или видео информацию. Чаще всего для поискового запроса используется текст. Реже - изображения. Есть сервисы вроде "Shazam", которые ищут музыку используя запись звука. Мы сосредоточились на создании поискового сервиса, который осуществляет поиск видео. В качестве параметров для запроса мы используем изображения.

Сейчас мы предлагаем пользователям установить поисковую форму на своём сайте для чего воспользоваться небольшой PHP библиотекой про которую и поговорим.

Читать далее
Всего голосов 10: ↑10 и ↓0 +10
Просмотры 3.6K
Комментарии 13

«Патентное бюро» природы

Блог компании RUVDS.com Поисковые технологии *Читальный зал Научно-популярное Биология

Органы чувств, насекомых, или полёт птицы зачастую воспринимаются человеком, как некий конструкт и изобретение великого творца. На самом деле мы знаем, что творец тут ни причём, и всё это появилось в результате эволюции и её движущей силы, естественного отбора. Однако это не мешает человечеству вдохновляться живой природой и на основе её материи пробовать повторить, или переплюнуть то, что она «запатентовала» в виде организмов, способных к полёту, или к эхолокации и радиационной чувствительности. 
Читать дальше →
Всего голосов 71: ↑61 и ↓10 +51
Просмотры 7.2K
Комментарии 53

Поиск Google умирает

Поисковые технологии *Поисковая оптимизация
Перевод
Сегодня самый популярный поисковый движок — это Reddit. Единственные, кто этого не знает — команда Reddit, которая не может отвлечься на создание приличного интерфейса поиска. Поэтому вместо этого нам приходится прибегать к Google и добавлять в строку запроса слово «reddit».

Пол Грэм считает, что такая ситуация означает, что Reddit как сайт социальной сети «всё ещё не достиг своего пика». На самом деле это означает, что количество людей, использующих Reddit как поисковый движок, растёт.

reddit google graph

Пол Грэм: «Reddit — уникальная соцсеть. Спустя 15 лет после запуска она всё ещё не достигла своего пика».

Почему люди ищут именно на Reddit? Короткий ответ: очевидно, что поисковые результаты Google умирают. Длинный ответ: бОльшая часть веба стала слишком недостоверной, чтобы ей доверять.
Читать дальше →
Всего голосов 170: ↑153 и ↓17 +136
Просмотры 124K
Комментарии 434

Что считать счастьем покупателя?

Блог компании Яндекс Поисковые технологии *Алгоритмы *Разработка под e-commerce *

По запросу [форма] мы должны угадать, что именно нужно покупателю: выпечка, наращивание ногтей, косплеить медсестру или калибратор кубов бетона. Задача — быстро понять, кто перед нами и что сделает человека счастливым.

Я работаю над качеством поиска в Яндекс.Маркете. И качество поиска прямо связано с ощущением счастья пользователя от шопинга. Счастье нужно измерять. Самый очевидный способ — посмотреть, купил ли что-нибудь пользователь. Но мы не всегда приходим в магазин или на Маркет, чтобы взять что-то конкретное.

Человек может:

  • Формулировать требования к покупке по мере сравнения вариантов.

    Пример с соковыжималкой
    Предположим, он ищет соковыжималку, но ещё не знает, какие они бывают. По мере изучения товаров он примерно начинает понимать, что хочет. На старте у него нет ни фиксированного бюджета, ни требований, только мечта. Дальше нужно сопоставить мечту с конкретной карточкой товара. С точки зрения метрики покупки, пользователь будет довольно долго бесцельно бродить в начале — но мы понимаем, что эта часть была очень важна, там он изучал предложение и понимал, как устроен мир.
  • Приходить с примерным бюджетом и выбирать что-то под него, например, при поиске подарка. В этой ситуации у пользователя даже нет мечты, он ходит по категориям и ищет что-то, что его «зацепит».
  • Более-менее точно понимать, что хочет купить (часто вплоть до модели товара), но искать лучшее предложение.
  • Знать модель товара и проверять, насколько честна цена на неё, насколько хороши отзывы и так далее.

То есть с точки зрения человека покупка — далеко не единственная цель. Маркетплейс используется и для развлечения, и для изучения предложений, и даже для проверки цены, когда стоишь в очереди к кассе в реальном магазине.

Мы работаем над улучшением поиска по товарам. Поэтому нам нужна была метрика, которая показывает удовлетворённость людей тем, что мы показываем на выдаче. Мы искали её в несколько итераций, и сейчас я хочу рассказать о том, что мы уже придумали.
Читать дальше →
Всего голосов 33: ↑31 и ↓2 +29
Просмотры 7.4K
Комментарии 29

Как искали в 90-х и куда исчезли российские поисковые системы?

Блог компании Timeweb Cloud Поисковые технологии *Читальный зал


Если сегодня кто-то говорит «поищи в интернете», обычно подразумевается «Яндекс» или Google. Но так было далеко не всегда. Во второй половине 90-х ассортимент поисковых систем был намного шире: в зарубежном интернете успешно работали AltaVista и Yahoo, Lycos и WebCrawler, а еще Ask.com, HotBot, Excite, Infoseek и множество других. Рунет также переживал бурный расцвет: здесь присутствовало несколько полноценных поисковых систем и целое семейство каталогов ссылок. Прошло время, выжил только «Яндекс», превратившийся в гигантскую мегакорпорацию. Куда делись все остальные?
Читать дальше →
Всего голосов 29: ↑28 и ↓1 +27
Просмотры 11K
Комментарии 43

SEO Продвижение медицинского центра — 12к+ в сутки из результатов выдачи

Поисковые технологии *Веб-аналитика *Управление медиа *
Recovery mode

Кейс поискового продвижения медицинского центра. В кейсе расскажу, какие работы выполнялись и какие результаты получили из поисковой выдачи Яндекса и Google при правильно построенной стратегии продвижения ресурса.

Читать далее
Всего голосов 7: ↑2 и ↓5 -3
Просмотры 2.5K
Комментарии 0

Рейтинг ТОП 10 CMS сайтов: Какую лучше выбрать

Разработка веб-сайтов *Поисковые технологии *Управление e-commerce *Управление медиа *
Recovery mode

Если вы только планируете создать сайт, но не знаете на какой системе управления контентом (CMS) его сделать — рекомендую ознакомиться со статьей, чтобы не потратить деньги на разработку зря.

Читать далее
Всего голосов 9: ↑6 и ↓3 +3
Просмотры 34K
Комментарии 43

Расчет окупаемости SEO-продвижения сайта

Поисковые технологии *Интернет-маркетинг Управление e-commerce *Управление продажами *Поисковая оптимизация

Google-таблица в помощь:

Собственнику бизнеса, чтобы понять:

1) При каких бизнес-показателях SEO будет прибыльным, а при каких убыточным
2) Сколько времени и денег потребуется, чтобы выйти в операционный плюс и полностью окупить вложения
3) Есть ли вообще смысл вкладываться в SEO на текущем этапе развития бизнеса

SEO-специалисту, чтобы:

1) Понимать, стоит ли брать клиента в работу
2) Повысить конверсию в заказ
3) Повысить средний чек

Читать далее
Всего голосов 15: ↑3 и ↓12 -9
Просмотры 5.7K
Комментарии 4

Вклад авторов