Как стать автором

Поисковые технологии *

От AltaVista до Яндекса

Статьи Посты Новости Авторы Компании

Kenya-West 11 мар в 12:20

Как я чтение всего контента на RSS переводил

Простой

13 мин

4.6K

Поисковые технологии *Data Mining *IT-стандарты *Облачные сервисы *

Recovery Mode

TL;DR В статье рассказывается о том, как мне удалось перевести чтение лент в ВКонтакте**, Telegram, Facebook*, Instagram**, Reddit и почтовых рассылок в единый сервис InoReader. Причем почти без написания своих велосипедов.

Подписаться на RSS

+37

akurilov 22 фев в 18:14

ActivityPub в Awakari

Средний

2 мин

551

Поисковые технологии *Веб-аналитика *Облачные сервисы *Социальные сети и сообщества

Кейс

Перевод

Сегодня всё больше и больше сервисов объявляют о своей поддержке ActivityPub, в том числе даже такие, как Tumblr или Threads. И это ожидаемо, так как ActivityPub позволяет сохранять контроль над собственными данными, в отличие от закрытых сервисов Meta. Кроме того, это позволяет обмениваться данными более независимо (Fediverse). Применение ActivityPub не ограничивается социальными сетями и блогами. Есть сервисы для хостинга изображений, видео, музыки и многое другое.

Если рассматривать все эти активности как события, то это позволит сервису Awakari открыть целое новое измерение в Fediverse. Используя Awakari можно отслеживать интересные события из неограниченного множества источников.

Читать далее

0

seo7908801 21 фев в 12:21

Как обезопасить веб-сайт от атак ботов через Cloudflare

Средний

6 мин

2.9K

Поисковые технологии *

Обзор

Сегодня расскажу как быстро и просто можно заблокировать вредных ботов через Cloudflare и дать дорогу полезным ботам от Google и Яндекс.

Читать далее

0

Oweb-Solutions 20 фев в 10:29

Как оценить работу SEO-подрядчика и проверить эффективность продвижения?

6 мин

2.1K

Поисковые технологии *Интернет-маркетинг *Поисковая оптимизация *

SEO-оптимизация – это комплекс работ, направленный на повышение позиций сайта в поисковике. Вот только как компании по производству окон или интернет-магазину определить, насколько добросовестно специалист выполняет свои обязанности? Какие KPI-показатели должны присутствовать в отчетах, сказывается ли стратегия продвижения на увеличении продаж, сколько времени занимает SEO-оптимизация? Об этом расскажем в статье.

Читать далее

+2

cyber_ok 12 фев в 11:00

Таинственные EASM и где они обитают. Часть 3. Где ты?

3 мин

456

Блог компании CyberOK Информационная безопасность *Поисковые технологии *

Аналитика

В заключительной части исследования эксперты СайберОК сравнивают предоставление информации ASM-системами с точки зрения пользователя. Прочитать первую часть можно тут, а вторую тут.

Читать далее

+1

akurilov 9 фев в 16:29

После RSS

Средний

4 мин

2.1K

Поисковые технологии *Data Mining *Веб-аналитика *

В свободное время я занимаюсь разработкой сервиса "Awakari", идея которого - фильтрация интересных событий из неограниченного числа различных источников. В этой статье я расскажу о способах извлечения публично доступной информации в интернете за пределами RSS-лент и телеграм-каналов.

Читать далее

+12

PatientZero 9 фев в 10:01

Поисковый движок в 80 строках Python

11 мин

11K

Поисковые технологии *Алгоритмы *Хранение данных *

Туториал

Перевод

В сентябре я устроился на должность поискового дата-саентиста и с тех пор часть моих обязанностей заключается в работе с Solr — опенсорсным поисковым движком на основе Lucene. Я знал основы работы поискового движка, но мне хотелось понять его ещё лучше. Поэтому я закатал рукава и решил создать его с нуля.

Давайте поговорим о целях. Слышали когда-нибудь о «кризисе сложности обнаружения маленьких веб-сайтов»? Проблема в том. что маленькие веб-сайты наподобие моего невозможно найти при помощи Google или любого другого поискового движка. Какова же моя миссия? Сделать эти крошечные веб-сайты снова великими. Я верю в возвращение славы этих малышей вдали от SEO-безумия Google.

В этом посте я подробно расскажу о процессе создания поискового движка с нуля на Python. Как обычно, весь написанный мной код можно найти в моём GitHub (репозиторий microsearch). Эта реализация не будет притворяться готовым к продакшену поисковым движком, это лишь полезный пример, демонстрирующий внутреннюю работу поискового движка.

Кроме того, мне стоит признаться, что в заголовке поста я слегка преувеличил. Да, поисковый движок действительно реализован примерно в 80 строках Python, но я ещё и писал вспомогательный код (краулер данных, API, HTML-шаблоны и так далее), из-за которого весь проект становится немного больше. Однако я считаю, что интересная часть проекта находится в поисковом движке, который состоит из менее чем 80 строк.

P.S. Написав этот пост и microsearch, я осознал, что пару лет назад нечто похожее написал Барт де Гёде. Моя реализация очень похожа на работу Барта, но я считаю что кое-что улучшил, в частности: (1) мой краулер асинхронный, что сильно ускоряет работу, (2) я реализовал пользовательский интерфейс, позволяющий взаимодействовать с поисковым движком.

Читать далее

+29

AlexKay28 8 фев в 11:07

«Душа молчит, хоть слышит всё вокруг»: как мы отучаем генеративные модели галлюцинировать

Средний

7 мин

7.3K

Блог компании Яндекс Поисковые технологии *Машинное обучение *Искусственный интеллект

Вот так когда-то отвечала языковая модель, когда её просили привести пример стихотворения Бальмонта. Стихотворение с таким названием действительно есть, но начинается оно совсем не так.

К сожалению, генеративные модели могут галлюцинировать и выдумывать ответ. С таким мы боремся с помощью внешней информации.

Мы, Александр Кайгородов и Светлана Маргасова, обучаем генеративные модели в Яндексе. В этой статье мы расскажем, как заставить генеративные модели перестать придумывать несуществующие факты и как научиться находить эти ошибки, если они всё же случаются. Вы узнаете о том, как использовать внешнюю информацию, опираясь на которую мы можем выполнять как обусловленную генерацию (Retrieval Augmented Generation), так и фактологическую оценку имеющихся генераций (Fact-Check).

Читать далее

+28

badcasedaily1 7 фев в 16:47

Внедрение Elasticsearch с Ruby on Rails для расширенного поиска

Простой

5 мин

1.2K

Блог компании OTUS Поисковые технологии *Ruby *Ruby on Rails *

Elasticsearch - это поисковый движок, который позволяет в реальном времени работать с огромными объемами данных. Он основан на Lucene и предлагает не только полнотекстовый поиск, но и сложные запросы к данным, включая агрегацию.

Ruby on Rails — это фреймворк, который делает акцент на скорости и простоте разработки. Используя принципы convention over configuration и DRY, Rails позволяет сосредоточиться на уникальной логике приложения, минимизируя количество шаблонного кода.

В статье рассмсотрим как использовать Elasticsearch вместе с Ruby on Rails для реализации поиска внутри приложения.

Читать далее

+8

cyber_ok 5 фев в 11:00

Таинственные EASM и где они обитают. Часть 2. Как ты?

Средний

4 мин

657

Блог компании CyberOK Информационная безопасность *Поисковые технологии *

Аналитика

В первой части мы рассмотрели основные возможности EASM и их географическое покрытие. Далее мы сравним функции поиска и анализа информации, предоставляемые разными системами.

Читать далее

+1

cyber_ok 29 янв в 12:27

Таинственные EASM и где они обитают. Часть 1. Кто ты?

Средний

7 мин

1.1K

Блог компании CyberOK Информационная безопасность *Поисковые технологии *

Аналитика

Мы, эксперты Сайбер ОК, приглашаем вас в турне по сравнению систем класса External Attack Surface Management. Проверим точность как базовых функций таких систем (определение открытых портов и продуктов на конечных устройствах, нахождение связанных с ними доменов), так и определения уязвимостей. В путь!

Читать далее

+1

BraveSoftware 22 янв в 11:56

CodeLLM теперь в Поиске Brave

Простой

3 мин

1.4K

Блог компании Brave Поисковые технологии *Браузеры Искусственный интеллект

Кейс

Перевод

Поиск Brave теперь включает в себя CodeLLM на основе ИИ для запросов, связанных с программированием. CodeLLM совмещает глубину и качество поисковой выдачи с возможностями резюмирования и объяснения больших языковых моделей. CodeLLM предоставляет программистам возможность получить сгенерированные ИИ фрагменты кода на основе результатов поиска, а также пошаговые объяснения к ним и ссылки на цитируемые материалы, которые можно применять в целях валидации результатов выдачи. CodeLLM бесплатна и интегрирована в Поиск Brave, так что пользователям не требуется переключаться между приложениями и подвергать свою конфиденциальность риску.

Читать далее

+10

ChernikovSEO 21 янв в 19:04

Про автоматическое SEO продвижение — стоит ли использовать и когда?

Средний

3 мин

3K

Поисковые технологии *Поисковая оптимизация *

Из песочницы

Как то на Яндекс Кью попросили ответить на вопрос про автоматическое SEO продвижение — стоит ли его использовать и почему? Показываю на схемах (примерах) когда автоматическое SEO подходит а когда нет.

Читать далее

-9

TSjB 18 янв в 21:32

Семантический поиск и генерация текста на R. Часть 2

Средний

5 мин

878

Поисковые технологии *Семантика *R *Машинное обучение *Natural Language Processing *

В первой части говорили про использование поиска и генерации ответа с помощью языковых моделей. В этой части рассмотрим память и агентов.

Читать далее

+3

igor_suhorukov 17 янв в 09:36

Хабргорода

Средний

9 мин

2.1K

Поисковые технологии *Программирование *Java *OpenStreetMap *Социальные сети и сообщества

У меня возникла идея сделать список упоминаний названий городов в статьях Хабра за 2023 год и карту по которой можно найти статьи. Публикации, где упоминается конкретный город. С первого взгляда задачка простая, но это как всегда дьявол кроется в деталях!

Для этого нужны данные статей Хабра, названия городов с координатами и поиск этих названий в текстах статей. Задача осложняется великим и могучим языком со склонениями и многозначностью слов. Создание списка статей с Хабра за 2023 год по городам мне чем-то напомнило работу первых поисковых движков в рунете. Теперь я понимаю как кусали себя за локти программисты тех дней!

Читать далее

+12

TSjB 12 янв в 18:41

Семантический поиск и генерация текста на R. Часть 1

Средний

10 мин

1.9K

Поисковые технологии *Семантика *R *Машинное обучение *Natural Language Processing *

Из песочницы

Для этой задачи использую LLM (Large Language Models - например, chatGPT или opensouce модели) для внутренних задач (а-ля поиск или вопрос-ответную систему по необходимым данным).

Я пишу на языке R и также увлекаюсь NLP (надеюсь, я не один такой). Но есть сложности из-за того, что основной язык для LLM - это python. Соответственно, на R мало примеров и документации, поэтому приходится больше времени тратить, чтобы “переводить” с питона, но с другой стороны прокачиваюсь от этого.

Чтобы не городить свою инфраструктуру, есть уже готовые решения, чтобы быстро и удобно подключить и использовать. Это LangChain и LlamaIndex. Я обычно использую LangChain (дальше он и будет использоваться). Не могу сказать, что лучше, просто так повелось, что использую первое. Они написаны на питоне, но с помощью библиотеки reticulate всё работает и на R.

Читать далее

+8

EkaterinaMz 9 янв в 11:00

Как поисковые алгоритмы меняли SEO: краткий обзор последних 15 лет

Простой

4 мин

2.3K

Поисковые технологии *Поисковая оптимизация *

Ретроспектива

Рассмотрим некоторые известные алгоритмы Яндекса, под влиянием которых менялся внешний вид и логика поисковой выдачи, а вместе с ней методы работы SEO-специалистов.

Читать далее

+2

Bright_Translate 5 янв в 16:01

Мой первый прототип поискового движка

Средний

6 мин

7.1K

Блог компании RUVDS.com Поисковые технологии *Программирование *Анализ и проектирование систем *SQLite *

Туториал

Перевод

Я реализовал первый прототип собственного механизма поиска, который сокращённо назвал PSE (Personal Search Engine). Создал я его с помощью трёх скриптов Bash, возложив всю основную работу на sqlite3, wget и PageFind.

Браузер Firefox вместе с Newsboat сохраняют полезную информацию в базах данных SQLite. В moz_places.sqlite содержатся все посещённые URL-адреса и адреса закладок (то есть moz_bookmarks.sqlite базы данных SQLite). У меня получилось около 2000 закладок. Это меньше, чем я предполагал, так как многие оказались нерабочими из-за битых ссылок.

Нерабочие URL-адреса страниц сильно замедляют процесс сбора, так как wget приходится ожидать истечения различных таймаутов (например, DNS, ответа сервера, время скачивания). URL-адреса из «истории» составили бы интересную коллекцию для сбора, но тут не обойтись без списка исключений (например, нет смысла сохранять запросы к поисковым системам, веб-почте, онлайн-магазинам). Изучение этого вопроса я отложу до следующего прототипа.

Читать дальше →

+53

ValentinaIgorevna 4 янв в 23:02

Объективные показатели кризиса репутации бренда в интернете

Простой

9 мин

1.3K

Поисковые технологии *Интернет-маркетинг *Контент и копирайтинг *Читальный зал

Аналитика

Выступление на конференции Optimization 2023 о базовых характеристиках кризиса репутации бренда в интернете.

Хотите прочесть?

0

tikhomirova_sa 28 дек 2023 в 15:58

Как конструктор диалогов прокачал Робота Макса

Простой

8 мин

1.6K

Блог компании РТЛабс Поисковые технологии *Контент и копирайтинг *Управление продуктом *

Привет, Хабр! На связи команда контента Робота Макса, которая отвечает за структуру и логику его ответов, а также разрабатывает и выводит эти ответы в прод.

У Робота Макса уникальная по объёму и потребностям аудитория. Чтобы дать всем простые и полезные ответы, необходим большой объём контента. До 2023 года мы вручную работали с базой знаний и разрабатывали диалоги, но достигли потолка человеческих ресурсов и решили оптимизировать трудозатраты. О появлении цифрового ассистента на Госуслугах рассказывали в другой статье на Хабре. В этой поделимся нашим опытом оптимизации создания диалогов и расскажем, в каком направлении хотим двигаться дальше.

Читать далее

+17

1