Как стать автором
Обновить
40.03
Рейтинг

Поисковые технологии *

От AltaVista до Яндекса

Сначала показывать
  • Новые
  • Лучшие
Порог рейтинга
  • Все
  • ≥0
  • ≥10
  • ≥25
  • ≥50
  • ≥100

Какой софт использует ЦРУ и АНБ для дата-майнинга

Блог компании ITSumma Поисковые технологии *Data Mining *Big Data *Киберпанк


После утечки данных от Сноудена стало понятно, что АНБ собирает данные на всех граждан до совершения преступлений, а не на конкретных подозреваемых после преступления.

Аналогичную практику сбора разведданных на всех граждан до совершения преступления начали практиковать и в других странах, в том числе России. Речь идёт о длительном хранении интернет-трафика, сведений о перемещении, звонков, записей видеонаблюдения и т.д. Это очень удобно, ведь в случае необходимости найдутся улики практически на любого человека.

Разумеется, для быстрого поиска в таком огромном массиве данных требуется специальный софт.
Читать дальше →
Рейтинг 0
Просмотры 995
Комментарии 0

Делаем быстрый поиск по неточному совпадению среди 100 миллионов товаров

Поисковые технологии *.NET *Алгоритмы *C# *Разработка под e-commerce *
Tutorial

Это четвертая статья с этой картинкой для привлечения внимания. Она каким-то удивительным образом опять подошла по смыслу.

Мы делаем проект по управлению большими каталогами товаров, и нам потребовалось быстро искать товары по неточному совпадению.

Забегая вперед, скажу, что от идеи до рабочего решения на продакшене прошло пять часов.

Исходная ситуация такова: таблица в MS SQL базе, 50 миллионов записей, записи добавляются постоянно, удаляются или обновляются крайне редко. Средняя длина названия товара составляет 64 символа. Поиск по неточному совпадению работает, для этого используются триграммы и полнотекстовый индекс по столбцу с триграммами. Ранжирование результатов осуществляется при помощи функции CONTAINSTABLE. Результаты получаются релевантные, но поиск работает откровенно медленно, 2-5 секунд на запрос, в зависимости от длины запроса. Мы хотим ускорить его раз в 20, а лучше в 100 подручными средствами.

Читать далее
Всего голосов 9: ↑9 и ↓0 +9
Просмотры 2.9K
Комментарии 12

Как работает распознавание лиц? Разбор

Блог компании Droider.Ru Поисковые технологии *Алгоритмы *Софт Фототехника
Среднестатистический человек может идентифицировать знакомое лицо в толпе с точностью 97,53%. Вы скажете, это немало и будете правы. Но это ничто по сравнению с современными алгоритмами, которые добились точности 99,8% еще в 2014 году. А в последние несколько лет они достигли практически совершенства! Современный алгоритм, использующийся в камерах видеонаблюдения в Москве способен обрабатывать 1 миллиард изображений менее чем за полсекунды с точностью близкой к 100%.


Этот алгоритм насколько крут, что уже в этом году в Московском Метро планируют ввести систему прохода по лицу — FacePay. При этом нам обещают, что система будет работать даже если человек в медицинской маске.


Как вы понимаете, жизнь уже не будет прежней. Поэтому давайте разберемся:

  • Как работают алгоритмы распознавания лиц?
  • Страшны ли эти алгоритмы на самом деле и где их применяют во благо?
  • А также поговорим какого будущего нам ждать.
Читать дальше →
Всего голосов 15: ↑12 и ↓3 +9
Просмотры 5.6K
Комментарии 29

PunkSpider: поисковик уязвимых сайтов готов к рестарту

Блог компании GlobalSign Информационная безопасность *Поисковые технологии *


История развивается по спирали. На хакерской конференции DEF CON 29 в 2021 году состоялся анонс новой версии PunkSpider — поисковой системы по уязвимостям в веб-приложениях, своеобразного аналога Shodan, только для веб-сайтов. Сканер уязвимостей с фаззингом (перебор всех вариантов) проверяет сайты на наличие самых распространённых, удобно эксплуатируемых багов — и сообщает о них всему интернету.

PunkSpider успешно работал с 2014 по 2018 годы. Потом его пришлось закрыть из-за множества жалоб от компаний, чьи сайты становились лёгкими мишенями для взлома. Но сейчас разработчики разобрались с юридическими проблемами и готовы возобновить проект.

На данную минуту PunkSpider ещё не запустили, на сайте висит заглушка, опубликована только ссылка на расширение для Chrome.
Читать дальше →
Всего голосов 10: ↑10 и ↓0 +10
Просмотры 3.1K
Комментарии 2

Гуглояз – как Google ограничивает мысли о борьбе с монополиями

Поисковые технологии *Бизнес-модели Финансы в IT
Перевод
— Разве ты не понимаешь, что весь смысл новояза в том, чтобы сузить диапазон мышления? В итоге мыслепреступление станет попросту невозможным, поскольку не будет слов, которыми его можно было бы выразить.
— «1984», Джордж Оруэлл

Не так давно люди, активно интересующиеся вопросами SEO, могли заметить, что я вступил в перебранку в твиттере с парочкой сотрудников Google. Страсти там реально накалились.

Иногда работать представителем Google за деньги бывает трудновато.

Всё началось с того, что я поставил под сомнение этичность и направленность против конкуренции таких действий Google, как поднятие в рейтинге собственных материалов, касающихся таких слов, как “SEO” и “robots.txt” (из моих областей интереса), а также Google Flights, YouTube, окошек «People Also Ask» и других особенностей поисковика, которые появляются среди самых первых результатов.

Нечестная конкуренция Google связанная с поднятием собственных сервисов в результатах поиска – проблема давно известная. Правительства разных стран проводят расследования таких действий и работают над новыми законами, касающимися этих и других проблем, связанных с монополизацией.
Читать дальше →
Всего голосов 78: ↑73 и ↓5 +68
Просмотры 30K
Комментарии 177

Передовые технологии на службе СЭД

Поисковые технологии *CRM-системы *Kotlin *Исследования и прогнозы в IT Облачные сервисы
Из песочницы
Tutorial

В статье монографически раскрываются современные аспекты разработки документо-ориентированных систем основанных на собственном опыте. Все исследования и реализация технологий последовательно выполнены в ряде проектов на протяжении последних 3-х лет, где частично или полностью использовался представленный подход. Пошагово показан путь создания высоконагруженной СЭД и одновременно формирования в рамках полученной платформы многофункциональной CRM.

Стратегия разработки подчинена парадигме: если технологии позволяют не расширять инфраструктуру при допустимом ущербе качества с сохранением стабильности и доступности – инфраструктура не расширяется. Данная парадигма минимизирует вероятные точки отказа, уменьшает стоимость разработки проекта и в итоге стоимость инфраструктуры.

Читать далее
Всего голосов 12: ↑11 и ↓1 +10
Просмотры 1.6K
Комментарии 2

Как начать работу с картами CoderMap?

Поисковые технологии *Google App Engine *Google API *Google Cloud Platform * *

 Эта статья будет отсылкой на эту.

Google Map API был выбран в качестве бесплатного и с точностью до мелочей верного ресурса. Так же в документации Google Map API есть очень большой набор функционала который способствует построению карт с наивысшей пользой для клиентов.

Начать работу с картами, возможно после того, как будет готова функция выгрузки заказов из 1С с помощью FTP.

Для начала, загрузите с помощью FTP из 1С заказы, и нажмите на “Получить полную информацию о точках”.

Читать далее
Всего голосов 2: ↑1 и ↓1 0
Просмотры 1.2K
Комментарии 5

Автоматическое построение карт для курьеров и логистов из 1C

Поисковые технологии *Google API *Big Data *Google Cloud Platform * *
Из песочницы

Компания CoderSafe, на базе Google Map API разработало карту для маршрутизации и автоматического распределения заказов с целью эффективности для курьеров и сотрудников компании, тем самым экономить время и усилия.

Читать далее
Всего голосов 17: ↑2 и ↓15 -13
Просмотры 2.7K
Комментарии 7

Бывший сотрудник Яндекса выпустил бесплатный поисковик с блек… листами, но без рекламы

Разработка веб-сайтов *Поисковые технологии *Google API *Поисковая оптимизация

Здравствуйте, меня зовут Дмитрий Карловский и я крайне опечален качеством поиска современных поисковиков.

Например, обсуждали мы как-то в $mol-чате стоит ли делать "человеко-понятную" псевдостатику в урлах вида /snjat-dvushku/s-remontom/v-vihino для SEO, или всё же сеошники - шарлатаны, гадающие на поисковой гуще. Решили проверить кто там у нас в топе по запросу "квартира купить однокомнатная горьковская" и получили такой результат:

Дыбенко, Лесная, Жопа Мира, всё, что угодно, только не то, что спрашивали. Первые 4 результата - нерелевантный мусор. А потом сервис самого же Яндекса. Как так получилось, что в 2к21, в эпоху машинного обучения и GPT-3, у нас получился поиск хуже, чем на заре интернета?

Отгадка
Всего голосов 119: ↑98 и ↓21 +77
Просмотры 50K
Комментарии 198

Бывшие сотрудники Google запустили первый платный поисковик. От его успеха зависит будущее интернета

Блог компании gms & g-mate Поисковые технологии *Развитие стартапа

В плане интерфейса от Google пока далеко не ушли

Два бывших топ-менеджера Google создали поисковик без рекламы и с защитой личных данных, и теперь надеются привлечь людей, которые устали от того, что «они — это продукт». Подписка на поисковик (странная фраза, правда?) стоит $4,95 в месяц. Компания уже привлекла $77,5 млн, в ней работает 60 человек, 30% из которых ранее трудились на Google. Создатели рассчитывают отобрать себе несколько процентов поискового трафика, а там, возможно, и изменить наше отношение к рекламе в Сети.

Читать дальше →
Всего голосов 49: ↑48 и ↓1 +47
Просмотры 62K
Комментарии 278

Закон о «приземлении» иностранных интернет-порталов

Блог компании ITSOFT Мессенджеры *Поисковые технологии *Законодательство в IT Социальные сети и сообщества

Дума рассмотрела в первом чтении проект закона «О деятельности иностранных лиц в информационно-телекоммуникационной сети «Интернет» на территории Российской Федерации», его также уже называют законом о «приземлении» иностранных информационных гигантов на территории России.

Кто подпадает под действие закона? Те, у кого суточная аудитория на протяжении трех месяцев составляет более 500 тысяч человек. Понятно, что речь идет о гигантах информационного рынка, но в проекте закона указано, что это может быть любой иностранный сайт, с аудиторией полумиллиона россиян в сутки. Причем под аудиторией понимается и обработка сведений о пользователях, находящихся на территории РФ, то есть сам пользователь может и не заходить на ресурс, но если его данные обрабатываются, то как говорится «плюс 1». Причем закон касается не только иностранных соцсетей и информационных порталов, в его поле зрения входят и провайдеры хостинга, рекламные агентства, почтовые сервисы и мессенджеры.

Под приземлением в законе понимается: создание зарубежными компаниями филиалов на территории России, организация на своем ресурсе форм обратной связи с пользователями и регистрация личного кабинета на порталах органов власти. Иностранцам также надо будет установить счетчик посетителей его ресурса, рекомендуемый российским надзорным органом.

Какие же последствия ждут иностранцев, которые без энтузиазма воспримут новшество? Перечислим от простого к сложному:

Последствия для иностранцев
Всего голосов 18: ↑13 и ↓5 +8
Просмотры 4.9K
Комментарии 44

Как провести технический аудит сайта через Screaming Frog?

Разработка веб-сайтов *Поисковые технологии *Клиентская оптимизация *Тестирование веб-сервисов *

Наличие технических ошибок на сайте может негативно сказаться на его ранжировании, что в свою очередь приведет к снижению поискового трафика и позиций в поисковых системах.

Чтобы выявить технические ошибки, необходимо провести комплексный технический SEO-аудит сайта. Одним из основных помощников в этой сложной и трудозатратной задаче для нас выступает десктопная программа Screaming Frog.

Читать далее
Всего голосов 2: ↑0 и ↓2 -2
Просмотры 2.9K
Комментарии 0

Укрощаем Manticoresearch

Поисковые технологии *Sphinx *
Tutorial

Manticoresearch это Open Source проект, форк проекта sphinxsearch от Андрея Аксенова и его команды. Проект позиционирует себя как открытое высокопроизводительное решение для полнотекствого поиска. Судя по бенчмаркам (правда от самих создателей Мантикоры), средняя "по больнице" скорость превышает скорость популярного Elasticsearch.

Я постараюсь научить вас, как устроены индексы в manticoresearch.

Я расскажу вам, как их можно потюнить и даже покажу с графиками и картинками на живом примере что на что влияет.

Давайте спустимся в подвал...
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 1.5K
Комментарии 3

Знакомство с ArangoDB

Поисковые технологии *Программирование *NoSQL *Администрирование баз данных *
Из песочницы

ArangoDB – мультимодельная БД с возможностью хранения данных как графов, документов и ключ-значение.

Читать далее
Всего голосов 13: ↑9 и ↓4 +5
Просмотры 2.3K
Комментарии 2

I feel Brave: новый анонимный поиск открыт для всех

Блог компании Brave Поисковые технологии *Браузеры
Перевод

Запускаем публичную бету нашего независимого от адтех-гигантов поиска https://search.brave.com/, который предоставляет не имеющую аналогов анонимность.

I feel Brave
Всего голосов 15: ↑15 и ↓0 +15
Просмотры 5.1K
Комментарии 34

Как Яндекс применил генеративные нейросети для поиска ответов

Блог компании Яндекс Поисковые технологии *Алгоритмы *Машинное обучение *Natural Language Processing *


Только что мы представили новую версию поиска Y1. Она включает в себя комплекс технологических изменений. В том числе улучшения в ранжировании за счёт более глубокого применения трансформеров. Подробнее об этом направлении мой коллега Саша Готманов уже рассказывал в нашем блоге. В новой версии модель стала мощнее: количество параметров возросло в 4 раза. Но сегодня мы поговорим о других изменениях.

Когда человек вводит запрос в поисковик, он ищет информацию или способ решения своей задачи. Наша глобальная цель — помогать находить такие ответы, причём сразу в наиболее ёмком виде, чтобы сэкономить людям время. Этот тренд на ускорение решения пользовательских задач особенно заметен в последние годы. К примеру, теперь многие пользователи задают свои вопросы не текстом в поиске, а голосовому помощнику. И тут нам на помощь пришли огромные генеративные нейросети, которые способны перерабатывать, суммаризировать и представлять в ёмком виде тексты на естественном языке. Пожалуй, самой неожиданной особенностью таких сетей стала возможность быстро обучаться на всё новые задачи без необходимости собирать большие датасеты.

Сегодня мы поделимся опытом создания и внедрения технологии YaLM (Yet another Language Model), которая теперь готовит ответы для Поиска и Алисы. В этом мне помогут её создатели — Алексей Петров petrovlesha и Николай Зинов nzinov. Эта история основана на их докладе с Data Fest 2021 и описывает опыт внедрения модели в реальные продукты, поэтому будет полезна и другим специалистам в области NLP. Передаю слово Алексею и Николаю.

Всего голосов 70: ↑68 и ↓2 +66
Просмотры 27K
Комментарии 16

Наша анонимность утрачена?

Информационная безопасность *Поисковые технологии *IT-инфраструктура *IT-стандарты *

IT-технологии развиваются с каждым годом. Многие корпорации полным ходом развивают технологические подходы в области сбора и обработки полученной информации. Одним из таких подходов является использование баз данных цифровых отпечатков пользователей сети Интернет.

Отпечатки цифровых устройств или «цифровые портреты» применяются третьими лицами, не только для генерации рекламы, но и для мошенничества и «кражи личности». Пользователи сети сами того не подозревая отдают персональные и корпоративные данные, не только без согласия, но и без необходимого контроля. А Вы защищаете свой цифровой портрет?

Читать далее
Всего голосов 34: ↑21 и ↓13 +8
Просмотры 12K
Комментарии 55

Как работает поиск изображений в Dropbox

Блог компании SkillFactory Поисковые технологии *IT-инфраструктура *Машинное обучение *
Перевод

Если вам нужно найти фотографию, сделанную на пикнике несколько лет назад, вряд ли вы помните имя, которое камера автоматически присвоила файлу в момент съёмки, например, 2017-07-04 12.37.54.jpg. Вы просматриваете всё подряд — фотографии, их эскизы, пытаетесь определить объекты или признаки искомого — и не важно, ищете ли вы потерянное фото или хотите подыскать в архивах приличный снимок для презентации нового проекта.

Вот было бы здорово, если бы Dropbox мог самостоятельно просматривать все изображения и выбирать их них те, которые лучше всего соответствуют заданным в описании словам! Именно эту задачу мы поставили перед собой, создавая функцию поиска изображений.

К старту курса о машинном и глубоком обучении мы решили поделиться переводом о том, как текстовый поиск по изображениям в Dropbox работает изнутри, на каких наборах данных обучалась решающая задачу модель, как комбинировались методы, а также о том, какие Dropbox получила результаты и над чем работает сегодня.

Читать далее
Всего голосов 14: ↑13 и ↓1 +12
Просмотры 3.5K
Комментарии 4

Как мы запустили агрегатор удаленных вакансий и зачем в нем ML

Поисковые технологии *Машинное обучение *Развитие стартапа Карьера в IT-индустрии Поисковая оптимизация

В один прекрасный день в конце 2020 года мы решили сделать еще один агрегатор удаленных вакансий, начав с исключительно IT-позиций. Логично спросить: зачем? Мол, на рынке их уже достаточно. Ответ на этот вопрос звучит очень просто: мы понимали, как улучшить текущие решения как минимум по пяти параметрам.

Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Просмотры 2K
Комментарии 3

У каждого приложения должна быть палитра команд

Блог компании VDSina.ru Поисковые технологии *Анализ и проектирование систем *Интерфейсы *
Перевод
В старых и новых приложениях незаметно начинает появляться инструмент, упрощающий взаимодействие и ускоряющий выполнение действий. Это мощное поле поиска, которое я называю «power bar»; иногда оно имеет название «command palette».

Power bar, похожая на поиск Spotlight в macOS, встраивается в приложение и обычно вызывается сочетанием горячих клавиш CMD+K (или CMD+SHIFT+P). После её вызова пользователь вводит в неё то действие, которое хочет выполнить. Однако в отличие от Spotlight, power bar позволяет выполнять задачи, а не просто искать файлы или переходить в другие части приложения.


Command palette приложения Superhuman.
Читать дальше →
Всего голосов 24: ↑22 и ↓2 +20
Просмотры 6.4K
Комментарии 13

Вклад авторов