Ранжирование результатов поиска: что это такое, как работают факторы ранжирования в Google и «Яндекс»

Содержание

Изменение ранжирования классических результатов поиска в SharePoint Server — SharePoint Server


  • Статья

  • Чтение занимает 3 мин

APPLIES TO:2013 2016 2019 Subscription Edition SharePoint in Microsoft 365

Аудитории: Администраторы поиска SharePoint Server.

Перед началом работы:

Чтобы изменить ранжирование классических результатов поиска, вам потребуется:

  • Базовое представление о поиске в SharePoint

  • знание и понимание содержимого, которое возвращается в результатах поиска, чтобы оценить релевантность этих результатов для конкретного запроса;

  • работающее приложение службы поиска и корпоративный центр поиска;

  • содержимое в индексе поиска.

Почему ранжирование результатов поиска так важно?

Независимо от того, работаете ли вы с локальным центром поиска предприятия, с SharePoint в Microsoft 365 или с решением для публикации на нескольких сайтах, результаты поиска будут ранжируются. В большинстве случаев можно ограничиться ранжированием результатов поиска по умолчанию.

Но иногда может потребоваться повлиять на ранжирование результатов поиска, чтобы сделать результаты еще более релевантным для конечных пользователей. Недавно мы опубликовали набор статей, в которых объясняется, как можно изменить ранжирование результатов поиска и понять, как работает ранжирование результатов поиска в SharePoint Server. (См. ссылки далее в этой статье.)

Как ранжируются результаты поиска?

Ранжирование результатов поиска выполняется с использованием модели ранжирования. Модель ранжирования определяет положение конкретного результата в результирующем наборе. Существует несколько моделей ранжирования в SharePoint, которые автоматически выполняют это за вас. Поэтому, как правило, вам не нужно знать, какая модель ранжирования используется для запроса или что именно она делает.

Использование правил запроса для изменения ранжирования результатов поиска

Если вас не устраивает ранжирование результатов поиска, которое предоставляет SharePoint, рекомендуется добавить правила запросов для оптимизации ранжирования результатов поиска для сценариев поиска.

Преимущество правил запроса состоит в том, что они доступны для самых разных администраторов поиска. Вы можете добавить правила запросов в служба в качестве локального администратора поиска. Вы также можете добавлять и повторно использовать правила запросов в качестве администратора семейства веб-сайтов или владельца сайта.

Для каждого правила запроса вы можете определять способ сортировки, ранжирования и отображения результатов поиска. Каждое правило запроса состоит из условия правила запроса и действия правила запроса. Каждый раз, когда запрос соответствует условию правила запроса, запускается действие правила запроса, указанное вами в самом правиле. После ввода условия вы можете назначить следующие действия:

  • добавить результаты повышенного уровня, которые всегда отображаются над ранжированными результатами поиска;

  • добавить блок результатов, который отображает конкретные результаты поиска в виде группы, и повысить уровень этого блока;

  • изменить порядок результатов поиска, как указано ниже.

    • Выполнять сортировку на основе одного или нескольких управляемых свойств.

      Когда вы сортируете результаты таким образом, вы переопределяете модель ранжирования.

    • Применять динамическое ранжирование.

      Вы можете повышать или понижать уровень результатов на основе указанного вами условия запроса.

Влияние на ранжирование результатов поиска с помощью правил запроса предоставляет дополнительные сведения. В большинстве случаев вы можете использовать правила запроса, чтобы настроить ранжирование. При этом постарайтесь не добавлять слишком сложные правила запросов и не добавляйте их слишком много, чтобы избежать продолжительной обработки запросов.

Применение пользовательских моделей ранжирования: если правила запроса не работают

Если вы не можете использовать правила запросов для достижения поставленных целей, можно создать и развернуть пользовательскую модель ранжирования. Например, можно создать пользовательскую модель ранжирования, чтобы включить настраиваемые управляемые свойства в вычисления ранжирования результатов поиска.

Так как создание и настройка пользовательской модели ранжирования является сложной задачей и может иметь очень большое влияние на результаты поиска, мы рекомендуем не принимать это внимание. Настраиваемую модель ранжирования можно создавать и развертывать только локально.

При создании пользовательской модели ранжирования вы копируете существующую модель ранжирования SharePoint Server и редактируете ее. Затем следует проверить, насколько хорошо работает пользовательская модель ранжирования, выполнив множество запросов и сравнив результаты, полученные с новой моделью ранжирования, с результатами, полученными с предыдущей моделью ранжирования. После создания и проверки вы развернете пользовательскую модель ранжирования и сообщите системе поиска, что она должна использовать новую модель ранжирования для ранжирования всех или некоторых результатов поиска.

Как и любая модель ранжирования, включенная в SharePoint Server, пользовательская модель ранжирования вычисляет позицию результата поиска в результирующем наборе. Результат поиска считается релевантным, если он получает высокую оценку ранжирования. Оценка высокого ранга — это определенная числовая оценка, вычисляемая поисковой системой, использующей модель ранжирования. Эта модель представляет собой список с одним или несколькими этапами ранжирования, который содержит набор функций ранжирования. Модель ранжирования определяет то, каким образом поисковая система вычисляет степень релевантности с помощью различных факторов, представленных в модели ранжирования в виде функций ранжирования.

В SharePoint Server доступно несколько моделей ранжирования. Дополнительные сведения см. в разделе «Обзор ранжирования результатов поиска» в SharePoint Server. Большинство результатов поиска ранжируются с использованием модели поиска по умолчанию. Дополнительные сведения о наиболее важных функциях ранжирования в модели поиска по умолчанию см. в статье «Настройка моделей ранжирования для повышения релевантности в SharePoint 2013 на сайте MSDN». В этой статье также рассказывается о том, как развертывать пользовательскую модель ранжирования.

Мы надеемся, что в этих статьях вы найдете всю необходимую информацию о ранжировании результатов поиска и его настройке.

Введение в ранжирование результатов поиска Google / Хабр

Амит Сингал (Amit Singhal), руководитель команды ранжирования Google

О работе Группы качества поиска вы узнали из поста Уди Манбера.

Мы обычно называем эту группу просто «Качество» (Quality). Она включает в себя команду базовой функциональности ранжирования (Core Ranking), команду международного поиска (International Search), команду пользовательских интерфейсов (User Interfaces), команду контроля качества (Evaluation), команду борьбы с интернет-спамом (Webspam) и другие. В этом посте я хочу рассказать вам о работе команды базовой функциональности ранжирования.

Вначале несколько слов о себе. Меня зовут Амит Сингал. Я руковожу группой ранжирования в компании Google. В области технологий поиска я работаю вот уже восемнадцать лет. Впервые я познакомился с поиском в 1990 г., когда писал диплом по информатике. В академической среде поиск называют «информационно-поисковыми технологиями», по-английски — Information Retrieval (IR). Проработав в области фундаментальных IR-исследований 10 лет, в 2000 году я устроился на работу в Google. С тех пор я занимаюсь технологиями ранжирования результатов поиска Google.

Ранжирование в Google — это набор алгоритмов, позволяющих найти именно те документы, которые наилучшим образом отвечают на запрос пользователя. Мы обрабатываем сотни миллионов запросов в день, обращаясь к базе, состоящей из многих миллиардов страниц. Наши алгоритмы применяются практически в каждом поисковом сервисе Google по отношению к любому запросу, вводимому пользователями. Хотя поиск в интернете – это наиболее широко используемый и самый известный поисковый сервис Google, те же самые алгоритмы ранжирования используются, в различных модификациях, и в других сервисах — Картинки, Новости, YouTube, Карты, Поиск по продуктам, Поиск по книгам и др.

Самый частый вопрос, который мне задают о ранжировании: «Как же вам это удается?». Конечно, создание такой передовой и современной системы ранжирования, как наша, включает в себя много различных аспектов. К примеру, технологические вопросы ранжирования я хотел бы подробнее обсудить в следующем посте. А сегодня я хочу рассказать вам о принципах, на которых строится ранжирование в Google. Если говорить коротко, эти принципы можно описать тремя фразами:

1) Наилучшее качество результатов поиска с учетом местной специфики в любой точке земного шара.

2) Все должно быть просто и ясно.

3) Никаких изменений вручную.

Первый принцип очевиден. При нашей страсти к развитию поиска мы делаем все возможное, чтобы на каждый свой запрос пользователь получал именно те результаты, которые ему нужны. Мы часто говорим, что ни один запрос не остается без внимания. Если результат запроса оказался неидеальным (ведь задача поиска, строго говоря, еще не решена до конца), то независимо от языка и страны происхождения запроса каждый такой случай является для нас источником вдохновения для дальнейшего развития технологий.

Второй принцип тоже достаточно очевиден. Разве не каждый системный архитектор стремится, чтобы его система оставалась как можно более простой? На самом деле, по мере развития поисковых систем мы сталкиваемся с таким многообразием пользовательских запросов на различных языках, что очень велика опасность все большего усложнения системы при добавлении каждого нового типа запросов. Мы очень стараемся, чтобы наша система оставалась простой без ущерба для качества результатов поиска. Эта задача чрезвычайно важна, и о ней ни на минуту нельзя забывать. Каждую неделю мы производим порядка 10 изменений в алгоритмах ранжирования, и при запуске каждого изменения мы очень большое внимание уделяем простоте. Наши разработчики точно знают, почему конкретная страница находится именно на этом месте в результатах поиска. Наличие простой системы, в которой легко разобраться, позволяет нам быстро внедрять инновации. Это значит, что принцип простоты сослужил нам очень хорошую службу.

Ни одно из обсуждений механизмов ранжирования Google не проходит без стандартного — но основанного на предубеждении! 🙂 — вопроса: «А редактируют ли сотрудники Google результаты поиска вручную?». На этот вопрос отвечает наш третий основополагающий принцип: никаких изменений вручную! Наша точка зрения такова. Интернет создается людьми. Вы – те люди, которые создают страницы и ссылаются в них на другие страницы. А мы используем все это созданное человеческими руками богатство в наших алгоритмах. Когда наши алгоритмы окончательно упорядочивают результаты по запросу, они используют результаты деятельности всего интернет-сообщества, а не мнение отдельных сотрудников компании Google. Мы считаем, что субъективные суждения любого человека являются … субъективными, и информация, которую наши алгоритмы извлекли из огромного многообразия человеческого знания, заключенного в веб-страницах и ссылках, лучше любой человеческой субъективности.

Есть еще одна причина, почему мы принципиально против ручной корректировки результатов поиска. Если запрос выполняется неправильно – это лишний повод для нас улучшить алгоритм ранжирования. Доработка поискового алгоритма не просто улучшает результаты конкретного запроса, она приводит к повышению качества сразу для целого класса запросов, зачастую на всех языках. При всем при этом я должен добавить, что существует четко прописанная политика, определяющая, каким требованиям должны удовлетворять рекомендуемые Google сайты. Мы принимаем меры по отношению к тем сайтам, которые нарушают нашу политику, требования закона, распространяют детскую порнографию, вирусы, вредоносное программное обеспечение и т.д.

Буду рад, если вы ознакомитесь с моим следующим постом, в котором я подробно расскажу, какие технологии используются при ранжировании. На ряде примеров вы сможете увидеть, как работают различные методы упорядочивания результатов поиска. В заключение данного поста я хотел бы добавить, что наша страсть к развитию поисковых методов сильна как никогда. А это значит, что у меня, как исследователя в области информационного поиска, самая лучшая работа на Земле :-).
Постоянная ссылка на оригинал

О ранжировании результатов поиска

О ранжировании результатов поиска

Создание пользовательского интерфейса поиска

Облако релевантности Coveo

Разработчик

Системный администратор

Документация по продукту

В этой статье

  • Оценка релевантности
  • Пример ранжирования

Ранжирование результатов — это процесс, в ходе которого индекс оценивает отдельный балл ранжирования для каждого элемента, соответствующего запросу, а затем сортирует результаты от наиболее релевантных до наименее релевантных (т. е. в порядке убывания оценки).
Coveo ранжирует результаты поиска, вычисляя показатель релевантности на основе ряда факторов ранжирования.
Счет простирается от минус бесконечности до бесконечности.
Чем выше оценка, тем выше будет результат в списке результатов.

Оценка релевантности

Оценка релевантности представляет собой комбинацию алгоритма ранжирования индекса, действующего на этапах ранжирования индекса, и других модификаторов релевантности, таких как выражения ранжирования запросов (QRE) и функции ранжирования запросов.

Члены встроенных групп Администраторы и Менеджеры релевантности могут изменять относительный вес некоторых факторов ранжирования индекса, добавляя правила ранжирования конвейера запросов.

Примечание

Вы можете проверить оценку элементов с помощью панели отладки (см. Использование панели отладки поиска JavaScript).

Избранные и рекомендованные ART результаты

Из-за своей природы избранные результаты всегда должны отображаться в верхней части списка результатов, а результаты Coveo Machine Learning (Coveo ML), рекомендованные ART, в первых десяти результатах.
Повышение оценки релевантности выше для рекомендуемых результатов, чем для результатов, рекомендованных ART.
Однако на оба типа результатов могут влиять другие факторы ранжирования (например, другие правила компонентов конвейера запросов, такие как выражения ранжирования запросов).

Фазы ранжирования индекса

Механизм процесса ранжирования можно сравнить с воронкой.
Начиная со всех элементов, индекс получает запрос от пользователя, изолирует элементы, в которых удостоверение пользователя можно найти в группах разрешений (см. Группы и предоставленные идентификаторы безопасности, наборы разрешений и уровни разрешений), а затем сохраняет только элементы. которые соответствуют запросу.

Процесс ранжирования разделен на четыре этапа, каждый из которых работает с элементами, отсортированными на предыдущем этапе.

На этих этапах Coveo изначально использует 17 предварительно настроенных весовых коэффициентов ранжирования.
Среди наиболее важных критериев, оказывающих наибольшее влияние на релевантность, являются близость терминов, дата изменения элемента (самая последняя) и частота терминов.
Каждый из этих 17 критериев был оптимизирован благодаря многолетнему опыту работы с широким спектром проиндексированного контента, чтобы в большинстве случаев определять очень удовлетворительные стандартные оценки релевантности элементов.
При необходимости вы все равно можете тщательно настроить эти параметры (см. раздел Управление весовыми коэффициентами ранжирования конвейера запросов).
Вы также можете устранить неполадки ранжирования, когда оценка фактора кажется слишком высокой или слишком низкой, используя панель отладки поиска JavaScript.

Хотя вы можете использовать несколько параметров для настройки механизма ранжирования индекса, вы должны вносить изменения осторожно, чтобы предотвратить снижение производительности или побочные эффекты ранжирования.
Мы рекомендуем вам обратиться в службу поддержки Coveo, чтобы получить рекомендации по устранению проблем с ранжированием индекса.

Этап 1: взвешивание терминов

На первом этапе баллы присваиваются элементам на основе каждого термина пользовательского запроса.
Семь факторов используются для ранжирования проиндексированных элементов, на доступ к которым у пользователя есть права доступа и соответствия запросу.
Эти факторы охватывают такие области, как расположение терминов запроса в этих элементах (в заголовке, сводке, концепциях и т. д.) и язык элемента (на том же языке, что и пользовательский запрос, или нет).
После составления рейтинга сохраняются 50 000 элементов с наивысшим баллом.

В дополнение к этим факторам ранжирования на этом этапе учитываются выражения ранжирования запроса (QRE), которые представляют собой настраиваемые выражения, используемые для изменения оценки ранжирования на указанную величину, когда элементы соответствуют определенным условиям.

Примечания

  • Член организации Coveo с необходимыми привилегиями может точно настроить важность каждого из факторов, но это следует делать с осторожностью, поскольку это влияет на все результаты во всех поисковых интерфейсах (см. раздел «Управление правилами весов при ранжировании»).

  • Для каждого элемента оценка, присвоенная каждому фактору, показана в разделе Веса терминов (см. Использование панели отладки поиска JavaScript).

Этап 2: Взвешивание товаров

На втором этапе баллы присваиваются товарам на основе их свежести (даты последней модификации) и качества.
На этом этапе, который выполняется для первых 50 000 элементов с наивысшими рейтинговыми оценками, полученными на первом этапе, используются шесть факторов ранжирования, которые охватывают такие области, как исходный рейтинг (репутация от низшего к высшему), для дальнейшей корректировки показателя релевантности этих 50 000 элементов. .

После ранжирования сохраняются 200 элементов с наивысшим баллом, и для этих элементов выполняются следующие три этапа ранжирования индекса.

Примечания

  • Член организации Coveo с необходимыми привилегиями может точно настроить важность каждого из факторов, но это следует делать с осторожностью, поскольку это влияет на все результаты во всех поисковых интерфейсах (см. раздел «Управление правилами весов при ранжировании»).

  • Эта фаза включает в себя загрузку информации о конкретном элементе, например, если элементы были недавно изменены.

  • Для каждого элемента оценка, присвоенная каждому фактору, показана в разделе Вес документа (см. Использование панели отладки поиска JavaScript).

Этап 3: Частота терминов — обратная частота элементов (TF-IDF)

Целью третьего этапа является взвешивание запрошенных терминов с учетом их количества вхождений в элементах.
Механизм ранжирования оценивает важность термина запроса для элемента на основе количества вхождений этого термина в элементе, а также обратно пропорционально количеству вхождений термина в индексе (TF-IDF).
Чем чаще термин встречается в указателе, тем менее информативным он становится, так как значение и смысл в определенной степени размываются.

Пример

Распространенный термин, такой как продукт , стоит меньше, чем редкий, такой как iPhone .

В соответствии с этой методологией каждый из 200 элементов, возвращенных на третьем этапе, получает дополнительный балл, после чего их ранги корректируются соответствующим образом.

Примечания

  • Для каждого элемента оценка, присвоенная Частоте , Корреляции и TF-IDF для каждого запрошенного термина, показана под Веса терминов (см. Использование панели отладки поиска JavaScript).

  • Индекс сводит к минимуму возможные ошибки определения происхождения (из фазы 1) путем вычисления коэффициента корреляции между искомым термином и всеми возможными расширениями.
    В результатах поиска элементы, содержащие высококоррелированные расширения, ранжируются выше, чем элементы, содержащие плохо коррелированные расширения.

    Например, когда вы ищете юниверс , из-за того, как работает алгоритм определения корней, индекс расширяет ваш запрос, используя термины из univer основные классы, которые могут включать университет.
    Если термины «вселенная» и «университет» редко встречаются в проиндексированных элементах, элементы, содержащие университет, ранжируются ниже.

Фаза 4: ранжирование смежности

На последней фазе вычисляется близость терминов запроса, придавая больший вес элементам, термины которых расположены близко друг к другу в тексте.
Этот шаг точно настраивает порядок элементов, полученных на этапе 3, и, как только изменение порядка выполнено, элементы возвращаются в интерфейсе поиска пользователю в качестве ответа на отправленный запрос.

Примечания

  • Близость терминов не применяется к запросам с одним термином.
    Индекс динамически определяет числовые термины, которые он использует, и это число может варьироваться от 200 до 500.

  • Для каждого элемента, когда информация о ранжировании включена, оценка, присвоенная Смежности , отображается в разделе Веса документа (см. Использование панели отладки поиска JavaScript).

  • Значение docID используется для разрыва связей (если они есть) и обеспечения соблюдения того же порядка результатов, если тот же запрос будет выполняться в будущем.
    элементы с одинаковой оценкой ранжирования сортируются в порядке убывания значений docID .

  • По умолчанию в интерфейсе поиска на странице отображается десять результатов, что означает, что после десятой страницы результаты не обрабатывались на последних трех этапах.

Вот как ранжирование связано с релевантностью.
Однако процесс ранжирования не ограничивается этими этапами.
Coveo имеет множество функций, которые помогут удовлетворить ваши потребности.
Функции, которые вы можете использовать, чтобы персонализировать или настроить способ ранжирования ваших товаров.
Модели машинного обучения Coveo и конвейеры запросов входят в число других функций, влияющих на релевантность или результаты поиска (см. Машинное обучение Coveo и Что такое конвейер запросов?).

Предварительно настроенные весовые коэффициенты ранжирования

В следующей таблице указаны все факторы ранжирования, учитываемые по умолчанию системой ранжирования Coveo на каждом этапе процесса ранжирования:

Фаза Фактор ранжирования
(Ярлык на панели отладки)
Описание

1

Термин в названии (Заголовок) [1]

Наличие запрашиваемых ключевых слов в названии элемента.

Термин в понятиях (Concept) [1]

Наличие запрошенных ключевых слов в автоматически заполняемом поле @concepts элемента.

Итоговый термин (Summary) [1]

Наличие запрашиваемых ключевых слов в сводке элемента.

Термины в адресе (URI) [2]

Наличие запрошенных ключевых слов в URI элемента.

Термин имеет форматирование (Formatted) [2]

Форматируются ли запрошенные ключевые слова в элементе (например, уровень заголовка, полужирный, большой и т. д.).

Корпус терминальный (Кожух) [2]

Указывает, имеют ли запрошенные ключевые слова особый регистр в элементе.

Соотношение терминов внутри классов корней (Relation) [2]

Наличие слов с тем же корнем, что и запрашиваемые ключевые слова в элементе.

Например, если пользователь ищет программист , Coveo выполняет расширение основы и ищет в индексе элементы, соответствующие программист , программисты , программа , программирование и т. д.

Поскольку программистов тесно связаны с исходным запросом, элементы, соответствующие программистов получат более высокий балл, чем те, кто соответствует программированию по этому фактору ранжирования.

Элемент на языке пользователя (QRE) [2]

Находится ли элемент на языке интерфейса поиска, из которого исходит запрос.

2

Элемент недавно изменен (Дата) [1]

Дата последнего изменения позиции. Элементы с самой последней датой изменения получают более высокий рейтинг.

Оценка качества товара (Качество) [2]

Близость элемента к корню индексируемой системы.

Оценка источника (Источник) [2]

Рейтинг источника, в котором находится элемент.

Пользовательский вес рейтинга (Пользовательский) [2]

Пользовательский вес, назначенный через расширение конвейера индексирования (IPE) для элемента.

3

Частота термина – обратная частота документа (TF-IDF) [1]

Количество раз, когда запрошенное ключевое слово появляется в данном элементе, компенсированное количеством элементов в индексе, содержащих это ключевое слово (см. TF-IDF).

4

Близость терминов (Adjacency) [1]

Близость запрашиваемых ключевых слов друг к другу в элементе.

Примечание

Относительную важность каждого из критериев ранжирования трудно установить, поскольку оценка каждого критерия зависит от многих факторов, таких как количество терминов в запросе, тип индексируемых источников, отдельные термины в запросе и количество элементов в индексе.

Пример ранжирования

Вы выполняете запрос Стиральная машина на веб-сайте вашего устройства, и возвращаются два результата.
Чтобы узнать, почему результаты расположены именно в таком порядке, вы проверяете их показатель релевантности на панели «Отладка».

Сначала взгляните на рейтинг индекса.
Первый результат ( Стиральная машина KleanKlothes ) имеет Стиральная машина и Машина в своем названии и содержит несколько вхождений стиральная машина в своем содержании.
Таким образом, индекс устанавливает результат в 5000 баллов.
Второй результат ( EZLaundry Machine ) содержит только Machine в названии, поэтому индекс дает результату 3000 баллов.

Затем вы анализируете, как функция Coveo ML ART повлияла на ранжирование.
С EZLaundry Machine нажимается чаще, чем Стиральная машина KleanKlothes , и что пользователи обычно не возвращаются на страницу поиска, чтобы выполнить другой запрос после просмотра страницы продукта, модель ART добавляет 2500 к баллу EZLaundry Machine .

На данный момент оценка за Стиральная машина KleanKlothes составляет 5000 и 5500 за EZLaundry Machine .

Наконец, вы помните, что у вашей маркетинговой команды был стимул продвигать Стиральная машина KleanKlothes .
Команда создала выражение ранжирования запроса, которое добавляет 1000 баллов, повышая оценку стиральной машины KleanKlothes до 6000, что выше, чем у EZLaundry Machine (5500).
Поэтому Стиральная машина KleanKlothes является первым возвращенным результатом.


1. Настраивается в правилах весов ранжирования (см. Управление весами ранжирования конвейера запросов)

2. Значение по умолчанию, которое настраивается с помощью Coveo Support

Была ли эта статья полезной?

Очень полезный

Не совсем

О рейтинге результатов поиска

О рейтинге результатов поиска

Создание пользовательского интерфейса поиска

Облако релевантности Coveo

Разработчик

Системный администратор

Документация по продукту

В этой статье

  • Оценка релевантности
  • Пример ранжирования

Ранжирование результатов — это процесс, в ходе которого индекс оценивает отдельный балл ранжирования для каждого элемента, соответствующего запросу, а затем сортирует результаты от наиболее релевантных до наименее релевантных (т. е. в порядке убывания оценки).
Coveo ранжирует результаты поиска, вычисляя показатель релевантности на основе ряда факторов ранжирования.
Счет простирается от минус бесконечности до бесконечности.
Чем выше оценка, тем выше будет результат в списке результатов.

Оценка релевантности

Оценка релевантности представляет собой комбинацию алгоритма ранжирования индекса, действующего на этапах ранжирования индекса, и других модификаторов релевантности, таких как выражения ранжирования запросов (QRE) и функции ранжирования запросов.

Члены встроенных групп Администраторы и Менеджеры релевантности могут изменять относительный вес некоторых факторов ранжирования индекса, добавляя правила ранжирования конвейера запросов.

Примечание

Вы можете проверить оценку элементов с помощью панели отладки (см. Использование панели отладки поиска JavaScript).

Избранные и рекомендованные ART результаты

Из-за своей природы избранные результаты всегда должны отображаться в верхней части списка результатов, а результаты Coveo Machine Learning (Coveo ML), рекомендованные ART, в первых десяти результатах.
Повышение оценки релевантности выше для рекомендуемых результатов, чем для результатов, рекомендованных ART.
Однако на оба типа результатов могут влиять другие факторы ранжирования (например, другие правила компонентов конвейера запросов, такие как выражения ранжирования запросов).

Фазы ранжирования индекса

Механизм процесса ранжирования можно сравнить с воронкой.
Начиная со всех элементов, индекс получает запрос от пользователя, изолирует элементы, в которых удостоверение пользователя можно найти в группах разрешений (см. Группы и предоставленные идентификаторы безопасности, наборы разрешений и уровни разрешений), а затем сохраняет только элементы. которые соответствуют запросу.

Процесс ранжирования разделен на четыре этапа, каждый из которых работает с элементами, отсортированными на предыдущем этапе.

На этих этапах Coveo изначально использует 17 предварительно настроенных весовых коэффициентов ранжирования.
Среди наиболее важных критериев, оказывающих наибольшее влияние на релевантность, являются близость терминов, дата изменения элемента (самая последняя) и частота терминов.
Каждый из этих 17 критериев был оптимизирован благодаря многолетнему опыту работы с широким спектром проиндексированного контента, чтобы в большинстве случаев определять очень удовлетворительные стандартные оценки релевантности элементов.
При необходимости вы все равно можете тщательно настроить эти параметры (см. раздел Управление весовыми коэффициентами ранжирования конвейера запросов).
Вы также можете устранить неполадки ранжирования, когда оценка фактора кажется слишком высокой или слишком низкой, используя панель отладки поиска JavaScript.

Хотя вы можете использовать несколько параметров для настройки механизма ранжирования индекса, вы должны вносить изменения осторожно, чтобы предотвратить снижение производительности или побочные эффекты ранжирования.
Мы рекомендуем вам обратиться в службу поддержки Coveo, чтобы получить рекомендации по устранению проблем с ранжированием индекса.

Этап 1: взвешивание терминов

На первом этапе баллы присваиваются элементам на основе каждого термина пользовательского запроса.
Семь факторов используются для ранжирования проиндексированных элементов, на доступ к которым у пользователя есть права доступа и соответствия запросу.
Эти факторы охватывают такие области, как расположение терминов запроса в этих элементах (в заголовке, сводке, концепциях и т. д.) и язык элемента (на том же языке, что и пользовательский запрос, или нет).
После составления рейтинга сохраняются 50 000 элементов с наивысшим баллом.

В дополнение к этим факторам ранжирования на этом этапе учитываются выражения ранжирования запроса (QRE), которые представляют собой настраиваемые выражения, используемые для изменения оценки ранжирования на указанную величину, когда элементы соответствуют определенным условиям.

Примечания

  • Член организации Coveo с необходимыми привилегиями может точно настроить важность каждого из факторов, но это следует делать с осторожностью, поскольку это влияет на все результаты во всех поисковых интерфейсах (см. раздел «Управление правилами весов при ранжировании»).

  • Для каждого элемента оценка, присвоенная каждому фактору, показана в разделе Веса терминов (см. Использование панели отладки поиска JavaScript).

Этап 2: Взвешивание товаров

На втором этапе баллы присваиваются товарам на основе их свежести (даты последней модификации) и качества.
На этом этапе, который выполняется для первых 50 000 элементов с наивысшими рейтинговыми оценками, полученными на первом этапе, используются шесть факторов ранжирования, которые охватывают такие области, как исходный рейтинг (репутация от низшего к высшему), для дальнейшей корректировки показателя релевантности этих 50 000 элементов. .

После ранжирования сохраняются 200 элементов с наивысшим баллом, и для этих элементов выполняются следующие три этапа ранжирования индекса.

Примечания

  • Член организации Coveo с необходимыми привилегиями может точно настроить важность каждого из факторов, но это следует делать с осторожностью, поскольку это влияет на все результаты во всех поисковых интерфейсах (см. раздел «Управление правилами весов при ранжировании»).

  • Эта фаза включает в себя загрузку информации о конкретном элементе, например, если элементы были недавно изменены.

  • Для каждого элемента оценка, присвоенная каждому фактору, показана в разделе Вес документа (см. Использование панели отладки поиска JavaScript).

Этап 3: Частота терминов — обратная частота элементов (TF-IDF)

Целью третьего этапа является взвешивание запрошенных терминов с учетом их количества вхождений в элементах.
Механизм ранжирования оценивает важность термина запроса для элемента на основе количества вхождений этого термина в элементе, а также обратно пропорционально количеству вхождений термина в индексе (TF-IDF).
Чем чаще термин встречается в указателе, тем менее информативным он становится, так как значение и смысл в определенной степени размываются.

Пример

Распространенный термин, такой как продукт , стоит меньше, чем редкий, такой как iPhone .

В соответствии с этой методологией каждый из 200 элементов, возвращенных на третьем этапе, получает дополнительный балл, после чего их ранги корректируются соответствующим образом.

Примечания

  • Для каждого элемента оценка, присвоенная Частоте , Корреляции и TF-IDF для каждого запрошенного термина, показана под Веса терминов (см. Использование панели отладки поиска JavaScript).

  • Индекс сводит к минимуму возможные ошибки определения происхождения (из фазы 1) путем вычисления коэффициента корреляции между искомым термином и всеми возможными расширениями.
    В результатах поиска элементы, содержащие высококоррелированные расширения, ранжируются выше, чем элементы, содержащие плохо коррелированные расширения.

    Например, когда вы ищете юниверс , из-за того, как работает алгоритм определения корней, индекс расширяет ваш запрос, используя термины из univer основные классы, которые могут включать университет.
    Если термины «вселенная» и «университет» редко встречаются в проиндексированных элементах, элементы, содержащие университет, ранжируются ниже.

Фаза 4: ранжирование смежности

На последней фазе вычисляется близость терминов запроса, придавая больший вес элементам, термины которых расположены близко друг к другу в тексте.
Этот шаг точно настраивает порядок элементов, полученных на этапе 3, и, как только изменение порядка выполнено, элементы возвращаются в интерфейсе поиска пользователю в качестве ответа на отправленный запрос.

Примечания

  • Близость терминов не применяется к запросам с одним термином.
    Индекс динамически определяет числовые термины, которые он использует, и это число может варьироваться от 200 до 500.

  • Для каждого элемента, когда информация о ранжировании включена, оценка, присвоенная Смежности , отображается в разделе Веса документа (см. Использование панели отладки поиска JavaScript).

  • Значение docID используется для разрыва связей (если они есть) и обеспечения соблюдения того же порядка результатов, если тот же запрос будет выполняться в будущем.
    элементы с одинаковой оценкой ранжирования сортируются в порядке убывания значений docID .

  • По умолчанию в интерфейсе поиска на странице отображается десять результатов, что означает, что после десятой страницы результаты не обрабатывались на последних трех этапах.

Вот как ранжирование связано с релевантностью.
Однако процесс ранжирования не ограничивается этими этапами.
Coveo имеет множество функций, которые помогут удовлетворить ваши потребности.
Функции, которые вы можете использовать, чтобы персонализировать или настроить способ ранжирования ваших товаров.
Модели машинного обучения Coveo и конвейеры запросов входят в число других функций, влияющих на релевантность или результаты поиска (см. Машинное обучение Coveo и Что такое конвейер запросов?).

Предварительно настроенные весовые коэффициенты ранжирования

В следующей таблице указаны все факторы ранжирования, учитываемые по умолчанию системой ранжирования Coveo на каждом этапе процесса ранжирования:

Фаза Фактор ранжирования
(Ярлык на панели отладки)
Описание

1

Термин в названии (Заголовок) [1]

Наличие запрашиваемых ключевых слов в названии элемента.

Термин в понятиях (Concept) [1]

Наличие запрошенных ключевых слов в автоматически заполняемом поле @concepts элемента.

Итоговый термин (Summary) [1]

Наличие запрашиваемых ключевых слов в сводке элемента.

Термины в адресе (URI) [2]

Наличие запрошенных ключевых слов в URI элемента.

Термин имеет форматирование (Formatted) [2]

Форматируются ли запрошенные ключевые слова в элементе (например, уровень заголовка, полужирный, большой и т. д.).

Корпус терминальный (Кожух) [2]

Указывает, имеют ли запрошенные ключевые слова особый регистр в элементе.

Соотношение терминов внутри классов корней (Relation) [2]

Наличие слов с тем же корнем, что и запрашиваемые ключевые слова в элементе.

Например, если пользователь ищет программист , Coveo выполняет расширение основы и ищет в индексе элементы, соответствующие программист , программисты , программа , программирование и т. д.

Поскольку программистов тесно связаны с исходным запросом, элементы, соответствующие программистов получат более высокий балл, чем те, кто соответствует программированию по этому фактору ранжирования.

Элемент на языке пользователя (QRE) [2]

Находится ли элемент на языке интерфейса поиска, из которого исходит запрос.

2

Элемент недавно изменен (Дата) [1]

Дата последнего изменения позиции. Элементы с самой последней датой изменения получают более высокий рейтинг.

Оценка качества товара (Качество) [2]

Близость элемента к корню индексируемой системы.

Оценка источника (Источник) [2]

Рейтинг источника, в котором находится элемент.

Пользовательский вес рейтинга (Пользовательский) [2]

Пользовательский вес, назначенный через расширение конвейера индексирования (IPE) для элемента.

3

Частота термина – обратная частота документа (TF-IDF) [1]

Количество раз, когда запрошенное ключевое слово появляется в данном элементе, компенсированное количеством элементов в индексе, содержащих это ключевое слово (см. TF-IDF).

4

Близость терминов (Adjacency) [1]

Близость запрашиваемых ключевых слов друг к другу в элементе.

Примечание

Относительную важность каждого из критериев ранжирования трудно установить, поскольку оценка каждого критерия зависит от многих факторов, таких как количество терминов в запросе, тип индексируемых источников, отдельные термины в запросе и количество элементов в индексе.

Пример ранжирования

Вы выполняете запрос Стиральная машина на веб-сайте вашего устройства, и возвращаются два результата.
Чтобы узнать, почему результаты расположены именно в таком порядке, вы проверяете их показатель релевантности на панели «Отладка».

Сначала взгляните на рейтинг индекса.
Первый результат ( Стиральная машина KleanKlothes ) имеет Стиральная машина и Машина в своем названии и содержит несколько вхождений стиральная машина в своем содержании.
Таким образом, индекс устанавливает результат в 5000 баллов.
Второй результат ( EZLaundry Machine ) содержит только Machine в названии, поэтому индекс дает результату 3000 баллов.

Затем вы анализируете, как функция Coveo ML ART повлияла на ранжирование.
С EZLaundry Machine нажимается чаще, чем Стиральная машина KleanKlothes , и что пользователи обычно не возвращаются на страницу поиска, чтобы выполнить другой запрос после просмотра страницы продукта, модель ART добавляет 2500 к баллу EZLaundry Machine .

На данный момент оценка за Стиральная машина KleanKlothes составляет 5000 и 5500 за EZLaundry Machine .

Наконец, вы помните, что у вашей маркетинговой команды был стимул продвигать Стиральная машина KleanKlothes .
Команда создала выражение ранжирования запроса, которое добавляет 1000 баллов, повышая оценку стиральной машины KleanKlothes до 6000, что выше, чем у EZLaundry Machine (5500).