Elasticsearch: обучение от кликов (ранжирование результатов поиска). Ранжирование результатов поиска


12 Ранжирование результатов поиска

Ранжирование результатов поиска - очень важный этап, качество которого определяет удовлетворенность клиента результатами поиска. Современные индексные поисковые системы работают с миллиардами Web-документов, и потому отчеты о результатах поиска часто содержат сотни тысяч адресов. Чаще пользователю достаточно около десяти ссылок, но на наилучшие информационные ресурсы.

На этапе ранжирования поисковая система старается по своим алгоритмам определить ценность каждого из найденных ресурсов и упорядочить их таким образом, чтобы наиболее ценные (с точки зрения системы) располагались в начале списка. Для этого каждому ресурсу дается некоторая условная оценка. При ее подсчете отдельным Web-ресурсам могут начисляться призовые баллы, а некоторым - штрафные.

13 В процессе поиска информации в сети Интернет важными есть две составляющие: полнота поиска (то есть старания не пропустить какую-то важную информацию) и точность (то есть отсутствие в результатах поиска лишней информации). Обе эти составляющие называют общим словом релевантность, которая предусматривает максимальное содержательное соответствие результатов поиска указанному запросу. То есть релевантность - это адекватность ответа вопросу.

15 Команды простого поиска

1. Поиск группы слов. При работе с любой поисковой системой следует выяснить, как она воспринимает группу слов в запросе, например, выдающиеся физики, то есть ищут документы, в которых оба слова встречаются одновременно. Так же работает поисковая системе Google. Но большинство англоязычных поисковых систем воспринимают группу слов таким образом, будто между ними стоит союз ИЛИ и ищут документы, которые содержат или первое, или второе слово, или оба слова вместе. Количество слов в группе не ограничивается.

2. Поиск словоформ. В связи с тем, что в украинском и русском языках слова изменяются по падежам, важным свойством поисковой системы есть поиск словоформ. В большинстве случаев поисковые системы разрешают находить разные словоформы, например, предыдущий запрос на поиск выдающиеся физики равносилен запросу выдающийся физика.

3. Роль больших букв. Общее правило для большинства поисковых систем состоит в том, что большие буквы в начале слова воспринимаются как дополнительное условие, которое ограничивает область поиска. Например, по запросу Лига Чемпионов будут найденные лишь те документы, которые содержат слова Лига Чемпионов. Тем не менее поиск по запросу лига чемпионов возвратит документы, в которых есть слова Лига чемпионов, лига Чемпионов, Лига Чемпионов, лига чемпионов.

4. Поиск однокорневых слов. Большинство поисковых систем находит документы, которые содержат слова однокорневые с ключевыми. Например, поиск по запросу модел возвратит документы, в которых есть слова модель, моделей, модельный, моделизм, моделирует, моделирование.

5. Средства контекстного поиска. Если ключевые слова заключить в кавычки, например "To be or not to be", "Слово о полку Игоревом", то поисковая система должна найти документы, в которых данная фраза присутствующая буквально, то есть именно так, как она записана. Для поиска фразы с абсолютно точным совпадением поисковой системе недостаточно индексного файла, и она обращается к копиям прежде сохраненных в своей базе Web-страничек.

6. Искать в найденном. Если в результате поиска было найдено слишком много документов и пользователь имеет желание сократить такой список, то для этого используется услуга "Искать в найденном", которую предоставляют поисковые системы на пульте управления поиском. Например, запрос электронная библиотека можно уточнить запросом фантастика.

studfiles.net

Факторы, влияющие на ранжирование результатов поиска в поисковых машинах

Факторы, влияющие на ранжирование результатов поиска в поисковых машинах

Поисковая машина выстраивает сайты в результатах поиска в соответствии с их релевантностью введенному запросу, то есть по соответствию сайта некоему «эталону», который она должна показать пользователю в ответ на его запрос. Анализ соответствия проводится по множеству параметров, каждый из которых влияет на общий результат и имеет свой собственный вес. Набор этих параметров и их весов называется «формулой релевантности» и является одной из самых охраняемых тайн поисковых машин. Более того, формула релевантности постоянно меняется, для того чтобы улучшить результаты поиска, нейтрализовать усилия оптимизаторов, попробовать новые сочетания. Каждая поисковая машина имеет свою собственную формулу релевантности, и поэтому оптимизировать сайт приходиться под каждую поисковую машину отдельно.

Несмотря на то что формула релевантности – это тщательно охраняемый секрет поисковых машин, все компоненты этой формулы хорошо известны, собственно поисковые машины скрывают лишь веса каждой составляющей формулы. Поэтому оптимизаторы постоянно экспериментируют в попытках отыскать тот самый «рецепт живой воды», немного изменяя различные факторы и отслеживая результат.

ВСЕГО НА ОПТИМИЗАЦИЮ ВЛИЯЮТ ТРИ ГРУППЫ ФАКТОРОВ.

1. СОДЕРЖАНИЕ. Для того чтобы поисковая машина нашла по заданному ключевому слову страницу сайта, в тексте страницы сайта обязательно должны содержаться эти ключевые слова. Понятно, что если на сайте нет словосочетания «интернет-маркетинг», или «колючий ежик», или «автомобильный холодильник», то поисковая машина вряд ли поместит такой сайт в результаты поиска по указанным словам. Следовательно, на сайте обязательно должны встречаться ключевые слова.

Только упоминания ключевых слов на сайте недостаточно. Необходимо, чтобы ключевые слова встречались на сайте часто, причем в разных вариантах, в разных словосочетаниях, разных формах. Это называется частотность и вариативность Логика поисковой системы создана людьми, и она похожа на человеческую. Поэтому если в тексте часто встречается слово, например, «ежик колючий», причем в разных падежах и словосочетаниях, то поисковой машине «становится понятно», что этот текст о ежиках, причем в первую очередь о колючих ежиках.

В то же время ключевые слова не должны встречаться слишком часто, так как в этом случае поисковая машина блокирует страницу или сайт целиком. Дело в том, что «набивка», то есть наполнение страницы сайта бесчисленным количеством одинаковых словосочетаний – один из самых старых методов оптимизации, считающийся поисковыми машинами «нечестным» (вспомним про одностороннюю установку правил). В общем, это верная логика, существует лишь небольшое число текстов, в которых использование ключевых слов чаще, чем 5 % от общего количества всех слов в тексте, является нормальным, например упражнения по русскому языку.

Конечно же, при анализе текстов поисковыми машинами учитывается длина текста. Если содержание страницы – это фотография или схема, над которой написано название из трех слов, то эта страница не будет заблокирована[1]. Нужно понимать, что поисковые машины развиваются давно, они прошли в своем развитии несколько стадий, в том числе и стадию борьбы с поисковым спамом. Поэтому механизмы борьбы с ним хорошо отстроены.

Ключевые слова, встречающиеся близко к началу страницы (к началу текста на странице), имеют больший вес, чем те, что в конце. Поэтому еще один важный фактор это группы – близость к началу страницы.

Но одной частоты упоминаний недостаточно, важно, чтобы ключевое слово встречалось на странице чаще других слов. Это называется концентрация, которая приводит нас к простому правилу – одна страница может быть оптимизирована под одно ключевое слово или под одну цепочку ключевых слов (то есть по словам «ежик», «ежик колючий», «ежик колючий сезонный», «ежик неколючий», «линька ежиков».). В свою очередь, это правило имеет одно простое и очень четкое следствие – чем больше контента, тем больше переходов из поисковиков.

2. ОФОРМЛЕНИЕ. Еще раз вспомним о том, что поисковые машины создавали люди и вложили в них свою логику. Поэтому понятно, что если ключевое слово каким-то образом выделено на странице, то этому слову на странице уделяется особенное внимание, а страница посвящена предмету или понятию, которое обозначает выделенное слово. Следовательно, после того как мы составили страницу, на которой ключевое выражение встречается достаточное количество раз и в разных вариантах, необходимо его выделить. Для этого существует немало способов.

• Название страницы. Пишется на строке заголовка браузера. Это название указывается между тегами title в коде страницы. В общем случае в названии страницы должна быть конструкция следующего вида: «название страницы, название раздела, название сайта». Заголовок первого уровня имеет, конечно, наибольший вес, однако при подсчете релевантности учитываются все заголовки. Все заголовки страниц на сайте должны быть разными.

• Заголовок текста. Важно помнить, что поисковые машины не умеют «читать» в нашем понимании, поэтому они разбирают только стандартные заголовки. В HTML это теги h2, h3, h4 … H7, поэтому необходимо определять заголовки именно этими тегами, после чего задавать им нужный вид в каскадной таблице стилей – CSS.

• Курсив, полужирное начертание. Курсивом или полужирным начертанием выделяются обычно названия статей в энциклопедиях или словарях, и поисковые машины традиционно уделяют им большое внимание. Необходимо, как и везде, следить, чтобы все выделения делались способами, описанными в стандартах HTML. Если вы хотите, чтобы на самом деле текст выглядел иначе, используйте CSS.

• Названия картинок. Тоже должны включать в себя ключевые слова. Поисковые машины обязательно учитывают подписи к рисункам. Кроме того, почти все поисковые машины имеют сегодня поиск по картинкам. Он не пользуется большой популярностью, но даже и те 10 % поискового трафика, которые он собирает, – это большая величина, за которую стоит побороться, тем более что конкуренция там меньше. Попасть в поиск по картинкам можно только при помощи подписей к картинкам, сделанных в теге Alt.

• Адрес страницы. Этот фактор используется не часто, однако некоторые поисковые машины также принимают его во внимание, особенно для англоязычных запросов. Поэтому полезно иметь в названии сайта и в названии разделов наиболее важные ключевые слова.

• Мета-теги. Это специальные контейнеры в заголовке страницы, изначально созданные для поисковых машин, сегодня используются мало, поскольку в мета-контейнеры стали писать все что угодно, но только не правильные ключевые слова для данной страницы. Информация, записанная в два контейнера: <meta name=«keywords» content="«>, <meta name=„description“ content=»">, – по-прежнему иногда учитывается поисковыми машинами, правда, с очень низким весом.

3. ОКРУЖЕНИЕ. В 2002 г. активность оптимизаторов приняла формы, опасные для поисковых машин. Оптимизация сайтов проводилась автоматически при помощи скриптов, страницы оптимизировались сотнями тысяч и даже миллионами по любым словам, не обязательно ключевым для рекламируемого сайта. В итоге базы данных поисковых машин стали представлять собой чудовищную помойку, а качество поиска все ухудшалось и ухудшалось. Поисковые машины и вообще модель навигации через поиск в Интернете были на грани краха.

На самом деле я немного преувеличиваю, и реальное положение вещей было не столь удручающим, но вот качество поиска в начале 2000-х гг. действительно было очень низким – поисковые машины не справлялись с огромным объемом спама, которым их захламляли оптимизаторы.

Именно в этот момент родилась идея о необходимости использовать в технологии ранжирования какие-то дополнительные параметры, не зависящие или мало зависящие от владельца сайта и вообще внешние по отношению к сайту. Экспериментов в этот момент проводилось довольно много, но самый известный и наилучшим образом зарекомендовавший себя метод – Page Rank, придуманный одним из создателей Google Лари Пэйджем. Суть его в том, что поисковая машина учитывает количество ссылок на сайт и при прочих равных отдает предпочтение тому сайту и той странице, на которую другие сайты ссылаются больше.

С момента изобретения алгоритм претерпел значительные изменения, разветвился и сейчас используется множеством других поисковых машин, а не только Google, в то время как другие механизмы практически не прижились. Например, Rambler в качестве инструмента ранжирования использовал данные собственного счетчика, считая, что из двух сайтов более посещаемый является более релевантным. Еще одним довольно новым, но еще мало распространенным вариантом является механизм меток – один из вариантов социального поиска, когда пользователи поисковой машины размечают результаты поиска вручную. Эти, а также другие пока неудачные эксперименты когда-нибудь снова могут оказаться «в строю» в новом исполнении, но пока Page Rank – основной инструмент оценки окружения сайта поисковой машиной.

На сегодняшний момент механизм Page Rank ранжирует сайты по количеству ссылок на них с других сайтов с учетом количества ссылок на сайты, с которых ведут ссылки. Для этого каждому известному поисковой машине сайту присвоен ранг, который зависит от числа и ранга ссьшающихся на него сайтов. Говоря иными словами, одна ссылка с Yahoo стоит существенно больше, чем несколько тысяч ссылок с сайтов-однодневок.

Поисковая система Яндекс использует очень похожий механизм учета ссылок в русскоязычном Интернете, который называется «индекс цитирования». У этого механизма есть свои особенности, однако общая схема выглядит примерно так же. Практически все современные поисковые системы так или иначе используют механизм ранжирования по внешним ссылкам.

Еще одним очень важным инструментом этой же группы факторов являются ссылки на сайт с ключевых слов. То есть ключевое слово является ссылкой на оптимизируемый сайт, например, на каком-либо сайте ставится фраза «все о колючих ежиках», где слова «колючий ежик» являются ссылкой на сайт о них. Влияние этого фактора очень велико для всех поисковых машин, например, при поиске по словосочетанию «вор должен сидеть в тюрьме» в месяц «оранжевой революции» на Украине на первом месте появлялся избирательный сайт Януковича, на котором, конечно, нет таких слов. Добились этого многочисленные поклонники Ющенко – они поставили ссылки с соответствующих слов на сайт Януковича. Другой пример – это третье (а иногда и первое) место сайта Microsoft в результатах поиска по слову «геморрой за свои деньги». Приведенные примеры довольно быстро исчезают: некоторые – за счет действия оптимизаторов, другие снимаются администрацией поисковой машины, поэтому когда вы будете читать этот текст, то, увы, они уже не будут работать.

Приведенные примеры стали возможны именно благодаря расстановке ссылок на большом количестве сайтов, где ссылка идет с ключевых слов запроса. При этом слова даже не обязательно должны присутствовать на оптимизируемом сайте, хотя, безусловно, в условиях сильной конкуренции одного ссылочного ранжирования будет недостаточно.

Еще один «внешний» фактор – присутствие ссылки на сайт в принадлежащем поисковой системе каталоге или рейтинге. Это дает иногда некоторое преимущество перед остальными в результатах поиска. Одно время у Яндекса сайты, зарегистрированные в каталоге, ставились первыми ссылками в результатах поиска, такая же ситуация была у Rambler. Если регистрация в каком-то определенном месте или использование определенного набора услуг увеличивает шансы подняться наверх результатов поиска, то обычно это указывается на сайте поисковой машины в инструкциях для веб-мастеров. На сегодняшний момент поисковые машины совсем или почти не учитывают наличие сайта в собственных каталогах.

Для оптимизации следует использовать все допустимые возможности, однако необходимо понимать, что факторы первой и третьей групп на сегодняшний день оказывают наибольшее влияние на результат работы специалиста. Иными словами, современная оптимизация – это наращивание объема контента и непрерывная покупка ссылок. Но помните: в силу односторонней игры с правилами никак нельзя гарантировать, что положение вещей сохранится сколько-нибудь длительное время, поэтому вы должны уметь применять все методы.

Поделитесь на страничке

Следующая глава >

it.wikireading.ru

Ранжирование результатов | ITstan.ru

Наиболее важными, являются два умения поисковой системы: способность понимать запросы, составленные на разных языках (для нас - на русском), и мощное ранжирование результатов. Наличие ранжирования очень важно, т.к. запрос обычно вводится с логикой ИЛИ, что сильно увеличивает количество возвращаемых поисковой машиной документов. Поэтому без ранжирования всякий поиск теряет смысл. Наилучшие результаты дает ранжирование по схеме:

точное соответствие - все слова запроса - все слова, кроме последнего, -- все слова, кроме двух последних, - ... - все слова, кроме n последних, - первое слово (плюс, разумеется, ранжирование по количеству терминов в тексте) .

Алгоритм может быть и более мощным, но даже при такой последовательности можно быть уверенным, что, сколько бы документов найдено ни было, наиболее удачные окажутся впереди.

Наилучшие результаты в поиске по предлагаемому методу продемонстрировала система AltaVista, т.к. этот метод наиболее подходящий для нее. На других поисковых системах картина сложилась более пестрая. Одни справились не хуже AltaVista, другие не справились вовсе. Неудача говорит не о несовершенстве той или иной поисковой системы или метода, а лишь о неприменимости выбранного метода поиска для данной поисковой машины.

Самостоятельное применение пользователем для решения той или иной задачи любого осмысленного метода требует от системы отсутствия в ней излишней опеки. Чрезмерное увлечение морфологической обработкой слов может лишить поиск гибкости. Безусловно, для пользователя удобнее ввести в поле запроса фразу на естественном языке и получить список документов, которые (по мнению поисковой машины) этому запросу удовлетворяют. Такой поиск дает неплохой результат в среднем, однако любое отклонение в сторону от утвержденной схемы может резко снизить эффективность поиска.

Поиск по вышеописанной методике на русскоязычных серверах показал, что:

  • для системы "Апорт!" выбранная методика оказалась полностью чужда.

  • Rambler представил хорошие результаты только после того, как логика запроса была изменена на И. На первой странице все документы, как для русского, так и английского поиска, оказались полностью релевантными. Логика И неизбежно ведет к потере весомой части релевантных документов.

  • Яndex отлично справился с поиском на английском языке -- стопроцентная релевантность на первой странице для англоязычного запроса. Однако русский запрос был обработан заметно слабее.

Изучение отклика российских поисковых систем привело к выводу: морфологическая обработка не всегда увеличивает число релевантных документов! Это утверждение не бесспорно, т.к. относится к данной методике. Для других методик поиска морфологический анализ может оказаться незаменимым; в выше описанной он явно лишний. Поэтому так хорошо справилась с задачей AltaVista -- в ней даже английский текст морфологически не обрабатывается. Все слова для нее, за редким исключением (имеется в виду стоп-лист, но он создается только для англоязычных и близких к ним текстов), лишь последовательность символов.

Предлагаемая методика поиска информации в сети Интернет хорошо подходит для исчерпывающего обзорного поиска. Обзорный поиск незаменим, когда нужно найти как можно больше документов на заданную тему. Анализ текста-источника вручную -- весьма трудоемкое и скучное занятие. Чтобы облегчить его, можно использовать апплет (www.shipbottle.ru/ir/), реализующий вышеописанный метод.

itstan.ru

java - Elasticsearch: обучение от кликов (ранжирование результатов поиска)

В области информационного поиска (общая научная область поиска и рекомендаций) это более широко известно как Learning to Rank. Независимо от того, являются ли его клики, конверсии или другие формы суждения о том, что такое "хороший" или "плохой" результат для поиска по ключевым словам, обучение ранжированию использует либо классификатор, либо процесс регрессии, чтобы узнать, какие функции запроса и документа коррелируют с релевантностью.

Щелчки?

Для конкретных кликов есть причины скептически относиться к тому, что оптимизация кликов идеальна. Там документ от Microsoft Research Я пытаюсь выкопать это утверждение, что в их случае клики только на 45% коррелируют с релевантностью. Click + live часто является более полезным универсальным показателем релевантности.

Кроме того, существует риск самоподкрепляющего уклона в поиске, поскольку я говорю о в этой статье в блоге. Там есть вероятность, что если вы уже показываете пользовательские посредственные результаты, и они продолжают нажимать на эти посредственные результаты, вы в конечном итоге подкрепляете поиск, чтобы показывать пользователям посредственные результаты.

Помимо кликов часто возникают специфические для домена соображения для того, что вы должны измерить. Например, классово в электронной коммерции, переходы имеют значение. Возможно, нажатие на результат поиска, которое привело к такой покупке, должно засчитываться больше. Netflix классно пытается понять, что это значит, когда вы смотрите фильм в течение 5 минут и возвращаетесь в меню через 30 минут и выходите. Некоторые варианты использования информации являются информационными: нажатие может означать что-то другое, когда вы исследуете и щелкаете много результатов поиска, а также когда вы покупаете один предмет.

Так жаль, что это не серебряная пуля. Я слышал о многих успешных и безуспешных попытках сделать Learning to Rank, и это в основном сводится к тому, насколько вы успешны в измерении того, что ваши пользователи считают релевантными. Трудность этой проблемы удивляет многих peop.le

Для поиска эластиков...

Для Elasticsearch, в частности, этот плагин (отказ от ответственности я автор). Это описанное здесь. После того, как вы выяснили, как "оценивать" документ для конкретного запроса (будь то его клики или что-то еще), вы можете обучить модель, которая затем может быть загружена в Elasticsearch через этот плагин для вашего рейтинга.

qaru.site

Ранжирование (поисковые системы) Википедия

Ранжи́рование — сортировка сайтов в поисковой выдаче, применяемая в поисковых системах. Существует множество факторов для ранжирования, среди которых можно отметить рейтинг сайта, количество и качество внешних ссылок, релевантность текста к поисковому запросу, на основании которых поисковая система формирует список сайтов в поисковой выдаче. Алгоритм ранжирования того или иного поисковика меняется в процессе его функционирования[1].

Основные задачи[ | код]

Алгоритмы ранжирования сайтов поисковыми системами изменяются в процессе эволюции интернета. Веб-редактору было достаточно указать в метатегах сайта его тематику, описание и ключевые слова, чтобы поисковая машина посчитала этот сайт соответствующим заданной тематике и начала высоко ранжировать его по указанным ключевым словам. Со временем количество интернет-сайтов росло, а оптимизаторы с целью привлечения на сайт большего количества посетителей начали прописывать в метатегах несоответствующие тематике популярные ключевые слова. Тогда поисковые системы стали изменять алгоритмы ранжирования, учитывая и содержимое сайта, и его авторитетность, и другие факторы ранжирования[2].

Основными задачами, стоящими перед поисковыми системами, остаются выдача пользователям конкретных ответов на поставленные вопросы и определение сайтов с наилучшей выдачей ответов. Построение оптимальной последовательности применения тех или иных инструментов на каждом шаге поиска и предопределяет его эффективность[3].

Механизмы ранжирования[ | код]

Один из механизмов ранжирования — ссылочное ранжирование, фактически представляет собой перенос механизма подсчёта индекса цитируемости из мира научных публикаций во Всемирную паутину[4] (индекс цитирования веб-сайтов). Этот вид ранжирования используется всеми крупными поисковыми системами[5], при этом каждая из которых проводит сортировку по своим принципам, при этом расположение сайтов будет отличаться в зависимости от поисковика.

Внешние факторы[ | код]

Внешние факторы ранжирования — факторы, оценивающие взаимодействие ресурса с внешней средой интернета. Улучшение позиций сайта по следующим критериям является главной целью поисковой оптимизации.

Цитируемость — количество ссылок с других ресурсов, ведущих на страницы, содержащие искомую фразу: простое размещение ссылок на других ресурсах и размещение в каталогах (Яндекс.Каталог, Каталог@Mail.ru). При высоком качестве контента и показателях посещаемости данный фактор может прогнозировать быстрый естественный прирост.

Также включаются поведенческие факторы, оценивающие поведение пользователя на странице и в выдаче поисковых систем, когда он делает выбор между сайтами в поиске. В этом случае ранжирование формируется, исходя из полезности сайта пользователям. Примером счётчика, основанного на поведении пользователей, является Google Analytics.

К поведенческим факторам относятся:

Социальные факторы — отражение пользовательского интереса пользователя к ресурсу. К ним относится фактор влияния на сайт социальных сетей. Активность и регулярность выхода качественного контента, а также большое количество лайков, комментариев и репостов дает знак поисковым системам, что данный ресурс полезен, актуален и релевантен для аудитории.

Внутренние факторы ранжирования

ru-wiki.ru

20 методов сортировки результатов поиска / Хабр

Задача поисковика — при выдаче результатов поиска обеспечить максимальное совпадение слов в поисковом запросе со словами, найденными на той или иной веб-странице или в тексте ссылок, ведущих на неё.

Ранжирование в результатах поиска по большей части зависит от индексирования текста на страницах сайтов, текста ссылок, ведущих на эти страницы, а также от степени важности сайта, вычисленной на основе количества ссылающихся страниц.

Однако перед тем, как быть показанными в результатах поиска, сайты могут быть переставлены в зависимости от того или иного фактора. Вот некоторые из них:

1. Фильтрация дублирующегося (или близкого к этому) контента

Поисковики не любят, чтобы страницы с одинаковым контентом переполняли результаты поиска, поэтому похожие страницы могут быть отфильтрованы.

2. Удаление из результатов поиска нескольких релевантных страниц с одного и того же сайта

Не так уж редко случается так, что релевантными поисковому запросу оказываются сразу несколько страниц одного сайта. В таком случае поисковик может показать ссылку на другую страницу с того же сайта сразу после ссылки на самую релевантную страницу либо просто выдаст дополнительно ссылку «Ещё результаты с этого сайта». Бывает, что дополнительные результаты вообще не отображаются.

3. Персональные интересы пользователя

Поисковик может перестраивать результаты поиска в зависимости от прошлых результатов и другой активности в интернете того или иного пользователя. Этот вид изменения ранжирования используется в так называемом «персонализированном поиске».

4. Взаимосвязанность сайтов

Поисковик может перестраивать сайты в зависимости от количества и качества ссылок между ними.

5. Сортировка в зависимости от дислокации пользователя

Вполне возможно, что пользователь предпочтёт увидеть в результатах поиска те сайты, которые расположены в его регионе проживания. Иногда пользователи сами включают опцию поиска сайтов только из определённой страны, иногда поисковик пытается самостоятельно определить дислокацию пользователя на основе его IP.

6. Язык запроса

Опции ограничения по языкам могут быть установлены пользователем в браузере либо через настройки поисковика; иногда поисковик сам выбирает язык результатов поиска в зависимости от поискового запроса, настроек либо характеристик результатов поиска.

7. Демографические характеристики

При использовании этого метода для ранжирования результатов поисковик может учитывать такие параметры, как дислокация, демографическая информация, информация о группах, к которым относится пользователь.

8. Хронологические данные

Сайты могут быть рассортированы в зависимости от времени создания и изменения страниц, возраста ссылок на них и многих других временнЫх параметров.

9. Тематическая схожесть

Учитываются заголовки, стоп-слова и другие связанные с текстом параметры.

10. Заинтересованность пользователя в коммерческой информации

К примеру, Yahoo! Mindset позволяет пользователю самостоятельно отсортировать результаты поиска в зависимости от того, хочет он видеть информацию коммерческого или более информативного, некоммерческого характера.

11. Наличие у сайта версии для мобильных устройств

Поиск от Microsoft может отфильтровать те сайты, которые не могут быть отображены на мобильных устройствах (например, КПК).

12. Доступность людям с ограниченными возможностями

Google не так давно запустил специализированный поиск, который ранжирует сайты в зависимости от их доступности людям с ограниченными возможностями.

13. Отношение пользователей

Google умеет сортировать страницы в зависимости от того, нравятся они пользователям или нет.

14. Дополнительные параметры поиска и схожесть текста

Google умеет ранжировать результаты поиска по новостям, основываясь на обработке и автоматическом добавлении дополнительных параметров к поисковому запросу, а также на схожести документов.

15. Поведение пользователя

16. Одобрение сообществом

Метод основывается на мнении социальных групп, пользователей социальных сетей и т.п.

17. Избыток информации

Отфильтровывается избыточная информация, засоряющая результаты поиска.

18. Новостные сюжеты

Методика от IBM позволяет преобразовывать результаты поиска в сюжеты новостей, которые будут раскрываться на сайтах, выдаваемых в результатах поиска.

19. Оценка актуальности на основе сообщений в блогах, новостях и т.п.

Результат поиска ставится в зависимость от того, куда именно ссылаются блоги и форумы в данный период времени. Приоритет получает сайт, имеющий наиболее актуальную на данный момент информацию.

20. Актуальность (временнОй фактор) и использование

Этот метод близок к сочетанию двух предыдущих. Он предполагает группировку понятий с учётом того, как они развивались во времени и как люди влияли на эти изменения.

Вывод

Помните, что результаты поиска, которые видите Вы, не всегда аналогичны тем, которые видят другие пользователи.

Конечно же, это не полный список методов изменения ранжирования сайтов в результатах поиска, но автор старался сделать его максимально представительным. Некоторые методы уже используются, некоторые находятся в стадии разработки, некоторые будут использованы в будущем, некоторые — никогда не будут реализованы.

Есть ли возможности убедиться, что Ваш сайт удерживает хорошие позиции, даже когда пользователям выдаются по-разному отсортированные результаты поиска? Сможете ли Вы проверить свои позиции при использовании поисковиками всех методов?!

habr.com

Введение в ранжирование результатов поиска Google / Блог компании Google / Хабр

Амит Сингал (Amit Singhal), руководитель команды ранжирования Google

О работе Группы качества поиска вы узнали из поста Уди Манбера. Мы обычно называем эту группу просто «Качество» (Quality). Она включает в себя команду базовой функциональности ранжирования (Core Ranking), команду международного поиска (International Search), команду пользовательских интерфейсов (User Interfaces), команду контроля качества (Evaluation), команду борьбы с интернет-спамом (Webspam) и другие. В этом посте я хочу рассказать вам о работе команды базовой функциональности ранжирования.

Вначале несколько слов о себе. Меня зовут Амит Сингал. Я руковожу группой ранжирования в компании Google. В области технологий поиска я работаю вот уже восемнадцать лет. Впервые я познакомился с поиском в 1990 г., когда писал диплом по информатике. В академической среде поиск называют «информационно-поисковыми технологиями», по-английски — Information Retrieval (IR). Проработав в области фундаментальных IR-исследований 10 лет, в 2000 году я устроился на работу в Google. С тех пор я занимаюсь технологиями ранжирования результатов поиска Google.

Ранжирование в Google — это набор алгоритмов, позволяющих найти именно те документы, которые наилучшим образом отвечают на запрос пользователя. Мы обрабатываем сотни миллионов запросов в день, обращаясь к базе, состоящей из многих миллиардов страниц. Наши алгоритмы применяются практически в каждом поисковом сервисе Google по отношению к любому запросу, вводимому пользователями. Хотя поиск в интернете – это наиболее широко используемый и самый известный поисковый сервис Google, те же самые алгоритмы ранжирования используются, в различных модификациях, и в других сервисах — Картинки, Новости, YouTube, Карты, Поиск по продуктам, Поиск по книгам и др.

Самый частый вопрос, который мне задают о ранжировании: «Как же вам это удается?». Конечно, создание такой передовой и современной системы ранжирования, как наша, включает в себя много различных аспектов. К примеру, технологические вопросы ранжирования я хотел бы подробнее обсудить в следующем посте. А сегодня я хочу рассказать вам о принципах, на которых строится ранжирование в Google. Если говорить коротко, эти принципы можно описать тремя фразами:

1) Наилучшее качество результатов поиска с учетом местной специфики в любой точке земного шара.

2) Все должно быть просто и ясно.

3) Никаких изменений вручную.

Первый принцип очевиден. При нашей страсти к развитию поиска мы делаем все возможное, чтобы на каждый свой запрос пользователь получал именно те результаты, которые ему нужны. Мы часто говорим, что ни один запрос не остается без внимания. Если результат запроса оказался неидеальным (ведь задача поиска, строго говоря, еще не решена до конца), то независимо от языка и страны происхождения запроса каждый такой случай является для нас источником вдохновения для дальнейшего развития технологий.

Второй принцип тоже достаточно очевиден. Разве не каждый системный архитектор стремится, чтобы его система оставалась как можно более простой? На самом деле, по мере развития поисковых систем мы сталкиваемся с таким многообразием пользовательских запросов на различных языках, что очень велика опасность все большего усложнения системы при добавлении каждого нового типа запросов. Мы очень стараемся, чтобы наша система оставалась простой без ущерба для качества результатов поиска. Эта задача чрезвычайно важна, и о ней ни на минуту нельзя забывать. Каждую неделю мы производим порядка 10 изменений в алгоритмах ранжирования, и при запуске каждого изменения мы очень большое внимание уделяем простоте. Наши разработчики точно знают, почему конкретная страница находится именно на этом месте в результатах поиска. Наличие простой системы, в которой легко разобраться, позволяет нам быстро внедрять инновации. Это значит, что принцип простоты сослужил нам очень хорошую службу.

Ни одно из обсуждений механизмов ранжирования Google не проходит без стандартного — но основанного на предубеждении! :) — вопроса: «А редактируют ли сотрудники Google результаты поиска вручную?». На этот вопрос отвечает наш третий основополагающий принцип: никаких изменений вручную! Наша точка зрения такова. Интернет создается людьми. Вы – те люди, которые создают страницы и ссылаются в них на другие страницы. А мы используем все это созданное человеческими руками богатство в наших алгоритмах. Когда наши алгоритмы окончательно упорядочивают результаты по запросу, они используют результаты деятельности всего интернет-сообщества, а не мнение отдельных сотрудников компании Google. Мы считаем, что субъективные суждения любого человека являются … субъективными, и информация, которую наши алгоритмы извлекли из огромного многообразия человеческого знания, заключенного в веб-страницах и ссылках, лучше любой человеческой субъективности.

Есть еще одна причина, почему мы принципиально против ручной корректировки результатов поиска. Если запрос выполняется неправильно – это лишний повод для нас улучшить алгоритм ранжирования. Доработка поискового алгоритма не просто улучшает результаты конкретного запроса, она приводит к повышению качества сразу для целого класса запросов, зачастую на всех языках. При всем при этом я должен добавить, что существует четко прописанная политика, определяющая, каким требованиям должны удовлетворять рекомендуемые Google сайты. Мы принимаем меры по отношению к тем сайтам, которые нарушают нашу политику, требования закона, распространяют детскую порнографию, вирусы, вредоносное программное обеспечение и т.д.

Буду рад, если вы ознакомитесь с моим следующим постом, в котором я подробно расскажу, какие технологии используются при ранжировании. На ряде примеров вы сможете увидеть, как работают различные методы упорядочивания результатов поиска. В заключение данного поста я хотел бы добавить, что наша страсть к развитию поисковых методов сильна как никогда. А это значит, что у меня, как исследователя в области информационного поиска, самая лучшая работа на Земле :-).Постоянная ссылка на оригинал

habr.com


Prostoy-Site | Все права защищены © 2018 | Карта сайта