Содержание
Формула ранжирования «Яндекса для коммерческих сайтов»
Мы увеличиваем посещаемость и позиции в выдаче. Вы получаете продажи и платите только за реальный результат, только за целевые переходы из поисковых систем
Заказывайте честное и прозрачное продвижение
Получи нашу книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».
Подпишись на рассылку и получи книгу в подарок!
Алгоритмы работы поисковиков похожи на дремучий лес, в котором проложена одна, но хорошо освещенная тропка. И дорогу видно, и куда она ведет известно, но никогда не знаешь, там ли повернул, кто смотрит на тебя из чащобы и не схватит ли тебя из кустов какой-нибудь «Минусинск». Поэтому сегодня говорим о формуле коммерческого ранжирования «Яндекса»: разбираемся, что о ней известно и выясняем, как она работает. Если не знаете, как работает самая популярная в России поисковая машина, читайте.
Что о ней известно?
Точного принципа коммерческого ранжирования «Яндекса» не знает никто, даже сами сотрудники компании. Это не потому, что она хранится в секретном бункере с полком охраны, а потому что люди уже давно ее не разрабатывают – за них это делает машина. Но это не значит, что об алгоритме неизвестно совсем ничего. Начнем с основ.
Что такое ранжирование и как устроена формула «Яндекса»?
Ранжирование – это упорядочивание страниц по наибольшему соответствию поисковому запросу. Поисковая машина анализирует все страницы с подходящим содержанием и расставляет по убыванию полезности для пользователя. Самые крутые, информативные, качественные и популярные сайты занимают первые строчки, а те, что чуть похуже, опускаются ниже.
Формула ранжирования «Яндекса» – это алгоритм, который определяет порядок страниц в поисковой выдаче. Он работает в полуавтоматическом режиме. Специальные сотрудники «Яндекса» (асессоры) выставляют оценки работе робота: если выдача по какому-то случайному запросу составлена грамотно, робот получает заслуженную «пятерку» и просит у мамы карманные деньги. Если не очень, делает работу над ошибками и пробует снова.
Алгоритм определяет порядок выдачи при помощи факторов – вручную заданных критериев оценки качества страницы. В формуле ранжирования поисковой системы «Яндекс» их около 800, причем никто, кроме самих работников «Яндекса», не видел полного перечня. SEO-специалисты знают много, но не все. Большинство второстепенных факторов вывести просто невозможно, потому что никто не может влезть в голову сотрудникам «яндексоидам».
Когда асессор ставит оценку сформированной роботом выдаче, последний пытается понять, почему оценка именно такая. Например, алгоритм не учел, что у какого-то сайта просто ужасно неудобная структура и вырвиглазный дизайн, но при прочих равных поставил его выше конкурентов. После нескольких повторений робот поймет ошибку и свяжет низкую оценку именно с этим фактором.
Формула ранжирования «Яндекса» постоянно меняется: перерассчитывает «вес» факторов и ценность уже имеющихся страниц на основе новой информации о поведении пользователей. Это необходимо, чтобы компенсировать постоянные изменения, происходящие в сети. Например, через год люди могут полюбить сайты со встроенными чатами и поисковая машина начнет ранжировать их выше. Не без помощи асессоров.
Формула ранжирования «Яндекса» огромна – это огромный массив данных и алгоритмов, написать который живой человек был бы не в состоянии. Она учитывает регион пользователя, текущую ситуацию с предпочтениями посетителей, качество ресурсов, их авторитетность, юзабилити и черт знает, что еще. Но никто не отчаивается, потому что некоторые подсказки о принципе ее работы дает сам «Яндекс». Например, с коммерческими сайтами все достаточно прозрачно. Поговорим о том, по какому принципу они ранжируются.
Формула коммерческого ранжирования «Яндекса»
В 2013 году «Яндекс» ввел новое понятие – коммерческая релевантность. Она отличается от «обычной» тематической тем, что оценивается в первую очередь полезность ресурса для потенциального покупателя. В общем случае ситуация с ранжированием продающих сайтов стандартная – в топ попадает самые полезные, удобные и релевантные страницы. Различия – в ключевых факторах. Внимание обращается на:
- Пользовательское доверие.
- Удобство использования.
- Качество ресурса.
- Сервис.
Понятно, что машина не всегда правильно оценивает качество сайта, потому что она не человек. С технической точки зрения все может быть логично и продумано, но на деле пользоваться сайтом будет тяжело. Чтобы помочь алгоритму разобраться, нужен человеческий взгляд. За него отвечают асессоры, о которых писалось выше. Они помогают системе научиться отличать плохие сайты от хороших самостоятельно.
Работа асессоров делится на два этапа: оценка тематической и коммерческой релевантности. Первый этап достаточно простой: сотрудник «Яндекса» присваивает странице конкретную оценку. Ресурсы бывают:
- Нерелевантными.
- Релевантными.
- Высокорелевантными.
- Полезными.
- Витальными.
Потом оценивается коммерческая релевантность. Витальные и полезные сайты из выборки исключаются, потому что у них и так все хорошо. Асессоры смотрят на:
- Количество и разнообразие товаров и услуг по конкретному поисковому запросу. Ассортимент может быть маленьким, стандартным или большим (это официальная шкала оценок). Критерии, по которым сайту присваивается одна из них покрыты тайной.
- Надежность и качество обслуживания. Здесь возможных оценки четыре: спам, стандарт, хорошо и отлично. «Стандартные» ресурсы держат среднюю температуру по больнице, «хорошие» предлагают чуть лучшее качество, а «отличные» выделяются на фоне и тех, и других. Со спамными все понятно – это фейковые страницы, на которых ничего нельзя купить.
- Юзабилити и дизайн. Возможных оценки три: плохо, хорошо и отлично.
В конечном итоге, все оценки асессоров трансформируются в доработки формулы коммерческого ранжирования «Яндекса» и она начинает видеть все промахи сама. Поэтому даже если сейчас вы в топе и думаете, что все в порядке, не факт, что так будет через полгода.
В общем виде формула коммерческой релевантности выглядит так:
Сделаем понятней:
Коммерческая релевантность = (Разнообразие и количество товаров) х (2х(надежность) + (дизайн) + (юзабилити) + 2х(качество сервиса).
По мнению «Яндекса», хороший коммерческий сайт предлагает много товаров, хорошо выглядит, надежен и удобен в использовании. При этом формула коммерческого ранжирования «Яндекса» очень чувствительна к надежности сайта и качеству сервиса – они умножаются на два. Это логично, потому что в интересах поисковика отвечать на запросы пользователей максимально точно.
Коммерческие факторы в формуле ранжирования «Яндекса»
Общая релевантность ресурса складывается из коммерческой и тематической. С последней все понятно – если контент соответствует запросу, то все хорошо. С первой сложнее – нужно, чтобы страница была оформлена по критериям качества самого «Яндекса». Это:
- Подробная информация о контактах. Все должно быть максимально полно: телефоны, e-mail, Skype, адрес, карта проезда, «как добраться», график работы. Если телефонов несколько – укажите все. Если у вас несколько филиалов или отделов, оформите их контакты отдельно.
- Ссылки на странички в социальных сетях. Они должны быть живыми и без накруток. Есть и требования к регулярности обновления. Ссылка на группу «Вконтакте», где вы постите раз в год, ничего не даст.
- Отсутствие рекламы. Здесь все просто – если вы сами что-то продаете и при этом рекламируете другие коммерческие сайты, это минус. То же самое с собственными всплывающими баннерами. Особенно сильно «Яндекс не любит popunder-баннеры.
- Возможность и удобство доставки товаров (для магазинов). Информация о доставке должна быть всегда на виду. Плюсом будет, если продублировать ее в карточках товаров. Обязательно укажите все способы, сроки, стоимость и регионы доставки, адреса пунктов самовывоза.
- Способы оплаты. Чем больше и разнообразнее, тем лучше.
- Подробные карточки товаров. В хорошую карточку входят информативные описания, возможность сравнения, блоки «похожие», видеообзоры, отзывы, рейтинги, информация о наличии, сопутствующие товары и так далее.
- Работающая служба поддержки клиентов. Это могут быть телефоны call-центра, разделы «Помощь», FAQ, форма заказа обратного звонка.
- Подключенный онлайн-консультант. Все просто – он должен быть и он должен работать.
- Скидки. Выгодные предложения ранжируются выше, поэтому если делаете скидку, укажите ее размер и срок окончания.
- Простое и запоминающееся доменное имя. Чем проще его запомнить и чем лучше оно связано с вашей тематикой, тем лучше.
- Короткие и логичные URL. Пользователь должен понимать, в каком разделе сайта оказался.
- Оптимальная средняя длина тега title. В сниппете отображается только 70 символов. В них нужно упаковать все, что нужно и не заспамить его ключами.
- Соответствие контента страницы заявленному title. Здесь все просто – если в тайтле написано, что на странице есть цены или видео, то и на странице они должны быть.
- Средняя вложенность страниц. Лишних категорий и разделов быть не должно.
Формула коммерческого ранжирования «Яндекса» уже научилась отличать технически хорошие сайты от технически плохих. Алгоритм умеет анализировать удобство сайта почти с человеческой точки зрения. Осталось только научить ее думать совсем как человек, чтобы она захватила весь мир. К этой цели «Яндекс» стремится давно и делает поразительные успехи. Может, через пару лет мы перестанем натыкаться в выдаче на сайты, которые выглядят так, будто 2002 год никогда не закончился и предлагают нам контент такого же качества.
Формула ранжирования блогов в «Популярных записях» «Яндекс.Блогов» – статьи про интернет-маркетинг
Последнее обновление: 12 октября 2018 года
2704
Семинар широко не анонсировался, представителям прессы отправляли личные приглашения. Это было следствием того, что подобные семинары для Яндекса — некая новая форма общения с экспертами и пользователями. Компания планирует проводить такие встречи для более широкой аудитории, но сначала желает в экспериментальном формате определить, как их лучше всего организовывать.
Возможно, первая встреча оказалась посвящена новостям и блогам потому, что в адрес Яндекса часто слышатся обвинения и в том, что этими сервисами легко манипулировать, и в том, что Яндекс их в каких-то целях «подкручивает». Позиция Яндекса по этому вопросу основана на том, что его сервисы — это лишь зеркала, которые отражают динамику мнений пользователей («Я.Блоги») или работу масс-медиа («Я.Новости»). Каким именно образом формируется заголовок и содержание того или иного новостного сюжета; почему этот, а не другой пост попадает в «Топ Блогосферы» — всё это Яндекс попытался объяснить.
Суть блогосферы, по Яндексу, в том, что это — хранилище мнений. Люди читают другие блоги, ищут по ним и смотрят рейтинги для того, чтобы быть в курсе мнений по некоему вопросу.
Цифры Яндекс.Блогов и основные сервисы
- Миллион запиcей и комментариев из блогов и форумов каждый день
- 7 млн. источников индексируется
- индексируется 14 млн. профилей пользователей. Примерно половина пользователей создает блог и не делает там ни одной записи, а, например, использует для комментирования или забрасывает. Отсюда разница
- всего около миллиарда документов
- блоги — одна пятая Рунета (по количеству элементов для индексации)
- Новые записи индексируются в течении 10 минут на более чем 120 блогхостингах
Яндекс.Блоги состоят из следующих сервисов (в порядке значимости): поиск, темы дня и популярные записи («топ поиска по блогам», «ТППБЯ»), рейтинги и пульс блогосферы.
Поиск — это самый нужный для людей сервис по блогам. Однако, многим интернет-маркетологам гораздо интереснее Топ Блогосферы, так что вначале — о нём.
Аудит контекстной рекламы
Бесплатно проведем анализ медиапланирования, настроек рекламной кампании и выбранной стратегии управления ставками.
«Популярные записи», или Топ Блогосферы
Антон Волнухин, ответственный за поиск по блогам, рассказал, что «коммерческой ценности» пребывание в популярных записях не несёт — самый большой возможный трафик оттуда исчисляется единицами тысяч посетителей блога. Накручивают топ обычно те, кто хочет манипулировать мнениями. Именно из-за таких накрутчиков появляются обвинения Яндекса в том, что он редактирует топ вручную — тогда как на самом деле, по словам Антона, формируется он полностью автоматически.
Какова же «формула ранжирования» записей в Топе Блогосферы?
- Записи сортируются по количеству ссылок на пост за последние три дня.
- Ссылки учитываются только с блогов, существующих более полугода
- ссылки за последние 8 часов имеют удвоенный вес — это нужно, чтобы топ чаще «освежался»
- Записи теряют вес каждый час нахождения в топе — с той же целью
- В топ может попасть одновременно не более 1 записи из 1 блога.
- Рейтинг пересчитывается каждые 20 минут
- Чем меньше раз тот или иной блог ссылался на блог, содержащий топовую запись, тем весомее ссылка.
Перед Яндексом, конечно, стоит задача борьбы с накруткой топа. Планируется добавлять больше источников данных для рейтингования — учитывать комментарии и посещаемость. В ближайшее время пользователи смогут посмотреть разные неотфильтрованные срезы по каждому из источников — и накрутки станут видны каждому. Наконец, планируется сделать больше разных рейтингов, отчего уменьшится потенциал влияния на умы каждого из них.
Статья
К вопросу об отношении к SEO Google и Яндекса
#индекс цитирования, #хостинг
Статья
Где поставить ссылку — вот в чем вопрос. Сервисы Е. Трофименко
#индекс цитирования, #хостинг
Статья
Основные факторы, влияющие на релевантность
#индекс цитирования, #хостинг, #ранжирование
Как работает поиск по блогам
Индексная база ППБ пополняется, во-первых, записями на уже известных поиску блог-хостингах, во-вторых тем, что пришло через форму добавления blogs.yandex.ru/add.xml, и, наконец, источниками из веб-поиска, который обнаруживает в интернете ссылку на новый RSS. Однако, блогом не считается всё то, что отдает RSS. По умолчаню RSS-поток вообще не считается блогом, есть ряд автоматических правил отнесения его к таковым. Ошибки автоматов правят руками контент-менеджеры.
В результате автономный блог на нестандартном, не известным роботам движке, может не попасть в индекс ППБ. Владельцу такого дневника надо писать в блоговый саппорт и просить себя проиндексировать.
Антон Волнухин с прискорбием признал тот факт, что управлять индексированием и участием в поиске своего блога его владелец может только при помощи писем в саппорт. Это никому не удобно, поэтому Яндекс собирается сделать панель управления взаимоотношениями блога и Яндекса, дав каждому блоггеру полный контроль над его присутствием в сервисах для блогосферы.
Пока этого нет, многие вопросы решаются не очень удобно для блоггеров потому, что Яндекс хочет сохранить своеобразный дипломатический нейтралитет.
Например, если запись попала в ТППБЯ, а потом исчезла из блога, ссылка из топа начнёт автоматически вести на сохраненную копию записи. Яндекс ведь не знает, почему именно исчезла запись, захотел ли её стереть блоггер или Хакер Хелл, или Abuse Team из ЖЖ.
Основные отличия поиска по блогам от поиска по Вебу состоят в следующем:
- очень быстрая индексация записей. По личному опыту редакции этого блога, в ЖЖ записи индексируются буквально за пять минут.
- в результатах поиска ранжирвание по времени
- поиск обрабатывает большое количество маленьких текстов
- есть возможность учитывать информацию об авторе (соцдем) и его связях внутри социального сервиса. Это позволяет в расширенном поиске задать пол, возраст, место жительства и искать, например, информацию по блогам двадцатилетних москвичек.
- данные не переиндексируются каждый раз, а накапливаются в индексе
- RSS не содержит информации об удалении записи, поэтому удаленный пост остается в блоговом индексе, пока автор не напишет в поддержку.
Главные проблемы поиска по блогам — это спам, фильтрация дублей, индексирование удаленных и скрытых записей.
33% записей в блогах являются спамом. Обычно такие записи представляют собой автоматически сгенерированные тексты (записи и комментарии) с нужными ключевыми словами или ссылками, предназначенные для влияния на веб-поиск и рейтинги. Для борьбы со спамом применяются как специальные блоговые технологии, так и Спамооборона. Яндекс считает, что ему удается удерживать уровень спама в поиске и его влияние на рейтинги невысоким.
Проблема дублей состоит в том, что среди одинаковых записей показывается самая поздняя. Из этого вытекает, во-первых, то, что, скопировав запись, можно попасть в поиск вместо её автора, а во-вторых то, что из нескольких трансляций журнала запись показывается в той, в которую позже всего попала. Решение, опять же, одно — писать в саппорт, жаловаться на злостное копирование записей или указывать ту трансляцию, которую хочется видеть в поиске. Аналогично, в порядке переписки с саппортом, убирается из поиска удаленная или скрытая в режим «для друзей» запись.
Схему технического устройства Яндекс.Блогов тоже удалось увидеть и унести с собой в составе презентации:
На встрече было рассказано много других интересных подробностей про Яндекс. Блоги и Яндекс.Новости. Продолжение следует.
Теги:
индекс цитирования, хостинг, ранжирование, Яндекс
Вам будет интересно
Как Google использует в ранжировании историю домена и рекламу?
#поиск по картинкам, #хостинг, #сниппет
Яндекс и ссылочные биржи: кто кого?
#поисковые машины, #хостинг, #факторы ранжирования
Подготовка сайта для индексирования в поисковых системах
#индекс цитирования, #продвижение сайтов, #стратегия продвижения
Влияние типов страниц на ранжирование в Яндексе
#SEO, #Optimization, #поисковые системы
Где поставить ссылку — вот в чем вопрос. Сервисы Е. Трофименко
#mail, #индекс цитирования, #хостинг
Выпуск от 26.08.2010. Ответы экспертов на вопросы оптимизаторов
#индекс цитирования, #топ 100, #хостинг
как поставить машинное обучение на ветку (пост №3) / Блог Яндекса / Хабр технологий машинного обучения в Яндекс. В сегодняшнем посте мы расскажем:
- зачем нужно контролировать качество факторов и как мы это делаем;
- как FML помогает в задачах распределенных вычислений по индексу поиска;
- как и почему наши технологии машинного обучения уже применяются и могут применяться как в Яндексе, так и за его пределами;
- какую литературу можно посоветовать для более глубокого погружения в поднимаемые вопросы.
Мониторинг качества уже реализованных факторов
В предыдущем посте мы остановились на том, что с помощью FML нам удалось поставить на поток разработку новых факторов для формулы ранжирования и первичную оценку их полезности. Однако следить за тем, чтобы фактор оставался ценным и не расходовал вычислительные ресурсы, необходимо и после его реализации.
Для этого создана специальная регулярная автоматическая проверка — так называемый мониторинг качества факторов. Вычислительно он очень сложен, но позволяет решить ряд задач.
Первый – выявление кандидатов на «удаление». Однажды убедившись в том, что фактор вносит большой вклад и его цена приемлема, и приняв решение о его внедрении, важно добиться того, чтобы с течением времени он оставался полезным, несмотря на появление все новых и новых факторов. Ведь новое легко может оказаться более общим и сильным, чем старое, и не только создать новое значение, но и дублировать его. Например, когда мы впервые ввели фактор «ввод слов запроса в URL, написанный латиницей», а через какое-то время сделали новый, поддерживающий ввод URL, написанных как латиницей, так и кириллицей, первый потерял всякую ценность. . Старую версию следует удалить как минимум по двум причинам: 1) экономия на времени расчета старого коэффициента; 2) уменьшение размерности признаков при обучении.
Иногда возникает другая ситуация. Фактор раньше приносил «много пользы», а сейчас хоть и остается полезным, но уже не переходит порог качество/стоимость. Это может произойти, если он потерял свою актуальность или стал частично продублирован более новыми факторами. Поэтому необходимо создать здоровую эволюцию — чтобы слабые факторы умирали и уступали место сильным. Но данных только по ФМЛ недостаточно, и окончательное решение об устранении фактора принимают эксперты.
Есть еще одна проблема, которую решает мониторинг качества. Отслеживая, что полезность однажды реализованного фактора не уменьшилась, проводит регрессионное тестирование. Качество фактора может упасть, например, из-за случайной модификации или системного изменения свойств Интернета, на который он изначально опирался. В этом случае система уведомит разработчика о том, что этот фактор нужно «исправить» (исправить ошибку или модифицировать его так, чтобы он соответствовал новым реалиям).
Третья задача мониторинга, которую он скоро начнет решать, — избавиться от избыточности факторов. До определенного момента мы не проверяли, дублирует ли новый фактор какой-либо из уже введенных. В результате вполне может оказаться, что, например, есть два фактора, которые повторяют друг друга. Но если измерить, какой вклад каждый из них в отдельности вносит по отношению ко всем остальным, то окажется, что он равен нулю. А если исключить оба фактора, то качество упадет. И задача как раз в том, чтобы выбрать, какой из дублирующих факторов эффективнее оставить, с точки зрения того же соотношения прироста качества к цене вычислений. В вычислительном отношении это на много порядков сложнее, чем оценка нового фактора. Для решения этой проблемы мы планируем использовать расширенный кластер на 300 Tflops.
Ситуация, при которой каждый из двух факторов, I и J,
вносит нулевой вклад — (J, K, L) и (I, K, L),
, но удаление обоих из них приводит к ухудшению по качеству — (К, Л).
Можно исключить любой (I или J).
Выгоднее исключить J, как более ресурсоемкий.
Распределенный вычислительный конвейер
В этом и предыдущих постах говорилось о конкретных приложениях для FML в контексте обычного машинного обучения. Но в итоге фреймворк вышел за рамки этих приложений и стал полноценной платформой для распределенных вычислений над поисковым индексом.
Внимательные читатели, наверное, заметили, что везде, где используется FML, речь идет об одном и том же массиве данных: загруженных документах, сохраненных запросах, оценках асессоров и результатах расчета факторов. Мы заметили это одновременно, а также посмотрели количество других задач, которые уже решаются в Поиске и так или иначе опираются на эти данные; и решил этим воспользоваться. А именно сделали FML полноценным конвейером для произвольных распределенных вычислений на этом наборе данных, которые выполняются на вычислительном кластере с несколькими тысячами серверов.
Мы добились того, что FML облегчает выполнение распределенных вычислений над поисковым индексом и дополнительными данными, характерными для конкретной задачи. Поисковый индекс обновляется несколько раз в неделю, и с каждым обновлением существенная его часть перемещается между серверами для более оптимального использования ресурсов. FML полностью избавляет разработчика от забот по поиску нужного фрагмента индекса и обеспечивает ему полный и непротиворечивый доступ к нему. Фреймворк диагностирует целостность индекса и запускает вычисления на тех серверах в кластере, где находятся нужные разработчику данные.
В отличие от поискового индекса, специфичные для FML данные для текущей задачи размещаются сервером. Он также отвечает за распределенное выполнение конкурирующих пользовательских задач. Как только расчеты запущены, FML начинает следить за ходом расчетов и, когда часть задач на том или ином сервере становится недоступным, подает сигнал тревоги администраторам. Получив его, они начинают диагностировать конкретную ситуацию с этой задачей на данном сервере, будь то сбой диска, сбой сети или полный выход сервера из строя. В наших планах на будущее помочь администраторам максимально подробной диагностикой и упростить поиск причин различных сбоев. Последнее в условиях нескольких тысяч серверов — дело совершенно обычное, и происходит по многу раз в день. Поэтому сильно сэкономим ручной труд администраторов,
На первый взгляд все это очень похоже на задачи ЯМР — то же распределение вычислений, сбор результатов и обеспечение достоверности. Но есть два кардинальных отличия. Во-первых, FML имеет дело с поисковым индексом, а не с классической структурой ключ-значение, принятой в YAMR. Индекс поиска подразумевает, что все выборки происходят путем объединения сразу большого количества ключей (в простейшем случае — нескольких слов запроса). Работать с такими выборками в парадигме ключ-значение принципиально сложно. А во-вторых, если YAMR решает, как разложить данные по серверам, FML может работать с любым предопределенным внешней системой распределением данных по своим законам.
Решение оказалось настолько удачным, что большинство команд разработчиков Поиска по собственной инициативе перешли на использование FML, и, по нашим оценкам, сегодня около 70% (по процессорному времени) вычислений в Яндекс. Развитием поиска управляет FML.
Область применения и сравнение с аналогами
Как мы уже говорили, FML и Matrixnet являются частью технологии машинного обучения Яндекса. И мы используем его не только в веб-поиске. Например, с его помощью подбираются формулы для так называемых «вертикальных» поисков (картинок, видео и т. д.) и для предварительного отсева совершенно нерелевантных документов в веб-поиске. Помогает обучить алгоритм классификации товаров по категориям в Яндекс.Маркете. Кроме того, машинное обучение подбирает формулы для поискового робота (например, для стратегии, определяющей, в каком порядке сканировать сайты). И во всех этих случаях решает одну и ту же задачу — строит функцию, максимально соответствующую подаваемым на вход данным эксперта. Думаем, что в ближайшее время мы найдем для него еще много применений в Яндексе. Например, мы используем в обучении классификаторы, которых у нас много.
FML в паре с библиотекой машинного обучения Matrixnet может быть полезен не только при разработке поисковых систем, но и в других областях, где требуется обработка данных. С некоторыми командами мы уже протестировали их для построения поиска специализированных типов данных с учетом конкретных факторов. Например, ЦЕРН (Европейский центр ядерных исследований) использует Matrixnet для обнаружения редких событий в больших объемах данных (единиц на миллиард). Традиционно здесь использовался пакет TMVA на основе Gradient Boosted Decision Trees (GBDT). Поскольку Matrixnet по нашим задачам и нашим метрикам уже давно более точен, чем простой GBDT, мы рассчитываем, что физики ЦЕРНа смогут использовать его для повышения точности своих исследований.
Почему Matrixnet может открыть путь к Нобелевской премии
Одним из типов событий, которые можно использовать для расчета с помощью FML/Matrixnet, является случай распада странного B-мезона на пару мюон-антимюон. Физически реальные показания одного из детекторов Большого андронного коллайдера после столкновения протонных пучков сравниваются с эталонными значениями, полученными в симуляторе событий.
Стандартная модель считает такие распады очень редким событием (примерно 3 события на миллиард столкновений). И если в результате анализа экспериментальных данных Matrixnet достоверно покажет, что таких событий больше и их количество совпадет с предсказаниями одного из новых физиков, это будет означать справедливость этих теорий и может стать первым длительным — ожидаемый повод для вручения Нобелевской премии их авторам.
Глядя шире на то, на что способна наша технология, мы уверены, что она может быть полезна во многих областях, в которых встречаются типичные задачи машинного обучения, особенно если они имеют дело с большим набором данных, который меняется во времени. Например, в крупных интернет-магазинах, интернет-аукционах, социальных сетях.
Сейчас нам известно только одно промышленное решение для аналогичной задачи, помимо нашего — Google Prediction API. Есть несколько таких стартапов, как BigML. К сожалению, нам не удалось найти информацию об их эффективности для определенных приложений. Облачный сервис Amazon также может служить конвейером для вычислительных задач, но его внимательное изучение показало, что это очень общее решение для совершенно произвольных задач. В то время как наш создан специально для поисковых систем и максимально раскрывается в них. Аналоги ФМЛ при решении задач «Оценка эффективности нового фактора» и «Контроль качества факторов» нам совершенно неизвестны.
Внешний наблюдатель может косвенно судить об эффективности нашей технологии по результатам международных соревнований по машинному обучению. Например, специалисты Яндекса заняли высокие места в рейтинговых соревнованиях Yahoo Learning to Rank и Facebook Recruiting, в которых борьба за точность функции ранжирования ведется в тысячных долях ERR/NDCG. Они показали хорошие результаты на соревнованиях по машинному обучению и в других областях.
Чтобы быть уверенными, что наши технологии остаются лучшими в своей области, мы регулярно проводим собственные конкурсы по машинному обучению — в рамках серии Интернет-математика. Среди тем: машинное обучение для ранжирования, предсказание пробок, классификация панорамных фотографий. Два года назад наши соревнования стали международными, а финальный этап конкурса по прогнозированию релевантности поведения пользователей прошел в рамках конференции WSDM 2012 в Сиэтле (США). Совсем недавно завершился конкурс, посвященный прогнозированию переключения поисковых систем.
Несмотря на то, что фреймворк FML, о котором мы рассказали вам в этой серии постов, изначально создавался для работы с Matrixnet, его можно адаптировать под любую другую известную библиотеку машинного обучения (например, Apache Mahout, Weka, scikit -учить ).
Рекомендуемое чтение
В последнее время появилось несколько хороших онлайн-курсов по машинному обучению. На английском можно порекомендовать курс Стэнфордского университета, на русском — курс Константина Воронцова, который преподается в Школе анализа данных.
Среди бумажных изданий упомянем два издания: The Elements of Statistical Learning: Data Mining, Inference, and Prediction (Trevor Hastie, Robert Tibshirani, Jerome Friedman) (также доступно в электронном виде) и Pattern Recognition and Machine Learning (Кристофер М. Бишоп).
Кроме того, будет полезен обширный выбор курсов и учебников, составленный на Kaggle.
Альтернативные поисковые системы, где вы можете легко ранжироваться
Google обрабатывает около 3 миллиардов запросов в день, что делает его таким ценным маркетинговым инструментом. Но в мире есть поисковые системы, отличные от Google. У Google много конкурентов, и у каждого из них есть своя доля на рынке поиска.
Например, Yahoo! имеет 309 миллионов поисковых запросов в день, а Bing — 134 миллиона. Им обоим все еще далеко до 3 миллиардов — это даже не половина на миллиард между ними двумя — но это все еще много потенциальных клиентов, которые могут прийти в ваш бизнес.
Yahoo! и Bing — это всего лишь два примера — у пользователей поисковых систем есть больше альтернатив, чем только эти два. Вам просто нужно знать, что они собой представляют, чтобы вы могли ориентироваться на них.
Поисков в день: ~10 миллионов (2015)
Первым кандидатом в наш список альтернативных поисковых систем является DuckDuckGo. DuckDuckGo — одна из самых известных альтернативных поисковых систем в мире из-за того, как сильно она ненавидит отслеживание пользователей. На самом деле это основное преимущество DDG — и они делают на нем все возможное, чтобы привлечь новых пользователей.
Кроме того, DDG — это просто хорошая поисковая система. И, несмотря на огромную долю рынка Google, он ежедневно выполняет миллионы поисковых запросов. На самом деле, вы можете проверить статистику DDG по их поиску за последние несколько лет, чтобы увидеть, насколько хорошо у них дела сейчас.
Для пользователей DDG добавляет небольшую симпатичную графику рядом с результатами поиска, которые они уже посещали, что означает, что у вас есть возможность выделиться среди возвращающегося трафика. Как компания, DDG практикует то, что проповедует в отношении конфиденциальности. У них самые высокие рейтинги для SSL-шифрования, поэтому их сайт в целом максимально безопасен — по крайней мере, в том, что касается SSL.
Какое место вы занимаете в DuckDuckGo?
Хотя DDG любит говорить о том, насколько он отличается от Google на практике, его стандарты SEO очень похожи.
По сути, вам просто нужно получить ссылки. И, по их словам, вы должны получать их «с высококачественных сайтов, таких как Википедия». Означает ли это, что ссылки на Википедию учитываются в DDG SEO, не ясно на 100%, но, вероятно, это безопасная ставка. DDG также использует семантический поиск (например, Hummingbird от Google) для определения намерений пользователя и включает в себя элемент локального поиска, хотя он не так точен, как Google.
В конце концов, DDG не имеет отдельных свойств для списков компаний или информации NAP, поэтому, конечно, для пользователей это будет менее точным. Если вы хотите увеличить охват на DDG, вы можете убрать рекламу в Bing, поскольку они работают в одной и той же рекламной системе. Такое партнерство может вызвать недоумение в отношении честности DDG, но с точки зрения бизнеса это простой способ рекламы.
Все это означает, что вы все еще можете добиться успеха в Интернете с помощью DuckDuckGo, тем более, что его стандарты SEO очень похожи на Google, а его реклама с оплатой за клик поступает из Bing.
Поисков в день: ~2 миллиона (2012 г.)
Ixquick — еще одна ориентированная на конфиденциальность поисковая система, которая хвастается тем, что является «самой частной поисковой системой в мире». Независимо от того, как Ixquick определил это различие, у него есть ряд отличий, которые подтверждают его статус сверхприватной поисковой системы, не говоря уже о максимально возможном рейтинге SSL-шифрования (например, DDG). Интересно, что у Ixquick нет собственных поисковых роботов. Вместо этого он одновременно извлекает результаты из других поисковых систем, включая Yahoo!, Google и Gigablast (и это лишь некоторые из них).
Это в значительной степени делает его поисковой системой среди поисковых систем — мета-поисковой системой — поскольку на самом деле она не ранжирует отдельные страницы. Он просто ранжирует результаты поиска из других поисковых систем. С другой стороны, это означает, что Ixquick берет лучшие результаты поиска из каждой поисковой системы, ранжирует их в соответствии со своим собственным алгоритмом и соответствующим образом составляет список.
Они даже предлагают небольшую звездочку рядом с результатами поиска, которые входят в топ-10 другой поисковой системы по ключевому слову. Таким образом, с точки зрения пользователя, они буквально получают лучшее из лучшего. С точки зрения бизнеса, ваша конкуренция никогда не была более жесткой.
Но если вы входите в топ-10 результатов поиска по ключевому слову, имеющему значение для вашей отрасли, вы можете получить большую известность.
Какое место вы занимаете в Ixquick?
Вы занимаете хорошие позиции в других поисковых системах. В этом отношении ранжирование на Ixquick на самом деле не препятствие — это награда.
Как только вы докажете своей аудитории (и Google), что являетесь надежным источником, пользователи Ixquick тоже начнут видеть вас таким же. Поэтому все, что вам нужно сделать, это сосредоточиться на одной поисковой системе, чтобы получить желаемые результаты. А если вам хочется платить за рекламу, вы можете запустить кампанию в AdWords.
Ixquick использует рекламу прямо из Google.
#3. Яндекс
Поисков в день: ~154 млн (2013)
Яндекс — это российский аналог Google, который контролирует около 60% рынка поиска в России и вокруг нее. Это может не иметь большого значения для тех, кто продает в основном в Соединенных Штатах, но для международного бизнеса это может принести большие выгоды. Яндекс устроен так же, как Google, и делает почти все, что вы ожидаете от известной поисковой системы.
У него даже есть специальная платформа для продвижения приложений для стартапов и технологических компаний, которые хотят продвигать только приложения. Но хотя немного похож на Google, он работает по-другому. Во-первых, эквивалент PageRank Яндекса называется оценкой Thematic Index Citation (TIC) и имеет шкалу от нуля до 10 000.
Кроме того, Яндекс индексирует сайты время от времени, в отличие от Google, который индексирует практически все подряд. Это означает, что если вы настроите таргетинг на Яндекс, ваш рейтинг будет обновляться намного медленнее, чем в Google (если только вы не ведете частый блог). Вы также не можете просто цель область с содержимым.
Чтобы настроить таргетинг на местоположения в Google, вы можете создать целевую страницу для местоположения и показывать ее по нужному ключевому слову. Но на Яндексе вам нужно изменить настройки веб-мастера для геотаргетинга. Кроме того, Яндекс взвешивает внутренние факторы иначе, чем Google.
Длина контента, важность отдельных страниц и другие критерии просто не имеют такого большого значения, как для Google. Однако, несмотря на все их различия, у Яндекса все еще есть та же цель, что и у Google — создать отличный пользовательский интерфейс.
Каков ваш рейтинг в Яндексе?
Прямо сейчас Google поддерживает самые высокие стандарты SEO среди всех поисковых систем. Так что, если вы хорошо ранжируетесь в Google, вы, вероятно, будете хорошо ранжироваться и в Яндексе.
Но если вы специально ориентируетесь на клиентов в России и за ее пределами, вам предстоит кое-что сделать. Эта работа будет очень похожа на то, как вы выполняете геотаргетинг в Google, но важно, чтобы вы изменили настройки своего веб-мастера в Яндексе, прежде чем искать какие-либо российские или восточноевропейские местоположения. Вероятно, было бы также полезно писать на русском, украинском или другом доминирующем региональном языке, который понимает ваша целевая аудитория.
(Это также включает написание правильной кириллицы.) Как ни распространен английский, вы не можете превзойти охват, который вы получаете, когда обращаетесь к группе людей на их родном языке.
#4. Dogpile
Поисков в день: Не разглашается
Еще в 1990-х годах Dogpile был очень популярен. С точки зрения качества поисковой системы, она была на одном уровне с AltaVista, Alltheweb, Yahoo и самим Google. На самом деле Dogpile опередил Google примерно на два года, но никогда не достигал такого же уровня славы или признания.
Причина в том, что Dogpile больше не пытается быть поисковой системой — она перешла на метапоиск, как и Ixquick. Он также использует лот платных объявлений — до 10 на странице — для поддержания роста доходов. Это не значит, что органично ранжироваться на Dogpile — плохая идея.
Это еще один способ заработать и сохранить первые позиции в поисковых запросах, в которых вы уже доминируете. Кроме того, это способ повысить ранжирование по определенным запросам, которые не очень хорошо работают в Google, но до хорошо работают на Yahoo! Это связано с тем, что команда инженеров Dogpile обнаружила минимальное совпадение результатов поиска из разных поисковых систем.
По сути, Google, Yahoo! и Bing показывают уникальный список, основанный на их собственных алгоритмах. Поэтому вместо того, чтобы создавать еще один поисковый алгоритм, они решили проверить существующие поисковые системы и соответствующим образом ранжировать результаты.
Какое место вы занимаете в Dogpile?
Хорошо зарекомендуйте себя везде — и везде — еще. Стоит отметить, что одна и та же страница не будет отображаться несколько раз, если она хорошо ранжируется в нескольких поисковых системах.
Инженеры Dogpile позаботились о том, чтобы каждая страница отображалась только один раз при поиске, поэтому вы не можете насытить результаты поиска, занимая высокие позиции в каждой поисковой системе, которую запрашивает Dogpile. Это потому, что Dogpile стремится обеспечить отличное качество обслуживания клиентов — как и любая другая поисковая система в этом списке. Но если у вас плохой рейтинг в Google, это не значит, что все потеряно.
Вы можете связаться с пользователями Dogpile, занимая высокие позиции в других основных поисковых системах.
#5. Гибиру
Поисков в день: Неизвестно даже владельцам сайтов
Gibiru — поисковая система, ориентированная на конфиденциальность (как и DDG), которая практически одержима анонимностью. На самом деле, их слоган — «Анонимный поиск без цензуры», который звучит многословно, но также прекрасно выражает их миссию. Поисковая система даже стирает свою историю поиска каждые 15 минут, поэтому они не могут продавать данные, и они так заботятся о конфиденциальности, что у них есть список крупных компаний, которые выполнили повестку правительства в отношении данных.
Самым большим фактором, отличающим их от других, является их приверженность сохранению анонимности пользователей без цензуры любых результатов поиска, которые могут быть вырезаны из обычных поисковых систем. Это означает, что алгоритм Gibiru работает не так, как Google, что видно из тонких различий в их результатах поиска по ключевым словам с высоким трафиком. Похоже, что Gibiru доверяет высококлассным веб-сайтам, таким как Википедия, больше всего, за ними следуют сайты, пользующиеся доверием в отрасли, и качественный контент 10-кратного уровня, обеспечивающий хорошее взаимодействие с пользователем.
Тем не менее, Gibiru — это не тот веб-сайт с высоким DA, который вы себе представляете, когда представляете себе поисковую систему. Он также довольно мал, но все же может доставлять трафик от клиентов, любящих конфиденциальность. И если это характерно для вашей демографической группы, Gibiru может стать для вас отличным вариантом.
Какое место вы занимаете на Gibiru?
Алгоритм Gibiru является секретным (как и любая другая поисковая система), но, судя по нескольким тестовым поискам, он, скорее всего, сосредоточен на ссылках, популярных сайтах (таких как Википедия), качестве контента и сигналах релевантности.
Это не значит, что он использует все те же SEO-факторы, что и Google, но они, вероятно, не помешают, если вы хотите ранжироваться на Gibiru. Кроме того, учитывая, что у них есть HTTPS-версия их поисковой системы, можно с уверенностью предположить, что меры конфиденциальности и безопасности веб-сайта также являются важными факторами ранжирования. Это означает, что сайты, использующие HTTPS и шифрование, будут ранжироваться лучше, чем сайты, которые этого не делают.
Особое примечание о Гибиру
С точки зрения своего отношения и связей с общественностью, Гибиру агрессивно настроены против мейнстрима (они используют термин «хромой поток»), до такой степени, что это может показаться ребячеством.
Дух Gibiru заключается в продвижении взглядов и мнений, которые в противном случае остались бы незамеченными в основных средствах массовой информации. Однако возможно, что причина, по которой эти взгляды не являются «мейнстримными», заключается в том, что они не вызывают доверия. Так что, если вы собираетесь протестировать Gibiru, чтобы узнать, как оценивается ваш сайт, сделайте это.
Просто имейте в виду, что вы используете одну из самых агрессивных поисковых систем в мире. Тем не менее, если эта аудитория соответствует вашей нише, не помешает некоторое время следить за вашим рейтингом на Gibiru и сравнивать показатели вашего сайта через месяц или около того.
Почетные упоминания
Конечно, альтернативных поисковых систем в мире больше, чем только эти пять. YouTube — огромная поисковая система, но зрители YouTube, вероятно, не перейдут на ваш сайт, если они не пришли оттуда.
В конце концов, у них есть весь видеоконтент, который они могут пожелать, на YouTube. Бинг/Yahoo! Альянс имеет значение для двух других крупных конкурентов Google, и они являются жизнеспособной альтернативой поиску трафика вне ресурсов Google.
Я не включил их, так как большинство SEO-специалистов уже знают о Bing/Yahoo!, но они, очевидно, по-прежнему полезны.