Детерминированный индекс ранжирования: забытые термины

Содержание

забытые термины — SEO на vc.ru

Поисковые алгоритмы меняются, а вместе с ними – и средства поискового продвижения. Регулярное чтение статей о SEO позволяет заметить негативную динамику: контент такого рода сильно упростился, и чаще всего сводится к каким-то всем известным трюизмам. Не спамьте, думайте о пользователе, делайте сайт лучше. Но разве это имеет отношение к информационному поиску вообще и SEO – в частности?

1744
просмотров

В этой статье вспомним и разберем некоторые термины и понятия, уже основательно забытые «олдами» и уже неизвестные новым поколениям «сеошников». А заодно попробуем оценить, насколько актуальны эти термины и методы SEO, основанные на них.

tf-idf

Показатель, оценивающий значимость слова в документе с оценкой данных в коллекции документов. Этот алгоритм – база поисковых алгоритмов, помогающая построить векторы для информационного поиска.

Основная проблема: векторы tf-idf благодаря своим свойствам не способны работать с семантическим смыслом. Его формула, например, никак не учитывает длину документа. Даже при использовании модифицированной формулы (BM-25) полноценно работать со смыслом документа нельзя, поскольку работает он только с ключевыми словами и их вхождениями.

Значит ли это, что расчёты tf-idf абсолютно не нужны? – Нет, просто оценивать с их помощью стоит лишь отдельные текстовые зоны (тайтл, зона текстов, зона анкоров и т.п.) на самой ранней стадии работы с документом. Кроме того, известно, что tf-idf и BM-25 использовались Яндексом для оценки ссылочных анкоров.

Это может быть вспомогательным инструментом оптимизатора, но не нужно ожидать от использования старых формул слишком многого. Например, хорошо известный всем Джон Мюллер уточнил, что нет смысла фокусироваться на таких формулах, а в рамках алгоритма tf-idf используется для отсева стоп-слов (источник).

Резюме. tf-idf, BM-25 и другие методы обработки текста для выявления ключевых слов и отсева стоп-слов остаются частью поисковых алгоритмов. В рамках современных практик SEO вы можете спокойно их игнорировать, и вообще не иметь понятия об их формулах. Однако в ряде случаев они всё ещё могут быть полезны – для выявления выраженных аномалий, разработки собственных программных инструментов, программной обработки данных парсинга и т.п.

Переколдовка запроса

Переколдовка – это изменение пользовательского запроса таким образом, чтобы изменились веса некоторых слов запроса для получения более релевантной выдачи. Пользователь обращался к поиску с запросом, алгоритм менял формулировку, добавляя синонимы и просчитывая веса слов (IDF) в запросе, и лишь после этого формировал выдачу.

Для чего это было нужно? Прежде всего, для исправления опечаток и ошибок в запросах без изменения смысла этого запроса. Кроме того, переколдовка запроса с помощью выделения самых весомых слов вообще должна была помочь Яндексу понять, что у него спрашивают.

Такое до сих пор продвигается совершенно всерьёз. А когда-то раздавались советы вставлять прямые вхождения ключей с ошибками и опечатками – и это использовалось.

В рамках SEO довольно быстро было обнаружено, что почти идентичные на первый взгляд запросы переколдовываются Яндексом по-разному, и выдача по ним отличается. А значит, надо было искать способ понять алгоритм переколдовки, чтобы найти идеальные сочетания слов в запросах. Это использовалось для работы текстовыми метриками, в том числе – при проработках анкор-листов. Например, синонимы вполне могли подразумевать разные кластеры, и даже порядок слов в запросе может влиять на кластеризацию.

Способ работать с колдунщиками нашёлся быстро: результат переколдовки можно было вытащить из URL сохраненной копии в параметрах ссылки после декодирования вместе с абсолютными весами каждого слова в запросе. (Этот способ давно не работает).

Как видите, в рамках топ-10 разницы нет, но в топ-20 позиции уже могут отличаться.

Резюме. Переколдовка запросов никуда не исчезла и сейчас, хотя работа с ней во многом потеряла смысл в большинстве случаев. По любым частотным ключам системой накоплены колоссальные объёмы данных, и поисковик может понять, что у него пытаются спросить, даже если запрос набран не в той раскладке, с опечатками и ошибками. Как минимум, нет никакого смысла добавлять ошибочные вхождения на страницу, хотя вы должны убедиться, что выдача по запросам «айфоны» и “iphone” не отличается. Подробно о переколдовке.

Веса слов в запросе

В 2010 году Евгений Трофименко обнаружил баг в Яндекс-XML, связанный с переколдовкой запросов (см. выше), и выкачал базу по 1,3 млн. популярных ключей с дополнительными словами и весами слов. В 2011 баг был устранен, однако база использовалась практиками довольно долго. Каждое слово в запросе отличается по весу. Стоп-слова по умолчанию имеют значение, обратное частоте употребления этого слова в анализируемом корпусе (в данном случае – в рамках всех документов рунета).

Ради чего всё было нужно: более «легкие» слова отбирались для разбавления анкор-листа арендных ссылок. Вот у вас три рубля в качестве бюджета на «Сапу», вот пачка сайтов, никак не связанных тематически и по контексту с продвигаемым, вот анкор-лист на сотню ссылок. И из этого надо извлечь максимум выгоды от ссылочного.

Другой способ применения – кластеризация. Её алгоритм подразумевал учёт «весов», а не только пересечения по «серпу», куда залетали сайты благодаря совсем другим метрикам – хостовым, поведенческим и т.п. Способ показал себя очень ресурсоёмким при очень малой выгоде для работы.

Резюме. Фактически, веса слов как характеристика сохранились, но работать с ними сейчас – не самая простая задача. Преимущественно такие базы используются для работы со стоп-словами. Процесс анализа весов очень зашумлен ручными правками, склеиванием отдельных словоформ, а главное – сменой приоритетов в факторах ранжирования. Текстовые метрики в целом давно уступили своё значение коммерческим и поведенческим факторам ранжирования.

Монолитный и запросный индексы

Под монолитным индексом принято понимать список ключевых слов, связанных с конкретным документом, и включающих как текст на странице, так и ключи в анкорах внешних ссылок. Благодаря связям документа с ключевыми словами, входящими во внешние ссылки, документ может ранжироваться по фразам, которых на самой странице нет – и без всякой NLP, на самых примитивных алгоритмах. Классический пример – это ранжирование биографии Дж. Буша-младшего по запросу “miserable failure” («жалкий неудачник») на официальном сайте Белого Дома. Разумеется, страница не содержала таких слов, но ссылочные анкоры своё дело делали. Google не мог справиться с проблемой 4 года.

Если запросный индекс – это перечень всех ключевых слов, по которым ресурс вообще имел видимость, монолитный индекс имеет прямое отношение к текстовым характеристикам документа. То есть в одном случае речь идёт более о хостовых метриках, влияющих на соответствие заданной тематике. В другом – о возможности ранжирования документа по большому количеству ключей, большему, чем позволяют объёмы самого документа.

Оба индекса сохраняют важность для поисковой оптимизации. Если у вас для небольшой посадочной страницы подразумевается около сотни ключевых слов (а то и выше) анкоры ссылок помогут вам «подклеить» эти ключи к странице без необходимости добавлять их непосредственно в текст и шинглы на странице. Есть ли в этом реальная необходимость после ввода BERT и YATI? – Иногда есть, особенно в случаях, когда контент продвигаемой страницы пересекается по ключам с другими страницами, или поисковой системе просто позарез нужно прямое вхождение.

Запросный же индекс, составляемый из логов поисковых систем, в принципе помогает поисковику оценить релевантность документа по объёмам входящих ссылок, качеству трафика по ним и общей связи ресурса с другими узлами веб-графа.

Резюме. Понятие монолитного и запросного индекса сохраняют важность в SEO, поскольку влияют на релевантность как сайта в целом, так и отдельных страниц на уровне тематики и конкретных групп запросов. Техники оптимизации, связанные с этими понятиями, помогают решить многие проблемы, не решаемые другими способами.

«Пифаунд» (PFound)

PFound – метрика качества ранжирования, разработанная командой Яндекс и определяющая релевантность документа запросу с учетом вероятности его просмотра пользователем с выдачи. Формула учитывает влияние асессорских оценок (потерявших актуальность), а сама нормализация топов давно выполняется совсем другими средствами, наподобие catboost (градиентного бустинга).

Формула pFound

PFound использовался прежде всего для настроек и корректировок поисковых алгоритмов после каждого обновления алгоритма. Как можно догадаться по формуле, PFound относится к ручной формуле, участвующей в обучении алгоритма. Насколько мне известно, асессорский отдел Яндекса после расформирования был окончательно заменен сервисом «Толока», а принципы обучения нейросети серьёзно изменены. И есть ощущения, что сама по себе ручная формула серьёзно «усохла» до какого-то текстового анализа на уровне Fast-Rank (но это, разумеется, неточно).

Резюме. Термин интересен более как история алгоритмов ранжирования, и достоин почетного места в музее SEO. Однако если вы интересуетесь MachineLearning – тему стоит внимательно изучить.

Supplemental Index («сопли»)

В древности, когда интернет был ещё сравнительно мал, Google мог позволить себе сканировать и индексировать всё подряд. И более того: он даже явный мусор не выбрасывал с отвращением, а бережно записывал в особый «дополнительный индекс» (Supplemental Index).

Ничего странного: информационный поиск в принципе не должен иметь других критериев, кроме соответствия запросу пользователя. Поэтому даже список «некачественных» документов в те дикие времена был доступен при желании, тем более что в этот индекс попадали вообще все страницы, с которыми у гуглобота возникли какие-то проблемы, в том числе – технического характера.

Вебмастера рунета с любовью окрестили Supplemental Index ласковым именем «Сопли Гугла»: попавшие в дополнительный индекс страницы вытянуть в основной было задачей трудной. Чаще всего подразумевалось, что страницу нужно кардинально переделать, дополнить, возможно – изменить URL, и дать понять поисковику, что страница на самом-то деле достаточно хороша.

Официально Supplemental Index прекратил существование ещё в 2007 году, но лишь пару лет назад он действительно исчез как явление даже при использовании оператора “site:”.

Резюме. Актуально ли это сейчас? – Пожалуй, нет. Google больше не выводит ссылку на скрытые результаты, а ссылки на проблемные страницы доступны только из Search Console. При этом SC содержит чуть больше информации о том, что не так со страницей (видел, но ещё не смотрел, смотрел – но не счёл нужным индексировать, и т.п.).

Запросный кворум

Чтобы документ мог ранжироваться по заданному ключевому слову, он должен пройти заданный кворум, набрав определенную долю суммарного веса слов из запроса. Чтобы пройти кворум, документ может использовать как слова в рамках самого документа, так и ключи в анкорах входящих ссылок (см. выше «Монолитный индекс»).

Формула расчёта запросного кворума включала коэффициент мягкости, подразумевающая, что документ может ранжироваться по какому-то запросу, даже если не все слова из запроса встречаются в самом документе или в анкорах входящих ссылок. Подробно о кворуме из первоисточника.

Анализ актуальной выдачи показывает, что в запросах общего характера, по которым у поисковых систем накоплены колоссальные объёмы информации, запросный кворум практически утратил своё значение, особенно для ключевых слов с малой частотностью. Текстовые характеристики явно имеют намного меньшее значение, чем поведенческие, и возможно – чем тот же запросный индекс: если ранее на сайт были неотказные визиты по каким-то ключам без точных вхождений, сайт всё равно будет ранжироваться по этим ключевым словам.

Резюме. Соответствие документа запросу после появления алгоритмов, оценивающих смысл и интент запроса на базе полученных ранее данных о посетителе, как минимум снижают важность существования запросного кворума. Однако это вовсе не значит, что он не применяется хотя бы на стадии первичной индексации, когда алгоритм применяет самые грубые текстовые метрики для оценки контента страницы. Имеет смысл оценить усредненные количества вхождений важнейших ключей до того, как страница будет отправлена в индекс.

Сателлиты

Под сайтами-сателлитами принято понимать любые дополнительные сайты, объединенные в сеть и связанные с продвигаемым. Их используют для передачи ссылочного веса, охвата большего среза продвигаемой семантики, а также просто для того, чтобы занять максимальное количество позиций в топе поисковой выдачи.

PBN: эффективно, но недешево

Устарела ли эта практика? – Нет, напротив, она лишь набирает обороты, просто «сателлит» стал устаревшим термином. Вместо этого сейчас используют заимствованную аббревиатуру PBN – Private Blog Network. (Почему «блог»? – Да просто потому, что изначально для создания сеток использовались сайты на WordPress, и были это именно блоги).

Актуальная и самая распространенная схема достаточно проста: перехватывается домен, или просто выкупается дроп (брошенный владельцем домен с хорошими характеристиками, историей и ссылочным профилем). На нём создаётся небольшой по объёмам сайт с использованием восстановленного из веб-архивов контента – это дешевле, чем создавать новый абсолютно с нуля.

Дальнейшее использование сетки зависит от задач бизнеса и целевой поисковой системы. Чаще всего PBN выстраивают для продвижения в Google, как первый или второй слой многоуровневого ссылочного профиля (в зависимости от качества созданной «сетки»).

Резюме. Само понятие сателлитов – живее всех живых, поскольку такой метод продвижения не утратил эффективности и позволяет добиться результатов в решении множества задач.

Заключение

Как видите, большая часть понятий и терминов, горячо обсуждавшихся ещё 15 лет назад, всё ещё сохранила актуальность и значимость для практики, хотя и в меньшей мере, чем было когда-то. Ничто не исчезает из поисковых алгоритмов насовсем, просто утрачивает важность или сферу применения. А многие основательно подзабытые практики просто возвращаются окольными путями и под новыми именами, фактически не меняясь по сути.

Разумеется, невозможно в одной статье охватить весь забытый арсенал средств и методов, да и незачем. Любой старый форум, посвященный SEO, хранит тонны полезной информации, и если вас интересует тема продвижения сайтов в поиске – не пренебрегайте этими источниками. Всё новое – это хорошо забытое старое, и как минимум, вы наверняка найдёте для себя несколько красивых идей, которые сможете эффективно применять на практике.

В оформлении использована работа Алехандро Бурдизио «Деревня роботов».

Интегральный индекс техногенного зягрязнения как мера экологической безопасности потребляемой человеком продукции.

Авторы: Ю. А. Игнатьев, М.Л. Александрова, Г.Н. Кульбицкий, Е.В. Бабаина.

Санитарно-гигиенические и экологические нормативы определяют качество всего потребляемого по отношению к здоровью человека и состоянию экосистем. [1,2]. Для лучшего представления о предлагаемой методике, напомним, что «экологическая безопасность — состояние защищенности жизненно важных интересов человека, общества, окружающей природной среды, при котором достигается предотвращение или ограничение угроз, возникающих в результате антропогенных или природных воздействий на систему «человек-среда обитания»» [3]. Сложился определённый стереотип представления о том, что экологическая безопасность понимается, прежде всего как безопасность окружающей среды в результате техногенной деятельности человека, в то время как экологической безопасности продукции, товаров и услуг для здоровья человека уделяется меньшее внимание. Основным предметом рассмотрения в настоящей работе и является последнее — рассмотрение механизма количественной оценки уровня экологической безопасности продукции (товаров) для здоровья человека. В качестве продукции могут выступать и объекты окружающей среды — природная вода, почва.

Вопрос оценки уровня экологической безопасности актуален, т.к. термин «экологическая безопасность» часто звучит с количественным подтекстом («высокая» или «низкая» экологическая безопасность), но конкретная количественная оценка уровня при этом не делается.

В литературе имеются попытки количественно оценить уровень экологической безопасности, например территорий, путём ранжирования степени их загрязнения техногенными факторами [4], однако количественный механизм оценки уровня экологической безопасности объектов окружающей среды и потребляемой человеком продукции отсутствует.

Детерминированные техногенные параметры входят в списки обязательно контролируемых величин в системе Роспотребнадзора при выпуске продукции в хозяйственный оборот. При этом пороговым уровнем являются величины предельно допустимых концентраций (ПДК) приоритетных техногенных загрязнителей для данного вида продукции. Превышение ПДК служит причиной запрета выпуска продукции в хозяйственный оборот, в то время как количественные величины пусть и небольших значений найденных’концентраций техногенных загрязнителей, меньших ПДК, но, тем не менее, присутствующих в продукции, в дальнейшем, как правило, не учитываются. Теряется огромный массив информации. Присутствие же в организме следовых количеств вредных ксенобиотиков, попадающих при потреблении такой продукции, недопустимо.

Для введения количественной характеристики уровня экологической безопасности объектов окружающей среды и потребляемой продукции для здоровья человека требуется найти и определить меру экологической безопасности. Этой мерой, на наш взгляд, наилучшим образом отвечает вводимая нами величина — «интегральный индекс техногенного загрязнения Ipol» определяемый суммой отношений Ci/ПДКi, где Ci — экспериментально определённая концентрация техногенного загрязнителя в продукции, ПДКi — предельно допустимая концентрация (уровень) данного техногенного загрязнителя в данной продукции. При этом техногенные загрязнители нормируются по одному и тому же лимитирующему показателю вредности ЛПВ в случае комбинированного действия смеси веществ. [5].

Упоминание об индексе загрязнения как меры степени загрязнения имело место в СанПиН 4630-88 для воды водоёмов хозяйственно-питьевого и культурно- бытового водопользования [6]. При этом степень загрязнения «допустимая», «умеренная», «высокая», «чрезвычайно высокая» соотносилась с индексом загрязнения соответственно равным 0, 1, 2, 3. Предложенная классификация водных объектов в последующем документе СанПиН 2.1.5.980-00 отсутствует [7]. В СанПиН 2.1.4.1116-02, касающегося гигиенических требований к качеству воды, расфасованной в ёмкости, предназначенной для питьевых целей и приготовления пищи, вводится категорийность качества питьевой воды (питьевая вода «первой категории качества» и «высшей категории качества»), определяемая по разной остаточной концентрации техногенных загрязнителей [8]. По сути это есть категорийность безопасности питьевой воды. Данный подход можно было бы перенести и на классификацию загрязнённости пищевой и иной продукции (товаров), потребляемых человеком, однако этого не произошло.

Подобная оценка класса загрязнения воды и водоёмов описана в ныне действующих СанПиН 2.1.5.980-00, где вводится два класса эколого-гигиенического качества, когда сумма отношений С_i/ПДК_i < 1 («норма») и С_i/ПДК_i > 1 («патология»).

Мы предлагаем соотнести уровень экологической безопасности продукции для здоровья человека с мерой экологической безопасности — индексом техногенного загрязнения следующим образом: «уровень экологической безопасности продукции для здоровья человека — количественная оценка содержания в продукции (услуге) техногенных загрязнителей, проводимая по интегральному индексу техногенного загрязнения I_роl относительно величин ПДК, ПДУ, с учётом классификации загрязнителей по лимитирующему показателю вредности ЛПВ».

Уровни экологической безопасности можно ранжировать (см. Табл.1).

Таблица 1. Соотношения между уровнями экологической безопасности потребляемой человеком продукции и соответствующими интегральными индексами техногенного загрязнения.

Уровень экологической безопасности продукции, потребляемой человеком	Интегральный индекс техногенного загрязнения продукции / ,
Высший	< 0,25
Высокий	0,25 < I_роl < 0,75
Допустимый	0,75 < I_роl < 1,0
Низкий	1 < I_роl < 5
Чрезвычайно низкий	> 5

Касательно критериев выбора техногенных загрязнителей: целесообразно выделить приоритетные загрязнители окружающей среды вообще, и приоритетные техногенные загрязнители данной продукции, потребляемой человеком, в частности. Что касается первых, то этот вопрос рассмотрен в работах [9,10]. Выделяются приоритетные техногенные загрязнители, подвергающиеся межсредовому переносу. стойкие токсичные (около 35 базовых органических и неорганических соединений), биоаккумулирующие и токсичные (43 базовых органических и неорганических соединений). Получить информацию о возможных техногенных загрязнителях продукции можно из источников [9—17].

Что касается приоритетных техногенных загрязнителей данного вида продукции, то их перечень в первом приближении даётся в соответствующих санитарных правилах и нормах, других нормативных документах Роспотребнадзора. При наличии испытаний по обязательному списку приоритетных загряз- нителей данного вида продукции, проведённых в системе Роспотребнадзора в рамках контроля безопасности продукции, возможно определить интегральный индекс техногенной загрязнённости и соответствующий уровень экологической безопасности, позволяющий ранжировать различные однородные виды продукции по степени загрязнённости. К сожалению, такая задача в настоящее время перед службой Роспотребнадзора не ставится, из получаемых экспериментальных данных информация извлекается не полностью.

Расширение списков испытуемых параметров позволит более полно представить возможную техногенную загрязнённость продукции и определить соответствующий уровень её экологической безопасности. В итоге процедура оценки уровня экологической безопасности продукции для здоровья человека представляется следующим образом: составление списка испытуемых параметров для данного вида продукции с использованием отечественных и международных норм и критериев выбора приоритетных загрязнителей; проведение испытаний по составленному списку; оценка содержания техногенных загрязнителей данной продукции относительно существующих ПД К, ПДУ; определение интегрального индекса техногенного загрязнения; соотнесение интегрального индекса техногенной загрязнённости с заданными диапазонами уровней экологической безопасности.

Отметим, что определённая сложность возникает при выборе ПДК для расширенного списка техногенных загрязнителей. Ниже приведён пример применения предлагаемой нами методики для ранжирования загрязнённости воды хозяйственно-питьевого назначения.

Результаты исследования

Нормы безопасности для воды, потребляемой населением, содержат наиболее полные списки техногенных загрязнителей в сравнении с другими объектами, продукцией и товарами [7,8]. Для достаточно объективной характеристики техногенной загрязнённости воды можно использовать результаты уже проведённых испытаний в рамках соответствующих СанПиН. В Таблице 2 приведены результаты исследования проб природной воды.

Таблица 2. Результаты исследования природной воды различных производителей из артезианских скважин на территории Ленинградской области.

Значения интегрального индекса техногенного загрязнения определяются:

I_роl = ∑ (С_i / ПДК_i) с.-т.

I_роl = ∑ (С_i / ПДК_i) орг.

В таблицах 3 и 4 дано ранжирование проб воды по уровням экологической безопасности.

Таблица 3. Ранжирование уровней экологической безопасности воды для здоровья человека по санитарно- токсикологическому лимитирующему показателю вредности

№ п/п	Проба воды	I_{роl, с-т.}	Уровень экологической безопасности
1	ООО «Лидер»	0,487	высокий
2	ООО «Аквалайн»	1,300	низкий
3	ООО «Родник»	1,794	низкий

Таблица 4. Ранжирование уровней экологической безопасности воды для здоровья человека по органолептическому лимитирующему показателю вредности

№ п/п	Проба воды	I_{роl орг.}	Уровень экологической безопасности
1	ООО «Аквалайн»	0,139	выcший
2	ООО «Лидер»	1,453	высокий
3	ООО «Родник»	1,360	низкий

Из данных следует, что ранжирование объектов по разным ЛПВ разное. Очевидно в результатах исследований надо отдельно пояснять, к какому ЛПВ следует относить найденный уровень экологической безопасности данного объекта окружающей среды или продукции, потребляемой человеком. Вероятно также в дальнейшем для оценки уровня экологической безопасности не следует учитывать химические элементы, физиологически необходимые организму человека, когда концентрация этих элементов не превосходит ПДК (например фтор, магний, селен, цинк). Кроме того, возникает вопрос учёта естественного природного фона химических элементов в таких объектах как почва и продукция сельского хозяйства (мясосырьё, растительное сырьё для пищевых продуктов). Очевидно, в этом случае природный фон будет являться нижней допустимой границей, учитываемой при оценке содержания химического элемента в объекте как техногенного загрязнителя.

Перечисленные вопросы нуждаются в дальнейшем уточнении и доработке.

Выводы

Рассматриваемая методика позволяет количественно определить уровень объектов потребляемого сельхозсырья, пищевой и иной продукции, для здоровья человека по вновь вводимой мере экологической безопасности — интегральному индексу техногенной загрязнённости. На примере проб природной воды, взятых из различных источников, показана возможность ранжирования объектов по величине интегрального индекса техногенной загрязнённости. Методика может быть рекомендована для применения в системе Роспотребнадзора как достаточно простой способ количественной оценки уровня экологической безопасности продукции перед её выпуском в хозяйственный оборот, инспекционных, контрольных или иных целей.

Литература

Слепян Э. И. Экологическая сертификация жилой среды — значение, содержание, осуществление. Региональная экология. №1-2, 1996, с.39-54.

Слепян Э.И. Экологический риск. Региональная экология. №1-2, 2002, с.62-82.

Федеральный закон от 10 января 2002 г. № 7-ФЗ «Об охране окружающей среды» (с изменениями от 22 августа, 29 декабря 2004 г., 9мая, 31 декабря 2005 г., 18 декабря 2006 г., 5 февраля, 26 июня 2007 г.).

Приваленко В.В., Безуглова О.С. Экологические проблемы антропогенных ландшафтов Ростовской области. Т.1. Экология города Ростова-на-Дону. СКНЦ, ВШ, Ростов-на-Дону, 2003 г. 290 с.

Игнатьев Ю.А. Индекс техногенной за- грязнённости как мера экологической безопасности продукции и товаров, по- требляемых человеком. Тезисы Второго СанктПетербургского Международного экологического форума «Окружающая среда и здоровье человека» 1—4 июля 2008 г., Санкт-Петербург.

Санитарные правила и нормы охраны поверхностных вод от загрязнения. СанПиН4630—88. Министерство здравоохранения СССР. Москва. 1988 г.

Водоотведение населенных мест, санитарная охрана водных объектов. Гигиенические требования к охране поверхностных вод. СанПиН 2.1.5.980-00. Минздрав России Москва. 2001 г.

Питьевая вода. Гигиенические требования к качеству воды, расфасованной в емкости. Контроль качества. СанПиН 2.1.4.1116- 02. Минздрав России. Москва. 2002 г.

Онищенко Г. Г., Новиков С. М., Рахманин Ю. А., Авалиани С. Д., Буштуева К. А. Основы оценки риска для здоровья населения при воздействии химических веществ, загрязняющих окружающую среду. Под ред. Ю. А. Рахманина, Г. Г Онищенко. М., НИИ ЭЧ и ГОС, 2002 г. — 408 с.

Руководство по оценке риска для здоровья населения при воздействии химических веществ, загрязняющих окружающую среду Р2.1.10.1920-04—Москва.: Федераль- ный центр Госсанэпиднадзора Минздрава России, 2004.-143 с.

«Критерии оценки риска для здоровья населения приоритетных химических веществ, загрязняющих окружающую среду» Методические рекомендации. М.: Санэпидмедиа, ГУ НИИ ЭЧ и ГОС им. А. С. Сысина РАМН, Центр Госсанэпиднадзора в г. Москве, 2003.

«Российский регистр потенциально опасных химических и биологических веществ». Министерство здравоохранения РФ.

Стокгольмская конвенция по стойким органическим загрязнителям. Стокгольм. 2001

Стойкие токсичные вещества (Persistant Toxic Substances). Программа ООН по окружающей среде UNEP. 1998 г.

Перечень токсичных веществ. Американское Агентство по охране окружающей среды. США.

Роттердамская конвенция о процедуре предварительного обоснованного согласия в отношении отдельных опасных химических веществ и пестицидов в международной торговле. UNEP. 1999 г.

Уровни минимального риска опасных веществ. Агентство по токсичным веществам и регистру болезней ATS DR . США. 1998 г.

Сервер

sql. Являются ли RANK() и DENSE_RANK() детерминированными или недетерминированными?

Задать вопрос

спросил
8 лет, 3 месяца назад

Изменено
1 год, 4 месяца назад

Просмотрено
3к раз

Согласно официальному Microsoft BOL DENSE_RANK является недетерминированным (RANK()). Но, согласно «Рейтинговым функциям» Ицика Бен-Гана, «… функции RANK() и DENSE_RANK() всегда детерминированы». Кто прав?

Что я пока нашел:
Определение Microsoft: «Детерминированные функции всегда возвращают один и тот же результат каждый раз, когда они вызываются с определенным набором входных значений и при одном и том же состоянии базы данных».

Так в таблицах теории множеств
Сотрудники

 Заработная плата сотрудников
Сью Право 1.00
Робин Страница 1.00
Фил Фактор 1.00

и
Сотрудники2

 Заработная плата сотрудников
Фил Фактор 1.00
Сью Право 1.00
Робин Страница 1.00

одинаковые. Но функции ранжирования возвращают разные значения:

 CREATE TABLE [dbo].[Employees](
    --[ID] [int] IDENTITY(1,1) NOT NULL,
    [Сотрудник] [varchar](150) НЕ NULL,
    [Зарплата] [маленькие деньги] NULL,
) НА [ПЕРВИЧНОМ]
ИДТИ
СОЗДАТЬ ТАБЛИЦУ [dbo].[Сотрудники2](
    --[ID] [int] IDENTITY(1,1) NOT NULL,
    [Сотрудник] [varchar](150) НЕ NULL,
    [Зарплата] [маленькие деньги] NULL,
) НА [ПЕРВИЧНОМ]
ВСТАВЬТЕ В [dbo]. [Сотрудники]
([Сотрудник] ,[Зарплата])
ЗНАЧЕНИЯ
(«Сью Право», 1)
, («Робин Пейдж», 1)
,('Фактор Фила', 1 )
ИДТИ
ВСТАВЬТЕ В [dbo].[Сотрудники2]
([Сотрудник] ,[Зарплата])
ЗНАЧЕНИЯ
(«Фил Фактор», 1)
,('Судить правильно', 1)
,('Робин Пейдж', 1)
ИДТИ
ВЫБЕРИТЕ РАНГ () НАД (ЗАКАЗАТЬ ПО Зарплате) КАК [Ранг]
, DENSE_RANK() OVER (ORDER BY Salary) AS [Dense_rank]
, [Работник]
ИЗ
dbo.Сотрудники
ВЫБЕРИТЕ РАНГ () НАД (ЗАКАЗАТЬ ПО Зарплате) КАК [Ранг]
, DENSE_RANK() OVER (ORDER BY Salary) AS [Dense_rank]
, [Работник]
ИЗ
dbo.Employees2
ВЫБЕРИТЕ NTILE(3) OVER (ЗАКАЗАТЬ ПО ЗАРПЛАТЕ)
, [Работник]
ИЗ
dbo.Сотрудники
ВЫБЕРИТЕ NTILE(3) OVER (ЗАКАЗАТЬ ПО ЗАРПЛАТЕ)
, [Работник]
ИЗ
dbo.Employees2

sql-сервер

Согласно официальному Microsoft BOL DENSE_RANK является недетерминированным (RANK()). Но, согласно «Рейтинговым функциям» Ицика Бен-Гана, «… функции RANK() и DENSE_RANK() всегда детерминированы». Кто прав?

Они оба правы, потому что используют разные значения слова «детерминированный».

С точки зрения оптимизатора SQL Server термин «детерминированный» имеет очень точное значение; значение, которое существовало до того, как в продукт были добавлены функции окна и ранжирования. Для оптимизатора «детерминированное» свойство определяет, может ли функция свободно дублироваться в своих внутренних древовидных структурах во время оптимизации. Это недопустимо для недетерминированной функции.

Детерминированный здесь означает: точный экземпляр функции всегда возвращает один и тот же вывод для одного и того же ввода, независимо от того, сколько раз он вызывается. Это никогда не верно для оконных функций по определению, потому что как (однострочная) скалярная функция они не возвращают один и тот же результат в строке или между строками. Проще говоря, используя ROW_NUMBER в качестве примера:

Функция ROW_NUMBER возвращает разные значения для разных строк (по определению!), поэтому для цели оптимизации недетерминирован

Это смысл, который использует BOL.

Ицик делает другое замечание относительно детерминизма результата в целом. По упорядоченному набору входных данных (с подходящим разрывом связей) выход представляет собой «детерминированную» последовательность. Это верное замечание, но при оптимизации запросов важно не «детерминированное» качество.

NTILE() — интересный случай; кажется, что это применяется после сортировки (которая, в случае совпадения, остается на усмотрение SQL Server, и это обычно определяется наиболее эффективным выбором индекса для целей сортировки). Вы можете сделать это детерминированным, не заставляя SQL Server делать здесь произвольный выбор — добавьте один или несколько прерывателей связи в предложение OVER() :

 OVER (ORDER BY Salary, Employee)

По сути нужно сделать сортировку уникальной. Если у вас есть сотрудники с одинаковыми именами, вам, возможно, придется выбрать другой столбец для разрешения конфликтов или продолжать добавлять столбцы до тех пор, пока не исчезнет связь.

Для RANK() и DENSE_RANK() связи являются важной причиной того, что вы не можете получить разные значения. Старайтесь не путать детерминизм вывода функции с детерминизмом порядка результатов. Если в ваших запросах нет ORDER BY , то что в этом не детерминированного?

 1 1 Сью Райт
1 1 Робин Пейдж
1 1 Фил Фактор
1 1 Фил Фактор
1 1 Подавать в суд
1 1 Робин Пейдж

РАНГ() и DENSE_RANK() применили одни и те же значения в обоих случаях, SQL Server просто вернул вам результаты в другом порядке. Это не имеет ничего общего с ожиданием того же результата от RANK() или DENSE_RANK() при одинаковых входных данных — это просто предположение или ожидание некоторого детерминированного порядка, когда вы сказали SQL Server (путем пропуска ORDER BY ), что вас не волнует порядок результатов. См. № 3 здесь:

T-SQL, вторник № 56: предположения SQL Server

Синтаксис:

 WindowFunction() OVER (PARTITION BY  -- список разделов
                       ORDER BY <другие выражения>) -- список порядка

Обе функции, RANK() и DENSE_RANK() , согласно их определениям, гарантированно дадут одинаковые результаты, если выражения в предложении OVER сами являются детерминированными. Именно это имел в виду Ицик Бен-Гун в своей статье. Эти списки чаще всего представляют собой просто столбцы задействованных таблиц.

Таким образом, хотя общие функции не являются детерминированными, их реализация могла бы позаботиться о том, чтобы различать два случая и считать их детерминированными или нет, после изучения списков разделов и порядков.

Мое дикое предположение состоит в том, что разработчики SQL-сервера решили, что их проще реализовать как всегда «недетерминированные», несмотря на то, что это в некотором смысле противоречит их определению детерминированных функций. Итак, в MSDN они указаны как недетерминированные, потому что в текущей реализации движок всегда считает их недетерминированными.

Еще один аргумент заключается в том, что две другие оконные функции, ROW_NUMBER() и NTILE() , еще более сложны, потому что для них, имеющих одинаковый вывод, выражение в разделе и порядок по спискам не только должны быть детерминирован, но и уникален. Таким образом, реализация всех этих деталей далеко не тривиальна.

^{Я не буду комментировать порядок наборов результатов, так как это не имеет ничего общего с детерминизмом, как ясно объяснил Аарон Бертран в своем ответе.}

Зарегистрируйтесь или войдите в систему

Зарегистрируйтесь с помощью Google

Зарегистрироваться через Facebook

Зарегистрируйтесь, используя адрес электронной почты и пароль

Опубликовать как гость

Электронная почта

Обязательно, но не отображается

Опубликовать как гость

Электронная почта

Требуется, но не отображается

Нажимая «Опубликовать свой ответ», вы соглашаетесь с нашими условиями обслуживания, политикой конфиденциальности и политикой использования файлов cookie

Зачарованный детерминизм: сила без ответственности в искусственном интеллекте

Эймс, Морган Г. 2014. «Магия перевода: харизма одного ноутбука на детский ноутбук XO в Парагвае». В книге «За пределами импортной магии: очерки науки, технологий и общества в Латинской Америке» под редакцией Идена Медины, Ивана да Коста Маркеса и Кристины Холмс, 207–224. Кембридж, Массачусетс: MIT Press.

__________. 2015. «Харизматическая технология». В материалах Пятой десятилетней Орхусской конференции по критическим альтернативам, 109–120. АА ’15. Орхус, Дания: Издательство Орхусского университета. https://doi.org/10.7146/aahcc.v1i1.21199.

__________. 2018. «Деконструкция алгоритмического возвышенного». Большие данные и общество 5 (1): 1–4. https://doi.org/10.1177/2053951718779194.

Андерсон, Крис. 2008. «Конец теории: поток данных делает научный метод устаревшим». Проводной. 23 июня. https://www.wired. com/2008/06/pb-theory/.

Арора, Санджив. 2019. «Краткое введение в глубокое обучение и полемику об алхимии». представлено на Deep Learning: Alchemy or Science?, Institute of Advanced Study, Princeton University, 22 февраля. https://www.youtube.com/watch?v=kqhg-o-KEns.

Асад, Талал. 2003. Светские формации: христианство, ислам, современность. Стэнфорд: Издательство Стэнфордского университета.

Бек, Ульрих. 1992. Общество риска: на пути к новой современности, перевод Марка Риттера. Лондон: Сейдж.

Беллман, Ричард. 1957. Динамическое программирование. Принстон: Издательство Принстонского университета.

Беннетт, Джейн. 2001. Очарование современной жизни: привязанности, переходы и этика. Принстон: Издательство Принстонского университета.

Бентал, Себастьян и Брюс Д. Хейнс. 2019. «Расовые категории в машинном обучении». В FAT* ’19: Конференция по справедливости, подотчетности и прозрачности, 10. Атланта, Джорджия: ACM. https://doi.org/10.1145/3287560. 3287575.

Боровец, Стивен. 2016. «AlphaGo запечатывает победу со счетом 4: 1 над гроссмейстером го Ли Седолем». The Guardian, 15 марта. https://www.theguardian.com/technology/2016/mar/15/googles-alphago-seals-4-1-victory-over-grandmaster-lee-sedol.

Боукер, Джеффри С. и Сьюзен Ли Стар. 1999. Разбираемся: классификация и ее последствия. Кембридж, Массачусетс: MIT Press.

Браун, Симона. 2015. Темные дела: Наблюдение за чернотой. Дарем: Издательство Университета Дьюка.

Баррелл, Дженна. 2016. «Как машина «думает»: понимание непрозрачности в алгоритмах машинного обучения». Большие данные и общество 3 (1): 1–12. https://doi.org/10.1177/2053951715622512.

Цитрон, Даниэль Китс и Фрэнк А. Паскуале. 2014. «Общество с оценками: надлежащая процедура для автоматизированных прогнозов». Вашингтонский юридический обзор 89 (1): 1–33.

Коллинз, Гарри. 2010. Неявные и явные знания. Чикаго: Издательство Чикагского университета.

Кросман, Пенни. 2017. «Улучшает ли ИИ кредитный рейтинг или сбивает с толку?» Американский банкир. 14 февраля. https://www.americanbanker.com/news/is-ai-making-credit-scores-better-or-more-confusing.

Домингос, Педро. 2012. «Несколько полезных вещей, которые нужно знать о машинном обучении». Сообщения ACM 55 (10): 78–87. https://doi.org/10.1145/2347736.2347755.

Дрейфус, Хьюберт Л. 1965. «Алхимия и искусственный интеллект». Санта-Моника: РЭНД. http://www.rand.org/pubs/papers/P3244.html.

Эдвардс, Хелен и Дэйв Эдвардс. 2018. «Инженеры Google говорят, что «магические заклинания» разрушают исследования ИИ». Кварц. 5 октября. https://qz.com/1274131/googles-engineers-say-that-lack-of-rigor-is-ruining-ai-research/.

Эспеланд, Венди Нельсон и Майкл Саудер. 2007. «Рейтинги и реактивность: как общественные меры воссоздают социальные миры». Американский журнал социологии 113 (1): 1–40.

Юбэнкс, Вирджиния. 2018. Автоматизация неравенства: как высокотехнологичные инструменты профилируют, охраняют и наказывают бедных. Нью-Йорк: Издательство Св. Мартина.

Форд, Мартин. 2018. Архитекторы интеллекта: правда об ИИ от людей, которые его создают. Бирмингем, Великобритания: Packt Publishing.

Фуко, Мишель. 1972. Археология знаний. Перевод А.М. Шеридан Смит. Нью-Йорк: Пантеон.

Галисон Питер. 1994. «Онтология врага: Норберт Винер и кибернетическое видение». Критическое исследование 21 (1): 228–66.

Гудфеллоу, Ян Дж., Джонатон Шленс и Кристиан Сегеди. 2014. «Объяснение и использование состязательных примеров». ArXiv:1412.6572 [Cs, Stat], декабрь. http://arxiv.org/abs/1412.6572.

__________, Йошуа Бенджио и Аарон Курвиль. 2016. Глубокое обучение. Кембридж, Массачусетс: MIT Press.

Гринбергер, Мартин. 1962. Менеджмент и компьютер будущего. Нью-Йорк: Уайли.

Гвидотти Р., Анна Монреале, Сальваторе Руджери, Франко Турини, Фоска

Джаннотти и Дино Педрески. 2019. «Обзор методов объяснения моделей черного ящика». ACM Computing Surveys 51 (5): 1–42. https://doi. org/10.1145/3236009.

Взлом, Ян. 1990. Укрощение шанса Кембридж: Издательство Кембриджского университета, 19.90.

Ху, Лили, Николь Имморлика и Дженнифер Вортман Воан. 2019. «Разрозненные последствия стратегических манипуляций». В материалах конференции по справедливости, подотчетности и прозрачности, 259–268. ЖИР* ’19. Нью-Йорк, штат Нью-Йорк, США: ACM. https://doi.org/10.1145/3287560.3287597.

Хатсон, Мэтью. 2018. «Исследователи ИИ утверждают, что машинное обучение — это алхимия». Наука. 3 мая. http://www.sciencemag.org/news/2018/05/ai-researchers-allege-machine-learning-alchemy.

Джаннини, Эммануэле А., Рэй Бланшар, Андреа Камперио-Чиани и Джон Бэнкрофт. 2010. «Мужской гомосексуальность: природа или культура?» Журнал сексуальной медицины 7 (10): 3245–53.

Джозефсон-Сторм, Джейсон А. 2017. Миф о разочаровании: магия, современность и рождение гуманитарных наук. Чикаго: Издательство Чикагского университета.

Клейнберг, Джон, Химабинду Лаккараджу, Юре Лесковец, Йенс Людвиг и Сендхил Муллайнатан. 2018. «Человеческие решения и машинные прогнозы». Ежеквартальный журнал экономики 133 (1): 237–9.3. https://doi.org/10.1093/qje/qjx032.

Рыцарь, Уилл. 2017. «Инопланетные» шахматы Alpha Zero демонстрируют силу и особенности ИИ». Обзор технологий Массачусетского технологического института. 8 декабря. https://www.technologyreview.com/s/609736/alpha-zeros-alien-chess-shows-the-power-and-the-peculiarity-of-ai/.

Латур, Бруно. 1993. Мы никогда не были современными, перевод Кэтрин Портер. Кембридж, Массачусетс: Издательство Гарвардского университета.

ЛеКун, Янн, Йошуа Бенджио и Джеффри Хинтон. 2015. «Глубокое обучение». Природа 521 (7553): 436–44. https://doi.org/10.1038/nature14539.

Липтон, Закари. C. 2018. «Мифы интерпретируемости моделей». Очередь 16 (3): 30:31–30:57. https://doi.org/10.1145/3236386.3241340.

Лу, Чжоу, Хунмин Пу, Фэйчэн Ван, Чжицян Ху и Ливэй

Ван. 2017. «Выразительная сила нейронных сетей: взгляд со стороны». ArXiv:1709.02540 [Cs], сентябрь. http://arxiv.org/abs/1709.02540.

Мец, Каде. 2016. «В два шага AlphaGo и Ли Седол изменили будущее». Проводной. 16 марта. https://www.wired.com/2016/03/two-moves-alphago-lee-sedol-redefined-future/.

Миллер, Алекс П. 2018. «Хотите менее предвзятых решений? Используйте алгоритмы». Гарвардский бизнес-обзор. 26 июля. https://hbr.org/2018/07/want-less-biased-decisions-use-algorithms.

Благородный, Сафия Умоджа. 2018. Алгоритмы угнетения: как поисковые системы усиливают расизм. Нью-Йорк: Пресса Нью-Йоркского университета.

Принсипи, Лоуренс М. и Уильям Р. Ньюман. 2001. «Некоторые проблемы с историографией алхимии». В «Тайнах природы: астрология и алхимия в Европе раннего Нового времени», 385–431. Кембридж, Массачусетс: MIT Press.

Рагху, Майтра, Бен Пул, Джон Клейнберг, Сурья Гангули и Яша Золь-Дикштейн. 2017. «О выразительной силе глубоких нейронных сетей». На Международной конференции по машинному обучению, 2847–2854 гг. http://proceedings.mlr.press/v70/raghu17a. html.

Ризебродт, Мартин. 1999. «Харизма в социологии религии Макса Вебера». Религия 29 (1): 1–14. https://doi.org/10.1006/reli.1999.0175.

Скотт, Джоан. 2017. Секс и секуляризм. Принстон: Издательство Принстонского университета.

Селбст, Эндрю и Солон Барокас. 2018. «Интуитивная привлекательность объяснимых машин». Fordham Law Review 87 (3): 1085.

Сильвер, Дэвид. Джулиан Шритвизер, Карен Симонян, Иоаннис Антоноглу, Аджа Хуанг, Артур Гез, Томас Хьюберт и др. 2017. «Овладение игрой в го без участия человека». Природа 550 (7676): 354. https://doi.org/10.1038/nature24270.

Суини Энни и Пейдж Фрай. 2018. «Почти 33 000 несовершеннолетних, арестованных за последние два десятилетия, признаны полицией Чикаго членами банд». Чикаго Трибьюн, 9 августа.. https://www.chicagotribune.com/news/local/breaking/ct-met-chicago-police-gang-database-juveniles-20180725-story.html.

Сегеди, Кристиан, Войцех Заремба, Илья Суцкевер, Джоан Бруна, Дмитрий Эрхан, Ян Гудфеллоу и Роб Фергус.