Релевантность (информационный поиск). Пертинентность и релевантность информационных запросов


Пертинентность

Для пользователя пертинетность, соотношение объема полезной для него информации к общему объему полученной информации, имеет решающее значение. При этом следует учитывать, что формальный запрос к системе является предметом творческого осмысления информационной потребности и не всегда точно отражает последнюю. Неумение большинством пользователей правильно формулировать запросы и получать приемлемые объемы отклика породило в конце 20 века мнение об Интернет, как об огромной информационной свалке. Достижение высокой пертинентности - основное поле конкурентной борьбы современных поисковых систем. Именно для максимального удовлетворения информационных потребностей пользователей информационно-поисковые системы сегодня максимально интеллектуализируются - получили широкое практическое применение теории и методы семантических сетей, контент-анализа и глубинного анализа текстов (Text Mining).

Что такое релевантность

Дата публикации: 10.05.2012

Релевантность(от лат. relevo — облегчать, поднимать) в информационном поиске означает соответствие образа документа поисковому запросу. Проще говоря - это то, насколько результат поиска полезен пользователю поисковой системы.

"Релевантная выдача" означает поисковую выдачу с качественными материалами по запрошенной теме. Нерелевантной является выдача, предоставляющая данные не соответствующие ожиданиям запроса.

Как определяется релевантность.

В упрощенном виде релевантность определяется процентом вхождения ключевого запроса к общему объему текста. Релевантным считается текст, с плотностью ключевых фраз примерно 4-7%. Их большее наличие может быть принято поисковыми системами за поисковый спам и как результат - наложение ограничивающих санкций в виде фильтров.

Естественно, алгоритм определения релевантности сложней и кроме соответствия текста учитывает:

Однако, эти алгоритмы построены на одинаковых принципах и их соблюдение приведет к высоким позициям в серпе.

Пертинентность

Дата публикации: 11.05.2012

Пертинентность( в переводе с лат. pertineo — отношусь, касаюсь) — это соответствие найденных поисковой системой материалов информационным потребностям пользователей, вне зависимости от точности текста этого запроса.

Проще говоря, это соотношение полезного объёма выдачи информации к общему и удовлетворенность пользователя этими результатами.

Продемонстрировать пертинентностьможно на примере запроса: "новый фильм". В результате могут оказаться фильмы, который были новыми несколько лет назад , а то и вообще обсуждения и анонсы.

Именно на улучшение пертинентностив настоящее время направлены усилия поисковых систем, чтобы в идеале каждому пользователю выдавались именно для него отобранные результаты. И чтобы организовать максимально релевантную выдачу, учитывается "новизна информации" и все больше изучаются интересы людей и их поведение, которые фиксируются в «поведенческом факторе».

Запросы пользователей

Казалось бы, с развитием технологических возможностей, современные поисковые системы должны обеспечить гарантированное нахождение информации, однако "ленивые" пользователи все же, очень часто не довольны качеством их работы. Основная масса пользователей не хочет прикладывать особых интеллектуальных усилий при формировании критериев поиска. Удивительно низким оказывается процент использования запросов, усложненных хотя бы одним логическим или контекстным оператором. Около 80 % запросов состоят из одного или двух слов. Если и используются операторы, то это в основном булевы AND и OR. Доля использования операторов контекстной близости и логического отрицания (NOT) не превышает 1-2%. В то же время, реализация отработки сложных запросов (которых пока не более 20%) и определяет эффективность использования времени, проводимого пользователем в Интернет.

Для ввода сложных запросов требуется использование булевых и контекстных операторов, скобок, указание полей и т.п., что недоступно для среднестатистического пользователя. Поисковые службы обычно создают два интерфейса - простой (по умолчанию) и расширенный (называемый в разных системах детальным, мощным или профессиональным), однако главная задача коммерческих поисковых служб как раз и заключается в удовлетворении информационных потребностей среднестатистического пользователя.

Назовем лишь некоторые возможности языков запросов наиболее популярных систем - возможности которые есть в распоряжении пользователей, но которые используются в очень небольшой части. Во всех современных системах реализованы булевы операторы AND, OR и NOT, а также работа со скобками. Однако в двух из них - AltaVista и Excite оператор NOT записывается в виде "AND NOT", - таким образом подчеркивается его бинарность (в математической логике оператор NOT в чистом виде - унарный). В режимах простого поиска булевы операторы реализуются не всегда указанием их в явном виде. Например, во многих поисковх системах пробел между словами запроса по умолчанию воспринимается как оператор AND (Allthenews, Google, META и UAport). В то же время при указании опций типа "any of the words", пробел в таких системах воспринимается как OR. Кроме тог, в Alltheweb допускается использование операторов "+" и "-" перед словами фактически как синонимов операторов AND и NOT, соответственно. Точно так же используются эти операторы в AltaVista, Excite, Lycos и Апорт. Большинство профессиональных поисковых систем обеспечивает выполнение операций контекстной близости, одна из реализаций которой - поиск выражений в кавычках. В системе Яndex режим контекстного поиска называется "поиском с расстоянием". В общем виде ограничение по расстоянию задается выражением вида "/(n m)", где n - минимальное, а m - максимальное допустимое расстояние. В системе Апорт существует два вида ограничения по расстоянию: в словах "wN(...)", где N - число слов и в предложениях "sN(...)", где N - число предложений.

Можно отметить, что у самой популярной сегодня системы Google - самый лаконичный набор операторов - "+", OR и "-" и реализована возможность поиска по фразам в кавычках.

studfiles.net

9) Что такое пертинентность и релевантность информации?

Пертинентность - соответствие содержания информации потребности пользователя;

Релевантность - Отношение смысловой близости между содержанием информации и запросом пользователя.

10) Зачем нужна аннотация к научному изданию, и чем она отличается от научного реферата? Кто их формирует? Аннотация предназначена для быстрого ознакомления с тематикой и содержанием книги/работы. Аннотация - краткая характеристика первичного документа с точки зрения содержания, особенностей назначения, формы, тематики и других особенностей; реферат- подробное отображение текста первичного документа с целью идентификаций новизны, полноты, полезности содержания, выявления основных наиболее важных фактов, гипотез, концепций, теорий, методик и методов. Аннотацию пишет либо автор, либо издательство, которое издает книгу. Как правило, аннотация носит рекламный характер, чтобы читатель имел представление о том, что он будет читать. Реферативные службы (50-60-х гг.) собирали все рефераты и писали аннотации к каждому реферату. Надо было не более чем на страницу изложить основные идеи реферата. Писали аннотации другие люди, не имеющие отношение к реферату. 11) Назовите информационные революции в истории развития цивилизации

Первая информационная революция заключается в появлении языка и членораздельной человеческой речи. Ведь именно развитие языка оказало колоссальное влияние на развитие сознания людей, а его использование в их практической деятельности стало информационной основой создания первых технологий, т.е. знаний и навыков рациональной организации этой деятельности. Вторая революция связана с изобретением письменности, что привело к гигантскому качественному и количественному скачку. Появилась возможность не только сохранять уже накопленные знания, но и передавать их от поколения к поколению. Существенным образом изменилась и информационная среда общества, стали возможными новые виды информационных коммуникаций между людьми посредством обмена письменными сообщениями. Появились исторические летописи, поэзия и литература, зародились элементы того нового и своеобразного явления, которое мы сегодня называем информационной культурой. Третья (середина XIV в.) вызвана изобретением книгопечатания, которое радикально изменило индустриальное общество, культуру, организацию деятельности. Широкое внедрение этого изобретения в практику привело к информационному взрыву. Произошел рост количества используемых в обществе информационных документов, а самое главное — началось и более широкое распространение информации, научных знаний и информационной культуры. Появились первые библиотеки, типографии, газеты, журналы и т.п. Четвертая (конец XIX в.) обусловлена изобретением электричества, благодаря которому появились телеграф, телефон, радио, позволяющие оперативно передавать и накапливать информацию в любом объеме. Благодаря этим средствам люди уже не испытывают чувства одиночества и изолированности от окружающего их общества. Пятая (70-е гг. XX в.) связана с изобретением микропроцессорной технологии и появлением персонального компьютера. На микропроцессорах и интегральных схемах создаются компьютеры, компьютерные сети, система передачи данных (информационные коммуникации) Шестая информационная революция связана с активизацией процесса информатизации общества, направленного на кардинальное изменение условий жизни и деятельности людей, их культуры, стереотипа поведения, образа мыслей. Исследования показывают, что информатизация общества не является научно-технической модой. Это не кратковременная компания, а закономерный процесс развития цивилизации, которая переходит на качественно новую стадию своего развития.

studfiles.net

Пертинентность Википедия

Релева́нтность (англ. relevance — актуальность, уместность) в информационном поиске — соответствие интента (поискового намерения), заложенного в запросе и выдачи в поисковой системе, полученной в результате этого запроса. Пользователь, который вводит запрос в поисковую систему ожидает, что результаты будут соответствовать намерению, которое он заложил в запросе, иными словами он получит релевантную выдачу.

Существует несколько подходов к оценке релевантности. Содержательная релевантность — соответствие ответов информационному запросу, определяемое неформальным путём[1]. Формальная релевантность — соответствие, определяемое путём сравнения образа поискового запроса с поисковым образом ответа по определённому алгоритму[1].

Одним из распространённых методов для оценки релевантности является TF-IDF-метод. Его смысл сводится к тому, что чем больше локальная частота термина (запроса) в документе (TF) и больше «редкость» (то есть, чем реже он встречается в других документах) термина в коллекции (IDF), тем выше вес данного ответа по отношению к термину — то есть ответ будет выдаваться раньше в результатах поиска по данному термину. Автор метода — Джерард Солтон (англ. Gerard Salton), в дальнейшем доработан Карен Спарк Джонс[2].

Пертине́нтность (лат. pertineo — касаться, относиться) — соответствие найденных информационно-поисковой системой результатов информационным потребностям пользователя, независимо от того, как полно и как точно эта информационная потребность выражена в тексте информационного запроса. Иначе говоря, это соотношение объёма полезной информации к общему объёму полученной информации[1].

Факторы, которые оказывают влияние на релевантность, принято делить на внешние и внутренние. К внешним относят ссылочную массу, к внутренним — технические составляющие и содержимое.

Ссылочная масса. Чем больше тематических и качественных ссылок ведёт на страницы ресурса, тем больше вероятность ценности ресурса для пользователя.  

Технические составляющие. Большая группа параметров, по которым поисковая система оценивает как сайт в целом, так и отдельные страницы (например, наличие метатегов, отсутствие ошибок в HTML-разметке и так далее).

Контент. Ключевой фактор от которого зависит релевантность страницы и конверсия. Содержимое на сайте должно быть уникальным и «для людей».

См. также

Примечания

Литература

Ссылки

wikiredia.ru

Пертинентность Википедия

Релева́нтность (англ. relevance — актуальность, уместность) в информационном поиске — соответствие интента (поискового намерения), заложенного в запросе и выдачи в поисковой системе, полученной в результате этого запроса. Пользователь, который вводит запрос в поисковую систему ожидает, что результаты будут соответствовать намерению, которое он заложил в запросе, иными словами он получит релевантную выдачу.

Существует несколько подходов к оценке релевантности. Содержательная релевантность — соответствие ответов информационному запросу, определяемое неформальным путём[1]. Формальная релевантность — соответствие, определяемое путём сравнения образа поискового запроса с поисковым образом ответа по определённому алгоритму[1].

Одним из распространённых методов для оценки релевантности является TF-IDF-метод. Его смысл сводится к тому, что чем больше локальная частота термина (запроса) в документе (TF) и больше «редкость» (то есть, чем реже он встречается в других документах) термина в коллекции (IDF), тем выше вес данного ответа по отношению к термину — то есть ответ будет выдаваться раньше в результатах поиска по данному термину. Автор метода — Джерард Солтон (англ. Gerard Salton), в дальнейшем доработан Карен Спарк Джонс[2].

Пертине́нтность (лат. pertineo — касаться, относиться) — соответствие найденных информационно-поисковой системой результатов информационным потребностям пользователя, независимо от того, как полно и как точно эта информационная потребность выражена в тексте информационного запроса. Иначе говоря, это соотношение объёма полезной информации к общему объёму полученной информации[1].

Факторы, которые оказывают влияние на релевантность, принято делить на внешние и внутренние. К внешним относят ссылочную массу, к внутренним — технические составляющие и содержимое.

Ссылочная масса. Чем больше тематических и качественных ссылок ведёт на страницы ресурса, тем больше вероятность ценности ресурса для пользователя.  

Технические составляющие. Большая группа параметров, по которым поисковая система оценивает как сайт в целом, так и отдельные страницы (например, наличие метатегов, отсутствие ошибок в HTML-разметке и так далее).

Контент. Ключевой фактор от которого зависит релевантность страницы и конверсия. Содержимое на сайте должно быть уникальным и «для людей».

См. также[ | ]

Примечания[

ru-wiki.ru

Релевантность (информационный поиск) — Википедия

Материал из Википедии — свободной энциклопедии

Текущая версия страницы пока не проверялась опытными участниками и может значительно отличаться от версии, проверенной 10 мая 2018; проверки требуют 4 правки. Текущая версия страницы пока не проверялась опытными участниками и может значительно отличаться от версии, проверенной 10 мая 2018; проверки требуют 4 правки.

Релева́нтность (англ. relevance — актуальность, уместность) в информационном поиске — соответствие интента (поискового намерения), заложенного в запросе и выдачи в поисковой системе, полученной в результате этого запроса. Пользователь, который вводит запрос в поисковую систему ожидает, что результаты будут соответствовать намерению, которое он заложил в запросе, иными словами он получит релевантную выдачу.

Существует несколько подходов к оценке релевантности. Содержательная релевантность — соответствие ответов информационному запросу, определяемое неформальным путём[1]. Формальная релевантность — соответствие, определяемое путём сравнения образа поискового запроса с поисковым образом ответа по определённому алгоритму[1].

Одним из распространённых методов для оценки релевантности является TF-IDF-метод. Его смысл сводится к тому, что чем больше локальная частота термина (запроса) в документе (TF) и больше «редкость» (то есть, чем реже он встречается в других документах) термина в коллекции (IDF), тем выше вес данного ответа по отношению к термину — то есть ответ будет выдаваться раньше в результатах поиска по данному термину. Автор метода — Джерард Солтон (англ. Gerard Salton), в дальнейшем доработан Карен Спарк Джонс[2].

Пертине́нтность (лат. pertineo — касаться, относиться) — соответствие найденных информационно-поисковой системой результатов информационным потребностям пользователя, независимо от того, как полно и как точно эта информационная потребность выражена в тексте информационного запроса. Иначе говоря, это соотношение объёма полезной информации к общему объёму полученной информации[1].

Факторы, которые оказывают влияние на релевантность, принято делить на внешние и внутренние. К внешним относят ссылочную массу, к внутренним — технические составляющие и содержимое.

Ссылочная масса. Чем больше тематических и качественных ссылок ведёт на страницы ресурса, тем больше вероятность ценности ресурса для пользователя.  

Технические составляющие. Большая группа параметров, по которым поисковая система оценивает как сайт в целом, так и отдельные страницы (например, наличие метатегов, отсутствие ошибок в HTML-разметке и так далее).

Контент. Ключевой фактор от которого зависит релевантность страницы и конверсия. Содержимое на сайте должно быть уникальным и «для людей».

ru.wikiyy.com

Понятие релевантности

Релева́нтность (лат. relevo — поднимать, облегчать) в информационном поиске — семантическое соответствие поискового запроса и поискового образа документа. В более общем смысле, одно из наиболее близких понятию качества «релевантности» — «адекватность», то есть не только оценка степени соответствия, но и степени практической применимости результата, а также степени социальной применимости варианта решения задачи.

Виды релевантности:

Содержательная релевантность

Соответствие документа информационному запросу, определяемое неформальным путем. Одним из методов для оценки релевантности является TF-IDF-метод. Его смысл сводится к тому, что чем больше локальная частота термина (запроса) в документе (TF) и больше «редкость» (то есть чем реже он встречается в других документах) термина в коллекции (IDF), тем выше вес данного документа по отношению к термину — то есть документ будет выдаваться раньше в результатах поиска по данному термину.

Формальная релевантность

Соответствие, определяемое путем сравнения образа поискового запроса с поисковым образом документа по определенному алгоритму.

Пертине́нтность (лат. pertineo — касаюсь, отношусь) — соответствие найденных информационно-поисковой системой документов информационным потребностям пользователя, независимо от того, как полно и как точно эта информационная потребность выражена в тексте информационного запроса. Иначе говоря, это соотношение объёма полезной информации к общему объёму полученной информации.

Функции оценки релевантности

TF/IDF

TF-IDF (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции.

Мера TF-IDF часто используется в задачах анализа текстов и информационного поиска, например, как один из критериев релевантности документа поисковому запросу, при расчёте меры близости документов при кластеризации.

Структура формулы

TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова ti в пределах отдельного документа.

,

где ni есть число вхождений слова в документ, а в знаменателе — общее число слов в данном документе.

IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции. Учёт IDF уменьшает вес широкоупотребительных слов.

,

где

|D| — количество документов в корпусе;

—количество документов, в которых встречается ti (когда ).

Таким образом, мера TF-IDF является произведением двух сомножителей: TF и IDF.

Большой вес в TF-IDF получат слова с высокой частотой в пределах конкретного документа и с низкой частотой употреблений в других документах.

Пример

Если документ содержит 100 слов и слово «заяц» встречается в нём 3 раза, то частота слова (TF) для слова «заяц» в документе будет 0,03 (3/100). Один из вариантов вычисления частоты документа (DF) определяется как количество документов содержащих слово «заяц», разделенное на количество всех документов. Таким образом, если «заяц» содержится в 1000 документов из 10 000 000 документов, то частота документа (DF) будет равной 0,0001 (1000/10000000). Для расчета окончательного значения веса слова необходимо разделить TF на DF (или умножить на IDF). В данном примере, TF-IDF вес для слова «заяц» в выбранном документе будет 300 (0,03/0,0001).

PageRank

PageRank — это числовая величина, характеризующая «важность» веб-страницы. Чем больше ссылок на страницу, тем она становится «важнее». Кроме того, «вес» страницы А определяется весом ссылки, передаваемой страницей B. Таким образом, PageRank — это метод вычисления веса страницы путём подсчёта важности ссылок на неё.

Формула вычисления:

PR(A) = (1-d) + d (PR(T1)/C(T1) + ...+ PR(Tn)/C(Tn)),

где PR(A) — это вес PageRank страницы A (тот вес, который мы хотим вычислить),

D — это коэффициент затухания, который обычно устанавливают равным 0,85,

PR(T1) — вес PageRank страницы, указывающей на страницу A,

C(T1) — число ссылок с этой страницы,

PR(Tn)/C(Tn) означает, что мы делаем это для каждой страницы, указывающей на страницу A.

LexRank

LexRank – это лексический аналог функции ранжирования PageRank, используемой в поисковике Google.

studfiles.net

Релевантность (информационный поиск) - Gpedia, Your Encyclopedia

Текущая версия страницы пока не проверялась опытными участниками и может значительно отличаться от версии, проверенной 10 мая 2018; проверки требуют 4 правки. Текущая версия страницы пока не проверялась опытными участниками и может значительно отличаться от версии, проверенной 10 мая 2018; проверки требуют 4 правки.

Релева́нтность (англ. relevance — актуальность, уместность) в информационном поиске — соответствие интента (поискового намерения), заложенного в запросе и выдачи в поисковой системе, полученной в результате этого запроса. Пользователь, который вводит запрос в поисковую систему ожидает, что результаты будут соответствовать намерению, которое он заложил в запросе, иными словами он получит релевантную выдачу.

Существует несколько подходов к оценке релевантности. Содержательная релевантность — соответствие ответов информационному запросу, определяемое неформальным путём[1]. Формальная релевантность — соответствие, определяемое путём сравнения образа поискового запроса с поисковым образом ответа по определённому алгоритму[1].

Одним из распространённых методов для оценки релевантности является TF-IDF-метод. Его смысл сводится к тому, что чем больше локальная частота термина (запроса) в документе (TF) и больше «редкость» (то есть, чем реже он встречается в других документах) термина в коллекции (IDF), тем выше вес данного ответа по отношению к термину — то есть ответ будет выдаваться раньше в результатах поиска по данному термину. Автор метода — Джерард Солтон (англ. Gerard Salton), в дальнейшем доработан Карен Спарк Джонс[2].

Пертине́нтность (лат. pertineo — касаться, относиться) — соответствие найденных информационно-поисковой системой результатов информационным потребностям пользователя, независимо от того, как полно и как точно эта информационная потребность выражена в тексте информационного запроса. Иначе говоря, это соотношение объёма полезной информации к общему объёму полученной информации[1].

Факторы, которые оказывают влияние на релевантность, принято делить на внешние и внутренние. К внешним относят ссылочную массу, к внутренним — технические составляющие и содержимое.

Ссылочная масса. Чем больше тематических и качественных ссылок ведёт на страницы ресурса, тем больше вероятность ценности ресурса для пользователя.  

Технические составляющие. Большая группа параметров, по которым поисковая система оценивает как сайт в целом, так и отдельные страницы (например, наличие метатегов, отсутствие ошибок в HTML-разметке и так далее).

Контент. Ключевой фактор от которого зависит релевантность страницы и конверсия. Содержимое на сайте должно быть уникальным и «для людей».

См. также

Примечания

Литература

Ссылки

www.gpedia.com


Prostoy-Site | Все права защищены © 2018 | Карта сайта