среда, 28 апреля 2010 г.

Как поисковые машины могут ранжировать пользовательский контент

Как поисковые машины могут ранжировать пользовательский контент

ермин “пользовательский контент” покрывает довольно широкий спектр различных текстов, картинок, видео и звукозаписей, которые вы можете встретить в сети.

В принципе, от остального контента пользовательский контент отличается тем, что его создают сами пользователи сайтов. К пользовательскому контенту можно отнести доски объявлений, форумы, сайты на движке wiki, обзоры продуктов, дискуссионные листы, сайты вопросов и ответов, блоги и комментарии к блогам, подкасты и многое другое.

Недавно опубликованный патент Yahoo рассматривает возможные подходы к индексации пользовательского контента и включения его в поисковую выдачу.

Изобретатели указывают на то, что в местах вроде страниц отзывов о товарах иногда встречается крайне полезная информация, но поисковые машины далеко не всегда показывают ее ищущим людям.

Почему у поисковых машин могут возникать трудности с ранжированием информации, обнаруженной в пользовательском контенте? Вот три причины, о которых нам говорят, что они влияют на “типичные механизмы ранжирования документов в поиске, но не подходят для ранжирования пользовательского контента”:

* Пользовательский контент обычно небольшой по объему,
* На и с пользовательского контента обычно нет ссылок,
* В пользовательском контенте распространены орфографические ошибки.

В патенте приводятся три концепции, которые могут быть полезны при ранжировании пользовательского контента, чтобы он попадал в выдачу, если может быть полезен. Эти концепции:

* Качество документа (Document goodness),
* Рейтинг автора (Author rank),
* Рейтинг месторасположения (Location rank).

Детальнее к ним мы еще вернемся, а пока обратимся к самому патенту.

Методика и инструментарий для ранжирования пользовательского контента в поисковых результатах

Изобретатели: Jaya Kawale, Aditya Pal
Принадлежит Yahoo
US Patent Application 20090271391
Опубликовано 29 октября 2009
Подано на рассмотрение 29 апреля 2008

Аннотация

Методика и инструментарий позволяют ранжировать пользовательский контент для поисковых результатов. В методику и инструментарий входит распознавание данных пользовательского контента, собранного с веб-документа расположенного в сети.

Методика и инструментарий вычисляют: значение параметра качества документа для веб-документа; рейтинг автора для поля автора пользовательского контента; и рейтинг месторасположения для ресурса в сети. Методика и инструментарий затем генерируют значение рейтинга для поля пользовательского контента на основе значения параметра качества документа, рейтинга автора и рейтинга месторасположения.

Методика и инструментарий также выдают поисковый результат, включающий поле данных пользовательского контента, размещенное на позиции в поисковой выдаче на основе значения рейтинга.

Первый шаг к ранжированию пользовательского контента это создание оценки качества документа для отзыва, поста в блоге, сообщения на форуме или другого пользовательского контента.

Вот некоторые вещи, на которые может обращать внимание поисковая машина при определении качества документа:

* Рейтинг пользователя (если доступно);
* Частота сообщений до и после размещения документа;
* Контекстуальная связь документа с родительским документом;
* Корень треда;
* Количество просмотров/кликов документа (если доступно);
* Дополнения в документе вроде изображений, ссылок, видео и встроенных объектов;
* Длина документа;
* Длина треда к которому принадлежит документ;
* Качество дочерних документов (если есть).

Следующий шаг к ранжированию пользовательского контента - создание рейтинга автора для создателя контента. Рейтинг автора это “оценка компетентности автора в данной области“.

Вещи, которые могут учитываться при создании рейтинга автора:

* Количество релевантных/нерелевантных сообщений автора;
* Показатель качества документов всех документов автора;
* Общее число документов автора за определенный временной период;
* Общее число ответов или комментариев автора;
* Количество групп, в которых состоит автор.

Первые два шага рассматривали сам пользовательский контент и его создателя. Третий шаг направлен на анализ месторасположения пользовательского контента и предоставляет рейтинг месторасположения.

Вещи, которые поисковая машина может учитывать при ранжировании пользовательского контента с привлечением рейтинга месторасположения этого контента:

* Уровень активности на ресурсе, например, количество документов, публикуемое в час;
* Количество уникальных пользователей на ресурсе;
* Среднее значение качества документов для документов на ресурсе;
* Средний рейтинг авторов для пользователей на ресурсе;
* Внешний рейтинг ресурса.

В патенте приводится несколько методов совместного использования этих метрик для позиционирования пользовательского контента в поисковой выдаче. Возможно, подобные параметры играют роль в попадании пользовательского контента в выдачу и других поисковиков.

Блог Дениса Кучумова о контекстной рекламе и SEO

Переводной материал, источник

Комментариев нет:

Отправить комментарий