Интересный обзор от АльтерТрейдер. Как видно анализируется все что только можно. В целом возникает резонный вопрос о ссылочном и текстовом ранжировании. Пользователи “голосуют” кликами, фактически чтобы подняться в топ нужно первым делом сделать популярный сайт, где пользователи будут “топтаться” и потом только поднимать ссылочное. Логично?

1. Факторы документа, не зависящие от запроса

  • Imp(d) – число показов документа d по всем выдачам, в которых он встречался.
  • суммирование производится по всем запросам q, где в выдаче встречался документ d.
  • Click(d) – число кликов на документ d по всем выдачам, в которых он встречался.
  • суммирование производится по всем запросам q, где в выдаче встречался документ d.
  • CTR(d) – CTR d по всем выдачам.
  • QClickNum(d) – число запросов, в выдачах по которым были клики на документ d.
  • DocVisitors(d,t) – число уникальных посетителей документа d за временной интервал t.
  • DocVisits(d,t) – число посещений документа d за временной интервал t.
  • DocAvgTime(d) – среднее время просмотра документа d.
  • где ViewTime(s,d) – время просмотра документа d во время сессии s, DocViewSessionNum(d) – число сессий, в которых был просмотрен d. Суммирование производится по всем сессиям, где был просмотрен d.
  • DocAvgAction(d) – среднее количество активных действий пользователя на документе d
  • где DocActNum(s,d) – число активных действий пользователя на документе d в сессию s, суммирование производится по всем пользователям u и их сессиям пользователя s(u), во время которых был просмотрен d.

2. Факторы документа, зависящие от запроса.

2.1. Простые кликовые факторы (CTR).

  • QImp(q,d) – число показов документа d в выдачах по запросу q.
  • QClick(q,d) – число кликов на документ d в выдачах по запросу q.
  • QCTR(q,d) – CTR d по в выдачах по запросу q
  • FirstCtr(q,d) – CTR, когда d кликается первым в выдаче по запросу q.
  • где FirstClickCount(q,d) – количество раз, которое d был кликнут первым в выдаче по запросу q.
  • LastCtr(q,d) – CTR, когда d кликается последним в выдаче по запросу q.
  • где LastClickCount(q,d) – количество раз, которое d был кликнут последним в выдаче по запросу q.
  • OnlyCTR(q,d) – CTR, когда кликается только d, по всем выдачам по q.
  • где OnlyDClickCount(q,d) – количество раз, которое документ d был кликнут и это был единственный клик в выдаче по запросу q.
  • %DocClicks(q,d) – доля кликов по документу d в выдачах по запросу q.
  • суммирование производится по всем документам, на которые кликали в выдачах по запросу q.
  • QRCTR(q,d,r) – CTR(q,d), вычисленный для региона r.
  • где QRCLick(q,d,r) – число кликов по документу d в выдачах по запросу q по данным региона r, где QRImpk(q,d,r) – число показов документа d в выдачах по запросу q по данным региона r.
  • %RDocClicks(q,d,r) – доля кликов по документу d в выдачах по запросу q по данным региона r.
  • суммирование производится по всем документам, на которые кликали в выдачах по запросу q в регионе r.

2.2. Временные факторы.

  • AvgDocClickTime(q,d) – среднее время до клика на d после показа выдачи по запросу q.
  • где v принадлежит v(q,d) – выдача по запросу q, в которой d был кликнут (суммирование производится по всем выдачам по запросу q, где d был кликнут), ClickTime(d,v) – время клика по документу d в выдаче v, ShowTime(v) – время показа выдачи v.
  • AvgViewTime(q,d) – среднее время просмотра документа d по запросу q.
  • где v – выдачи по запросу q, в которых был кликнут d, ClickTime(d+1,v) – время следующего после d клика. Если раньше следующего клика идет следующий запрос, то ClickTime(d+1,v) = ShowTime(v+1).
  • 2.3. Факторы, зависящие от позиции документа или номера клика
  • AvgDocPos(q,d) – средняя позиция d в выдачах по запросу q.
  • где DocPos(v,d) – позиция документа d в выдаче v.
  • AvgDocClickPos(q,d) – средний номер клика d в выдачах по запросу q.
  • где DocClickPos(v,d) – порядковый номер клика по документу d в выдаче v.
  • AvgDocClickInvPos(q,d) – средний номер клика d с конца в выдачах по запросу q.
  • где VNumClicks(v) – общее число кликов по выдаче.
  • AvgNumBefore(q,d) – среднее число документов, стоящих в выдаче по запросу q перед d, которые были кликнуты перед d.
  • де UpBeforeNum(d,v) – число документов, стоящих в выдаче v выше d и по которым кликнули раньше d.
  • AvgNumPast(q,d) – среднее число документов, стоящих в выдаче по запросу q перед d, которые были кликнуты после d.
  • где UpPastNum(d,v) – число документов, стоящих в выдаче v выше d и по которым кликнули позже d.

2.4. Вероятностные факторы

  • LastProb(q,d) – вероятность быть последним документом, кликнутым по запросу q.
  • где LastDocClickNum(q,d) – число раз, когда d был кликнут последним в выдаче по запросу q.
  • UpProb(q,d) – вероятность клика на документ, находящийся в выдаче по q на позицию выше d.
  • где UpDocClickNum(q,d) – число раз, когда в выдаче по запросу q был кликнут документ стоящий на 1 позицию выше d.
  • DownProb(q,d) – вероятность клика на документы, находящиеся в выдаче по q ниже d.
  • где DownDocClickNum(q,d) – число раз, когда в выдаче по запросу q был кликнут документ стоящий на 1 позицию ниже d.
  • DoubleProb(q,d) – вероятность того, что по d кликнули два раза подряд.
  • где DocDoubleClickNum(q,d) – число выдач по запросу q, в которых по d кликнули два раз подряд.
  • PastBackProb(q,d) – вероятность того, что к документу вернулись после клика по одной из нижерасположенных ссылок.
  • где DocPastBackNum(q,d) – число выдач по q, в которых по d кликнули после того, как был кликнут хотя бы один документ, стоящий в выдаче после d.
  • BeforeProb(q,d) – вероятность того, что после клика на d, пользователь кликал по документам расположенным выше него.
  • где DocBeforeNum(q,d) – число выдач по q, в которых после клика на d кликнут хотя бы один документ, стоящий в выдаче перед d.

2.5. Факторы, отражающие активность пользователя

  • QDocVisitors(q,d,t) – число уникальных посетителей документа d за временной интервал t, при условии, что пользователь перешел из поисковой системы по запросу q.
  • QDocVisits(q,d,t) – число посещений документа d за временной интервал t, при условии, что пользователь перешел из поисковой системы по запросу q.
  • QDocAvgTime(q,d) – среднее время просмотра d, при условии, что пользователь перешел из поисковой системы по запросу q.
  • QDocAvgAction(q,d)-среднее количество активных действий пользователя на h, при условии, что пользователь перешел из поисковой системы по запросу q.

3. Факторы, зависящие от запроса и выдач

  • QShow(q) – количество показов по запросу q.
  • QClicks(q) – число кликов по выдачам запроса q.
  • AvgClickPos(q) – средняя позиция кликнутых документов по всем выдачам запроса q.
  • где v(q) – выдачи по запросу q, ClickPos(v) – номер кликнутого документа в выдаче v.
  • AvgWorkTime(q) – среднее время работы с запросом.
  • если кликов по v не было, то LastClickTime(v) заменяется на время следующей выдачи, если при этом v – последняя выдача в сессии, то LastClickTime(v) заменяется на ShowTime(v) (время работы с данной выдачей принимается равным нулю).
  • AvgWorkTime2(q) – среднее время работы с запросом.
  • где ShowTime(v+1) – время показа следующей за v выдачей, если v – последняя выдача в сессии ShowTime(v+1) = ShowTime(v).
  • AvgFirstPos(q) – средняя позиция документа, по которому кликают первым.
  • где v(q) – выдачи по запросу q, по которым был хотя бы один клик. FirstClickPos(v) – номер документа выдачи v, по которому кликнули первым, QNoClick(q) – число выдач по запросу q, в которых не было кликов.
  • AvgFirstTime(q) – среднее время до первого клика по выдаче по запросу q.

4. Независимые (сводные) факторы

  • NoClickNum – число запросов без кликов.
  • %NoClickNum – доля запросов без кликов.
  • OneClickNum – число запросов только с одним кликом.
  • %OneClickNum – доля запросов только с одним кликом.
  • AvgClickNum – среднее число кликов по выдаче.
  • AvgIndexInSession – среднее число выдач по запросу q в сессии.
  • где IndexNum(s) – число выдач в сессии s, SessionNum – число сессий.
  • AvgClickInSession – среднее число кликов в сессии.
  • %ClickDoc(i) – % наиболее кликовых документов. i=1..3. Пусть D1, D2, D3 – документы с максимальным числом кликов расположенные в порядке убывания кликов, тогда
  • где d – документы, по которым кликали хотя бы 1 раз.
  • PosCTR(k) – CTR в зависимости от места документа в выдаче k=1..10.
  • где v – выдачи, по документам которых кликали хотя бы раз, DClick(v,k) – число кликов по документу выдачи v, находящемся на месте k.
  • ClickEntropy – кликовая энтропия.
  • AvgTime2FirstClick – среднее время до первого клика по выдаче.
  • где v – выдачи, по которым были клики, FirstClickTime(v) – время первого клика по выдаче v.
  • AvgTime2LastClick – среднее время до последнего клика по выдаче.
  • где LastClickTime(v) – время последнего клика по выдаче v.
  • AvgTimeBetweenClicks – среднее время между двумя кликами.

5. Хостовые факторы

  • HQImp(q,h) – число показов документов хоста h в выдачах по запросу q.
  • HQClick(q,h) – число кликов на документы h в выдачах по запросу q.
  • HQCTR(q,h) – CTR h по выдачам по запросу q
  • HImp(h) – число показов документов h по всем выдачам, где они есть.
  • суммирование производится по всем запросам q, в выдачах которого были документы h.
  • HClick(h) – число кликов на документы h по всем выдачам, где они есть.
  • суммирование производится по всем запросам q, в выдачах которого были документы h.
  • HCTR(h) – CTR h по всем выдачам.
  • %HostClicks(q,h) – доля кликов по документам h в выдачах запроса q.
  • суммирование производится по всем хостам, на документы которых кликали в выдачах по запросу q.
  • FirstWordCTR(q,h) – HQCTR хоста h, вычисленный для первого слова запроса q
  • LastWordCTR(q,h) – HQCTR хоста h, вычисленный для последнего слова запроса q
  • где len(q) – длина запроса в словах.
  • BR(h) – BrowserRank хоста h.
  • %SearchTraf(h) – доля трафика h от поисковых систем.
  • HostVisitors(h,t) – число уникальных посетителей хоста h за временной интервал t.
  • HostVisits(h,t) – число посещений h за временной интервал t.
  • QHostVisitors(q,h,t) – число уникальных посетителей хоста h за временной интервал t, при условии, что пользователь зашел на сайт из поисковой системы по запросу q.
  • QHostVisits(q,h,t) – число посещений h за временной интервал t, при условии, что пользователь зашел на сайт из поисковой системы по запросу q.
  • %HostIntTraf(h) – доля трафика h не по ссылкам (закладки, ручной ввод).
  • HostAvgTime(h) – среднее время просмотра сайта h.
  • где ViewTime(s,d) – время просмотра документа d во время сессии s, ViewDocNum(s,h) – количество просмотренных документов хоста h во время сессии s, суммирование производится по всем сессиям и всем документам хоста h.
  • HostAvgAction(h) – среднее количество активных действий пользователя на h
  • суммирование производится по всем пользователям u и их сессиям пользователя s(u).
  • QHostAvgTime(q,h) – среднее время просмотра сайта h, при условии, что пользователь зашел на сайт из поисковой системы по запросу q.
  • QHostAvgAction(q,h)-среднее количество активных действий пользователя на h, при условии, что пользователь зашел на сайт из поисковой системы по запросу q.

Кликовые факторы позволяют косвенно учитывать мнение пользователя о релевантности документов. Это можно и нужно использовать при решении задач информационного поиска, однако при этом следует не забывать о наличии обратной связи между поведением пользователя и моделями релевантности, построенными на основе кликовых факторов.