В далёком 2006 году в России не было единого народного поиска по Сети. Было несколько доминирующих поисковых систем, из них Рамблер, Google, Яндекс. По сути, любой в то время мог организовать поисковую машину — ориентироваться в добром десятке тысяч сайтов не составляло особого труда. Достаточно было сделать выборку по релевантности среди проиндексированных документов — и результат получался достаточно «чистый».

В те года формула поиска Яндекса «весила» всего 20 байт. Но популяризация сети Интернет внесла свои коррективы в привычный ход вещей.

Яндекс — отрыв от конкурентов

Быстрее всех тенденцию проследили нынешние лидеры поиска: мировой лидер — Google, лидер в России — Яндекс. Вывод был сделан следующий:

Раз растёт количество документов, увеличивается процент поискового спама, выдача с сортировкой по релевантности уже не имеет желательный вид, значит надо увеличивать количество факторов ранжирования.

Благодаря тому, что Яндекс пошёл на увеличение факторов ранжирования, ему удалось не только сохранить свою аудиторию, но и переманить пользователей других более мелких поисковых систем. Но увеличение факторов — это ещё и необходимость увеличения вычислительных мощностей. Так Яндекс логично подошёл к выбору между двумя алгоритмами ранжирования. SVM позволяет быстро проводить релевантную выборку документов, но имеет техническое ограничение на несколько сотен факторов ранжирования. Метод TreeNet может оперировать тысячами факторов ранжирования, но работает значительно медленней. И Яндекс выбрал третий вариант: доработать метод TreeNet до алгоритма МатриксНет. Как выжить в условиях «МатриксНета» — читайте далее.

Запись опубликована 1 декабря 2010 года. В рубрике «Тема дня» есть ещё несколько интересных постов:

Подписка на RSS канал блога RSS подписка (как это?) поможет вам не пропустить ничего интересного на этом блоге.