Gray: Как получилось так, что Вы начали заниматься вопросами поиска — возникла очередная задача или сознательно решили работать именно в этом направлении?

Сегалович: в лингвистику и поисковые системы я сначала пришел ради приработка и относился к этой деятельности поверхностно и снисходительно (до этого я занимался
интегральными уравнениями второго рода в геофизике :) ) позвал меня сначала на мелкие а потом на более крупные вещи мой школьный друг Аркаша, постепенно я втянулся и понял, что это всерьез и надолго.

Gray: Аркаша — это Волож?

Сегалович: :) воложок

Gray: Надо запомнить :)

А, приходя в лингвистику, Вы какое-то представление о сфере деятельности имели или учились в бою — есть задание, надо его выполнять?

Сегалович: когда мне волож рассказал про их с Борковским идею искать со словоформами я решил — это заезжено и тривиально потом стал писать, влез в коды, увидел что можно все ускорить в 5 раз, ускорил, стало интересней и т.д. и т.д Потом мы решили переделать морфологию Борковского (a.k.a. Lexicon-Ortodok) и я познакомился с Апресяном и Ко. Стало еще интересней :)

Gray: И когда в итоге интерес достиг высшей точки?

Сегалович: надеюсь что это еще впереди. Хотя периодически меня посещают мысли типа: “ну что, наконец, ты сделал то, что тебя просил волож лет 7 назад, можно уже спокойно вернуться в геофизику” :)

может я так и сделаю, когда-нибудь, пока мне здесь интересно.

Gray: А в чем вопрос? Геофизика тянет?

Сегалович: если бы не было веба, то поисковые системы — сильно вычерпанная тема. Слава богу, появился веб и задача сразу стала бесконечной. Заодно и востребованность
(социальная значимость :) ) выросла на порядки — это случилось как-то вдруг в 1995-1996 годах.

Gray: т.е. развитие Интернета поставило задачу поиска по бесконечной (теоретически) базе, чем оживило разработку алгоритмов поиска? Я правильно понял?

Сегалович: ага. Началась война с размерами, спаммерами, зеркалами и т.д. и т.п. Появилась жуткая конкуренция — стало очень интересно жить.

Gray: и именно это держит Вас в Яндексе?

Сегалович: Ну, зачем же так упрощать :)

Зарплата еще хорошая :) .

Gray: понятно. Т.е. понятно, что начало поиску, скажем, положил Волож. А все дальнейшее развитие?
Неужели это только борьба со спаммерами?

Сегалович: ну почему же — это масса интересных задач как технического, так и социального смысла:

— mirrors mirrors on the web

— каталог и его связь с поиском

— размеры большие

— да много чего еще

короче, не только и не столько спаммеры, сколько просто обеспечение свежести, полноты, точности в масштабах веба — очень интересная задача.

Gray: В развитии Яндекса Вы как-то оглядываетесь на опыт других поисковиков? Скажем, технология PageRank, применяемая Google, учитывается в Я.?

Сегалович: pagerank это не технология а классический алгоритм расчета “взвешенной цитируемости” — простая задача из теории графов — прямо в интернете можно найти учебники по теории графов с оцень похожими задачами (определение победителя в шахматном турнире по швейцарке и т.п.)

Да, мы считаем взвешенный индекс цитирования — но “бес кроется в деталях”.
:)

Gray: Google прямо говорит, что наличие ссылок необходимо для индексации документа, т.е. PageRank — это основной фактор в поиске.

Сегалович: Он хитрит. Это ПиАр их собственного алгоритма, не более того. В запросах из 2 и более слов PageRank играет подчиненную роль, а таких запросов большинство.

Gray: Илья, а вообще что-то глобальное в развитии поиска на Яндексе планируется или пока только шлифовка, устранение глюков и т.д?

Сегалович: глобального мало. В основном глюки ошибки и т.д. Поиск по картинкам вот делаем новый.

Gray: А какие вообще теоретически есть возможности модернизации поиска? Т.е. что можно сделать, но оно пока не имеет смысла или нерентабельно?

Сегалович: я пытался на это отвечать в вопроснике украинцам

— более широкое и глубже осмысленное использование “внетекстовых”критериев (то есть, инфомации “вне” текста индексируемого документа)
— это надо раскрывать подробнее

— более широкое применение P2P

— умная кластеризация выдачи

— развитие контекстно-зависимого аннотирования.

Gray: т.е. в целом это можно назвать созданием искусственного интеллекта на сервере, который бы анализировал запрос и искал по доступной базе по тем же критериям, что и человек?

Сегалович: ни за что на свете — я ненавижу сочетание искусственный интеллект. У нас оно используется, в основном, в издевательском смысле :) Посмотрите, как напыщенно переводится information retrieval на русский — никто не пишет “поиск”, самое скромное — “интеллектуальные системы” :) .

оставим “интеллект” конторам типа гербалайф-эскалибур:), мы же просто
ищем.

источник searchengines.ru 22.11.01