Русская линия
Нескучный сад Илья Сегалович28.11.2006 

Найдется все: война роботов

На наших глазах создается новый мир — виртуальный — это интернет. Чтобы быстро ориентироваться в нем, придуманы поисковые системы. Оказывается, отправной точкой для создания известнейшей поисковой интернет-системы стала Библия. О том, как это произошло, а также о том, что можно, а чего нельзя найти в Сети, нашему корреспонденту рассказал директор по технологиям и разработке компании «Яндекс» Илья СЕГАЛОВИЧ

— Илья, с чего началась работа над системой поиска в интернете? Как появился Яндекс?

— Мой школьный друг Аркадий Волож в 90-м году загорелся идеей сделать поисковую систему, то есть такую компьютерную программу, которая могла бы искать статьи по каталогу Международной классификации изобретений. В России архив изобретений и патентов был создан в XVIII веке и благодаря нашим ученым материала в нем накопилось много, так что компьютерный поиск по архиву был очень востребован. Я присоединился к команде Аркадия Воложа, и мы вместе сделали несколько версий поисковой системы «Справочник Международной классификации изобретений». Чтобы продемонстрировать обществу наши возможности, мы решили сделать компьютерный поиск по самому значимому русскому тексту, с нашей точки зрения, — Библии. В работе над «Библейским компьютерным справочником» нам помогал Сергей Касьян, выпускающий редактор журнала «Альфа и Омега», он был у нас консультантом. (В 1995 году при помощи нашей программы Сергей подготовил второй том «Симфонии»). Компьютерный поиск по Библии по сути был очень похож на «бумажную Симфонию»: вводишь слово и программа выдает текст, где оно упоминается в Священном Писании. Разница с книгой лишь в размере и в скорости поиска информации.

Это была знаковая работа, показавшая, что есть востребованный русский текст, по которому можно вести контекстный поиск, а лучше всех это делаем мы. В 1995 году в стране оживилась экономика, появились первые деньги. Примерно тогда же мы подключились к интернету и поняли, что делать компакт-диски и справочники — это замечательно, но гораздо более востребованным русским текстом, ужасным в смысле орфографии, пунктуации и содержания, но от этого не менее любимым народом, оказался текст всего, что есть в интернете. 1996-м году мы сделали первую версию поисковой программы, которая искала только по ограниченному набору сайтов, а в 1997-м запустили Яндекс.ру — поиск по всему интернету.

— Сколько страниц в рунете — русскоязычной части интернета?

— Мы знаем про несколько миллиардов страниц, а в архиве нашей поисковой системы храним чуть больше миллиарда ста миллионов. Во всем интернете на два порядка больше. У самых больших западных поисковых систем число страниц в архиве поиска измеряется десятками миллиардов. Двадцать миллиардов страниц, например. А мы пока ищем по одному миллиарду.

— По какому принципу работает поиск в интернете?

— Поиск состоит из двух программ. Первая круглосуточно ищет и обновляет информацию, вторая классифицирует, подготавливает ее для пользователя. По интернету непрерывно бродит наш робот (программа), он отслеживает все ссылки, изменения и заносит информацию в архив. То есть все страницы найдены заранее, а когда пользователь направляет нам запрос, робот просто выбирает нужное из своего архива и выдает вам готовую информацию. Именно поэтому поиск при помощи Яндекса такой быстрый — не больше нескольких секунд, и те зависят от скорости вашего интернета. Все поисковые операции выполняет программа-робот. Но есть несколько десятков программистов, которые создают многие кусочки этого робота. Некоторые называют его «искусственным интеллектом», так как робот может принимать решения и на основе результатов самосовершенствуется.

— Существует ли какая-то разница между поисковиками?

— Поисковик — это очень сложная система, состоящая из десятков программ, из нескольких десятков тысяч строк кода. Команда программистов в разных компаниях пишет ее, основываясь на собственных методах и разработках. Поэтому и результат получается у всех свой: у кого-то лучше, у кого-то хуже.

— Каким образом «робот» определяет адекватность своего ответа запросу пользователя?

— Например, на страничке, которую мы выдаем в ответ на ваш запрос, должны быть те слова, которые вы набрали в запросе. Эти слова должны стоять рядом. Если они далеко друг от друга, то, скорее всего, этот текст про другое. Возможно, на найденной страничке есть заголовок, и он соответствует запросу, что тоже важно. Если на страничку ставят ссылки из разных мест, содержащих слова запроса, это тоже хорошо. Особенно если из авторитетных сайтов. Кроме того, чем более авторитетна страница, с которой сослались на ваш сайт, тем выше сайт в ранге. А вот если на ваш сайт никто не поставит никакой гиперссылки, то этот сайт по поиску найти нельзя.

— Какой самый частый запрос в Яндексе?

— Есть частый набор запросов. Например «работа», но какая работа имеется в виду, не понятно. Обычно эти запросы мало осмыслены без контекста. Люди часто набирают слова с ошибками и их смысл не всегда ясен. Но потом уточняют, корректируют запрос. Мы эти последовательные исправления собираем, если они часто повторяются, робот их запоминает и в будущем сразу выдает то, что нужно пользователю. Например, запрос «жизнь» часто соответствует запросу газета «Жизнь». Но это нельзя понять, не посмотрев в историю запросов по слову «жизнь». Там видно, что люди, которые ищут желтую газету, вместо того, чтобы набрать «Газета „Жизнь“», набирают сначала «жизнь», а потом дополняют. Мы учитываем на будущее, что такой запрос часто про средство массовой информации, а вовсе не про философию. Хотя хотелось бы ответить по-философски!

— А как ваш «робот» может оценить полезность информации для человека?

— У нас уже много лет ведется каталог сайтов. Есть команда людей, которые просматривают все странички в интернете глазами, хотя и при помощи роботов. Они относят сайты к разным категориям, классифицируют, дают описание. Внутри этого каталога существует автоматически вычисляемый рейтинг. Этот каталог помогает роботу выделять качественные сайты от сайтов малополезных. Кроме каталога у нас есть команда асессоров, людей, отслеживающих результаты работы поиска, и оценивающих, в какой степени найденная страничка соответствует запросу. Вся эта информация учитывается и является для робота обучающим материалом. Никакого прямого воздействия на результат поиска человек не оказывает, но люди помогают собирать данные, на которых робот учится.

— Какими поисковыми навыками должен обладать человек, чтобы найти необходимую информацию? И чего нельзя найти в интернете?

— Задача Яндекса — сделать так, чтобы человек, обладающий минимумом навыков, мог найти все, что ему нужно. А чего нельзя найти? Того, чего там нет. В интернете нет многих личных данных, нет специализированной информации, например результатов геологических или геофизических съемок или некоторых видов финансовых документов, многих книг и журналов. Но, зачастую, это дело времени.

— На ваш взгляд, Интернет — это большая помойка или это большая энциклопедия?

— И то, и то. А жизнь — это что? Чернуха или позитив? Зависит от взгляда. Для человека, склонного оценивать все негативно, интернет — помойка. Для человека, который настроен на решение задач, а не на брюзжание, это кладезь знаний. В интернете есть авторитетные официальные сайты, на которых много качественной информации, и им вполне можно доверять.

— Раньше письма писали на берестяных грамотах, и теперь мы можем узнать, как в XII веке жили крестьяне в Новгородской области. А сколько лет проживет виртуальная информация?

— Цифровая информация вечна. Архивы будут храниться всегда. Форматы меняются, и это может создавать определенные проблемы. Цифровая информация — это единицы и нули. Но чем проще информация, тем она долговечнее. Владельцу нужно только раз в десять лет переносить информацию с одного носителя на другой. И тогда потери данных быть не может. Вы записали на флэшку, с нее сбросили на компьютер, с компьютера послали письмо, и у вашего приятеля есть копия, а кто-то выложил на сервер. Чем больше копий, тем надежнее. Даже если случится неприятность и сервер погибнет, у вас останутся копии в ноутбуке или архив на дисках, в телефоне, в конце концов. Кстати, у берестяных грамот тоже есть проблемы с хранением! Большая часть грамот безвозвратно испорчена.

— Посещаемость сайтов — это реальная величина или виртуальная?

— Абсолютно реальная. Бывают разные способы накрутить посещаемость при помощи специальных программ, но обычно с этим борются наши роботы. Одни роботы пытаются имитировать человека, приходящего на малопосещаемый сайт, другие пытаются определить, робот это был или человек, например, если слишком много запросов приходит с одного адреса или слишком они похожи по каким-то признакам. В некотором смысле в интернете ведется война роботов. Интеллектуальная война. Хотя напрямую на рейтинг сайта в поисковике посещаемость не влияет. Рейтинг становится выше в зависимости от цитируемости сайта другими авторитетными источниками в интернете.

— Вы назвали вашего робота — «искусственный интеллект», а что это значит?

— Признаюсь, я не очень люблю термин «искусственный интеллект» из-за того, что его слишком часто используют для рекламы программ, якобы имитирующих процессы, происходящие в мозге человека. Мы не делаем никакого специального упора на этом, однако Яндекс — это крупнейшая на территории России компьютерная система, нацеленная на понимание человека, иными словами демонстрирующая некоторые признаки, присущие человеческому интеллекту. Пока нам это не так хорошо удается, как хочется, но мы знаем, куда двигаться.


Мы сделали в «Яндексе» несколько запросов по «религиозным» словам. Некоторые результаты, которые выдает интернет-робот, нас удивили.

Слово «исповедь» в октябре запрашивали в «Яндексе» 5817 раз. На наш аналогичный запрос в первой строке поисковик выдал сайт «Российской газеты» и статью «Исповедь для протокола», на втором месте была сетевая игра Darcklan с возможностью купить магические меч или булаву, на третьем — предложение купить воспоминания «Исповедь актрисы», на четвертом — «исповедь» школьника с нетрадиционной ориентацией, на пятом — «исповедь» злостного нарушителя дорожных правил и т. д. Итого в первых десяти строчках поисковика мы не нашли ни одной ссылки на сайт, где можно почитать об исповеди в православном понимании.

«Храм» запрашивали 36 335 раз за месяц. Почти все ссылки из первого десятка приводят на сайты православных храмов (на первом месте — московский храм мц. Татианы), кроме четвертой — был предложен религиоведческий сайт и пятой — сайт о байкерах «Мотохрам». Казалось бы, сайт храма Христа Спасителя должен быть где-то среди первых, но он оказался лишь на сорок седьмом месте. Зато отсыл на приходской сайт немноголюдного храма Воскресения Христова в Кадашах был в «Яндексе» шестым.

35 774 раза пользователи искали в «Яндексе» «веру». На наш запрос первой выпала ссылка на центр «Вера» — курсы иностранных языков. Вторым шел сайт диакона Андрея Кураева, потом сайт Би-би-си с фотографией девочки Веры, четвертым «Яндекс» выдал христианскую газету «Вера-Эском», пятой — страницу поэтессы Веры Павловой на сайте журнала «Новый мир», потом сайт движения «Вера и Свет». Далее шли сайт журналистки Веры Камши и официальный сайт общины бахаи в России.

Слово «Христос» в поиске набирали 14 735 раз. Самое важное для христиан имя, но первая ссылка привела нас на статью в «НГ-религии» «Рождество без Христа. Санта-Клаус меняет пол, ориентацию и цвет кожи». Второй была ссылка на малоизвестный православный сайт эстонского священника, третьей — на сайт секты Виссариона, бывшего милиционера, который выдает себя за Христа, четвертая ссылка привела на сайт диакона Андрея Кураева, далее шли протестантские и сектантские сайты, а десятым в списке оказалось православное братство свт. Алексия, митрополита Московского. Такие популярные и цитируемые сайты, как «Православие.ру» или «Седмица.ру» в первую десятку не попали.

Илья СЕГАЛОВИЧ объяснил, почему так происходит:

— Чем больше данных в распоряжении робота, тем точнее выполняется задание. При этом речь идет о данных, хранящихся только в интернете, а Интернет, хотя и интенсивно наполняется содержанием и все больше и больше соответствует реальной жизни, все же далеко не полон. В этой ситуации небольшой сайт (например, сайт православного священника Бориса Мерлина в Эстонии) может быть, в силу своего возраста и «внутриинтернетного» авторитета, важнее новых сайтов крупных или официальных религиозных организаций.

Кроме того, противоречие между желаемым и наблюдаемым ответом поисковой системы часто кроется в неполноте «картины мира», сложившейся у пользователя. Так, например, запрос «исповедь», если судить по статистике, у заметной массы пользователей ассоциируется с конкретными произведениями («исповеди» алкоголиков, знаменитостей, преступников и так далее). Это не значит, конечно, что в числе произведений на первой странице не должно быть, скажем, ссылки на «Исповедь» Льва Толстого. В «Яндексе», кстати, можно уточнить запрос по рубрикам — так, выбрав рубрики «Общество», а затем «Христинство» (список рубрик, соответствующих запросу, перечислен внизу страницы), мы получим гораздо более адекватный ответ.

Слово «вера» — слишком многозначное, и поисковая система скорее будет его ассоциировать с человеческим именем, а не с религиозным понятием. Можно считать удачей, что уже на первой странице оказалась ссылка на Православный миссионерский форум или христианскую газету «Вера».

По ассоциациям пользователей, по запросу «храм» действительно желательно показывать ссылку на сайт храма Христа Спасителя. Но, к сожалению, веб-мастер сайта www.xxc.ru запретил сайт к индексации при помощи специальных директив в файле robots. txt, а наш текущий алгоритм полностью исключает такие сайты из поиска. Мы понимаем, что иногда это происходит по ошибке или незнанию веб-мастера, поэтому работаем над тем, чтобы такие сайты, пусть в ограниченном виде, находились в поиске (к моменту публикации статьи на сайте «НС», сайт храма Христа Спасителя был уже на законном первом месте при соответствующем поиске — редакция). В остальном запрос отрабатывается «Яндексом» вполне адекватно: это и несколько сайтов конкретных храмов, и такой, например, сайт, как «Храмы России» (www.hramy.ru) с базой данных, описаниями и фотографиями большого количества храмов.

Запрос «Христос», кроме тех сайтов, что назвали вы, выдает статью из народной энциклопедии «Википедия» и несколько страниц на сайтах православной направленности (упомянутый выше священник из Эстонии в их числе). Что касается сайта pravoslavie.ru, очевидно, на этом сайте нет странички, более точно отвечающей этому запросу. По крайней мере, по этому запросу такой странички не видно ни при поиске по сайту, ни при поиске в других поисковых системах.

Беседовала Екатерина СТЕПАНОВА

http://www.nsad.ru/index.php?issue=37§ion=9999&article=530


Каталог Православное Христианство.Ру Рейтинг@Mail.ru Яндекс.Метрика