Версия для печати

Новости

19 Май 2009

Поисковая система Nigma.ru разработала новый алгоритм индексирования


Поисковая система Nigma.ru разработала новый алгоритм индексации Интернет-сайтов, который расщепляет содержимое web-страниц на информационные блоки. Затем блоки, содержащие информацию, связанную с запросом пользователя, подмешиваются в результаты поиска с более высоким приоритетом. Новая технология разработана и запущена в тестовом режиме – пока проиндексировано около одного миллиона страниц Рунета, к концу лета разработчики расширят инфоиндекс до сотен миллионов страниц. Примеры работы нового алгоритма:

 

Т.к. база у алгоритма все еще экспериментальная, новые результаты поиска выдаются примерно на 1% пользовательских запросов, но уже по первым подсчетам видно, что пользователи кликают на информационные блоки в два раза чаще, чем на обычные результаты поиска, т.е. релевантность выдачи стала существенно выше. 

Появление новой технологии стало возможным, так как значительно увеличилось число сайтов, которые наполняются информацией автоматически с помощью скриптов и шаблонов на основе баз данных. По оценкам Дэвида Эксмарка, одного из основателей самой популярной системы управления базами данных MySQL, сейчас такие страницы составляют не менее 80% всех страниц Интернета. 

Гектор Гарсия Молина, научный руководитель проектов Nigma.ru со стороны Стэнфорда, ранее — руководитель Проекта Электронной Библиотеки Стенфорда, в рамках которого была разработана поисковая машина Google: «Так как объемы структурированной информации в Интернете растут, то поисковик, который сможет обрабатывать и использовать информацию о структуре веб-страниц, будет работать гораздо лучше, чем обычные поисковые системы». 

Дмитрий Завалишин, президент Digital Zone, известный эксперт в области поисковых технологий: «Безусловно, будущее - за поисковыми системами нового поколения. Сегодня уже недостаточно просто искать «страницы, в которых встречается данное слово». Поисковая система должна быть способна анализировать структуру документа, отличать суть его от вторичного текста, не просто откликаться на запрос, а вести с пользователем осмысленный диалог».