Новости ВУЗов:

Чисто физическая близость

News image

Полный, но санкционированный беспредел царил в конце прошлой недели на физфаке БГУ. Здесь в соответствии с многолетними традициями происхо...

ITшников не хватает

News image

На заседании круглого стола, прошедшем в Минске 22 апреля 2008 г. в ходе выставки tibo'2008 , Николай Листопад, директор главного информа...




Обзор поисковых систем

Обучение - Рефераты на заказ

обзор поисковых систем

В броузере Internet Explorer русской версии Internet Explorer 4, входящей в состав Windows 98, предусмотрен легкий доступ к поисковой странице, расположенной на сервере Microsoft. Через панель поиска вы получаете доступ сразу к нескольким поисковым серверам. Хотя сегодня существует около десятка русскоязычных поисковых систем, мы ограничим свой рассказ о тех системах, которые стандартно вызываются на панели поиска Internet Explorer 4 - Rambler, Яndex, Апорт!

Rambler, http://www.rambler.ru

Поисковая система Rambler была изначально создана в фирме Стек для возможности поиска по русскоязычным серверам и состоит из двух частей: поисковой программы-робота и базы данных. Компания СТЕК образовалась в Научном Центре Биологических Исследований в г. Пущино (Московская область) в 1991 году, а автором поисковой системы является Дмитрий Крюков.

Первая часть является роботом, который может получать адреса документов через прокси-сервер или непосредственно с указанного узла, индексирует содержание документа и помещает результаты этого индексирования в базу данных. Робот может рекурсивно сканировать определенные хосты. Он поддерживает стандартный механизм исключения роботов через файлы ROBOTS.TXT.

Второй частью Rambler является собственно сама поисковая система по серверам России и стран СНГ, содержащая миллионы документов с более чем 15,000 сайтов (имен DNS). Поисковая система Rambler поддерживает различные логические операции между словами, а также усечения слов с помощью метасимволов. Пользователь может определить выходной формат документов, максимальное количество результатов поиска и т. д.

Апорт! http://www.aport.ru

Поисковая система Апорт! - это проект фирмы Агама при поддержке российского отделения Intel. Система задумана и реализована как Web-индекс для осуществления поиска в Российской части Интернета, на русскоязычных серверах СНГ и мирового Интернет Как указывается в документе на сервере http://www.aport.ru/, по состоянии на декабрь 1998 года индексная база содержала ссылки на примерно 2 млн. документов. К сожалению, сервер содержит ограниченную информацию по алгоритмам работы данной поисковой системы, поэтому на этом мы вынуждены завершить этот короткий рассказ об Апорт!

Яndex, http://yandex.ru

Эта поисковая система Интернета - часть проекта фирмы Comptek по разработке набора средств полнотекстовой индексации и поиска в текстовых данных с учетом морфологии русского языка. Яndex (произносится как яндекс ) расшифровывается как Языковый Индекс или, в английском написании, Yandex - Yet Another Index.

Как указывается в документе на сервере, продукты Яndex предназначены для работы с большими объемами русских текстов всех типов - в виде файлов различных форматов, полей баз данных и страничек Интернет.

Поисковая машина Яndex была запущена в эксплуатацию сравнительно недавно - в конце сентября 1997 года и область поиска системы - русскоязычный Интернет. Отличительные особенности системы, в соответствии с описанием на http://yandex.ru:

полнотекстовый поиск с полным учетом морфологии русского и английского языков

мощный язык запросов (в том числе возможность поиска с расстоянием)

возможность запроса на естественном языке

корректная обработка сленговых слов

возможность поиска похожего документа

очень компактный индекс

подсветка слов из запроса в найденных документах

развитая релевантность, позволяющая найти искомую информацию, не перегружая пользователя тысячами ссылок на не нужные документы;

высокая скорость поиска.

Как работает Яndex

Система просматривает все указанные ей тексты, преобразует каждое русское слово в нормальную форму (для существительных это - именительный падеж единственного числа, для глаголов - неопределенная форма и т.д.) и запоминает подробный адрес каждого слова. Алгоритмы морфологического разбора, которыми мы занимаемся, позволяют проанализировать слово, определить его характеристики и найти все формы, например: идти - идешь - шел; ребенок - дети; окно - окон; отзывать - отозвали.

Яndex обеспечивает индексацию одновременно с морфологическим разбором. Это позволяет создавать компактный индекс - около 30% исходных текстов, сохраняя достаточно высокую скорость индексации - 1-2 Мб/мин. Такая технология дает возможность почти полного снятия омонимии на этапе индексации.

Морфология базируется на словаре из 90 тыс. слов, к которому добавлены алгоритмы словообразования, а также механизм построения гипотез для слов, отсутствующих в словаре. Создан и пополняется словарь имен собственных.




Читайте:


Добавить комментарий


Защитный код
Обновить

Рейтинг ВУЗов России:

News image

3 МГИУ (Московский Государственный Индустриальный Униве

Университет осуществляет образовательную деятельность в соответствии с законодательством РФ и готовит специалистов по очной, очн...

News image

20 МГУЛ (Московский государственный университет леса)

МГУлеса - специализированное высшее учебное заведение, которое готовит научных работников и инженеров для лесной, целлюлозно-бум...

News image

9 РХТУ им.Менделеева (Российский Химико-Технологический

Российский Химико-Технологический Университет им. Д. И. Менделеева существует уже более 125 лет

News image

19 МГТУ им.А.Н.Косыгина (Московский государственный тек

За 80 лет плодотворной работы подготовлено 44500 специалистов для текстильной, легкой, химической промышленности, текстильного м...

News image

11 СГУ им. Н.Г.Чернышевского (Саратовский государственн

Один из старейших российских вузов – Саратовский университет – был основан Высочайшим указом от 10 июня 1909 года. Государственн...

News image

17 МИФИ (Московский Инженерно-Физический институт (Госу

Московский Инженерно-Физический институт (МИФИ) является базовым высшим учебным заведением атомной промышленности России, предна...

Новости европейского образования:

Правильный выбор школы - главная составляющая успеха

Самым популярным местом получения образования за пределами России у нас является Великобритания. В сентябре более тысячи российских детей ...

Перед выбором

Сегодня, когда цены на учебу в Швейцарии и Великобритании практически сравнялись, многие родители стоят перед выбором, что предпочесть? Не...

Март — время поторопиться

Поскольку квота для иностранцев в британских частных школах очень невелика, а популярность британского образования неуклонно растет, начин...

Современная наука:

Дедушка транзистор

Самый нужный электронный компонент отпраздновал юбилей Шестьдесят лет назад, 16 декабря 1947 года, исследователи Джон Бардин (John Bard...

Аксиомы, или Три кита геометрии

Аксиомой мы называем утверждение, которое в определённых рамках принимаем за истину без доказательств. Именно на таких утверждениях и стро...

Географический IQ: определи свой туристичесий интеллект

Я уже писал о забавной игре, которая позволяет в очень занимательной форме проверить ваши познания в географии. Предлагаю вам еще одну игр...

Новости образования:

News image

Вечный студент

Некоторые люди вполне довольны тем, что имеют, т.е. одним дипломом. Однако в других людях тяга к знаниям настолько сильна, что о...

News image

Репетитор: необходимость или избалованность?

Ни для кого не секрет, что, как правило, редко кто из абитуриентов начинает подготовку к централизованному тестированию больше, ...

Проблема заказных работ:

Украденые мысли

News image

По данным социсследования ГУ-ВШЭ, чаще всего скачивают рефераты, эссе и курсовые студенты четвертых курсов вузов - 52 процента. ...

Статья про поиск и сохранение информации

News image

Как найти иголку в стоге сена Для поиска необходимой информации в сети Internet часто приходится прибегать к помощи поисковых...

Сделай себя лучшим:

Как улучшить работу мозга

News image

Альваро Фернандес, руководитель знаменитой американской консалтинговой компании SharpBrains, специализирующейся на рынке невроло...

Концентрация внимания – важное условие качественного об

News image

Наверняка вы часто замечали за собой, как трудно бывает сконцентрироваться на тексте конспекта или книги при подготовке к экзаме...

Авторизация