Чисто физическая близость![]() Полный, но санкционированный беспредел царил в конце прошлой недели на физфаке БГУ. Здесь в соответствии с многолетними традициями происхо... |
Историки бойкотируют международную конференцию![]() Необычный прецедент произошел на днях в Гродно, где сейчас (10 и 11 апреля) проходит международная историческая конференция. Дело в том... |
В броузере Internet Explorer русской версии Internet Explorer 4, входящей в состав Windows 98, предусмотрен легкий доступ к поисковой странице, расположенной на сервере Microsoft. Через панель поиска вы получаете доступ сразу к нескольким поисковым серверам. Хотя сегодня существует около десятка русскоязычных поисковых систем, мы ограничим свой рассказ о тех системах, которые стандартно вызываются на панели поиска Internet Explorer 4 - Rambler, Яndex, Апорт!
Rambler, http://www.rambler.ru
Поисковая система Rambler была изначально создана в фирме Стек для возможности поиска по русскоязычным серверам и состоит из двух частей: поисковой программы-робота и базы данных. Компания СТЕК образовалась в Научном Центре Биологических Исследований в г. Пущино (Московская область) в 1991 году, а автором поисковой системы является Дмитрий Крюков.
Первая часть является роботом, который может получать адреса документов через прокси-сервер или непосредственно с указанного узла, индексирует содержание документа и помещает результаты этого индексирования в базу данных. Робот может рекурсивно сканировать определенные хосты. Он поддерживает стандартный механизм исключения роботов через файлы ROBOTS.TXT.
Второй частью Rambler является собственно сама поисковая система по серверам России и стран СНГ, содержащая миллионы документов с более чем 15,000 сайтов (имен DNS). Поисковая система Rambler поддерживает различные логические операции между словами, а также усечения слов с помощью метасимволов. Пользователь может определить выходной формат документов, максимальное количество результатов поиска и т. д.
Апорт! http://www.aport.ru
Поисковая система Апорт! - это проект фирмы Агама при поддержке российского отделения Intel. Система задумана и реализована как Web-индекс для осуществления поиска в Российской части Интернета, на русскоязычных серверах СНГ и мирового Интернет Как указывается в документе на сервере http://www.aport.ru/, по состоянии на декабрь 1998 года индексная база содержала ссылки на примерно 2 млн. документов. К сожалению, сервер содержит ограниченную информацию по алгоритмам работы данной поисковой системы, поэтому на этом мы вынуждены завершить этот короткий рассказ об Апорт!
Яndex, http://yandex.ru
Эта поисковая система Интернета - часть проекта фирмы Comptek по разработке набора средств полнотекстовой индексации и поиска в текстовых данных с учетом морфологии русского языка. Яndex (произносится как яндекс ) расшифровывается как Языковый Индекс или, в английском написании, Yandex - Yet Another Index.
Как указывается в документе на сервере, продукты Яndex предназначены для работы с большими объемами русских текстов всех типов - в виде файлов различных форматов, полей баз данных и страничек Интернет.
Поисковая машина Яndex была запущена в эксплуатацию сравнительно недавно - в конце сентября 1997 года и область поиска системы - русскоязычный Интернет. Отличительные особенности системы, в соответствии с описанием на http://yandex.ru:
полнотекстовый поиск с полным учетом морфологии русского и английского языков
мощный язык запросов (в том числе возможность поиска с расстоянием)
возможность запроса на естественном языке
корректная обработка сленговых слов
возможность поиска похожего документа
очень компактный индекс
подсветка слов из запроса в найденных документах
развитая релевантность, позволяющая найти искомую информацию, не перегружая пользователя тысячами ссылок на не нужные документы;
высокая скорость поиска.
Как работает Яndex
Система просматривает все указанные ей тексты, преобразует каждое русское слово в нормальную форму (для существительных это - именительный падеж единственного числа, для глаголов - неопределенная форма и т.д.) и запоминает подробный адрес каждого слова. Алгоритмы морфологического разбора, которыми мы занимаемся, позволяют проанализировать слово, определить его характеристики и найти все формы, например: идти - идешь - шел; ребенок - дети; окно - окон; отзывать - отозвали.
Яndex обеспечивает индексацию одновременно с морфологическим разбором. Это позволяет создавать компактный индекс - около 30% исходных текстов, сохраняя достаточно высокую скорость индексации - 1-2 Мб/мин. Такая технология дает возможность почти полного снятия омонимии на этапе индексации.
Морфология базируется на словаре из 90 тыс. слов, к которому добавлены алгоритмы словообразования, а также механизм построения гипотез для слов, отсутствующих в словаре. Создан и пополняется словарь имен собственных.
Читайте: |
---|
![]() 1 МГУ (Московский Государственный Университет)Московский Государственный Университет (МГУ) был основан в 1755 году и является одним из самых древних российских университетов.... |
![]() 16 МИИГАиК (Московский государственный университет геодВ настоящее время университет - крупный учебно-научно-производственный комплекс, включающий семь факультетов дневного обучения, ... |
![]() 8 СПбГУ (Санкт-Петербургский Государственный УниверситеСанкт-Петербургский университет был основан Петром I в 1724 году. В числе первых профессоров университета были такие выдающиеся ... |
![]() 18 МТУСИ (Московский Технический Университет Связи и ИнМТУСИ сегодня - это 9 факультетов, на которых обучаются свыше 15 тысяч студентов, 35 кафедр, работает около 500 профессоров, доц... |
![]() 5 МАИ (Московский Авиационный Институт (Технический УниВ 1930 году был основан Московский авиационный институт (МАИ). Основной его задачей была подготовка высококвалифицированных спец... |
![]() 15 МИСиС ГТУ (Государственный технологический университВ сентябре 1918 года создана Московская горная академия (МГА). В ходе ее преобразования образовалось 6 независимых ВУЗов. Москов... |
Правильный выбор школы - главная составляющая успехаСамым популярным местом получения образования за пределами России у нас является Великобритания. В сентябре более тысячи российских детей ... |
Перед выборомСегодня, когда цены на учебу в Швейцарии и Великобритании практически сравнялись, многие родители стоят перед выбором, что предпочесть? Не... |
Март — время поторопитьсяПоскольку квота для иностранцев в британских частных школах очень невелика, а популярность британского образования неуклонно растет, начин... |
Трасянка: мутация языков?Сейчас далеко не 18 век. Уже давно население не делится на крестьян и аристократию, как это было принято. Конечно же, и сейчас интеллектуа... |
Кто такие волны-убийцыЗа тысячи лет мореплавания люди научились бороться с опасностями водной стихии. Лоции указывают безопасный путь, синоптики предупреждают о... |
Большой брат в офисеВ Microsoft идет разработка программного обеспечения, которое заставляет вспомнить о Большом брате . Этот продукт позволит дистанционно о... |
![]() Вечный студентНекоторые люди вполне довольны тем, что имеют, т.е. одним дипломом. Однако в других людях тяга к знаниям настолько сильна, что о... |
![]() Репетитор: необходимость или избалованность?Ни для кого не секрет, что, как правило, редко кто из абитуриентов начинает подготовку к централизованному тестированию больше, ... |
Статья про поиск и сохранение информации![]() Как найти иголку в стоге сена Для поиска необходимой информации в сети Internet часто приходится прибегать к помощи поисковых... |
Рефераты на заказ![]() Советы, как правильно сформулировать требования к работе, которую вы хотите заказать на стороне. В данном случае мы не будем ... |
Как улучшить работу мозга![]() Альваро Фернандес, руководитель знаменитой американской консалтинговой компании SharpBrains, специализирующейся на рынке невроло... |
Концентрация внимания – важное условие качественного об![]() Наверняка вы часто замечали за собой, как трудно бывает сконцентрироваться на тексте конспекта или книги при подготовке к экзаме... |