В ЕГУ открывается новая магистерская программа по публичной политике![]() В Европейском гуманитарном университете (Вильнюс, Литва) начинается прием документов на новую магистерскую программу Публичная политика .... |
День открытых дверей института моды и дизайна![]() Если индустрия моды и дизайна – ваша цель, то советую вам посетить день открытых дверей международного института Istltuto Marangoni, котор... |
В броузере Internet Explorer русской версии Internet Explorer 4, входящей в состав Windows 98, предусмотрен легкий доступ к поисковой странице, расположенной на сервере Microsoft. Через панель поиска вы получаете доступ сразу к нескольким поисковым серверам. Хотя сегодня существует около десятка русскоязычных поисковых систем, мы ограничим свой рассказ о тех системах, которые стандартно вызываются на панели поиска Internet Explorer 4 - Rambler, Яndex, Апорт!
Rambler, http://www.rambler.ru
Поисковая система Rambler была изначально создана в фирме Стек для возможности поиска по русскоязычным серверам и состоит из двух частей: поисковой программы-робота и базы данных. Компания СТЕК образовалась в Научном Центре Биологических Исследований в г. Пущино (Московская область) в 1991 году, а автором поисковой системы является Дмитрий Крюков.
Первая часть является роботом, который может получать адреса документов через прокси-сервер или непосредственно с указанного узла, индексирует содержание документа и помещает результаты этого индексирования в базу данных. Робот может рекурсивно сканировать определенные хосты. Он поддерживает стандартный механизм исключения роботов через файлы ROBOTS.TXT.
Второй частью Rambler является собственно сама поисковая система по серверам России и стран СНГ, содержащая миллионы документов с более чем 15,000 сайтов (имен DNS). Поисковая система Rambler поддерживает различные логические операции между словами, а также усечения слов с помощью метасимволов. Пользователь может определить выходной формат документов, максимальное количество результатов поиска и т. д.
Апорт! http://www.aport.ru
Поисковая система Апорт! - это проект фирмы Агама при поддержке российского отделения Intel. Система задумана и реализована как Web-индекс для осуществления поиска в Российской части Интернета, на русскоязычных серверах СНГ и мирового Интернет Как указывается в документе на сервере http://www.aport.ru/, по состоянии на декабрь 1998 года индексная база содержала ссылки на примерно 2 млн. документов. К сожалению, сервер содержит ограниченную информацию по алгоритмам работы данной поисковой системы, поэтому на этом мы вынуждены завершить этот короткий рассказ об Апорт!
Яndex, http://yandex.ru
Эта поисковая система Интернета - часть проекта фирмы Comptek по разработке набора средств полнотекстовой индексации и поиска в текстовых данных с учетом морфологии русского языка. Яndex (произносится как яндекс ) расшифровывается как Языковый Индекс или, в английском написании, Yandex - Yet Another Index.
Как указывается в документе на сервере, продукты Яndex предназначены для работы с большими объемами русских текстов всех типов - в виде файлов различных форматов, полей баз данных и страничек Интернет.
Поисковая машина Яndex была запущена в эксплуатацию сравнительно недавно - в конце сентября 1997 года и область поиска системы - русскоязычный Интернет. Отличительные особенности системы, в соответствии с описанием на http://yandex.ru:
полнотекстовый поиск с полным учетом морфологии русского и английского языков
мощный язык запросов (в том числе возможность поиска с расстоянием)
возможность запроса на естественном языке
корректная обработка сленговых слов
возможность поиска похожего документа
очень компактный индекс
подсветка слов из запроса в найденных документах
развитая релевантность, позволяющая найти искомую информацию, не перегружая пользователя тысячами ссылок на не нужные документы;
высокая скорость поиска.
Как работает Яndex
Система просматривает все указанные ей тексты, преобразует каждое русское слово в нормальную форму (для существительных это - именительный падеж единственного числа, для глаголов - неопределенная форма и т.д.) и запоминает подробный адрес каждого слова. Алгоритмы морфологического разбора, которыми мы занимаемся, позволяют проанализировать слово, определить его характеристики и найти все формы, например: идти - идешь - шел; ребенок - дети; окно - окон; отзывать - отозвали.
Яndex обеспечивает индексацию одновременно с морфологическим разбором. Это позволяет создавать компактный индекс - около 30% исходных текстов, сохраняя достаточно высокую скорость индексации - 1-2 Мб/мин. Такая технология дает возможность почти полного снятия омонимии на этапе индексации.
Морфология базируется на словаре из 90 тыс. слов, к которому добавлены алгоритмы словообразования, а также механизм построения гипотез для слов, отсутствующих в словаре. Создан и пополняется словарь имен собственных.
Читайте: |
---|
![]() 5 МАИ (Московский Авиационный Институт (Технический УниВ 1930 году был основан Московский авиационный институт (МАИ). Основной его задачей была подготовка высококвалифицированных спец... |
![]() 1 МГУ (Московский Государственный Университет)Московский Государственный Университет (МГУ) был основан в 1755 году и является одним из самых древних российских университетов.... |
![]() 11 СГУ им. Н.Г.Чернышевского (Саратовский государственнОдин из старейших российских вузов – Саратовский университет – был основан Высочайшим указом от 10 июня 1909 года. Государственн... |
![]() 12 МГИМО (У) МИД России (Московский Государственный ИнсМГИМО-Университет предоставляет широкие возможности получения высшего образования, разных форм повышения квалификации в различны... |
![]() 3 МГИУ (Московский Государственный Индустриальный УнивеУниверситет осуществляет образовательную деятельность в соответствии с законодательством РФ и готовит специалистов по очной, очн... |
![]() 10 МГЛУ (Московский Государственный Лингвистический УниМГЛУ - базовое учебное заведение российского Учебно-методического объединения (УМО) по образованию в области лингвистики, которо... |
Правильный выбор школы - главная составляющая успехаСамым популярным местом получения образования за пределами России у нас является Великобритания. В сентябре более тысячи российских детей ... |
Перед выборомСегодня, когда цены на учебу в Швейцарии и Великобритании практически сравнялись, многие родители стоят перед выбором, что предпочесть? Не... |
Март — время поторопитьсяПоскольку квота для иностранцев в британских частных школах очень невелика, а популярность британского образования неуклонно растет, начин... |
Новый международный язык - Lingva de PlanetaСамый известный из искусственных языков (не компьютерных) - эсперанто. У эсперанто было много недостатков, он был противоестественный и ме... |
Физики научились хранить свет в виде звукаАмериканские физики научились хранить световые импульсы, превращая их в звуковые волны. Новая технология может использоваться для улучшени... |
Почти половина нашихЗавершился четвертьфинал командных соревнований Западного региона студенческого чемпионата мира по программированию, проводимого под эгидо... |
![]() Вечный студентНекоторые люди вполне довольны тем, что имеют, т.е. одним дипломом. Однако в других людях тяга к знаниям настолько сильна, что о... |
![]() Репетитор: необходимость или избалованность?Ни для кого не секрет, что, как правило, редко кто из абитуриентов начинает подготовку к централизованному тестированию больше, ... |
Как заказать реферат, курсовую, дипломную работу наилуч![]() Клиенты бывают разные. Кто-то просит маму позвонить и заказать реферат, другой звонит сам и часами объясняет, как должна быть вы... |
Как выбрать автора-исполнителя![]() Логично будет предположить, что вы ищете себе в авторы человека, который давно и успешно работает в сфере написания рефератов н... |
Как улучшить работу мозга![]() Альваро Фернандес, руководитель знаменитой американской консалтинговой компании SharpBrains, специализирующейся на рынке невроло... |
Концентрация внимания – важное условие качественного об![]() Наверняка вы часто замечали за собой, как трудно бывает сконцентрироваться на тексте конспекта или книги при подготовке к экзаме... |