Новости ВУЗов:

Диалог культур в БГУ

News image

С середины апреля 2008 года при Союзе студентов БГУ начал работу философский кружок Диалог культур . В рамках встреч кружка студенты обсу...

ЕГУ получил университетскую хартию программы Эразмус

News image

Европейский гуманитарный университет первым среди вузов Беларуси и стран СНГ получил университетскую хартию программы Эразмус Еврокомисс...




ОСНОВНЫЕ ПОЖЕЛАНИЯ ПРИ OCR

Обучение - Оформление работ

основные пожелания при ocr

1. Сканируйте пакетами (по много страниц).

2. Каждую сканированную страницу сегментируйте сначала автоматически, но потом сразу же просмотрите ее и вручную поправьте сегменты, удалите неудачные и замените их на нужные. Поднимите низ сегментов, чтобы избежать номеров страниц. Только потом закрывайте страницу и переходите к сканированию следующей.

3. Наберете пакет — перед распознаванием сохраните его на всякий случай. Бывают сбои, и труд пропадет. Когда распознaете, переведете в *.doc и затем сохраните его (пусть это будет только часть книги — все равно надо обязательно), то удалите использованный пакет (нечего засорять).

4. Забудьте, что в Fine Reader есть редактор и проверка. Делайте все это в Word.

5. Ни в коем случае не распознавайте рисунки Fine Reader’ом (рекомендую брать такие рисунки вместе с текстом только в случае сиюминутных или учебных материалов).

Дело в том, что для подавляющего большинства книг достаточно разрешения при сканировании 300 точек на дюйм. Для рисунков же (даже штриховым и черно-белых) надо не менее 400 (я делаю 400, иначе слишком велики).

Поступай так: дошел до текста со смачным рисунком — сканируй текст с этого места. Сохрани его вместе с предыдущими страницами в пакет. Выйди из Fine Reader, открой свой графический редактор (если не выйдешь из Fine Reader, то драйвер сканера останется у него), сканируй как надо рисунок и сделай его. Закрой редактор, вызови Fine Reader, открой пакет и продолжай дальше. Когда придет второй рисунок, то сохранить дополненный пакет уже не получится (я использую Fine Reader 4, хотя имеется дистрибутив и на 5-й. Не знаю, есть ли разница между ними в нашем случае и может ли 5-й сохранять дополненный пакет). Итак, пришел второй рисунок. Сканируй текст с тех страниц, где этот рисунок, и, что ж делать, распознавай пакет, сохраняя затем в *.doc фрагмент текста книги. Далее делай рисунок и т.д.

Почему я при встрече рисунка делаю пакет (или распознаю), выхожу из Fine Reader, потом сканирую рисунок в графическом редакторе, а затем снова возвращаюсь в Fine Reader? А чтобы лишний раз не укладывать толстую книгу аккуратно на сканер, прижимая ее грузом. Такое лишнее укладывание может дополнительно попортить ей шкурку, а она и так портится.

6. Искусство сканирования рисунков хитрое. Руководство имеется на «Электронных полках Вадима Ершова». Скажу только, что не следует увлекаться цветным там, где это не слишком нужно — лучше сделать хороший 256 оттенков серого (с бoльшим разрешением) чем плохой цветной.

7. Не советую пользоваться функцией Fine Reader «Передать в Word». В подобном случае Fine Reader передает слишком много своих стилей и шаблонов (размер шрифтов и т.д.), которые ты будешь исправлять. ПОЛЬЗУЙСЯ «КОПИРОВАТЬ В БУФЕР».

8. Вот ты вытянул из буфера фрагмент после OCR в Word. Глянь в окошко стилей — там может торчать “Fine Reader”. Это не годится, не годится... Немедленно поступай так, как с текстовым файлом, который хочешь перевести в *.doc: см. выше всю часть вторую. И начинай, как там указано, с самого начала. Не забудь после установки полей, стилей и шрифтов немедленно удалить мягкие переносы, наделанные Fine Reader. См. о них выше самое начало авентюры V. Кратко: «Найти» мягкий перенос () [знак ставится Ctrl - (т.е. дефис на нормальной клавиатуре] а «Заменить» на ничего (ничего не ставь). НЕ ЗАБУДЬ УДАЛИТЬ МЯГКИЕ ПЕРЕНОСЫ! Множество чудаков забывают это сделать.

9. И далее действуй как в части второй. Понятно, что после OCR метить абзацы крышками (как в части второй) нельзя. Есть и еще одна специфика: после OCR тире у тебя не будут, как в *.txt, в виде ( - ) или ( -- ). Они будут разнообразными тире: то длинными, то короткими. Поэтому, в отличие от трансмутации *.txt > *.doc, ты должен:

а) «Найти» (длинное тире просто (не указывай пробелы) — «Заменить» (длинное тире в обрамлении пробелов, причем левый — неразрывный).

б) «Найти» (короткое тире просто (не указывай пробелы) — «Заменить» (длинное тире в обрамлении пробелом (левый — неразрывный).

А далее поступай, как в части второй: удаляй лишние пробелы, меняй кавычки, ищи ошибки и т.д., и т.п. Главное — творчески используй «Найти» — «Заменить».

10. Моя причуда при корректуре текста после OCR.

Меня, конечно, засмеют, но кажется целесообразным заменить неправильное распознавание OCR русских букв как близких по начертанию английских (наоборот же малоактуально — у нас русские тексты, и если даже будет что-то подобное, то корректируй это при считывании). Какие это буквы? Это (англ. клавиатура) e, a, o, c, y, x, p, b («Найти» обнаружит большую англ. «B», которая как русская «В»), m (тоже большая), h (и эта большая H), t (и эта тоже), k (и эта большая). Вроде, все. При быстром компьютере дело десяти минут максимум.

11. Форма представления книг в электронной версии.

На мой взгляд, не следует делать несколько колонок: для документа Word это, порой, получается слишком мелко. Трудно работать с текстом, забирая кусок и перенося его в свою рабочую рукопись: в ней приходится переформатировать в одну колонку. Все-таки *.doc — не книга, и он лучше. Поэтому не следует пытаться воспроизводить все особенности книжного варианта. Зачем ссылки как верхние символы, когда ты можешь поставить их в квадратных скобках нормальными цифрами? И виднее, и, понятно, надежнее. И возни меньше.

Не следует также грешить разрывами страниц и разделов, чтобы воспроизвести верстку книги (в особенности этим грешат применительно к первым страницам: где форзац, титульный лист и т.п.).

ПОМНИ, ЧТО *.DOC — ЭТО НЕ АУТЕНТИЧНАЯ КОПИЯ КНИГИ. Он лучше. И он должен быть проще. Приводи, однако, как я уже указывал, выходные данные книги (строго смотри авентюру VII части первой). Укажи тираж и цену. А всякие «... подписана к печати 12/01/1955» и т.п. не надо.

Интересно, что у академических историков и философов принято ссылаться на страницы в книге, и они в электронных версиях указывают, где начинается-кончается страница номер такая-то оригинальной книги. Но большинство дисциплин ссылается на факты в трудах и, поэтому, для них страницы без надобности: там идет ссылка либо на всю книгу, либо на статью в ней, если книга — сборник разных авторов. Историки и философы же любят цитаты, и вот у них так и пошло.

Лично я расставлять номера страниц книги в электронной версии не хочу. Некрасиво и трудоемко. Мне это кажется без надобности (слишком узкому кругу надо).

12. Состав каталога электронной версии.

Обычно я привожу «Литературу» (или «Примечания») отдельным файлом. Когда список большой, это, на мой взгляд, совершенно необходимо.

Также и с «Предисловием» и «Послесловием», если они объемны и информативны. Иногда «Предисловие» и «Послесловие» целесообразно объединить в единый файл «Приложение» (Appendix.doc). Иногда в «Приложении» находятся не они, а вспомогательные материалы к книге, найденные в сети мною. И т.д. Большое и сложное «Оглавление» также необходимо выделять в отдельный файл (так лучше смотреть: можешь одновременно знакомиться и с текстом, и с «Оглавлением»). В данном «Методическом руководстве» «Оглавление» все же идет впереди основного текста исключительно из соображений компактности (кроме того, это не книга), да и ты, наверное, ознакомишься с ним только один раз — вначале.

Файлы рисунков представляй в отдельном каталоге (не забудь указать в тексте места рисунков). Если сканировал обложку и фото автора, рекомендую не включать их в каталог рисунков самого текста (это разные вещи).

Почему рисунки не в тексте? А вдруг книжные воротилы решат порушить электронные библиотеки и наймут хакеров-«вирусологов». И вдруг эти вирусы начнут распаковывать архивы и внедряться в *.doc. Тогда придется снова переходить от *.doc в *.txt. Из хорошего *.doc легко сделать хороший *.txt. Но рисунки-то куда девать? Если их «вынуть» из текста, то качество ухудшается сильно (разве что перевести *.doc в *.html).

Кроме того, *.doc с рисунками в тексте плохо архивируется. А если у кого компьютер не шибко сильный, то *.doc со многими картинками листается трудно.

Так что рисунки — в отдельном каталоге.

В качестве примеров см. мой сборник «Все романы Пера Валё и Май Шёвалль на русском языке» и [Рансимен С. «Падение Константинополя в 1453 году»] на «Электронных полках Вадима Ершова» (С. Рансимен есть также в библиотеке “Site Folio”, являющейся внушительным собранием уникальных исторических текстов в формате *.doc).

Ну и все. С Богом.




Читайте:


Добавить комментарий


Защитный код
Обновить

Рейтинг ВУЗов России:

News image

15 МИСиС ГТУ (Государственный технологический университ

В сентябре 1918 года создана Московская горная академия (МГА). В ходе ее преобразования образовалось 6 независимых ВУЗов. Москов...

News image

11 СГУ им. Н.Г.Чернышевского (Саратовский государственн

Один из старейших российских вузов – Саратовский университет – был основан Высочайшим указом от 10 июня 1909 года. Государственн...

News image

3 МГИУ (Московский Государственный Индустриальный Униве

Университет осуществляет образовательную деятельность в соответствии с законодательством РФ и готовит специалистов по очной, очн...

News image

16 МИИГАиК (Московский государственный университет геод

В настоящее время университет - крупный учебно-научно-производственный комплекс, включающий семь факультетов дневного обучения, ...

News image

7 АНХ при Правительстве РФ (Академия Народного Хозяйств

Академия народного хозяйства появилась в 1977 году как правительственное образовательное учреждение, подготавливающее студентов ...

News image

19 МГТУ им.А.Н.Косыгина (Московский государственный тек

За 80 лет плодотворной работы подготовлено 44500 специалистов для текстильной, легкой, химической промышленности, текстильного м...

Новости европейского образования:

Правильный выбор школы - главная составляющая успеха

Самым популярным местом получения образования за пределами России у нас является Великобритания. В сентябре более тысячи российских детей ...

Перед выбором

Сегодня, когда цены на учебу в Швейцарии и Великобритании практически сравнялись, многие родители стоят перед выбором, что предпочесть? Не...

Март — время поторопиться

Поскольку квота для иностранцев в британских частных школах очень невелика, а популярность британского образования неуклонно растет, начин...

Современная наука:

Чем богаты языки Земли?

Выразительность – вот один из важнейших аспектов любого языка. Он не зависит от языковой группы, от используемого алфавита или от континен...

Чтобы успешно выступать на олимпиадах

Текст статьи Роба Колстада Crafting Winning Solutions (буквально - Создание побеждающих решений ), переведённый на русский язык. В стат...

Искусственная жизни или доктор Франкенштейн 2

Биолог и предприниматель Крейг Вентер объявил о создании синтетической хромосомы. Тем самым преодолено одно из последних препятствий на пу...

Новости образования:

News image

Вечный студент

Некоторые люди вполне довольны тем, что имеют, т.е. одним дипломом. Однако в других людях тяга к знаниям настолько сильна, что о...

News image

Репетитор: необходимость или избалованность?

Ни для кого не секрет, что, как правило, редко кто из абитуриентов начинает подготовку к централизованному тестированию больше, ...

Проблема заказных работ:

Обзор поисковых систем

News image

В броузере Internet Explorer русской версии Internet Explorer 4, входящей в состав Windows 98, предусмотрен легкий доступ к поис...

Рефераты на заказ

News image

Советы, как правильно сформулировать требования к работе, которую вы хотите заказать на стороне. В данном случае мы не будем ...

Сделай себя лучшим:

Как улучшить работу мозга

News image

Альваро Фернандес, руководитель знаменитой американской консалтинговой компании SharpBrains, специализирующейся на рынке невроло...

Концентрация внимания – важное условие качественного об

News image

Наверняка вы часто замечали за собой, как трудно бывает сконцентрироваться на тексте конспекта или книги при подготовке к экзаме...

Авторизация