Новости ВУЗов:

Дистанционная олимпиада по веб-программированию в БГУ

News image

Механико-математический факультет Белорусского государственного университета с 15 апреля по 15 мая впервые в Беларуси проводит дистанционн...

ЕГУ: регистрация на дистанционные курсы весеннего семестра 2008–2009 у

News image

С 5 января по 23 февраля 2009 года в Европейском гуманитарном университете проводится регистрация на дистанционные курсы весеннего семестр...



ОСНОВНЫЕ ПОЖЕЛАНИЯ ПРИ OCR

Обучение - Оформление работ

основные пожелания при ocr

1. Сканируйте пакетами (по много страниц).

2. Каждую сканированную страницу сегментируйте сначала автоматически, но потом сразу же просмотрите ее и вручную поправьте сегменты, удалите неудачные и замените их на нужные. Поднимите низ сегментов, чтобы избежать номеров страниц. Только потом закрывайте страницу и переходите к сканированию следующей.

3. Наберете пакет — перед распознаванием сохраните его на всякий случай. Бывают сбои, и труд пропадет. Когда распознaете, переведете в *.doc и затем сохраните его (пусть это будет только часть книги — все равно надо обязательно), то удалите использованный пакет (нечего засорять).

4. Забудьте, что в Fine Reader есть редактор и проверка. Делайте все это в Word.

5. Ни в коем случае не распознавайте рисунки Fine Reader’ом (рекомендую брать такие рисунки вместе с текстом только в случае сиюминутных или учебных материалов).

Дело в том, что для подавляющего большинства книг достаточно разрешения при сканировании 300 точек на дюйм. Для рисунков же (даже штриховым и черно-белых) надо не менее 400 (я делаю 400, иначе слишком велики).

Поступай так: дошел до текста со смачным рисунком — сканируй текст с этого места. Сохрани его вместе с предыдущими страницами в пакет. Выйди из Fine Reader, открой свой графический редактор (если не выйдешь из Fine Reader, то драйвер сканера останется у него), сканируй как надо рисунок и сделай его. Закрой редактор, вызови Fine Reader, открой пакет и продолжай дальше. Когда придет второй рисунок, то сохранить дополненный пакет уже не получится (я использую Fine Reader 4, хотя имеется дистрибутив и на 5-й. Не знаю, есть ли разница между ними в нашем случае и может ли 5-й сохранять дополненный пакет). Итак, пришел второй рисунок. Сканируй текст с тех страниц, где этот рисунок, и, что ж делать, распознавай пакет, сохраняя затем в *.doc фрагмент текста книги. Далее делай рисунок и т.д.

Почему я при встрече рисунка делаю пакет (или распознаю), выхожу из Fine Reader, потом сканирую рисунок в графическом редакторе, а затем снова возвращаюсь в Fine Reader? А чтобы лишний раз не укладывать толстую книгу аккуратно на сканер, прижимая ее грузом. Такое лишнее укладывание может дополнительно попортить ей шкурку, а она и так портится.

6. Искусство сканирования рисунков хитрое. Руководство имеется на «Электронных полках Вадима Ершова». Скажу только, что не следует увлекаться цветным там, где это не слишком нужно — лучше сделать хороший 256 оттенков серого (с бoльшим разрешением) чем плохой цветной.

7. Не советую пользоваться функцией Fine Reader «Передать в Word». В подобном случае Fine Reader передает слишком много своих стилей и шаблонов (размер шрифтов и т.д.), которые ты будешь исправлять. ПОЛЬЗУЙСЯ «КОПИРОВАТЬ В БУФЕР».

8. Вот ты вытянул из буфера фрагмент после OCR в Word. Глянь в окошко стилей — там может торчать “Fine Reader”. Это не годится, не годится... Немедленно поступай так, как с текстовым файлом, который хочешь перевести в *.doc: см. выше всю часть вторую. И начинай, как там указано, с самого начала. Не забудь после установки полей, стилей и шрифтов немедленно удалить мягкие переносы, наделанные Fine Reader. См. о них выше самое начало авентюры V. Кратко: «Найти» мягкий перенос () [знак ставится Ctrl - (т.е. дефис на нормальной клавиатуре] а «Заменить» на ничего (ничего не ставь). НЕ ЗАБУДЬ УДАЛИТЬ МЯГКИЕ ПЕРЕНОСЫ! Множество чудаков забывают это сделать.

9. И далее действуй как в части второй. Понятно, что после OCR метить абзацы крышками (как в части второй) нельзя. Есть и еще одна специфика: после OCR тире у тебя не будут, как в *.txt, в виде ( - ) или ( -- ). Они будут разнообразными тире: то длинными, то короткими. Поэтому, в отличие от трансмутации *.txt > *.doc, ты должен:

а) «Найти» (длинное тире просто (не указывай пробелы) — «Заменить» (длинное тире в обрамлении пробелов, причем левый — неразрывный).

б) «Найти» (короткое тире просто (не указывай пробелы) — «Заменить» (длинное тире в обрамлении пробелом (левый — неразрывный).

А далее поступай, как в части второй: удаляй лишние пробелы, меняй кавычки, ищи ошибки и т.д., и т.п. Главное — творчески используй «Найти» — «Заменить».

10. Моя причуда при корректуре текста после OCR.

Меня, конечно, засмеют, но кажется целесообразным заменить неправильное распознавание OCR русских букв как близких по начертанию английских (наоборот же малоактуально — у нас русские тексты, и если даже будет что-то подобное, то корректируй это при считывании). Какие это буквы? Это (англ. клавиатура) e, a, o, c, y, x, p, b («Найти» обнаружит большую англ. «B», которая как русская «В»), m (тоже большая), h (и эта большая H), t (и эта тоже), k (и эта большая). Вроде, все. При быстром компьютере дело десяти минут максимум.

11. Форма представления книг в электронной версии.

На мой взгляд, не следует делать несколько колонок: для документа Word это, порой, получается слишком мелко. Трудно работать с текстом, забирая кусок и перенося его в свою рабочую рукопись: в ней приходится переформатировать в одну колонку. Все-таки *.doc — не книга, и он лучше. Поэтому не следует пытаться воспроизводить все особенности книжного варианта. Зачем ссылки как верхние символы, когда ты можешь поставить их в квадратных скобках нормальными цифрами? И виднее, и, понятно, надежнее. И возни меньше.

Не следует также грешить разрывами страниц и разделов, чтобы воспроизвести верстку книги (в особенности этим грешат применительно к первым страницам: где форзац, титульный лист и т.п.).

ПОМНИ, ЧТО *.DOC — ЭТО НЕ АУТЕНТИЧНАЯ КОПИЯ КНИГИ. Он лучше. И он должен быть проще. Приводи, однако, как я уже указывал, выходные данные книги (строго смотри авентюру VII части первой). Укажи тираж и цену. А всякие «... подписана к печати 12/01/1955» и т.п. не надо.

Интересно, что у академических историков и философов принято ссылаться на страницы в книге, и они в электронных версиях указывают, где начинается-кончается страница номер такая-то оригинальной книги. Но большинство дисциплин ссылается на факты в трудах и, поэтому, для них страницы без надобности: там идет ссылка либо на всю книгу, либо на статью в ней, если книга — сборник разных авторов. Историки и философы же любят цитаты, и вот у них так и пошло.

Лично я расставлять номера страниц книги в электронной версии не хочу. Некрасиво и трудоемко. Мне это кажется без надобности (слишком узкому кругу надо).

12. Состав каталога электронной версии.

Обычно я привожу «Литературу» (или «Примечания») отдельным файлом. Когда список большой, это, на мой взгляд, совершенно необходимо.

Также и с «Предисловием» и «Послесловием», если они объемны и информативны. Иногда «Предисловие» и «Послесловие» целесообразно объединить в единый файл «Приложение» (Appendix.doc). Иногда в «Приложении» находятся не они, а вспомогательные материалы к книге, найденные в сети мною. И т.д. Большое и сложное «Оглавление» также необходимо выделять в отдельный файл (так лучше смотреть: можешь одновременно знакомиться и с текстом, и с «Оглавлением»). В данном «Методическом руководстве» «Оглавление» все же идет впереди основного текста исключительно из соображений компактности (кроме того, это не книга), да и ты, наверное, ознакомишься с ним только один раз — вначале.

Файлы рисунков представляй в отдельном каталоге (не забудь указать в тексте места рисунков). Если сканировал обложку и фото автора, рекомендую не включать их в каталог рисунков самого текста (это разные вещи).

Почему рисунки не в тексте? А вдруг книжные воротилы решат порушить электронные библиотеки и наймут хакеров-«вирусологов». И вдруг эти вирусы начнут распаковывать архивы и внедряться в *.doc. Тогда придется снова переходить от *.doc в *.txt. Из хорошего *.doc легко сделать хороший *.txt. Но рисунки-то куда девать? Если их «вынуть» из текста, то качество ухудшается сильно (разве что перевести *.doc в *.html).

Кроме того, *.doc с рисунками в тексте плохо архивируется. А если у кого компьютер не шибко сильный, то *.doc со многими картинками листается трудно.

Так что рисунки — в отдельном каталоге.

В качестве примеров см. мой сборник «Все романы Пера Валё и Май Шёвалль на русском языке» и [Рансимен С. «Падение Константинополя в 1453 году»] на «Электронных полках Вадима Ершова» (С. Рансимен есть также в библиотеке “Site Folio”, являющейся внушительным собранием уникальных исторических текстов в формате *.doc).

Ну и все. С Богом.




Читайте:


Добавить комментарий


Защитный код
Обновить

Рейтинг ВУЗов России:

News image

19 МГТУ им.А.Н.Косыгина (Московский государственный тек

За 80 лет плодотворной работы подготовлено 44500 специалистов для текстильной, легкой, химической промышленности, текстильного м...

News image

1 МГУ (Московский Государственный Университет)

Московский Государственный Университет (МГУ) был основан в 1755 году и является одним из самых древних российских университетов....

News image

10 МГЛУ (Московский Государственный Лингвистический Уни

МГЛУ - базовое учебное заведение российского Учебно-методического объединения (УМО) по образованию в области лингвистики, которо...

News image

20 МГУЛ (Московский государственный университет леса)

МГУлеса - специализированное высшее учебное заведение, которое готовит научных работников и инженеров для лесной, целлюлозно-бум...

News image

6 АБиК (Академия Бюджета и Казначейства Министерства Фи

В 1988 году, по решению Правительства Российской Федерации, при Министерстве финансов был создан Межотраслевой институт повышени...

News image

8 СПбГУ (Санкт-Петербургский Государственный Университе

Санкт-Петербургский университет был основан Петром I в 1724 году. В числе первых профессоров университета были такие выдающиеся ...

Новости европейского образования:

Правильный выбор школы - главная составляющая успеха

Самым популярным местом получения образования за пределами России у нас является Великобритания. В сентябре более тысячи российских детей ...

Перед выбором

Сегодня, когда цены на учебу в Швейцарии и Великобритании практически сравнялись, многие родители стоят перед выбором, что предпочесть? Не...

Март — время поторопиться

Поскольку квота для иностранцев в британских частных школах очень невелика, а популярность британского образования неуклонно растет, начин...

Современная наука:

Трасянка: мутация языков?

Сейчас далеко не 18 век. Уже давно население не делится на крестьян и аристократию, как это было принято. Конечно же, и сейчас интеллектуа...

Откройте рот – будем удалять аппендикс

Вслед за врачами Индии и США, шведские хирурги города Гетеборга провели операцию по удалению аппендикса через рот. Надо сказать, что опера...

Отборочный этап чемпионата мира по программированию стартует завтра в

11-ые четвертьфинальные командные соревнования Западного региона студенческого чемпионата мира по программированию торжественно откроются ...

Новости образования:

News image

Вечный студент

Некоторые люди вполне довольны тем, что имеют, т.е. одним дипломом. Однако в других людях тяга к знаниям настолько сильна, что о...

News image

Репетитор: необходимость или избалованность?

Ни для кого не секрет, что, как правило, редко кто из абитуриентов начинает подготовку к централизованному тестированию больше, ...

Проблема заказных работ:

Рефераты на заказ

News image

Советы, как правильно сформулировать требования к работе, которую вы хотите заказать на стороне. В данном случае мы не будем ...

Как заказать реферат, курсовую, дипломную работу наилуч

News image

Клиенты бывают разные. Кто-то просит маму позвонить и заказать реферат, другой звонит сам и часами объясняет, как должна быть вы...

Сделай себя лучшим:

Как улучшить работу мозга

News image

Альваро Фернандес, руководитель знаменитой американской консалтинговой компании SharpBrains, специализирующейся на рынке невроло...

Концентрация внимания – важное условие качественного об

News image

Наверняка вы часто замечали за собой, как трудно бывает сконцентрироваться на тексте конспекта или книги при подготовке к экзаме...

Авторизация