Новости ВУЗов:

Оплата в вузах растет, а студенты не успевают собирать деньги

News image

С каждым годом оплата в государственных вузах растет. В этом году оплата выросла на 40% по всей Беларуси! Так, в БГУ на факультете междуна...

Иностранных студентов станет больше

News image

В ближайшее время Беларусь намерена увеличивать число иностранных студентов, обучающихся в наших вузах. Об этом вчера заявила консультант ...




ОСНОВНЫЕ ПОЖЕЛАНИЯ ПРИ OCR

Обучение - Оформление работ

основные пожелания при ocr

1. Сканируйте пакетами (по много страниц).

2. Каждую сканированную страницу сегментируйте сначала автоматически, но потом сразу же просмотрите ее и вручную поправьте сегменты, удалите неудачные и замените их на нужные. Поднимите низ сегментов, чтобы избежать номеров страниц. Только потом закрывайте страницу и переходите к сканированию следующей.

3. Наберете пакет — перед распознаванием сохраните его на всякий случай. Бывают сбои, и труд пропадет. Когда распознaете, переведете в *.doc и затем сохраните его (пусть это будет только часть книги — все равно надо обязательно), то удалите использованный пакет (нечего засорять).

4. Забудьте, что в Fine Reader есть редактор и проверка. Делайте все это в Word.

5. Ни в коем случае не распознавайте рисунки Fine Reader’ом (рекомендую брать такие рисунки вместе с текстом только в случае сиюминутных или учебных материалов).

Дело в том, что для подавляющего большинства книг достаточно разрешения при сканировании 300 точек на дюйм. Для рисунков же (даже штриховым и черно-белых) надо не менее 400 (я делаю 400, иначе слишком велики).

Поступай так: дошел до текста со смачным рисунком — сканируй текст с этого места. Сохрани его вместе с предыдущими страницами в пакет. Выйди из Fine Reader, открой свой графический редактор (если не выйдешь из Fine Reader, то драйвер сканера останется у него), сканируй как надо рисунок и сделай его. Закрой редактор, вызови Fine Reader, открой пакет и продолжай дальше. Когда придет второй рисунок, то сохранить дополненный пакет уже не получится (я использую Fine Reader 4, хотя имеется дистрибутив и на 5-й. Не знаю, есть ли разница между ними в нашем случае и может ли 5-й сохранять дополненный пакет). Итак, пришел второй рисунок. Сканируй текст с тех страниц, где этот рисунок, и, что ж делать, распознавай пакет, сохраняя затем в *.doc фрагмент текста книги. Далее делай рисунок и т.д.

Почему я при встрече рисунка делаю пакет (или распознаю), выхожу из Fine Reader, потом сканирую рисунок в графическом редакторе, а затем снова возвращаюсь в Fine Reader? А чтобы лишний раз не укладывать толстую книгу аккуратно на сканер, прижимая ее грузом. Такое лишнее укладывание может дополнительно попортить ей шкурку, а она и так портится.

6. Искусство сканирования рисунков хитрое. Руководство имеется на «Электронных полках Вадима Ершова». Скажу только, что не следует увлекаться цветным там, где это не слишком нужно — лучше сделать хороший 256 оттенков серого (с бoльшим разрешением) чем плохой цветной.

7. Не советую пользоваться функцией Fine Reader «Передать в Word». В подобном случае Fine Reader передает слишком много своих стилей и шаблонов (размер шрифтов и т.д.), которые ты будешь исправлять. ПОЛЬЗУЙСЯ «КОПИРОВАТЬ В БУФЕР».

8. Вот ты вытянул из буфера фрагмент после OCR в Word. Глянь в окошко стилей — там может торчать “Fine Reader”. Это не годится, не годится... Немедленно поступай так, как с текстовым файлом, который хочешь перевести в *.doc: см. выше всю часть вторую. И начинай, как там указано, с самого начала. Не забудь после установки полей, стилей и шрифтов немедленно удалить мягкие переносы, наделанные Fine Reader. См. о них выше самое начало авентюры V. Кратко: «Найти» мягкий перенос () [знак ставится Ctrl - (т.е. дефис на нормальной клавиатуре] а «Заменить» на ничего (ничего не ставь). НЕ ЗАБУДЬ УДАЛИТЬ МЯГКИЕ ПЕРЕНОСЫ! Множество чудаков забывают это сделать.

9. И далее действуй как в части второй. Понятно, что после OCR метить абзацы крышками (как в части второй) нельзя. Есть и еще одна специфика: после OCR тире у тебя не будут, как в *.txt, в виде ( - ) или ( -- ). Они будут разнообразными тире: то длинными, то короткими. Поэтому, в отличие от трансмутации *.txt > *.doc, ты должен:

а) «Найти» (длинное тире просто (не указывай пробелы) — «Заменить» (длинное тире в обрамлении пробелов, причем левый — неразрывный).

б) «Найти» (короткое тире просто (не указывай пробелы) — «Заменить» (длинное тире в обрамлении пробелом (левый — неразрывный).

А далее поступай, как в части второй: удаляй лишние пробелы, меняй кавычки, ищи ошибки и т.д., и т.п. Главное — творчески используй «Найти» — «Заменить».

10. Моя причуда при корректуре текста после OCR.

Меня, конечно, засмеют, но кажется целесообразным заменить неправильное распознавание OCR русских букв как близких по начертанию английских (наоборот же малоактуально — у нас русские тексты, и если даже будет что-то подобное, то корректируй это при считывании). Какие это буквы? Это (англ. клавиатура) e, a, o, c, y, x, p, b («Найти» обнаружит большую англ. «B», которая как русская «В»), m (тоже большая), h (и эта большая H), t (и эта тоже), k (и эта большая). Вроде, все. При быстром компьютере дело десяти минут максимум.

11. Форма представления книг в электронной версии.

На мой взгляд, не следует делать несколько колонок: для документа Word это, порой, получается слишком мелко. Трудно работать с текстом, забирая кусок и перенося его в свою рабочую рукопись: в ней приходится переформатировать в одну колонку. Все-таки *.doc — не книга, и он лучше. Поэтому не следует пытаться воспроизводить все особенности книжного варианта. Зачем ссылки как верхние символы, когда ты можешь поставить их в квадратных скобках нормальными цифрами? И виднее, и, понятно, надежнее. И возни меньше.

Не следует также грешить разрывами страниц и разделов, чтобы воспроизвести верстку книги (в особенности этим грешат применительно к первым страницам: где форзац, титульный лист и т.п.).

ПОМНИ, ЧТО *.DOC — ЭТО НЕ АУТЕНТИЧНАЯ КОПИЯ КНИГИ. Он лучше. И он должен быть проще. Приводи, однако, как я уже указывал, выходные данные книги (строго смотри авентюру VII части первой). Укажи тираж и цену. А всякие «... подписана к печати 12/01/1955» и т.п. не надо.

Интересно, что у академических историков и философов принято ссылаться на страницы в книге, и они в электронных версиях указывают, где начинается-кончается страница номер такая-то оригинальной книги. Но большинство дисциплин ссылается на факты в трудах и, поэтому, для них страницы без надобности: там идет ссылка либо на всю книгу, либо на статью в ней, если книга — сборник разных авторов. Историки и философы же любят цитаты, и вот у них так и пошло.

Лично я расставлять номера страниц книги в электронной версии не хочу. Некрасиво и трудоемко. Мне это кажется без надобности (слишком узкому кругу надо).

12. Состав каталога электронной версии.

Обычно я привожу «Литературу» (или «Примечания») отдельным файлом. Когда список большой, это, на мой взгляд, совершенно необходимо.

Также и с «Предисловием» и «Послесловием», если они объемны и информативны. Иногда «Предисловие» и «Послесловие» целесообразно объединить в единый файл «Приложение» (Appendix.doc). Иногда в «Приложении» находятся не они, а вспомогательные материалы к книге, найденные в сети мною. И т.д. Большое и сложное «Оглавление» также необходимо выделять в отдельный файл (так лучше смотреть: можешь одновременно знакомиться и с текстом, и с «Оглавлением»). В данном «Методическом руководстве» «Оглавление» все же идет впереди основного текста исключительно из соображений компактности (кроме того, это не книга), да и ты, наверное, ознакомишься с ним только один раз — вначале.

Файлы рисунков представляй в отдельном каталоге (не забудь указать в тексте места рисунков). Если сканировал обложку и фото автора, рекомендую не включать их в каталог рисунков самого текста (это разные вещи).

Почему рисунки не в тексте? А вдруг книжные воротилы решат порушить электронные библиотеки и наймут хакеров-«вирусологов». И вдруг эти вирусы начнут распаковывать архивы и внедряться в *.doc. Тогда придется снова переходить от *.doc в *.txt. Из хорошего *.doc легко сделать хороший *.txt. Но рисунки-то куда девать? Если их «вынуть» из текста, то качество ухудшается сильно (разве что перевести *.doc в *.html).

Кроме того, *.doc с рисунками в тексте плохо архивируется. А если у кого компьютер не шибко сильный, то *.doc со многими картинками листается трудно.

Так что рисунки — в отдельном каталоге.

В качестве примеров см. мой сборник «Все романы Пера Валё и Май Шёвалль на русском языке» и [Рансимен С. «Падение Константинополя в 1453 году»] на «Электронных полках Вадима Ершова» (С. Рансимен есть также в библиотеке “Site Folio”, являющейся внушительным собранием уникальных исторических текстов в формате *.doc).

Ну и все. С Богом.




Читайте:


Добавить комментарий


Защитный код
Обновить

Рейтинг ВУЗов России:

News image

18 МТУСИ (Московский Технический Университет Связи и Ин

МТУСИ сегодня - это 9 факультетов, на которых обучаются свыше 15 тысяч студентов, 35 кафедр, работает около 500 профессоров, доц...

News image

19 МГТУ им.А.Н.Косыгина (Московский государственный тек

За 80 лет плодотворной работы подготовлено 44500 специалистов для текстильной, легкой, химической промышленности, текстильного м...

News image

14 МИРЭА (Московский Государственный Институт Радиотехн

Подготовка в интересах государства, общества, личности конкурентоспособных, всесторонне образованных и способных к саморазвитию ...

News image

1 МГУ (Московский Государственный Университет)

Московский Государственный Университет (МГУ) был основан в 1755 году и является одним из самых древних российских университетов....

News image

17 МИФИ (Московский Инженерно-Физический институт (Госу

Московский Инженерно-Физический институт (МИФИ) является базовым высшим учебным заведением атомной промышленности России, предна...

News image

15 МИСиС ГТУ (Государственный технологический университ

В сентябре 1918 года создана Московская горная академия (МГА). В ходе ее преобразования образовалось 6 независимых ВУЗов. Москов...

Новости европейского образования:

Правильный выбор школы - главная составляющая успеха

Самым популярным местом получения образования за пределами России у нас является Великобритания. В сентябре более тысячи российских детей ...

Перед выбором

Сегодня, когда цены на учебу в Швейцарии и Великобритании практически сравнялись, многие родители стоят перед выбором, что предпочесть? Не...

Март — время поторопиться

Поскольку квота для иностранцев в британских частных школах очень невелика, а популярность британского образования неуклонно растет, начин...

Современная наука:

Прогресс М-61 затоплен в Тихом океане

Космический грузовик Прогресс М-61 , завершивший свое пребывание на орбите, затоплен в водах Тихого океана, сообщает РИА Новости. Вече...

Чем богаты языки Земли?

Выразительность – вот один из важнейших аспектов любого языка. Он не зависит от языковой группы, от используемого алфавита или от континен...

Phun - песочница для физиков

Что это такое? Phun - это бесплатная программа для физического моделирования. Сами авторы программы называют ее двумерной физической п...

цифровая печать в типографии Белый Ветер

Новости образования:

News image

Вечный студент

Некоторые люди вполне довольны тем, что имеют, т.е. одним дипломом. Однако в других людях тяга к знаниям настолько сильна, что о...

News image

Репетитор: необходимость или избалованность?

Ни для кого не секрет, что, как правило, редко кто из абитуриентов начинает подготовку к централизованному тестированию больше, ...

Проблема заказных работ:

Как выбрать автора-исполнителя

News image

Логично будет предположить, что вы ищете себе в авторы человека, который давно и успешно работает в сфере написания рефератов н...

Статья про поиск и сохранение информации

News image

Как найти иголку в стоге сена Для поиска необходимой информации в сети Internet часто приходится прибегать к помощи поисковых...

Сделай себя лучшим:

Как улучшить работу мозга

News image

Альваро Фернандес, руководитель знаменитой американской консалтинговой компании SharpBrains, специализирующейся на рынке невроло...

Концентрация внимания – важное условие качественного об

News image

Наверняка вы часто замечали за собой, как трудно бывает сконцентрироваться на тексте конспекта или книги при подготовке к экзаме...

Авторизация