Новости ВУЗов:

Желающим работать на селе преграды нет!

News image

Срок отработки после университета по распределению увеличится. Правда эта инициатива в основном коснётся только абитуриентов, желающих пос...

ITшников не хватает

News image

На заседании круглого стола, прошедшем в Минске 22 апреля 2008 г. в ходе выставки tibo'2008 , Николай Листопад, директор главного информа...




ИЗ УНЫЛОГО ТЕКСТОВОГО ФАЙЛА (*.txt) — В КРАСИВЫЙ ФАЙЛ WORD (*.doc)

Обучение - Оформление работ

из унылого текстового файла (*.txt) — в красивый файл word (*.doc)

Множество сканированных книг представлены в *.txt. Говорят, вирусы не берут. Говорят, маленькие весьма. Не знаю: и *.doc, архивом схваченный, вирусы не берут. И *.doc в архиве невелик. Если, конечно, в него не вставлены рисунки. Но рисунки и не вставляй — приводи их в отдельном каталоге. Именно файлы рисунков придают объем, а если их много, то разница в размере между *.txt и *.doc не стоит даже упоминания.

Однако *.doc обладает неоспоримыми преимуществами при корректуре, при заменах, при поисках в тексте. И при работе с текстами: ты явно станешь писать в Word’е, а не в WordPad или в блокноте. А посему — хорошо отформатированный кусок для тебя весьма лаком. Но попробуй открыть *.txt в Word, и увидишь печальную картину... Того нет, сего нет, третьего нет (как у протестантов). Сразу охота все поиметь. Как сделать?

Перво-наперво знай, что иной раз открытый в Word текстовой файл им не узнается (наверное, по стилю). Это значит, что поиск в нем не работает (такое я встречал не раз).

РАБОТАЙ С КОПИЕЙ ИСХОДНОГО ТЕКСТА, который хочешь перевести из *.txt в *.doc. Оставь исходное на всякий случай (зависнет компьютер, и свои эволюции с текстом ты отменить не сможешь).

Но вот копию *.txt ты открыл в Word и с ужасом зришь на нее. Одни сплошные абзацы! Вместо концов строк абзацы. А где сами абзацы, и не разберешь... Но не бойся!

Выдели весь текст и сразу же выполни следующие этапы. Помни, порядок важен. Я ввел всю последовательность в макрос для Word. Итак:

1) Поставь правильные поля (см. часть первую).

2) Присвой стиль «Обычный»

3) На всякий случай затем поставь «Times New Roman» и его размер 12 пт.

4) Щелкни на тексте правой кнопкой, вызови «Абзац» и расставь «Интервал перед и после» — 0 и 0; «межстрочный интервал» — один; абзацный отступ («первая строка) default (0,5 дюйма).

5) Поставь язык «русский» (меню «Сервис»).

6) Замени во всем тексте кавычки на кавычки (помни, что у тебя в «Сервис» — «Автозамена» — «Автоформат при вводе» должен стоять флажок на «Заменять прямые кавычки парными»). Как это сделать и как кавычки отображаются в окнах «Найти — Заменить» — см. авентюру VI (5).

7) Теперь убери выделение и коротко изучи, что тебе подсунули. Посмотри, как в *.txt помечены абзацы. Обычно они помечены несколькими пробелами — видел от 2-х до 7-ми. Иногда бывает, что для одной части текста — 3 пробела на абзац, а для другой, скажем, 5. Тут ничего не поделаешь: текст придется разбивать и работать с частями. Правда, подобное мне встретилось за все время только один раз (наверное, можно пренебречь).

8) Но вдруг кто-то вместо таблицы разбил соответствующие данные в тексте пробелами. Подробно об этом см. часть первую, авентюра III (1). Просмотри текст на наличие подобного (много в книгах по истории). Как обнаружить — смотри ту же авентюру III. Замени всю эту гадость на нормальные таблицы (обязательно) или вырежи и пока перенеси в другой файл (не рекомендую: забудешь, откуда. Придется смотреть исходный вариант, с которого ты копировал файл для своих кунштюков). Только после этого переходи дальше.

9) Итак, твой абзац в *.txt соответствует, например, 5 пробелам. Немедленно вызывай «Найти — Заменить» и перемечивай абзац. Я перемечиваю его символом крышки (в обычном тексте он практически не встречается: только как огрехи OCR). В «Найти» ставишь 5 пробелов, а в «Заменить» ставь крышку («Больше» — «Специальный»). Делай все.

10) Заменяй все абзацы (в смысле, символы абзацев), на пробел. «Найти» — «Символ абзаца», а «Заменить» — ставь пробел клавишей.

11) Заменяй крышки на символы абзацев.

12) Теперь возьмись за тире. О тире подробно смотри авентюру IV в части первой. Снова изучи свой документ: как в исходном *.txt были нарисованы тире? Их вид у тебя пока прямо девственный: как в оригинале. Может быть так: ( - ), а может быть и так ( -- ). То есть, один или два дефиса. Но — в обрамлении пробелов (не смотри пока на то, что пробелов может быть несколько подряд — всему свое время). Если же огрехи оригинального OCR и оригинальной корректуры оставили «тире» без обрамления пробелов, то пока забудь об этом. Тут вернись и изучи о неразрывных пробелах авентюры IV и VIII в части первой. Потом переходи к следующему:

Замени (пробел дефис пробел) на (неразрывный пробел длинное тире пробел);

Замени (пробел дефис) на (неразрывный пробел длинное тире);

Замени (дефис пробел) на (длинное тире пробел);

Проделай то же самое, что и с дефисом, с коротким тире, заменяя его на длинное. Скорее всего, ты и не найдешь коротких тире, однако проверь.

13) Удаляй лишние пробелы, как крайне подробно указано в авентюре III, часть первая. И в тексте, и спереди, и сзади символа абзаца («Только успевай поворачиваться!» — как сказано в Гаргантюа Ф. Рабле).

14) Теперь найди «нехорошие» тире. Те, которые без обрамления пробелов. Сделай «Найти» (любая буква длинное тире). Правь вручную. Заодно попадутся и те места, где в словах типа «какой-нибудь» предыдущие мастера OCR просмотрели наличие пробела справа («какой - нибудь»). В этих местах дефисы у тебя заменились на длинные тире.

Затем, конечно, смотри (длинное тире любая буква), или отсутствие пробела справа от тире.

15) На всякий случай проверь дефисы рядом с пробелами: «Найти» (пробел дефис) и, затем, (дефис пробел). Устрани огрехи (правда, они вряд ли будут).

16) Однако типографщики и браузеристы требуют от нас правильной расстановки и короткого тире (см. выше подробно авентюру III в части первой). У тебя же пока нет и следов коротких тире.

Включай «Найти» «Любая цифра» и терпеливо просматривай все (короткие тире, напомним, в местах типа 2–3 и 1960–1970 гг.). Правь вручную.

Правда, остаются еще и римские цифры (V–IV вв. до н. э.). Что ж, придется и их. Включай «Найти» на I (большая i). Смотри. Затем включай «Найти» на V, а потом — на X (большая «экс»). Правь. Конечно, если в тексте много латиницы, то это трудно. Тогда придется считывать (но «Найти» все равно проще).

17) Замени (т. к., т. е., и т. д., и т. п.) на (т.к., т.е., и т.д., и т.п.).

18) Самое смачное: кавычки. Очень подробно выше (часть первая, авентюра VI). Сначала глянь, нет ли возле них буквы или цифры без пробела (напомним, что для поиска форма кавычек или « роли не играет, как и то, куда глядят кавычки: « или »).

«Найти» (любая буква [так они будут видны в окошке «Найти»]). Правь.

Затем наоборот (сначала кавычки, а потом любая буква).

Проделай то же самое с любой цифрой.

А теперь просматривай все кавычки подряд сначала. Сможешь, наверное, увидеть, где их не хватает до пары, и даже сможешь увидеть «кавычки внутри закавыченного тексте»

И сможешь заменить внутренние «ёлочки» на «лапки».

Затем просмотри текст на предмет необходимости иностранных кавычек

19) Теперь исправь другие возможные огрехи, как указано в авентюре . Тут, помимо указанного, целесообразно просмотреть текст на наличие «крышек» (частый огрех OCR, да и ты выше манипулировал с «крышками»).

И вообще: если тебе встретится при считывании второй раз один и тот же огрех, значит, OCR закономерно ошиблось в каком-то символе или фрагменте. Сразу же бросай чтение (отметь место докуда дошел нераспространенным словом: у меня — «досюда». Потом найдешь по «Найти»), включай «Найти» и вводи туда указанную ошибку. Исправляй по всему тексту (так будет быстрее). Например, вместо «на» все время «па». Вряд ли у тебя в тексте много про танцы («сделал „па“»). Увидел — гони «Найти» на это «па» (но поставь «Только слово целиком»). Исправляй вручную: «Заменить» лучше не трогать: вдруг это «па» стоит не только вместо «на», но и вместо еще чего-нибудь.

20) Далее — по соображению. Можешь, например, захотеть вставить неразрывный пробел в места типа № 1, глава 1, г. Москва. Лепи в «Найти» № и смотри, затем лепи туда «глава» и смотри. Наконец лепи г (для «г» придется поставить «Только слово целиком». Для «г.» же эта опция не установится). Далее действуй по своему вкусу и по конкретике текста. Основной подход я тебе указал.

21) И только когда закончишь все, начинай внимательно и с интересом читать. Почему «с интересом»? А потому, что нечего сканировать либо переводить из *.txt в *.doc то, что тебе не интересно. Даже не берись за подобную работу «из-под палки»: OCR и корректура дела кропотливые и трудоемкие, без нужды к ним приступать нечего. Ну, а коли нужен какой-то учебный текст (нужен, но неинтересен), то и не возись: делай так, что лишь бы понятно было и без фактических ошибок. На сиюминутные тексты также не утруждайся. Для меня, например, это всякие детективчики последних лет. А также куча каких-то современных доморощенных «фантастиков». Вижу, что и их сканируют. Что ж, тоже правильно: люди не будут тратиться на всякое барахло, а, если уж припечет, возьмут из сети и прочтут кое-как один раз. На два уже не хватит; может быть, и один-то раз не дочитают. Зато сэкономят деньгу. Однако я бы помещал в электронных библиотеках такие книженции в специальную рубрику: «Однодневное чтиво» или: «Прочти, если осилишь, и сотри».




Читайте:


Добавить комментарий


Защитный код
Обновить

Рейтинг ВУЗов России:

News image

18 МТУСИ (Московский Технический Университет Связи и Ин

МТУСИ сегодня - это 9 факультетов, на которых обучаются свыше 15 тысяч студентов, 35 кафедр, работает около 500 профессоров, доц...

News image

10 МГЛУ (Московский Государственный Лингвистический Уни

МГЛУ - базовое учебное заведение российского Учебно-методического объединения (УМО) по образованию в области лингвистики, которо...

News image

3 МГИУ (Московский Государственный Индустриальный Униве

Университет осуществляет образовательную деятельность в соответствии с законодательством РФ и готовит специалистов по очной, очн...

News image

19 МГТУ им.А.Н.Косыгина (Московский государственный тек

За 80 лет плодотворной работы подготовлено 44500 специалистов для текстильной, легкой, химической промышленности, текстильного м...

News image

1 МГУ (Московский Государственный Университет)

Московский Государственный Университет (МГУ) был основан в 1755 году и является одним из самых древних российских университетов....

News image

17 МИФИ (Московский Инженерно-Физический институт (Госу

Московский Инженерно-Физический институт (МИФИ) является базовым высшим учебным заведением атомной промышленности России, предна...

Новости европейского образования:

Правильный выбор школы - главная составляющая успеха

Самым популярным местом получения образования за пределами России у нас является Великобритания. В сентябре более тысячи российских детей ...

Перед выбором

Сегодня, когда цены на учебу в Швейцарии и Великобритании практически сравнялись, многие родители стоят перед выбором, что предпочесть? Не...

Март — время поторопиться

Поскольку квота для иностранцев в британских частных школах очень невелика, а популярность британского образования неуклонно растет, начин...

Современная наука:

Возможно, люди смогут жить до 800 лет

Подредактировав нашу ДНК, мы вскоре сможем продлить свою жизнь на сотни лет – если захотим. Стив Коннор сообщает о революционном открыти...

Жидкая линза

В прошлом году на Турнире Юных Физиков предлагалось решить следующую задачу: Разработайте систему жидкой линзы с регулируемым фокусным ...

Phun - песочница для физиков

Что это такое? Phun - это бесплатная программа для физического моделирования. Сами авторы программы называют ее двумерной физической п...

Новости образования:

News image

Вечный студент

Некоторые люди вполне довольны тем, что имеют, т.е. одним дипломом. Однако в других людях тяга к знаниям настолько сильна, что о...

News image

Репетитор: необходимость или избалованность?

Ни для кого не секрет, что, как правило, редко кто из абитуриентов начинает подготовку к централизованному тестированию больше, ...

Проблема заказных работ:

Обзор поисковых систем

News image

В броузере Internet Explorer русской версии Internet Explorer 4, входящей в состав Windows 98, предусмотрен легкий доступ к поис...

Предложение рождает спрос или спрос рождает предложение

News image

Проблема, как мне кажется, лежит не в том, что предложение безнравственных писателей порождает спрос студентов, заказывающих дип...

Сделай себя лучшим:

Как улучшить работу мозга

News image

Альваро Фернандес, руководитель знаменитой американской консалтинговой компании SharpBrains, специализирующейся на рынке невроло...

Концентрация внимания – важное условие качественного об

News image

Наверняка вы часто замечали за собой, как трудно бывает сконцентрироваться на тексте конспекта или книги при подготовке к экзаме...

Авторизация