Разлика между версии на „Работно ателие/Наръчник на коректора“
Haripetrov (беседа | приноси) м (Добавяне на разяснение за IDI Spell Check) |
Zelenkroki (беседа | приноси) м (→IDI Spell Checker: По-съкратено и по-конкретно за non-Unicode настройките.) |
||
Ред 252: | Ред 252: | ||
Всяко предложение, което ви се появява в левия панел, е само '''предложение'''. На вас се оставя да прецените дали е грешка в зависимост от конкретния текст. | Всяко предложение, което ви се появява в левия панел, е само '''предложение'''. На вас се оставя да прецените дали е грешка в зависимост от конкретния текст. | ||
− | + | Възможно е програмата да забива, ако компютърът не е настроен на български в регионалните настройки за програмите, които не са с Unicode (language for non-Unicode programs). | |
==== Настройки на програмата ==== | ==== Настройки на програмата ==== |
Версия от 05:42, 28 ноември 2014
Съдържание
Въведение
Що е то корекция
Преобразуването на печатно издание в цифров вид включва три етапа — сканиране, разпознаване и корекция. След сканирането получаваме графични файлове (изображения на страниците), които се разпознават от OCR-програма[1] и се преобразуват в текстов вид. Тъй като всички OCR-програми допускат грешки, е необходим последният етап — корекцията.
Отбележете внимателно — корекция, а не редакция. Задачата на коректора е да поправи всички грешки, допуснати от програмата за разпознаване, и да приведе текста във вид, сходен с оригинала.
Тези грешки могат да са най-различни — неправилно разпознати букви и цели думи, неправилно залепване или разкъсване на съседни параграфи, неправилно форматирани препинателни знаци и т.н., но средството за тяхната поправка е едно-единствено: текстът трябва да се прочете изцяло от коректора и да се поправят всички открити грешки.
Инструментариум
За целта не ви е необходима специална програма — ще ви свърши работа всеки текстов редактор, който може да работи с обикновени текстови файлове (.TXT) и поддържа формат UTF-8. Всеки текстов редактор притежава тези възможности. Пример: Notepad++, Kate и др.
Впоследствие можете да използвате и допълнителни средства, които да извършват автоматизирана проверка на текста — коректор на правописа, на пунктуацията и т.н. — но тяхната употреба не отменя необходимостта от внимателното изчитане на текста и сравнението с книжния оригинал. По-нататък ще бъдат посочени по-масово използваните инструменти за обработка на текстове.
Необходими умения
Силно е препоръчително да имате добри познания по правопис, за да можете по-лесно да улавяте сгрешените думи. Коректор, който пише „Искам да коригирвам“, „Ще внимавам да не збъркам“, „В общи линий“ и други подобни, може да бъде сигурен, че обработеният от него текст ще бъде върнат за повторна корекция. Също така е добре да притежавате поне начални познания за работа с текстообработващата си програма — търсене, заместване, въвеждане на специални символи. Допълнителните умения за автоматизация на работата (като например създаването и използването на макроси) могат да са ви от голяма полза, но не са задължителни.
И още…
Добре е, паралелно с корекцията на текста, да го форматирате по начина, приет в „Моята библиотека“. Това не е толкова сложно, колкото може да ви се стори на пръв поглед. Целта на форматирането е да обозначи отделните елементи на книгата, за да може вграденият в сайта конвертор да изработи коректни и добре изглеждащи електронни издания във всички крайни формати. На теория е възможно някой друг да направи форматирането след като коригирате текста, но на практика той трябва отново да прегледа цялото произведение и да сравни текста с изходните изображения — задача, която е както досадна, така и безсмислена; текстът може да бъде форматиран най-бързо и най-добре от коректора.
Основни стъпки за обработка на текст за „Моята библиотека“
1. Сканиране;
2. Разпознаване на текста;
3. Корекция;
4. Форматиране в SFB формат по време на изчитане;
5. Проверка с IDI Spell Check и „Проверителя“.
Работно ателие
Предназначение
Ателието е предназначено да координира работата на хората, участващи в обработката на текстовете. За да вземете участие в подготовката на някой текст, трябва да сте регистрирани, да сте указали валидна електронна поща и да сте разрешили получаването на писма от други потребители.
Избор на текст
Изберете си произведение от ателието, което смятате, че ще ви бъде интересно да прочетете. То трябва да е маркирано с иконката за екипна работа и в колоната за потребители да е указано „(очакват се коректори)“. Можете да получите списък с всички произведения от ателието, които отговарят на тези условия, чрез препратката „Търси се коректор“, която се намира точно над таблицата.
След като изберете произведение, потърсете на реда с описанието му иконка, изобразяваща дискета . Тя е препратка, която сочи към файловете за обработка (най-често — архив). Изтеглете го, убедете се, че можете да отворите архива, картинките и файла за корекция, и ако всичко е наред и възнамерявате да продължите с корекцията, се впишете като коректор.
Вписване
Отворете записа на произведението, като използвате препратката в заглавието му. Слезте в долната част на екрана и намерете секцията „Коригиране“, в която има още една секция „Моят принос“, а в скоби е указано името, под което сте се регистрирали в сайта.
В полето „Коментар“ въведете някакъв кратък текст (като например „Заемам се с корекцията“), а в полето „Напредък“ отбележете „0“ (нула), след което натиснете бутона „Запис“. Вече сте вписани като участник в подготовката на тази книга.
По време на работата над корекцията обновявайте периодично полето „Напредък“ — например през около 10-20 процента, — за да се знае, че работата над този текст продължава. Записи на потребители, които не са актуализирани повече от три месеца, се изтриват от ателието. Актуализацията се извършва по същия начин, както и началното вписване.
След приключване на корекцията, архивирайте текста и прилежащите му картинки (корица, илюстрации и т.н. — ако ги има) и ги качете чрез полето „Файл“. Имайте предвид, че сайтът допуска качване на файлове с размер до 16MiB — ако по някакви причини вашият архив е по-голям, потърсете съдействие от екипа.
Не е необходимо да качвате междинни файлове (частично коригирани) по време на актуализацията на напредъка; качете само крайния файл, след като приключите корекцията изцяло.
Корекция на текст от „Читанка“
Ако решите да коригирате текст, който вече е качен в „Моята библиотека“, изтеглете го във формат SFB и използвайте бутона „Подготовка на ново произведение“, който се намира под пояснителния текст в началната страница на ателието. Уверете се, че е активна страницата „Самостоятелна подготовка“ и попълнете заглавието на произведението и неговия автор, като добавите „(корекция)“ след заглавието. В полето „Етап“ изберете „Коригира се“. Желателно е периодично да опреснявате записа.
Следващият етап е отстраняването на грешките, които сте забелязали при четене. Можете спокойно да изтриете текста „[Kodirane UTF-8]“, който е преди заглавието на произведението. След като нанесете корекциите и стигнете в края на текстовия файл, трябва да изтриете „КРАЙ“, както и съдържанието в информационната част (тя е оградена с маркерите I> и I$). Ако сте нанесли промени, които засягат само основния текст, трябва да въведете идентификационния номер на произведението. Пример за „Войната на Ъплифта“:
I> $id=24867 I$
Както виждате, тук е посочен идентификационният номер на произведението в библиотеката. Можете да го разграничите посредством връзката, която е в адресната лента "text/24867".
В случай, че извършвате друга промяна, например добавяне на липсваща анотация, предговор, послеслов, липсваща корица, допълване на информационната част, трябва задължително да посочите и идентификационния номер на книгата, в която участва даденото произведение. Отново пример с „Войната на Ъплифта“, но този път той се отнася за книгата:
I> $id=24867 $book_id=4367 I$
Както забелязахте, тук се използва допълнителен маркер, който указва номера на книгата в библиотеката. Самият номер пак го взимате от адресната лента "book/4367".
След като приключите с гореописаните действия, се върнете в ателието и в полето „Етап“ изберете „Чака проверка“. Имате две възможности за указване на готовия (коригиран) файл — чрез първия ред на полето „Файл“ можете да го качите в сайта, а можете да го качите на друг сайт — във втория ред укажете препратката към него, като не забравяте да попълните приблизителния размер на качения файл.
Сканиране
Кратки инструкции за начинаещи
Сканирането представлява заснемане страниците на книгата и записването им в компютъра във вид на изображения. За целта може да се използва скенер, цифров фотоапарат и изобщо всяко устройство, което може да осигури качествено заснемане на страниците (например Google използват специализирана цифрова видеокамера).
Въпреки всичко желателно е да използвате скенер, тъй като разпознаването на текста е с по-добро качество.
Ако никога не сте се занимавали с цифровизиране на печатно издание, опитайте! Това ще ви даде представа за основните неща, на чиято база по-късно ще се усъвършенствате.
За опростяване на обясненията ще предполагаме, че разполагате със „стандартен“ комплект — компютър, скенер и инсталиран софтуер за сканиране.
Минималната допустима разделителна способност при сканиране на текст с цел разпознаване е 300 dpi. Текст, сканиран с по-ниска разделителна способност може и да ви изглежда четим, но програмата за разпознаване няма да се справи с него.
Книги, набрани с шрифт 10 pt и по-малко, трябва да се сканират с 600 dpi. Ако използвате по-ниска разделителна способност, ще получите загуба на информация.
Книга, която съдържа само текст, може да сканирате в „Black and white“ режим, но е желателно да използвате „Grayscale“ режим, защото по всяко време, с помощта на програма за обработване на изображения, можете да преобразувате сивите изображения в черно-бели, но обратното не е възможно. Книга с цветни илюстрации трябва да я сканирате в режим „Color“.
В никакъв случай не записвайте сканиран текст в JPG-формат! Този формат е идеален за пълноцветни изображения (например фотоснимки), но е напълно неподходящ за страници с текст. Основната причина за това е, че JPEG-кодирането е кодиране със загуби, което в случая с книгите се проявява като шум около буквите — т.е. петна, които пречат на доброто разпознаване. Най-добре е да записвате сканираните изображения в TIFF или PNG формат, които записват изображенията без загуби, така че спокойно можете да използвате всякакви методи за компресия, които предоставя програмата за сканиране.
По принцип нивото на загубите при кодиране на JPEG-а може да се настройва, но почти всички драйвери за сканиране не предоставят на потребителя такава възможност и сами определят допустимото ниво, което води до появяване на по-голям шум около буквите.
И още — не пакетирайте сканираните изображения в PDF! Първо, така ще блокирате всякаква възможност за по-нататъшна обработка — тя ще бъде възможна само чрез извличане на страниците от PDF-а, което в общия случай не води до получаване на оригиналните сканирани изображения. Второ, така губите или място на диска, или качество на изображенията — в зависимост от това дали сканиращата програма използва PDF-а само като контейнер на TIFF/PNG файлове, или ги преобразува до стандартния за PDF формат JPG, чиито недостатъци бяха разгледани по-горе.
Други съвети
Ограничете областта за сканиране. Няма нужда да оставяте прекалено големи полета около книгата — така губите както място на компютъра, така и време за сканиране, — но е опасно да ограничавате сканираната област само до наличния текст — така при най-малкото отклонение от настроения размер страницата ще „излезе от кадър“. Подравнете книгата откъм късата страна на скенера, където паркира четящата глава, направете пробно сканиране „Preview“, след което ограничете областта за сканиране до външните контури на книгата.
Докато прелиствате страниците, контролирайте чистотата на стъклото на скенера. Там често попадат косми или големи хартиени прашинки от книгата, които в последствие пречат на разпознаването.
Не е задължително да затваряте капака на скенера, за да сканирате. Той е предвиден за по-точно притискане на единични листове, а не на цяла книга. Оставете го отворен и сканирайте спокойно. Все пак внимавайте да няма ярка директна светлина към стъклото на скенера — има наблюдения, че някои модели скенери са чувствителни към интензивността на външното осветление.
Ако сканиращата програма разрешава, винаги записвайте страниците с имена, съдържащи един и същ брой цифри в номерата, т.е. вместо „Image 1.tif“, „Image 2.tif“… „Image 10.tif“ и т.н., използвайте „Image 001.tif“, „Image 002.tif“… „Image 010.tif“ и т.н. Разбира се, най-компактно ще е да използвате само цифри — „0001.tif“, „0002.tif“… Проблемът е, че различните програми (и операционни системи) нееднозначно сортират файлове, именовани по първия начин и в резултат можете да получите книга с разбъркани страници. Ако сканиращата програма няма такава възможност, изберете си някоя програма за пакетно преименуване на файлове (например „Bulk Rename“) и след като приключите сканирането, приведете имената в нормален вид.
След като приключите сканирането, проверете дали не сте пропуснали страници! Много лесно можете да прелистите две страници вместо една, особено при масово използваната напоследък хартия. Така че сравнете броя на сканираните изображения с разликата в номерата на последната и първата сканирана страница (евентуално разделен на две, ако сте сканирали по две страници наведнъж). Ако се получи разлика, значи сте пропуснали да сканирате страница (или сте сбъркали сметките :-). Пример: сканирали сте двойни страници — първото сканирано изображение е на стр. 2-3; последното — 218-219. Изваждате първия номер от последния (218-2) и получавате 216; делите на две, защото сте сканирали двойни страници (получавате 108) и добавяте единица, за да включите и двата крайни номера (резултат: 109). Ако в папката със сканирани изображения има по-малко от 109 файла, значи сте пропуснали да сканирате страници. При сканиране на единични страници методът на пресмятане е същият, като пропуснем деленето на две.
Контролирайте резултата още докато сканирате. Не оставяйте страници, в които има размазване на текста около сгъвката (най-често се получава при скенери, които не могат да фокусират на повече от милиметър-два над стъклото), накъсани изображения (поради движение на книгата по време на сканиране) и изобщо — всякакви дефекти, които ще доведат до невъзможност за разпознаване на текста.
Запазете оригиналните сканирани изображения до приключването на цялостната обработка на книгата (и след това). Винаги можете да ги изтриете, но ако потрябват (случва се!), едва ли ще ги сканирате отново.
Разпознаване
Разпознаването се извършва от специализиран OCR софтуер (от „Optical Character Recognition“ — „Оптично разпознаване на символи“), който разпознава текста от заснетите изображения и го преобразува във вид, удобен за редактиране — най-често в някой от разпространените текстови формати: TXT, HTM, RTF, DOC и т.н.
По този въпрос за разпознаването могат да се кажат много малко неща. Основният принцип е: „Не разчитайте на чудеса“. Програмите за разпознаване на текст се справят много добре със задачата си (понякога дори отлично ;-), но често допускат грешки.
Предварителна подготовка
Преди разпознаването на текста можете да обработите изображенията посредством програмата Scan Tailor, която почиства шумовете в изображенията (прашинки и други обекти, които не са част от текста). Във връзката ще намерите ръководство за използването на програмата, както и други алтернативни програми.
Видове програми за разпознаване
Основната програма, която се справя много добре с разпознаването на текст на български език е ABBYY FineReader. Другата многообещаваща програма е разработка на Google — Tesseract.
ABBYY FineReader
Ето и няколко съвета за FineReader:
По възможност използвайте английския интерфейс на програмата. Откакто „Давид холдинг“ спряха поддържката на FineReader за България (около версия 7) качеството на преводите в българския интерфейс е такова, че сякаш са правени с Google Translator. Така няма да се чудите какво означава съобщението „Действието не може да бъде ненаправено. Да продължа ли?“ или параметъра „Разлики в правилното изображение“ (в оригинал — „Deskew image“).
Подберете внимателно параметрите при зареждане на сканираните картинки. Всяка включена ненужна опция забавя значително обработката на изображенията; например ако страниците са ви ориентирани правилно, няма нужда да включвате „Автоматично определяне ориентацията на страницата“. От друга страна, липсата на необходима обработка може да доведе до пълна невъзможност за разпознаване на страницата — например при зареждане на леко завъртяна страница с изключена опция „Изправяне на страница“ („Deskew“).
Вместо директно да разпознавате заредените страници, можете да извършите това на два етапа — първо да стартирате разпознаването на областите (частите от страницата, съдържаща текст или илюстрация; освен чрез менюто това действие може да се стартира с клавишната комбинация Ctrl+Shift+E), след което да прегледате всички страници и да поправите неправилно определените области и едва тогава да пуснете разпознаването им. По този начин ще елиминирате два проблема:
1. Колонтитулът[2] понякога се разпознава като част от основния текст, а не като отделен елемент; ако не го коригирате, той ще се появява навсякъде в извлечения текст, независимо от формата.
2. Ако областта с текст е по-широка отколкото е правилно (програмата е прихванала някое петно от хартията и е увеличила областта, за да го обхване), тогава редовете от тази област почти винаги ще се разпознаят като самостоятелни параграфи и при корекцията ще трябва да ги сливате ръчно. Много хора не знаят за тази възможност и затова директно стартират разчитането на страниците, след което ги обхождат и проверяват разпознатите области, а накрая пускат отново разпознаването на коригираните страници.
И двата проблема, описани в предишната точка, се поправят много по-лесно с една сравнително неизвестна функция на FineReader — „Анализ на оформлението в текущата област“ („Analyze Layout in Area“).
При възникване на първия проблем (колонтитул като част от основния текст) в 80% от случаите е достатъчно да изберете областта (ако вече не е избрана, разбира се) и да стартирате тази функция — FineReader сам ще разбие областта на две — колонтитул и основен текст. Ако не успее, ще трябва ръчно да свалите горната граница на текста така, че да прескочи колонтитула. При втория случай (прихващане на петно встрани от текста) трябва да преместите съответната граница (отляво или отдясно) така, че да прескочи петното, но при това действие възниква следния проблем: Ако оставите твърде голямо бяло поле, редовете ще се разпознаят като отделни параграфи, а ако опитате ръчно да поставите възможно най-малкото поле, рискувате да отрежете част от текста, при което той ще се разпознае неправилно. Тук отново идва на помощ анализиращата функция — след като преместите границата зад петното, просто я стартирайте и FineReader сам ще ограничи белите полета до допустимия минимум.
Ако книгата съдържа много малко текст на латиница (десетина думи), не разпознавайте на няколко езика едновременно (напр. „Български + Английски“), а само на български; по-късно ръчно ще поправите неправилно разпознатите думи. В противен случай ще получите голямо количество думи на латиница (напр. „Ho“, „My“ и т.н.), които са почти невъзможни за откриване, а при четене с шрифт, в който има разлика в начертанията на латиницата и кирилицата, визуалният ефект е доста неприятен. Нещо повече — при разпознаване на няколко езика едновременно FineReader замества дори единични букви в българска дума със съответния им графичен аналог в латиницата!
Внимателно проверете параметрите и при експортиране на вече разпознатия текст във външен файл. Запазете текстовия файл с UTF-8 кодировка. Изборът на файловия формат се определя от това какъв е текстът. Най-добре да извлечете информацията в TXT файл, но ако виждате, че има липса на информация или неправилно форматиране, можете да изберете друг формат: RTF, DOC, ODT, след което от него да прехвърлите информацията в TXT. Ако не разбирате тези параметри — питайте!
9-та и по-стари версии
Основно правило за версии 2009-а и по-стари е да не се използва функцията за сричкопренасяне. Причината е, че после ще ви се наложи ръчно да премахвате всяко тире за пренасяне. Премахването на незадължителните тирета става чрез „Редакция>Заместване“ (Edit>Replace), като в горното поле слагате знака за „незадължително тире“ от „Още>Специални“ (More>Special) (знака можете и да изпишете на ръка: ^-), а долу оставяте празно поле и давате „Замести всички“ (Replace All).
За да си спестите време при първоначалното оправяне на текста, от излишното форматиране, е желателно да го извличате (export) в TXT файл с UTF-8 кодировка. По този начин ще се запазят всички специални символи и същевременно ще бъдат премахнати наведнъж различните форматирания, прекъсвания на страниците и др., които иначе, ако премахвате ръчно, биха ви отнели часове работа.
Недостатък на този начин е, че така премахвате и форматирането на текста (например наклонения текст (курсив), удебелен (получер) и т.н.), във файла. Ето защо докато изчитате текста в програмата, е хубаво да извършвате освен корекцията и форматирането му в SFB формат (за който ще говорим в следващите секции).
10-та и по-нови версии
При 2010-а и по-новите версии, програмата автоматично се грижи за премахването на тиретата за пренос. Това не гарантира, че абсолютно всички тирета ще бъдат премахнати и затова, когато четете и коригирате текста, при съмнение трябва да сверявате със сканираните изображения.
Корекция
Пояснения
Процесът на корекция на даден текст включва внимателното му изчитане и поправка на всички грешки, допуснати от програмата за разпознаване. Това е възможно само чрез сравнение с печатния оригинал или заснетите при сканирането страници. Всякакви други действия — проверка на текст чрез спелчекър или други помощни средства, автоматично или ръчно „почистване“ на груби грешки и т.н. — са само частична обработка на текста и не могат да бъдат определени като пълноценна корекция.
Внимавайте какво поправяте!
Както беше отбелязано по-горе, целта ви е да коригирате грешките, допуснати от програмата за разпознаване, а не да правите допълнителна редакция на автора, преводача, редактора от издателството и т.н. хора по веригата, участвали в изработката на книжното издание. Разрешена е поправката само на очевидни печатни грешки, допуснати в изданието. Това в никакъв случай не включва стари форми на думите (като „участвувал“) или решения на автора, преводача или редактора относно правописа на някоя дума — ако в издание от 1990 г. някой преводач навсякъде е използвал „капзи“ вместо „капси“, оставете го така. Ако са написали „Нюйорк“ вместо „Ню Йорк“, оставете го така. Ако отделните книги от дадена поредица са превеждани от различни преводачи и са използвали различни термини за една и съща дума, оставете ги така, вместо да ги уеднаквявате. Още по-недопустима грешка е да променяте авторската подредба на параграфите, като сливате или разделяте редове, освен ако става въпрос за явна пунктуационна грешка като например сливане на пряка реч на различни герои или разделяне на пряка реч на един и същ герой. Накратко — не редактирайте, а само коригирайте текста!
Ако забележите грешка при превода, грешка на автора и т.н., напълно допустимо е да я отбележите в бележка под линия, като изрично укажете в края й „бел.ел.коректор“ или чрез съответното име (псевдоним), за да е ясно, че тази бележка не е част от книжното издание, а е направена допълнително.
Компютърна пунктуация
Всяко правило си има изключения, както по отношение на българската граматика, така и при компютърната пунктуация. Ако не сте сигурни — попитайте. „Който пита, изглежда глупав само веднъж, който не пита, изглежда глупав непрекъснато.“
Точки, запетаи, удивителни…
Символите „точка“, „запетая“, „удивителна“, „въпросителна“, „многоточие“, „точка и запетая“ и „двоеточие“ трябва да се изписват слято с предхождащата ги дума, т.е. преди тях не трябва да има интервал. Тези символи и следващата ги дума винаги се разделят с интервал.
След многоточие, което се появява в началото на изречение, също се поставя интервал.
Забележка: За „многоточие“ можете да използвате както предвидения за това символ (…), така и три последователни точки. При втория случай използвайте точно три точки и ги въвеждайте слято, без интервали между тях.
Тирета
Около късото тире (напр. в „най-добър“, „синьо-зелен“) не се поставят интервали. Дългото тире (използвано в пряката реч, вметнатите изречения и т.н.) винаги се разделя от околните думи с интервал.
Забележка: Няма значение дали използвате правилните символи за тирета (дефис за късо тире, m-dash за дълго тире) или не — ако спазвате правилата за разделянето им, заместването с правилните символи може да стане автоматично.
Кавички и скоби
Отварящите кавички и скоби винаги се разделят от предходната дума с интервал. След отварящ символ не трябва да има интервал.
Затварящите кавички и скоби винаги се разделят от следващата дума с интервал. Преди затварящ символ не се поставя интервал.
Забележки: Няма значение дали използвате правилните символи за отварящи и затварящи кавички; ако спазвате правилата за изписването им, те могат да бъдат заместени автоматично. И още — не използвайте символа „/“ вместо скоби. Все пак работите с компютър, а не с пишеща машина.
Форматиране
Защо е нужно?
Всяка система за работа с документи (каквато е сайтът „Моята библиотека“) трябва да има единен вътрешен формат за представянето на тези документи. По този начин сътрудниците работят само с един, базов файл, а системата се грижи за неговото съхранение и преобразуване до няколкото крайни формата, които предлага (в случая с „Читанка“ — TXT, ePub и FB2, както и HTML за директно разглеждане в сайта).
Проблемът е, че всички специализирани формати, които могат да представят форматиран текст (като RTF, HTML и т.н.), имат по някой недостатък, който ги прави неудобни за работа — най-вече липсата на адекватен редактор за различните операционни системи и/или голямата сложност на самия формат. И тъй като този проблем вече е възниквал (как да се предостави възможност на масовия потребител да въвежда форматиран текст), и му е намерено приемливо решение (уики-сайтовете, например известната „Уикипедия“), необходимостта от преоткриване на колелото отпада — текстовите маркери са напълно приемлив и удобен метод за работа с форматиран текст.
Форматът, който се използва в „Моята библиотека“, е кръстен SFB. Не се опитвайте да го дешифрирате — оригиналното значение на тази абревиатура загуби смисъл още през 2006 г. Но ако все пак настоявате, можете да го разглеждате като „Structured Fiction Book“ — „структурирана художествена книга“. Втората дума е важна — форматът е ориентиран към представяне на художествени произведения, а не на техническа, учебна и друга литература.
Как изглежда това?
Много просто. SFB е чист текстов файл във формат UTF-8. Всеки параграф от книгата е представен чрез един ред във файла, като задължително започва с табулатор. Всеки фрагмент от текста, който се различава от основния, е указан чрез специални текстови символи (наречени „маркери“) — „Описание на форма̀та SFB“.
Какво да форматираме?
Основната задача на форматирането е да пресъздаде авторското форматиране на текста, а не издателското. Това разграничение е много важно. Най-сериозните грешки при форматиране се допускат поради неправилно определяне вида на текст, изобразен по начин, различен от основния. Основният принцип е следният: Маркерите указват вида на отделения фрагмент от текста, а не как ще се изведе той (изключение прави маркерът „М“, който е предназначен за „аварийни случаи“, при особено нестандартно авторско форматиране).
Нека поясним този принцип. Да предположим, че част от текста, който коригирате и форматирате в момента, е изведен в книжното издание с наклонен шрифт. Какъв маркер да използвате? Това зависи изцяло от типа на този текст — защо е форматиран различно? Може би това е дума, която авторът е искал да подчертае (да наблегне на нея), в който случай ще трябва да използвате маркер за акцентиран текст. Може би това е цитат, който издателството е искало да обособи по някакъв начин — тогава просто ще поставите маркери за цитат, без да се интересувате как ще бъде изведен в последствие. Може би това е начало на глава, което издателството е решило да отдели, за да подчертае прехода към новия раздел? Това е издателско форматиране, затова във вашия текст това няма да бъде отразено по никакъв начин. Може би това са стихове, които всички издатели предпочитат да форматират с наклонен текст — тогава поставяте маркери за стихотворение и не се занимавате повече с него. Вашата задача е чрез маркерите да укажете типа специализиран текст (т.е. — различен от основния), без да правите никакви предположения за начина, по който ще бъде изведен в последствие. Всякакви опити да се имитира издателското оформление — различни отстъпи, по-големи първи букви в началото на глава, използване на наклонен шрифт за подзаглавия и т.н. — са погрешни и не бива да се допускат.
Информационна част
В информация за форматирането на нови текстове ще намерите как трябва да се оформи информационната част на всеки текст в зависимост от това какво той съдържа.
Проверка
След обработката на текста е нужно да се направят няколко проверки, които имат за цел да подобрят качеството му.
„Проверителя“
Едната проверка е с „Проверителя“, за който можете да прочетете подробното ръководство за работа. Чрез него можете да поставите задължителните за всеки текст табулации, посредством менюто „Замяна на знаци“. Чрез същото меню направете и замяната на „Тирета“, „Кавички“, „Интервали“ и „Разни“. Ако сметнете, че ще ви е по-удобно това действие можете да извършите непосредствено след запазването на текста в TXT формат. Приключвайки със замяната на знаци натиснете бутона „Засветване“, за да ви се покажат засветнати съмнителните места в текста. Преди да започнете с преглеждането на засветнатия текст, не забравяйте да натиснете бутона „Редактиране“, за да имате възможност да коригирате направо в браузера в случай на нужда. След като приключите с проверката, копирайте готовия текст от браузера в текстовия файл.
IDI Spell Checker
Другата проверка се извършва посредством IDI Spell Checker. Той ще ви помогне да откриете, освен правописни грешки, и граматически, наличие на грешно изписани букви на латиница, вместо на кирилица, различен брой отварящи и затварящи кавички, скоби или модификатори за акцентиран текст, наличие на интервали в началото или края на параграф. Програмата извежда различен брой отварящи и затварящи кавички, скоби и др. за всеки параграф, така че имайте предвид това, когато отварящата кавичка или скоба е в един параграф, а затварящата — в следващия или в някой от по-следващите. Във връзката ще видите и кратко видео как се работи с програмата.
Всяко предложение, което ви се появява в левия панел, е само предложение. На вас се оставя да прецените дали е грешка в зависимост от конкретния текст.
Възможно е програмата да забива, ако компютърът не е настроен на български в регионалните настройки за програмите, които не са с Unicode (language for non-Unicode programs).
Настройки на програмата
Предварително в директорията на програмата се редактира файла settings.txt като се променят параметрите на следните стойности:
FONT_SIZE 10 (ако желаете можете да поставите и по-голяма стойност, така че размерът на текста да се увеличи);
NOVEL_MODE 1 (този режим е специално създаден за нуждите на библиотеката и ще ви е много полезен при проверката на текста, тъй като програмата проверява дали всички абзаци започват с табулатор (задължително за SFB-формата). Освен това в самите абзаци се прави допълнителна проверка за несъответстващ брой отварящи и затварящи двойки символи: „“ «» "" () {} [] _, като несъвпадащ брой означава пропуснат или грешен символ, който трябва ръчно да се оправи. В левия панел се извежда и обобщена статистика за абзаците и се посочва най-дългия абзац. Най-дългият абзац (примерно цяла страница без нов абзац) като нищо може да се окаже случай на два или повече слепени абзаца. При визуално съмнение за подобно нещо, може да се направи справка с оригинала и евентуалното слепване да се коригира.);
PRINT_UNKNOWN_ALPHABETICALLY 1 („Показвай непознатите думи (или честотния списък) по азбучен ред“. Изключително полезна опция за хващането на грешки при имената на героите в текста, както и други близки по изписване думи.)
PRINT_ALL_LATIN 1 („Оцветявай всички англ. думи, не само непознатите“. Можете да виждате маркерите от SFB форматирането и същевременно да хващате отделни букви на латиница: „a“, „e“.)
Тези настройки трябва да се задават отново при всяка нова версия.
Отстраняване на грешки
1. Не забравяйте да обърнете внимание за случаите когато се използват редки, остарели или нарочно сгрешени думи. Съобразявайте се с годината на изданието, автора и други особености на произведението. Думи и изрази като „чувствувам“, „в къщи“ и т.н., които се срещат в по-старите издания, не се коригират, а се оставят както е в изданието на книгата.
2. Всички съмнителни думи са подредени по азбучен ред. Това е особено полезно за откриване на грешки от OCR при имена на герои, местности и др. Например, ако спелчекърът покаже герой с име Келвин, че се среща 156 пъти, а друг герой с име Калвин се среща 1–2 пъти, очевидно става въпрос за един и същи герой с име Келвин. За по-голяма сигурност се зачита текстът около героя срещащ се малко пъти, за да се провери от контекста дали наистина е така (в редки случаи може да се окаже, че са двама или повече герои със сходни имена). При съмнение се прави проверка в сканираните файлове, ако са налични. Но ако се окаже, че и в сканираните изображения е така, се прави проверка в Интернет, като се търси оригиналът на текста или в руските библиотечни сайтове: lib.ru, lib.rus.ec, aldebaran.ru, library.nu и др.
В случай, че разликата в броя срещания е малка, като напр. Де Мацо — среща се 2 пъти, Де Марцо — 1 път, очевидно героят е един, но поради малкия брой повторения не може да се определи със сигурност кое е правилното изписване (в редки случаи може да се окаже, че са двама или повече герои със сходни имена). В този случай се прави проверка както е обяснено в предходния параграф.
3. Обръщайте внимание на думи изписани с малко „ф“. Понякога OCR програмата разпознава думи започващи с главно „Ф“ като малки, напр. „филип“, трябва да е „Филип“.
4. Трябва да се прави проверка на сравнителната и превъзходна степени. Понякога тирето при по-блед текст, след OCR, изчезва. Спелчекърът извежда списък с всички съмнителни липси на тире. В други случаи тирето е излишно и/или трябва да се постави ударение, като например правилно е „по` обичам“, „най обичам“. Спелчекърът извежда списък със съмнително наличие на тире, но не забравяйте ударението на „по“.
5. Проверявайте страдателното причастие, като „страдащ“, „нямащ“ и др. за сгрешено „щ -> ш“. Грешката може да е допусната в пряка реч или мисли на героя. Спелчекърът извежда списък с всички съмнителни „щ -> ш“, които трябва да се прегледат.
6. Обръщайте внимание на думи с главна буква и повторения под 4 пъти. Спелчекърът извежда списък. Често пъти точка в края на изречението се разпознава като запетайка. Тогава се получава следното „Не дава мира на другите, Кога ще се научат на ред тия деца!“. „Кога“ се извежда като дума с главна буква с под 4 повторения.
7. След разпознаването на текста се случва да има разкъсана дума или грешна двойка думи. Например „у годил“, „пред вид“.
8. Много често липсват ударения в следните случаи: „На!“, „А си дошъл, а съм ти счупил главата“, и др. Правилно е: „На`!“, „А` си дошъл, а` съм ти счупил главата“. Поставяйте ударения (при необходимост), като напр. „Той погледна ужасе`н“, „Тежко` ти“ и др.
9. Накрая се проверяват потенциално несъгласуваните изрази.
10. IDI Spell Checker е изключително полезна програма, но не си правете илюзията, че ще ви помогне да откриете всички грешки. Съществуват т.нар. „скрити грешки“, които не могат да се открият по никакъв друг начин, освен чрез внимателно изчитане на текста.
Пример: „… но тон не пожела“ („тон“ вместо „той“). Кое автоматично средство може да намери тази грешка? Правилно, никое! „Тон“ е напълно коректна българска дума. Същото важи и за грешки от сорта: „вис“ вместо „вие“, „понита“ вместо „попита“ и т.н.
Хората, които допринасят за даден спелчекър, се хвалят с голямото количество думи (или словоформи) в речниците на техните продукти. Колкото и странно да звучи, повечето спелчекъри с по-богати речници, откриват по-малко грешки. Обяснението е просто — по-богатите речници включват думи, които се срещат много рядко — в десетки и стотици пъти по-рядко от случаите, когато тази дума е просто грешно изписана съвсем различна дума. Един добър пример е „конто“ — банков термин, също и стара парична единица. В почти всички случаи става въпрос за грешно изписване на „които“ или „който“. Аналогично е положението с диалектния израз „па“ — напр. в „Е, па защо не!“. Почти винаги това е грешно разпозната дума „на“. Друг пример е глаголът „дооре“ (т.е. да довърши орането) — почти всичките му срещания са неправилно разпозната дума „добре“. Изводът е очевиден — колкото повече думи има в речника на спелчекъра, толкова е по-голяма вероятността да пропусне грешна дума.
IDI Spell Checker е разработен, така че максимално количество от тези и други грешки да бъдат открити, въпреки това задължително трябва да изчетете текста.
Други важни проверки
1. Проверка на номерацията на главите — в редки случаи може да има неформатирано заглавие на глава или пропуск на такова. Затова е добре да се прегледа, ако главите са с номерация, дали номерацията върви подред. Лесно можете да направите проверката, търсейки във вашия текстов редактор символа „>“. При пропуск е нужно да намерите къде е липсващата глава/част и да поставите нужния маркер.
2. Проверка на картинките:
2.1. Обръщайте внимание и на файла с кориците. Корици по-малки от 250 пиксела не се добавят. Стандартния размер на корицата трябва да е 1000 пиксела по ширина и колкото дойде по височина, но се приемат и по-големи корици. Всички корици трябва да са в JPG формат. Компресията е добре да е между 70 и 80, но там ще влияе размера на получения файл. Добре е получения файл да не е повече от 500 KB.
2.2. Ако в текста има картинки, размера им не бива да надвишава 800-900 пиксела по ширина.
3. В „Пясъчника“ можете да заредите вашия текст, така че да видите как той ще изглежда когато се добави в библиотеката.
4. Когато се съмнявате за нещо, преди да се свържете с екипа за помощ, прегледайте раздел „Въпроси и отговори“.
Послеслов
Написаното по-горе има за цел да помогне на всеки желаещ да се включи в цифровизацията на текстове. Тъй като всеки човек има индивидуален подход към работата, това предполага, че съществуват различни начини за обработка на текстове. Ако смятате, че дадено действие може да стане по по-добър начин, експериментирайте.
Също можете да разгледате вече проверени текстове, за да се ориентирате как трябва да изглежда един обработен текст.
Бележки
- ↑ OCR-програма — програма, която изнася текста от изображенията и ги преобразува в текстов файл. Най-често за целта се използва ABBYY FineReader.
- ↑ Област в горното, долното и страничното поле на всяка страница в даден документ, където може да се добавят номера на страници, часа и датата, емблема на фирмата, заглавието на документа или името на файла, автора и т.н.