к библиотеке   4GL   к обработке текстовой информации   к алгоритмизации

Обработка текстовой информации

Редактирование текста

Мы будем понимать под редактированием изменение набранного текста и придание ему надлежащего вида, будь то простое удаление ошибочных символов, вставка текстовых массивов либо так называемое форматирование, связанное в основном с изменением параметров шрифта и абзацев. Говорить о работе с текстом безотносительно конкретного текстового процессора весьма нерационально, поэтому рассмотрим конкретные приемы и средства редактирования применительно к Microsoft Word 2000 как приложению интересующего нас Microsoft Office 2000.

5.1.3. Сохранение документа
Сохранение в одном из многообразных существующих форматов является завершающей стадией основной работы по подготовке текстового документа.

Рис. 5.2. Выбор формата сохранения документа

Это обязательный и весьма ответственный шаг несмотря на всю его кажущуюся тривиальность. Во-первых, потому что, видимо, бессмысленно выполнять какую-либо работу, не позаботившись о сохранности результата. Во-вторых, потому что выбор формата сохраняемого документа зависит от того, где и как мы собираемся дальше с ним работать. На самом деле, наибольшие проблемы возникают при открытии документа, особенно на другой платформе: вдруг оказывается, что пропало все форматирование, исчезли рисунки, текст не читаем и т. д. Для того чтобы максимально обезопасить себя либо делового партнера, от возможных неурядиц, и стараются сохранять документ в наиболее подходящем формате. Здесь все не так просто и очевидно, поскольку, во-первых, может возникнуть необходимость работы с ним в других приложениях, не в тех, которые предполагались изначально. Во-вторых, разными текстовыми процессорами поддерживаются разные форматы, и не всегда они совместимы. В таких случаях необходимы конвертеры из одного формата в другой. Так, например, в MS Word предусмотрены встроенные конвертеры в свой внутренний формат DOC, которые мы можем подключить при инсталляции. Тогда при завершении работы с документом Word предлагает разные расширения для его сохранения (рис. 5.2).
И все же общее представление о существующих форматах текстовых документов иметь надо, поэтому, не углубляясь во все их многообразие и внутреннюю структуру, опишем основные особенности наиболее часто употребляемых форматов.

ASCII
Самый заслуженный и давно существующий формат - ASCII (American Standard Code for Information Interchange - американский стандартный код для обмена информацией). Он имеет самую простую организацию: например, в английском алфавите (впрочем, как и в русском) одной букве соответствует один байт.
Чтобы понять, почему появление в 1963 году кода ASCII сыграло столь значительную роль, нужно иметь в виду, что до этого различные компьютеры просто-напросто не могли взаимодействовать друг с другом. Каждый производитель пытался по-своему представить символы алфавита, цифры и управляющие коды.
Код ASCII стал общим знаменателем для компьютеров, которые ранее не имели Друг с другом ничего общего. Всем буквам, цифрам, знакам препинания и другим символам (управляющим кодам) были поставлены в соответствие стандартные числовые значения. К примеру, заглавная буква "А" обозначалась числом 65. Однако 60-е еще не отличались высоким уровнем стандартизации. В одних только аппаратных средствах корпорации IBM использовалось девять различных наборов кодировки символов.
Между тем взаимодействие между компьютерами стало настоятельной необходимостью. В 1961 году будущий изобретатель ASCII принял предложение представителей Американского национального института стандартов (ANSI). Возглавляемый вице-президентом компании Teletype Джоном Аувертером комитет ANSI X3.4, в котором была представлена большая часть производителей компьютеров, приступил к работе. Комитету понадобилось свыше двух лет, чтобы проанализировать позиции всех сторон, найти компромисс и завершить разработку универсального кода.
Сегодня на основе кода ASCII выпускается оборудование стоимостью в миллиард долларов, большинство операционных систем также до сих пор совместимо с 5CII. Причем в разных операционных системах (ОС) осуществлена несколько разная реализация этого формата. Интересный пример - кодировка Перевода строки (ПС): в ОС семейства UNIX это просто (ПС), в ОС MS-DOS и Windows (ПС)+(ВК). В результате можно наблюдать интересную картину: созданный под UNIX текст, сохраненный в формате ASCII, открываемый, например, в Windjws Notepad (через Start (Пуск), выберите команду Programs > Accessories > Notepad (Программы > Стандартные > Блокнот)) или в ином простом текстовом редакторе, весь окажется склеенным в одну строку.
Тем не менее, код ASCII остался одной из немногих технологий, которой удалось успешно пройти сквозь десятилетия и дожить до наших дней.

RTF
RTF (Rich Text Format) - формат обмена документов между текстовыми процессорами. Он был разработан Microsoft в 1986 году и с тех пор существует, в определенном смысле, параллельно остальным. Появление его явилось очередной вехой в разработке средств сохранения и передачи текста. Главное его достоинство в том, его внутренняя организация предусматривает передачу всех элементов форматирования: размера и параметров шрифта, параметров абзацев и т. д. Он очень хорошо специфицирован, описан документально, довольно просто и строго организован и хорошо распознаваем практически всеми офисными приложениями.

DOC
Пожалуй, наиболее интересующий нас формат - это формат DOC, который является, по сути, внутренним форматом MS Word. Необходимо учитывать, что MS Word 2000 и MS Word 97 полностью совместимы по формату, но более ранние версии - нет, поэтому при сохранении документа, даже если мы собираемся в дальнейшем работать с ним исключительно в MS Word, нужно обратить особое внимание на его версию. При сохранении документа в текстовом процессоре MS Word предлагает по умолчанию именно формат DOC. Как правило, имеет смысл принять это предложение, если, конечно, нет каких-либо особенных идей относительно дальнейшей публикации либо переноса файла в другие приложения. Более подробно о сохранении документа в MS Word мы поговорим в соответствующем разделе.

HTML
Последний формат сохранения текстовых документов, о котором будет упомянуто здесь, - формат HTML (Hypertext Markup Language). HTML - универсальный язык разметки гипертекста, применяемый в Интернете для разработки Web-страниц. Основные характеристики его будут описаны в главе 11, посвященной глобальным вычислительным сетям. Отметим лишь, что для Word 2000 формат HTML является внутренним, равноправным с исконно "родным" форматом DOC.

5.1.4. Публикация
Создав и сохранив документ, мы оказываемся перед проблемой его публикации. Публикация документа является, в определенном смысле, его визитной карточкой. Это представление документа в его окончательном, готовом виде. В зависимости от типа представления документа условно выделим три вида публикации.
- печать документа;
- электронная публикация;
- Web-документы.
Здесь договоримся пока не выделять публикацию Web-документов отдельным пунктом, а включим ее в обсуждение проблемы электронной публикации в контексте электронных книг. Более подробно об электронной почте и средствах Интернета рассказывается в главе 11.
Печать документа - это создание его твердой копии на бумаге или прозрачных пленках. Необходимость создания печатного вида документа возникает в силу ряда причин: для оформления рекламных буклетов фирмы, подготовки экономической документации, различных научных трудов, учебников, художественной литературы и пр. Печать осуществляется посредством принтеров, которые являются внешними устройствами для компьютера и подключаются к нему через один из существующих на данный момент интерфейсов либо подсоединяются непосредственно в сеть, являясь самостоятельной единицей в ней. Непосредственное подключение может производиться в том случае, если принтер очень мощный и высокопроизводительный и предназначен для работы в корпоративной сети. В противном случае необходимо подсоединение его к компьютеру. Чаще всего сейчас подключение. Производится через параллельный порт CENTRONIX, интерфейсы USB, IrDA, BlueTooth. Оставим техническую сторону дела и отметим лишь, что существенным отличием первых двух интерфейсов является то, что их использование предполагает обязательное наличие физических элементов соединения компьютера с принтером, тогда как остальные позволяют распечатывать текст с компьютера, просто поднеся его к принтеру на достаточно близкое расстояние.
Электронная публикация. Будем понимать под электронной публикацией окончательное представление документа в электронном виде с возможностью переноса ею в том же виде другим пользователям и чтения с экрана вне зависимости от способа переноса. Мы можем отправить созданный документ другому пользователю или заказчику разными способами:
по электронной почте;
выложить его в Интернет как Web-страницу;
на сменных носителях, например на дискете.
Электронные книги. Проблема электронной публикации сейчас широко обсуждается в связи с быстро развивающимися и изменяющимися средствами создания цифрового издательского инструментария. Мы читаем с экрана то, что вынуждены, - электронную почту, Web-страницы, создаваемые в текстовом процессоре документы, - но лишь потому, что другой альтернативы нет. Символы с разрешением 72 точки на дюйм трудно читаются, любой свет, попадающий на экран, порождает слепящие блики. Есть и эстетические соображения: тексты на экранах чаще всего отформатированы в соответствии с параметрами по умолчанию, с не выдерживающими никакой критики интервалами и выравниванием, а для их отображения используются стандартные, набившие оскомину шрифты семейств Times или Arial. В новом поколении электронных книг делаются попытки преодолеть эти сложности на основе специализированных аппаратных устройств, тексты в которые загружаются электронным способом. Сейчас даже самые простые электронные книги представляют собой весьма дорогие игрушки. Хотя их создатели с этим не согласны - они считают, что, учитывая стоимость всех печатных публикаций, которые больше не нужно будет покупать, устройства для отображения электрон-дых изданий окупаются в довольно короткие сроки. Грамотный экономист сумеет рассчитать выгодность того или иного предприятия, но все электронные книги имеют ряд положительных особенностей.
Мгновенная доставка. Электронные книги, значительно облегчающие проблему, открывают новые возможности перед современными книжными магазинами. Вы приобретаете на Web-узле текст и сразу загружаете его. Книга может быть доставлена практически мгновенно.
Легкость аннотирования. Вы можете добавлять собственные электронные замечания. Конструкция современных электронных книг позволяет выделять текст и вносить аннотации, по которым можно осуществлять поиск.
Экономическая выгода. Учитывая отсутствие затрат на печать, минимальную стоимость хранения и доставки, цена текста должна существенно снизиться. В большинстве случаев электронные версии должны обходиться намного дешевле, чем печатные издания.
Экологические преимущества. Электронные книги позволят спасти от вырубки множество деревьев. Мы сможем использовать бумагу избирательно и печатать только то, что необходимо. Газеты и другие "маложивущие" издания могут загружаться на электронные книги и впоследствии стираться, а не перерабатываться во вторичное сырье.
Уже существует готовый рынок профессиональных пользователей, таких как врачи, юристы, экономисты, каждый из которых сейчас тратит немалые деньги на справочники и журналы, причем им приходится покупать и периодически выпускаемые обновленные версии справочников. Пользуясь электронными книгами, они смогут сэкономить и время, и деньги.
Пока трудно предсказать, на что будут похожи будущие электронные книги и тексты для них. Иллюстрации, например, могут быть анимированы - так будет легче объяснить сложные процессы или просто удивить читателя. Если вы являетесь приверженцем традиционных форм книг, то можете вообразить электронную книгу из бумаги в твердом переплете и совершенно привычного формата, в которой по вашему желанию появляется текст любого произведения. Когда текст создается в электронном виде, становится возможным многое.
Транспортировка на сменных носителях. Теперь рассмотрим особенности переноса документа, условно говоря, на дискете. Дело в том, что при таком способе могут возникнуть различные неприятности, связанные с тем, что у получателя документа не тот текстовый процессор, в котором создавался документ, не та версия операционной системы, не такая установка шрифтов и т. д. Иногда приходится на месте исправлять различные ошибки или вносить необходимые изменения, используя непривычные инструменты и технологии. Описанный выше формат RTF, казалось бы, должен являться панацеей от таких бед. Реально же он обеспечивает лишь, как уже говорилось, передачу элементов форматирования, но не средств и команд, которыми они создавались. Усугубляется проблема тем, что редкий документ содержит только текст "черным по белому". Графические объекты, таблицы, особенно в цвете, распознаются еще хуже.
В разделе, посвященном шрифтам, уже упоминался язык описания страниц PostScript фирмы Adobe. Этот язык стал фактическим стандартом передачи графического представления информации между системами разработки страниц (программами обработки изображений, верстки, текстовыми процессорами и т. д.) и выводными устройствами, прежде всего принтерами высокого разрешения. Основой языка можно считать возможность свободно комбинировать текст и графические изображения, применяя к ним одинаковый набор преобразований. Но при всей его высокой эффективности и универсальности, он никогда полностью не отвечал требованиям процесса производства документов, поскольку разрабатывался для устройств вывода, а не для их операторов. Хотя он называется языком описания страниц, PostScript скорее является языком описания документов. В файле PostScript невозможно предсказать, как выглядит страница п без обработки всех страниц с 1 по n - 1, поскольку некоторые составляющие страницы п - шрифты, цвета и другие - могут описываться на предыдущих страницах. Это усложняет обычные для производственного процесса операции редактирования, такие как внесение последних изменений в законченные полосы или сборка персонифицированных документов из предварительно подготовленных компонентов.
Попыткой найти выход из положения явилась разработка той же фирмой Adobe формата PDF (Portable Document Format - переносимый формат документов), чтобы дать юридическим и экономическим фирмам, фармацевтическим корпорациям и другим организациям с большим объемом документов возможность сохранять точное форматирование страниц при обмене электронными файлами. Изначально PDF задумывался как альтернатива печатным документам: инструмент для "безбумажного офиса", который позволял бы просматривать на экране полностью отформатированные документы без помощи создавшего их приложения или установки дополнительных шрифтов. Для оперирования с PDF-файлами Adobe предложила пакет Acrobat. До выхода версии 4.0 он состоял из двух частей: Acrobat Distiller, позволявший конвертировать документы в PDF-файлы, и Acrobat Reader, который потом эти файлы открывал для прочтения. Acrobat Reader вал возможности редактирования файлов PDF, что резко ограничивало достоинства и возможности пакета.
В Adobe Acrobat 4.0 (рис. 5.3), заменившем прежний Acrobat Reader, появилось новых мощных возможностей, включая способность помечать и аннотировать документы PDF, создавать формы PDF Web, выполнять редактирование и изображений в файлах PDF, а также интегрировать PDF-файлы в серверы Web и электронную почту. Пользователи версии Acrobat 4.0 получили дополнительный инструмент: способность применять опции безопасности и цифровые. Вообще говоря, вопреки факту, что Acrobat был создан компанией, сделавшей себе "имя" на языке PostScript - а сам PDF основан на PostScript, - первоначально Adobe не позиционировала эту технологию в качестве инструмента для ватной подготовки. Однако и многие пользователи, работающие в области издательских технологий, положительно восприняли известие о выпуске компанией Adobe версии Acrobat 4.0, что свидетельствует о широких возможностях пакета, только в области электронного представления документов.

Рис. 5.З Экранный интерфейс программы Acrobat Reader 4.0

В чем же главные преимущества применения "переносимого формата документов"? PDF является странично-ориентированным, поэтому код, описывающий каждую страницу, полон и самодостаточен. Это значительно упрощает редактирование и последующее растрирование единственной страницы из длинного документа. И, что более важно, вывод файлов PDF более предсказуем и надежен, чем PostScript. Чем бы мы ни открывали документ, сохраненный в формате PDF, он везде будет выглядеть одинаково, поэтому PDF получил свое имя вполне заслуженно. Файлы PDF представляют исходный текст PostScript в виде "объектов", чьи описания составляются и фиксируются в процессе преобразования. Иными словами, файл PDF - это интерпретированный PostScript. Все, что должно быть сделано перед выводом, - это растрирование, то есть конвертирование файла в физические точки на пленке, бумаге или экране. Значительные удобства несет в себе сжатие первоначально объемного документа в небольшой PDF-файл. Оптимизируя документ в формате PDF, мы можем задавать, что еще тот будет содержать помимо исходного текста и графики: информацию о шрифтах, выборе разрешающей способности, иных средствах создания и оформления документа - или же только текст самого документа. Чем больше информации о создании документа мы закладываем, тем больше окажется итоговый PDF-файл, и наоборот, если мы поместим в него только внутреннее содержимое документа, размер его резко сократится. Выбор конкретной комплектации зависит от предполагаемого вида дальнейшей публикации и от пожеланий заказчика. Как правило, в случае электронной публикации вкладывают меньше дополнительной информации, чем при выводе на печать, поскольку при создании твердой копии документа происходит большее искажение качества исходного изображения. Еще один плюс формата PDF: кроме того, что в процессе оптимизации размер итогового файла PDF значительно сокращается, одновременно выполняется значительная часть работы, которая ранее была возложена на растеризатор (RIP - Raster Image Processor), поэтому вывод файла PDF происходит значительно быстрее. Оптимизированные файлы PDF полезны также для получения точных цветопроб, поскольку уменьшается вероятность появления различий между тем, как интерпретируют данные RIP цветоопределяющего устройства и фотонаборного аппарата] В действительности, тот факт, что файл PostScript или приложения успешно конвертируются в PDF, уже является своеобразной мини-проверкой "правильного вида" публикации, поскольку многие обычные проблемы с выводом (такие, как отсутствующие шрифты и изображения) становятся очевидными во время предварительного просмотра файла PDF на экране. В Последнее время стало появляться все больше программ от третьих фирм, позволяющих оперировать с файлами PDF. Существует множество средств - от дополнительных модулей до отдельных наборов утилит. Мы рассмотрим некоторые наиболее полезные инструменты, доступные сегодня.
Программы просмотра. Исходные тексты Adobe достаточно открыты, что позволяет третьим фирмам создавать программы с равными или даже более широкими возможностями, чем оригинальные продукты. Существует довольно много программ операционных системах. Например, !PDF предназначен для RiscOS, BePDF- для BeOS, PDFViewer ориентирован на NeXT/ OpenStep, a OmniPDF читает PDF на платформе Rhapsody. Единственным кроссплатформенным вариантом является jPDF компании ReUse, который представляет собой написанный на Java броузер Web с поддержкой чтения PDF - устанавливать Acrobat не нужно.
Преобразование.
Существует несколько программ, которые конвертируют сложные документы в PDF-файлы. Например, пакет DocuLex Pdf-It может конвертировать в формат PDF огромные документы или большие группы изображений, причем в итоговых файлах будет возможен поиск текста. Дело не только в том, что программа распознает 13 различных языков, но она также определяет ориентацию полосы и выполняет проверку орфографии во всем документе.
Пакет Robert Schifreen Gymnast конвертирует в формат PDF любой текстовый файл.
ЭТА утилита генерирует закладки из заголовков полосы, а также сохраняет аннотации. Тем, кто планирует конвертировать в PDF отдельные публикации, имеет смысл попробовать пакет Gemini Studio компании Iceni Technology, ориентирований на издание журнальных и газетных публикаций в Web.
Выборка информации.
Иногда бывает необходимо сделать выборку информации из файла PDF без изменения данных. Существует несколько инструментов, которые облегчают эту задачу как для графики, так и для текста. Zorglub.com предлагает PDF2Doc, удобрю утилиту, которая не только извлекает текст из документа PDF, но и конвертирует его в формат текста PalmPilot, превращая файл в настоящий переносимый документ.
WWinPDFdata компании SANFACE Software извлекает информацию из файла PDF, a затем создает из него документ HTML.
PDFCount компании 4Translation извлекает не только данные, но и информацию о данных. Эта программа, предназначенная для подсчета количества слов, символов и страниц, а также другой статистики по файлу PDF, весьма удобна для получения полного представления об информационном объеме файла PDF.
К сожалению, широкие возможности, предоставляемые как самой фирмой Adobe, так и различными третьими фирмами, еще очень мало используются у нас в стране, но для обеспечения высококачественной публикации скоро это станет совершенно необходимо. Экономическая документация бывает настолько сложно и разнообразно оформлена, что для переноса или публикации такого документа понадобится весь потенциал формата PDF и соответствующих пакетов, работающих с ним.

5.1.5. Поиск и открытие созданного документа
Для того чтобы возобновить работу с созданным и сохраненным документом, прежде всего необходимо его найти и открыть. В зависимости от того, был документ опубликован, как Web-страница, или сохранен в файловой системе, его можно искать разными способами: либо средствами Интернета, либо средствами, соответственно, файловой системы. Поисковые системы Интернета будут освещены в соответствующей главе. Поиск файла средствами операционной системы Microsoft Windows осуществляется через Пуск > Поиск (рис. 5.4).

Рис. 5.4. Поиск файлов в MS Windows

к библиотеке   4GL   к обработке текстовой информации   к алгоритмизации

Знаете ли Вы, что только в 1990-х доплеровские измерения радиотелескопами показали скорость Маринова для CMB (космического микроволнового излучения), которую он открыл в 1974. Естественно, о Маринове никто не хотел вспоминать. Подробнее читайте в FAQ по эфирной физике.

НОВОСТИ ФОРУМА

Форум Рыцари теории эфира


Рыцари теории эфира
 10.11.2021 - 12:37: ПЕРСОНАЛИИ - Personalias -> WHO IS WHO - КТО ЕСТЬ КТО - Карим_Хайдаров.
10.11.2021 - 12:36: СОВЕСТЬ - Conscience -> РАСЧЕЛОВЕЧИВАНИЕ ЧЕЛОВЕКА. КОМУ ЭТО НАДО? - Карим_Хайдаров.
10.11.2021 - 12:36: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от д.м.н. Александра Алексеевича Редько - Карим_Хайдаров.
10.11.2021 - 12:35: ЭКОЛОГИЯ - Ecology -> Биологическая безопасность населения - Карим_Хайдаров.
10.11.2021 - 12:34: ВОЙНА, ПОЛИТИКА И НАУКА - War, Politics and Science -> Проблема государственного терроризма - Карим_Хайдаров.
10.11.2021 - 12:34: ВОЙНА, ПОЛИТИКА И НАУКА - War, Politics and Science -> ПРАВОСУДИЯ.НЕТ - Карим_Хайдаров.
10.11.2021 - 12:34: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от Вадима Глогера, США - Карим_Хайдаров.
10.11.2021 - 09:18: НОВЫЕ ТЕХНОЛОГИИ - New Technologies -> Волновая генетика Петра Гаряева, 5G-контроль и управление - Карим_Хайдаров.
10.11.2021 - 09:18: ЭКОЛОГИЯ - Ecology -> ЭКОЛОГИЯ ДЛЯ ВСЕХ - Карим_Хайдаров.
10.11.2021 - 09:16: ЭКОЛОГИЯ - Ecology -> ПРОБЛЕМЫ МЕДИЦИНЫ - Карим_Хайдаров.
10.11.2021 - 09:15: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от Екатерины Коваленко - Карим_Хайдаров.
10.11.2021 - 09:13: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от Вильгельма Варкентина - Карим_Хайдаров.
Bourabai Research - Технологии XXI века Bourabai Research Institution