к библиотеке   4GL   к обработке текстовой информации   к алгоритмизации

Обработка текстовой информации

Перевод текста

В настоящее время в связи с быстрым развитием Интернета как средства обмена большими объемами текстовой информации, а также в связи с необходимостью все оперативнее обрабатывать эту информацию особенно остро стоит вопрос о языке. Конечно, значительная часть информации подается на английском - общепринятом языке межнационального общения. Но и на других языках мира содержится очень большая и важная часть информации. Поэтому чрезвычайную значимость и ценность приобретает возможность межъязыковой коммуникации.
Сегодня на рынке имеется много изделий, относящихся к различным разделам языковой инженерии, занимающейся созданием инструментария, который поможет пользователям, во-первых, понимать получаемую информацию, а во-вторых, поставлять свои документы на максимально большом числе языков. Это, например, программы проверки орфографии и грамматики, программы автоматического перевода, системы диктовки, пакеты информационного поиска.
Автоматический перевод часто вызывает нарекания по поводу "глупостей", которые пишет программа, как то: перевод имен собственных, неправильная структypa предложения, отсутствие связи существительного с прилагательным и т. д. Нарекания вполне закономерные, но при этом не учитывается, что автоматизированный перевод несет в себе ряд явных преимуществ, надо только умело ими воспользоваться. К числу неоспоримых преимуществ относятся быстрота и "сравнительная, относительно ручного перевода, дешевизна обработки текста. Не такую очевидную, но на практике все же пользу приносит пресловутый "дословный" перевод. То, что машина не может, в отличие от профессионального переводчика-человека, предоставить высокохудожественный или хотя бы просто совершенно связный текст, безусловно, плохо, особенно для пользователей, не знающих язык. Но зато любой здравомыслящий человек, обнаружив предложенную ему нелепицу, попытается разобраться, в чем же дело и как должно быть правильно. Профессиональный же переводчик явно не станет писать бессвязный текст даже в том случае, если он неправильно его понял. Он художественно обработает его так, как посчитает нужным, и заказчик, естественно, не сможет отфильтровать ошибки сразу, а возможно, и потом. Риск возникновения ошибок повышается в случае узкоспециализированного перевода, когда требуется не просто высококлассный переводчик, но и хороший специалист в конкретной области, будь то теоретическая экономика, математическое моделирование или что-либо другое.
На самом деле, как показывает опыт, автоматизированными переводчиками надо пользоваться, в определенном смысле, как словарями-подсказчиками, то есть для создания чернового варианта текста, подлежащего в дальнейшем корректированию пользователем - специалистом в данной области. Для этого удобно разбирать экранную страницу на две части: одновременно в одной из них будет находиться содержимое исходного текста, в другой - переведенного.
В ноябре 1999 года компьютерный журнал "PC Expert" провел сравнительное тестирование самых известных систем машинного перевода: Power Translator (кампания Lernout&Haspie), Reverso/PROjectMT (компания ПРОМТ), Systran (компания Systran) и Transcend (компания Transparent Language) для двух языковых пар (англо-французской и французско-английской). За пределами России системы компании ПРОМТ продаются под торговой маркой Reverso/PROjectMT. Было проведено обширное тестирование с использованием текстов по информатике, философии, медицине, юриспруденции, религии (использовались тексты из Библии). В ходе тестирования также переводились выдержки из художественных произведений (любовные романы и законы Мэрфи).
В табл. 5.1 показаны оценки, которые получили системы в результате тестирования. Оценки выставлялись по ряду параметров (таких как качество перевода, состав и качество словарей, способность систем к развитию и встраиванию в другие системы, а также скорость работы). Каждому параметру был присвоен весовой коэффициент, определяющий важность данного параметра. Так, качеству перевода как наиболее важному параметру был присвоен максимальный коэффициент, равный 4.

Таблица 5.1. Результаты сравнительного тестирования автоматизированных систем перевода

Параметр/Система Power Translator Reverse Systran Transcend
Англо-французское
направление
       
Open Sources 3,3 4,0 3,7 3,0
Перевод любовных романов 3,3 4,0 3,7 3,0
Перевод законов Мерфи 3,3 4,0 3,3 3,0
Перевод Библии 2,0 2,0 2,0 2,0
Перевод отрывков из книги "Societe du Spectacle" 3,0 3,5 4,0 4,0
Средняя оценка перевода 3,0 3,5 3,3 3,0
Словарь по информатике 1,3 3,8 1,9 1,6
Словарь по информатике журнала "JO" 1,7 2,0 0,4 1,1
Юридический словарь 4,5 4,5 4,1 3,1
Словарь по философии 1,3 1,7 0,4 0,7
Морской словарь 4,6 4,7 4,6 3,2
Медицинский словарь 3,2 4,1 3,4 0,9
Средняя оценка словаря 2,8 3,5 2,5 1,8
Франко-английское
направление
       
Фразы 3,5 4,0 4,0 3,0
Перевод новостей 3,5 3,5 3,8 3,3
Перевод отрывков из книги "Societe du Spectacle" 4,0 3,5 4,0 3,5
Средняя оценка 3,5 4,0 4,0 3,0

Сводные результаты проведенного сравнительного анализа по рассмотренным системам автоматизированного перевода приведены в табл. 5.2.

Таблица 5.2. Сводные результаты сравнительного тестирования автоматизированных систем перевода

Параметр/ Система Power Translator Reverso Systran Transcend Коэффициент
Качество перевода 3,2 3,8 3,7 3,0 4
Словарь 2,8 3,5 2,5 1,8 2
Способность системы к развитию 4,0 4,0 2,0 2,0 1
Скорость перевода 0,4 5,0 2,2 2,9 1
Эргономика/ встраиваемость 3,0 4,0 3,5 1,0 1
Итоговая оценка 2,9 3,9 3,0 2,4  


PROMT (ПРОМТ) - единственная российская компания из представленных. Безусно, любое сравнительное исследование в той или иной мере субъективно, а порой и не беспристрастно, но все же работа серьезного независимого журнала представляет определенный интерес. Интерес не в том плане, кто "лучше", а кто "хуже",
общеизвестен тот факт, что мировым лидером, владеющим львиной долей рынка перевода, является Systran. В России же практически монополистом выступает ПРОМТ. Все сильно зависит от условий, в которых происходит работа с программой. Данное исследование полезно с точки зрения предоставления информации:
во-первых, о том, какие переводы может выполнять автоматизированный переводчик;
во-вторых, насколько качественно или некачественно он может это делать в среднем;
в-третьих, на что, на какие критерии и проблемы нужно обращать особое внимание, пользуясь такой системой.
В определенном смысле, недостатком данного исследования для нас является выбор направления перевода: англо-французское. Но в данном случае это не столь критично, поскольку, вне зависимости от выбранного направления, картина вставлена вполне адекватно. К сожалению, аналогичного подробного и качественного отечественного исследования пока нет и не предвидится по объективам причинам, прежде всего потому, что в России, как уже говорилось, PROMT реальных конкурентов не имеет.
Рассмотрим основные характеристики пакета PROMT. Последняя версия пакета PROMT представлена четырьмя вариантами системы:
PROMT 98 Гигант;
PROMT Internet; MAGIC ODDY; Pokcet ROMT.

PROMT 98. Версия 4.О. Профессиональная система перевода направления перевода:
английский - русский - английский; немецкий - русский - немецкий; французский - русский - ранцузский.
Весной 1999 года ПРОМТ освоила новое направление перевода: итало-русское. Все, кто сталкивается с проблемами перевода с итальянского языка на русский, теперь могут приобрести новую итало-русскую систему.
PROMT 98 - профессиональная 32-разрядная система для автоматизированного перевода документов, наследующая все лингвистические и интерфейсные разработки систем машинного перевода семейства STYLUS. Система реализована в Технологии "Гигант", что позволяет работать в одной оболочке с несколькими языковыми направлениями перевода. Она состоит из нескольких основных модулей, которые могут быть связаны с помощью специального приложения "Интегратор":
"Интегратор" обеспечивает выполнение основных функций системы PROMT 98 и облегченный запуск модулей, реализован в виде плавающей панели на панели управления или в виде значка на панели задач.
Модули целенаправленно ориентированы на профессиональное решение конкретных задач и предоставляют следующие основные возможности:
- File Translator- профессиональное приложение для пакетной обработки большого количества документов;
- WebView - революционное решение для Интернета;
- PROMT - уникальная лингвистическая среда переводчика;
- QTrans - дополнительный переводчик для небольших текстов, передаваемых из Clipboard или набираемых с клавиатуры.
Таким образом, PROMT 98 - это гибкая интегрированная среда, обеспечивающая следующие возможности:
- интеграцию 4 специализированных модулей в одной системе;
- полнофункциональные кнопочные меню переводчика в последних выпусках Microsoft Office.
PROMT Internet
P&OMT Internet - это интегрированный пакет для работы в Интернете. Обеспечивает перевод с английского, немецкого, французского языков на русский язык и обратно. А также, как упоминалось ранее, теперь поддерживает итальянское направление.
PROMT Internet объединяет 3 системы в одном пакете:
- модуль перевода в Microsoft Internet Explorer;
- WebTranSite 98 - удобный переводчик как в броузере, так и в большинстве
приложений Windows;
- WebView - броузер с синхронным переводом Web-страниц.
Также он реализует несколько полезных функций для работы в Интернете, как- то: поиск в Интернете, открытие Web-узла. Пользователям, уже знакомым с пакетом и использующим его, будет интересно, что не только не пропал, но, напротив, был усовершенствован комплекс уже существовавших и функционировавших удобных программ:
- WebTranSite 98 - обеспечивает мгновенный перевод в Netscape Navigator 3.0,4.0
и Microsoft Internet Explorer 3.0, 4.0 и позволяет переводить в Word, Excel и
множестве других программ, включая перевод справки;
- WebView - это броузер с синхронным переводом Web-страниц.
Основные его функции:
- Синхронный перевод Web-страниц;
- переход по ссылкам как в окне оригинала, так и в окне перевода;
- сохранение в виде файла как оригинала, так и перевода;
- вывод на печать содержимого оригинала и перевода;
- копирование в Clipboard содержимого оригинала и перевода;
- возможность изменения направления перевода;
- возможность изменения списка используемых словарей;
- работа со словами, не требующими перевода;
- работа со списком незнакомых слов;
- возможность формирования запроса к поисковым серверам на родном языке.
Также в нем доступны основные функции Microsoft Internet Explorer, что облегчает и ускоряет работу с переводчиком.
Поиск в Интернете. Вам достаточно сформировать запрос на родном языке, а система переведет его на указанный язык и отправит на один из наиболее популярных поисковых серверов. Три уровня формирования запросов - "Простой", "Сложный", "Профессиональный" - помогут вам быстро создать запрос практически любой сложности, даже если вы никогда не делали этого раньше.
Открытъ WWW-узел. Эта функция позволяет:
открыть WWW-страницу, используя броузер, имеющийся на вашем компьютере (например, Internet Explorer или Netscape Navigator);
открыть и перевести WWW-страницу, используя броузер-переводчик Web View.
Подключение дополнительных специализированных словарей. Качество перевода можно значительно улучшить, если использовать при переводе текстов:
специализированные словари, разработанные для системы перевода PROMT; пользовательские словари, созданные самим пользователем в системе PROMT.
В некотором смысле, PROMT является самообучающейся системой, и в этом одно из главных ее достоинств. Суть состоит в том, что пользователь по ходу перевода может исправлять не устраивающие его варианты, слова, словосочетания, добавляя правильный вариант в словарь, и PROMT в дальнейшем будет распознавать такой же кусок текста так, как надо пользователю.
В комплект поставки PROMT Internet входят англо-русский и русско-английский словари с терминологией Интернета, предназначенные для перевода текстов в Интернете. Другие специализированные словари могут быть приобретены отдельно.
Коллекция специализированных словарей, предлагаемых компанией ПРОМТ, представлена в табл. 5.3. Около названия каждого словаря, представляющего специализацию перевода, в скобках стоят направления перевода. Их имеет смысл принять к сведению как базовый, или минимальный вариант, поскольку ПРОМТ
постоянно совершенствует и расширяет возможности своей системы, в том числе и за счет словарей и новых направлений перевода.

Таблица 5.3. Коллекция специализированных словарей ПРОМТ

Группа Словари
Коммерция Коммерция (а-р- а, н- р- н, р- ф)
  Информатика (а- р, н-р)
  Юридический (а-р- а, н- р- н, р- ф)
Наука Информатика (а - р- а, н - р)
  Математика (а-р- а)
  Физика (а-р - а)
  Химия (а- р- а)
  Биология (а-р)
  Медицина (а-р- а)
Промышленность Автомобильный (а-р, н-р)
  Строительство (а-р)
  Добыча нефти и газа (а-р- а)
  Машиностроение (а-р- а)
  Химия (а-р- а)
  Горно- технический (а - р - а)
  Металлургия (а-р)
  Полиграфия (а-р)
Техника Электротехника и энергетика (а-р- а)
  Телекоммуникации (а-р- а)
  Военно- политический (а-р- а)
  Морской (а-р- а)
  Аэрокосмический (а-р- а)
  Авиационный (а-р- а)
  Информатика (а-р, н-р)
Домашняя Автомобильный (а-р, н-р)
  Информатика (а-р)
  Бытовая техника (а-р)
  Кино и масс- медиа (а-р)
  Спорт (а-р)
  Кулинария (а-р)
  Музыка (а-р)
  Религия (а-р- а)
  Парфюмерия и косметика (а-р, ф- р)
  Путешествия (а-р- а)

При переводе конкретного текста имеет смысл подключать несколько наиболее подходящих словарей, выбирая приоритет каждого из них; например, для экономиста, исследующего сегмент строительного рынка, это может выглядеть примерно так:
коммерческий; юридический; строительство.

Magic Gooddy
Magic Gooddy - это новый мультимедийный англо-русско-английский переводчик компании ПРОМТ. Gooddy быстро переводит фрагменты текста, который перетаскивается мышью на его изображение.
Редактор этого переводчика предоставляет как стандартные, так и сравнительно новые, малореализуемые возможности:
подготовить и отправить письмо по электронной почте; перевести и сохранить текстовый файл;
создать письмо с анимацией;
перевести текст, набранный с клавиатуры.
Также он может распознавать команды, отдаваемые ему голосом. Словарный запас Gooddy на настоящий момент насчитывает более 500 тыс. слов. Этим переводчиком удобно пользоваться, например, "в домашних условиях", создавая не очень громоздкие, но нестандартно оформленные документы.

POCKET PROMT (1.0)
POCKET PROMT (1.0) - 32-разрядная интегрированная система перевода для операционной системы Windows СЕ.
POCKET PROMT обеспечивает связный перевод текстов с английского языка на русский и обратно. Система построена на новейших лингвистических разработках компании ПРОМТ. Она поддерживает возможности, предоставляемые портативными компьютерами. Это очень удобно тем, кто вынужден находиться в частых разъездах и одновременно связан с переводом больших или сложных текстов.

к библиотеке   4GL   к обработке текстовой информации   к алгоритмизации

Знаете ли Вы, что "гравитационное линзирование" якобы наблюдаемое вблизи далеких галактик (но не в масштабе звезд, где оно должно быть по формулам ОТО!), на самом деле является термическим линзированием, связанным с изменениями плотности эфира от нагрева мириадами звезд. Подробнее читайте в FAQ по эфирной физике.

НОВОСТИ ФОРУМА

Форум Рыцари теории эфира


Рыцари теории эфира
 10.11.2021 - 12:37: ПЕРСОНАЛИИ - Personalias -> WHO IS WHO - КТО ЕСТЬ КТО - Карим_Хайдаров.
10.11.2021 - 12:36: СОВЕСТЬ - Conscience -> РАСЧЕЛОВЕЧИВАНИЕ ЧЕЛОВЕКА. КОМУ ЭТО НАДО? - Карим_Хайдаров.
10.11.2021 - 12:36: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от д.м.н. Александра Алексеевича Редько - Карим_Хайдаров.
10.11.2021 - 12:35: ЭКОЛОГИЯ - Ecology -> Биологическая безопасность населения - Карим_Хайдаров.
10.11.2021 - 12:34: ВОЙНА, ПОЛИТИКА И НАУКА - War, Politics and Science -> Проблема государственного терроризма - Карим_Хайдаров.
10.11.2021 - 12:34: ВОЙНА, ПОЛИТИКА И НАУКА - War, Politics and Science -> ПРАВОСУДИЯ.НЕТ - Карим_Хайдаров.
10.11.2021 - 12:34: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от Вадима Глогера, США - Карим_Хайдаров.
10.11.2021 - 09:18: НОВЫЕ ТЕХНОЛОГИИ - New Technologies -> Волновая генетика Петра Гаряева, 5G-контроль и управление - Карим_Хайдаров.
10.11.2021 - 09:18: ЭКОЛОГИЯ - Ecology -> ЭКОЛОГИЯ ДЛЯ ВСЕХ - Карим_Хайдаров.
10.11.2021 - 09:16: ЭКОЛОГИЯ - Ecology -> ПРОБЛЕМЫ МЕДИЦИНЫ - Карим_Хайдаров.
10.11.2021 - 09:15: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от Екатерины Коваленко - Карим_Хайдаров.
10.11.2021 - 09:13: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от Вильгельма Варкентина - Карим_Хайдаров.
Bourabai Research - Технологии XXI века Bourabai Research Institution