Профессия: переводчик
Шрифт:
Наконец, модели третьего уровня в дополнение к грамматике и семантике применяют для синтеза текста перевода также и фоновые знания. Надо сказать, что модели и системы этого уровня до сих пор находятся на стадии эксперимента.
Для того чтобы яснее представить себе возможности систем разного уровня и качество перевода, которое вы можете получить с их помощью, давайте проведем аналогию между действиями автомата и человека.
Системы низшего
Система действует так же, как действуем в этом случае мы. Берет первое слово, смотрит, есть ли оно в словаре в таком виде. Если есть, выписывает все его переводы, если нет, то ищет в таблице словоизменения форму слова, обнаруженную в тексте, определяет соответствующую словарную форму и выписывает все переводы. Затем берет следующее слово и т.д.
В данном случае отличие от перевода, выполняемого человеком, состоит в том, что человек, делая такой перевод, отбрасывает все неподходящие переводные эквиваленты, система же машинного перевода низшего уровня этого не делает. Вот какой, например, получается перевод короткого предложения: Lead absorbs radiation
свинец / лот / грузило / вести / руководить / лидировать / руководство / лидерство / проводник; всасывать / впитывать абсорбировать / амортизировать / поглощать; излучение/ радиация',
Системы второго уровня по своим действиям напоми-нают более или менее опытного переводчика, который переводит текст на совершенно непонятную ему тему. Подобно такому переводчику система сможет отбросить наиболее неподходящие эквиваленты на основе анализа синтаксиса и семантики, причем глубина и точность такого анализа у автомата будет зависеть от совершенства и полноты моделей так же, как у переводчика, она зависит от полноты его профессиональных знаний.
Но так же, как переводчик, который совершенно не понимает содержания переводимого текста, переводящий автомат этого уровня не сможет сделать выбор экви-валентов на основе фоновой информации.
Можно, например, предположить, что такая система на сновании анализа грамматического контекста (два глаго-на подряд), переводя предложение "Lead absorbs radiation", исключит глаголы в качестве эквивалентов слова "lead". To есть получит на выходе промежуточный текст: свинец / лот / грузило / руководство / лидерство / проводник; всасывать / впитывать абсорбировать / амортизировать / поглощать; излучение/ радиация. Можно также предположить, что на основе элементар-ного анализа семантики субъекта "lead" и предиката "absorbs" и семантических отношений между ними переводящий автомат исключит эквиваленты "руководство" и "лидерство", т.е. получит на выходе:
свинец / лот / грузило / проводник; всасывать / впитывать / абсорбировать / амортизировать / поглощать; излучение /радиация.
После грамматического согласования перевод этого предложения, сделанный системой второго уровня, будет выглядеть приблизительно так:
свинец (лот / грузило / проводник) всасывает (впитывает / абсорбирует / амортизирует / поглощает) излучение (радиацию).
А вот сделать выбор между словами "свинец", "лот", "грузило" и "проводник", между эквивалентами "всасывает", "впитывает", "абсорбирует", "амортизирует", "поглощает",
а также между частичными синонимами "излучение" и "радиация" переводящий автомат этого уровня не сможет, так как такой выбор можно сделать лишь на основе фоновых (т.е. специальных) знаний.Выше я написал, что перевод, выполненный синтакти-ко-семантической системой машинного перевода будет иметь приблизительно такой-то и такой-то вид. И это правильно, так как приведенный здесь пример относится к конкретному случаю перевода, выполненного определенной системой, точнее системой, которую я сам разработал и знаю, что от нее можно ожидать36.
Не исключено, что другие, более совершенные системы смогут провести более тонкий синтактико-семантический анализ и отбросить некоторые неподходящие эквиваленты. Не это важно.
Важно здесь то, что выполнить качественный перевод без использования фоновых знаний невозможно, а системы второго уровня фоновую информацию использовать не могут.
Системы третьего, высшего уровня можно сравнить с переводчиком-профессионалом, знающим тематику переводимого текста.
Системы третьего уровня используют модели синтаксического и семантического анализа и синтеза, а также (что их и отличает) концептуальные модели окружающего мира. К сожалению, как уже говорилось, они существуют лишь на стадии эксперимента.
Таким образом, рынок коммерческих программных продуктов для автоматического перевода предлагает пока что лишь системы второго уровня. Давайте рассмотрим более подробно, как они работают и как их может применить в своей работе переводчик.
Очевидно, что основой любой системы машинного перевода является автоматический словарь, и коммерческие системы второго уровня не являются исключением.
Как правило, все эти системы снабжены большими словарями, а в некоторых из них имеется очень важная, на мой взгляд, функция пополнения словарей новой лексикой.
Автоматический словарь системы машинного перевода - это программный модуль, который выполняет следующие функции:
а) распознает во входном тексте символьные цепочки слов и словосочетаний, например, символьная строка предложения LEAD*ABSORBS*RADIATION.(* - пробел) будет разделена на цепочки словоформ LEAD, ABSORBS и RADIATION;
6) преобразует текстовые словоформы в словарный вид, например, словоформу ABSORBS в вид ABSORB;
в) по графемному составу слова регистрирует грамматическую информацию о слове, например, флексию S в слове ABSORBS, которая может быть признаком третьего лица глагола или множественного числа существительного, или суффикс -TION в слове RADIATION, который может служить формальным признаком отглагольного существительного;
г) регистрирует информацию, имеющуюся в словарном файле для данного слова, - переводные эквиваленты, грамматические и семантические признаки исходного
слова и его переводного эквивалента, например, для слова RADIATION эти данные могут выглядеть таким образом: RADIATION; (N); (process; characteristics) = РАДИАЦИЯ, (N); (процесс, характеристика); ИЗЛУЧЕНИЕ, (N); (процесс, характеристика);
д) формирует синтаксическое и семантическое представление входного текста (как правило, предложения), например, для предложения LEAD ABSORBS RADIATION такое синтактико-семантическое представление может иметь вид: