Прикладное программное обеспечение: системы автоматической обработки текстов
Шрифт:
КАССИРШЕЙ КАССИРШАМИ - твор.падеж, ед. и мн.число
КАССИРШЕ КАССИРШАХ - предл.падеж,ед. и мн.число
синтез всех форм знакомого глагола ВОРОШИТЬ
ВОРОШИТЬ - начальная форма
ВОРОШИ ВОРОШИТЕ - формы повелит. наклонения
ВОРОШУ (БУДУ ВОРОШИТЬ) - 1 лицо,ед.ч,наст.и буд.вр.
ВОРОШИШЬ (БУДЕШЬ ВОРОШИТЬ) - 2 лицо,ед.ч,наст.и буд.вр.
ВОРОШИТ (БУДЕТ ВОРОШИТЬ) - 3 лицо,ед.ч,наст.и буд.вр.
ВОРОШИМ (БУДЕМ ВОРОШИТЬ) - 1 лицо,мн.ч,наст.и буд.вр.
ВОРОШИТЕ (БУДЕТЕ ВОРОШИТЬ) - 2 лицо,мн.ч,наст.и буд.вр.
ВОРОШАТ (БУДУТ ВОРОШИТЬ) - 3 лицо,мн.ч,наст.и
ВОРОШИЛ ВОРОШИЛА ВОРОШИЛО ВОРОШИЛИ - формы прош.времени
ВОРОША ВОРОШИВ - деепричастия
Рассмотрим примеры, показывающие возможность комбинирования отдельных программ библиотеки "Русская морфология". Пусть написана управляющая программа, получающая на входе некоторую словоформу, обращающаяся к программе МОРФ1 (и - если слова нет в словаре - к МОРФ2) и генерирующая все формы (программа ФОРМ2) для каждого варианта анализа. Среди этих форм обязательно должна быть входная словоформа.
Примеры:
обработка незнакомого слова ХРЮША
ВАРИАНТ 1
склонение по образцу слова НОЖ/БОГАЧ
* значение ГП "одушевленность" неизвестно *
ХРЮШ ХРЮШИ
ХРЮША ХРЮШЕЙ
ХРЮШУ ХРЮШАМ
ХРЮША / ХРЮШ ХРЮШЕЙ / ХРЮШИ
ХРЮШОМ ХРЮШАМИ
ХРЮШЕ ХРЮШАХ
ВАРИАНТ 2
склонение по образцу слова МАРШ
* значение ГП "одушевленность" неизвестно *
ХРЮШ ХРЮШИ
ХРЮША ХРЮШЕЙ
ХРЮШУ ХРЮШАМ
ХРЮША / ХРЮШ ХРЮШЕЙ / ХРЮШИ
ХРЮШЕМ ХРЮШАМИ
ХРЮШЕ ХРЮШАХ
ВАРИАНТ 3
склонение по образцу слова ТУЧА/КАССИРША
* значение ГП "одушевленность" неизвестно *
ХРЮША ХРЮШИ
ХРЮШИ ХРЮШ
ХРЮШЕ ХРЮШАМ
ХРЮШУ ХРЮШ / ХРЮШИ
ХРЮШЕЙ ХРЮШАМИ
ХРЮШЕ ХРЮШАХ
ВАРИАНТ 4
склонение по образцу слова СВЕЖИЙ
ПОХРЮШЕЕ ХРЮШЕЕ
ХРЮШ ХРЮША ХРЮШЕ ХРЮШИ
ХРЮШИЙ ХРЮШАЯ ХРЮШЕЕ ХРЮШИЕ
ХРЮШЕГО ХРЮШЕЙ ХРЮШЕГО ХРЮШИХ
ХРЮШЕМУ ЖРЮШЕЙ ХРЮШЕМУ ХРЮШИМ
ХРЮШЕГО amp; ХРЮШИЙ ХРЮШУЮ ХРЮШЕЕ ХРЮШИХ amp; ХРЮШИЕ
ХРЮШИМ ХРЮШЕЙ ХРЮШИМ ХРЮШИМИ
ХРЮШЕМ ХРЮШЕЙ ХРЮШЕМ ХРЮШИХ
ВАРИАНТ 5
спряжение по образцу слова ТОЧИТЬ/СЛЫШАТЬ
ХРЮШИТЬ
ХРЮШИ ХРЮШИТЕ
ХРЮШУ (БУДУ ХРЮШИТЬ)
ХРЮШИШЬ (БУДЕШЬ ХРЮШИТЬ)
ХРЮШИТ (БУДЕТ ХРЮШИТЬ)
ХРЮШИМ (БУДЕМ ХРЮШИТЬ)
ХРЮШИТЕ (БУДЕТЕ ХРЮШИТЬ)
ХРЮШАТ (БУДУТ ХРЮШИТЬ)
ХРЮШИЛ ХРЮШИЛА ХРЮШИЛО ХРЮШИЛИ
ХРЮША ХРЮШИВ
ВАРИАНТ 6
неизменяемое слово типа АНТРАША
ХРЮША
Заметим, что если бы слово хрюша анализировалось с предсказаниями, результат был бы более точен. Так, при предсказании «существительное женского рода» был бы выдан только третий вариант, при предсказании «форма глагола» - только пятый.
обработка незнакомого слова КРОВАТЬ
ВАРИАНТ 1
спряжение по образцу слова ПИРОВАТЬ
* значение ГП "вид" неизвестно *
(выбран несовершенный вид)
КРОВАТЬ
КРУЙ КРУЙТЕ
КРУЮ (БУДУ КРОВАТЬ)
КРУЕШЬ (БУДЕШЬ КРОВАТЬ)
КРУЕТ (БУДЕТ КРОВАТЬ)
КРУЕМ (БУДЕМ КРОВАТЬ)
КРУЕТЕ (БУДЕТЕ КРОВАТЬ)
КРУЮТ (БУДУТ КРОВАТЬ)
КРОВАЛ КРОВАЛА КРОВАЛО КРОВАЛИ
КРУЯ
КРОВАВВАРИАНТ 2
склонение по образцу слова ПЕЧАТЬ
* значение ГП "одушевленность" неизвестно *
КРОВАТЬ КРОВАТИ
КРОВАТИ КРОВАТЕЙ
КРОВАТИ КРОВАТЯМ
КРОВАТЬ КРОВАТЕЙ / КРОВАТИ
КРОВАТЬЮ КРОВАТЯМИ
КРОВАТИ КРОВАТЯХ
ВАРИАНТ 3
неизменяемое слово типа ДЕСКАТЬ
КРОВАТЬ
Start to type here
3. Исправление ошибок в русскоязычных текстах
3.1. Проблема речевых ошибок
Использование естественного языка в качестве средства общения ( речевая деятельность человека) неизбежно сопровождается теми или иными нарушениями языковых правил. Такие нарушения - вне зависимости от того, обусловлены они неполнотой знаний человека о языке или же случайными сенсомоторными "сбоями" (описки, опечатки, оговорки) - мы будем называть речевыми ошибками.
В идеале обработка речевой ошибки предполагает соотнесение ошибочной речевой единицы с полным описанием языка и с контекстом рассматриваемого коммуникативного процесса. Лингвист (или другой специалист), занимающийся исследованием каких-либо теоретических аспектов проблемы речевых ошибок, например, их классификацией, и располагающий источниками, в которых содержится исчерпывающее описание единиц и правил того или иного естественного языка (словари, своды правил), находится в ситуации, достаточно близкой к такому идеалу.
В случае же повседневной речевой практики - непосредственного (диалог) или опосредованного (чтение текста) речевого взаимодействия рядовых носителей языка - ситуация иная. Лингвистические знания рядового носителя языка неполны, воспользоваться справочной литературой он может далеко не всегда, а сам факт ошибки никаким явным образом в анализируемом тексте не указан.
Обнаружить речевую ошибку в этой ситуации непросто. Действительно, для получателя сообщения (реципиента) внешним признаком речевой ошибки служит появление в тексте какой-либо незнакомой ему речевой единицы. Однако такая "подозреваемая" речевая единица может оказаться и правильной конструкцией или формой (например, просторечным вариантом или термином), не знакомой реципиенту.
С другой стороны, абсолютно правильная на первый взгляд единица может быть ошибкой, обнаружить которую удается лишь на "высших" этапах анализа. Так, в предложении "Пуск ракеты осуществляется нажатием краской кнопки" все слова известны, синтаксические связи правильны; опечатка обнаруживается только на семантическом/ смысловом уровне.
Если одним из участников общения является компьютерная система, положение становится еще более сложным. И лингвистические знания, и интеллектуальные способности (в том числе - в плане работы с языком) такого "собеседника" пока весьма скромны. Однако, как мы уже знаем из материала 1-й главы, достаточно широко и успешно применяются системы обнаружения и исправления ошибок.