Чтение онлайн

ЖАНРЫ

Прикладное программное обеспечение: системы автоматической обработки текстов
Шрифт:

Понятие М-класса является уточнением традиционного понятия "часть речи": 7-й класс образован в основном существительными, 8-й - прилагательными, 9-й - глаголами.

В ФМРС рассматриваются три класса склоняемых И-слов: местоименные (М-класс номер 5), субстантивные (класс номер 7), адъективные (класс номер 8) и один класс спрягаемых (класс номер 9). Представители 5-го и 8-го М-классов изменяются по родам, числам и падежам, 7-го - по числам и падежам, 9-го - по лицам, родам, числам и временам. Отсутствие у И-слова одной или нескольких форм (например, форм единственного числа у слова ножницы, формы родительного падежа множественного числа у слова мгла) не препятствует отнесению его к соответствующему М-классу.

Подмножество М-класса, представители которого при совпадающих значениях свободных ГП имеют одинаковые флексии, образует парадигматический класс. В ФМРС

рассматриваются 24 П-класса для слов субстантивного склонения, 8 - для слов адъективного склонения, 2 - для слов местоименного склонения, 9 - для спрягаемых слов. К 1-му П-классу субстантивных И-слов относятся, например, существительные завод и артист (флексии: -?, – а, – у, -? или – а, – ом, – е– для шести традиционных падежей единственного числа; – ы, – ов, – ам, – ы или – ов, – ами, – ах– для множественного); к 11-му П-классу - карта и корова; к 21-му - болото. К 1-му П-классу местоименных И-слов относятся: притяжательное прилагательное отцов, существительное кабельтов (не изменяется по родам), ко 2-му П-классу - местоимение мой, прилагательное лисий, порядковое числительное третий.

Хотя П-классы задают более детальную классификацию сочетаемости основ с флексиями чем традиционные типы склонения и спряжения, они недостаточны для описания многих частных особенностей русского словоизменения. Эти особенности можно было бы учесть с помощью еще более дробной классификации, однако, во избежание чрезмерного увеличения числа П-классов, в ФМРС используются другие методы.

Как исключения описываются случаи сочетания основы с "нестандартной" для данного П-класса и данной формы флексией: – а в форме именительного падежа множественного числа существительных вместо характерной для 1-го П-класса флексии -ы (глаза, но заводы), пустая флексия вместо флексии – ов в родительном падеже множественного числа (глаз, но заводов). Исключением считается и наличие у некоторых существительных 2-го родительного (партитивного) и 2-го предложного (локативного) падежей: кусок сахару, в шкафу, но из сахара, о шкафе. Всего в ФМРС учитываются 26 исключений такого вида.

К особенностям словоизменения относятся и чередования в основе. В ФМРС учтено 55 чередований, например: ова - у (рис-ова– ть - рис-у– ю), та - щ (клеве-та– тьклеве-щ– у), е - ‹пусто› (царев-е– нцарев-н-а). Для И-слов с чередованиями достаточно рассматривать только один "стандартный" вариант основы, указывая тип и контекст чередования в описании значения основы. Так, для стандартного варианта основы царевн- указывается, что при пустой флексии перед последней буквой основы вставляется буква е.

Относительно редкие чередования (встречающиеся у 1-3 слов) в ФМРС учитываются по-иному: парадигмы таких слов задаются несколькими основами и Н-словами, образующими "семейство" слова (основы зай-, зайд- и заш- и И-слово зайти для глагола зайти). Семейства вводятся и для слов с супплетивными формами (хороший - лучше) или уникальными наборами флексий (некоторые числительные, личные местоимения).

В синтаксический класс объединяются слова и конструкции с общим набором ГП и общими синтаксическими функциями.

Каждому представителю некоторого С-класса сопоставлен (как и в случае М-классов) вектор значений характерных ГП. Для большинства И-слов номер С-класса и соответствующий набор ГП совпадают с номером и набором ГП М-класса. Так, многие существительные - С-класс номер 7 - относятся и к 7-му М-классу. Однако некоторые слова изменяются по "необычной" модели: существительные прохожий, гончая склоняются как представители 8-го М-класса, для существительного кабельтов характерно местоименное склонение. В подобных ситуациях в описании значения основы указывается и синтаксический класс, а иногда значения "дополнительных" ГП (например, вида и залога для причастий - С-класс номер 18, склоняющихся по модели 8-го М-класса).

2.2.3. Основные программы

Морфологический анализ знакомых слов. Программа МОРФ1

Программа МОРФ1 строит все возможные разбиения входной словоформы на основу и флексию и ищет соответствующие части в словаре (первоначально МОРФ1 пытается найти в словаре совпадающее со словоформой Н-слово, а затем последовательно рассматривает словоформу как основу с пустой флексией, основу с флексиями длиной 3, 2 и 1) или неизменяемое слово.

Проверку правильности разбиения - сочетаемости основы и флексии - осуществляет вспомогательная программа, она же устанавливает значения ГП, определяемые флексией. Когда МОРФ1, отщепив флексию, не может найти полученную основу в словаре, происходит обращение к подпрограмме, применяющей к основе правила чередования. Если и после применения правил чередования найти основу в словаре не удалось, слово признается незнакомым и формируется обращение к программе морфологического анализа незнакомых слов МОРФ2 - список вариантов трактовки словоформы (грамматически корректные разбиения на основу и флексию, неизменяемое слово).

Результат работы МОРФ1 (для знакомого слова) - список вариантов анализа, каждый из которых содержит: грамматические признаки словоформы и ссылку на словарную статью, описывающую семантическое значение слова.

Примеры:

стекла ? (7 2 3 1 2) - существительное (неодуш.,ср.род) стекло

в форме: ед.число, родит.падеж

(7 2 3 2 (1 4)) - существительное (неодуш.,ср.род) стекло

в форме: мн.число, именит. или винит.падеж

(9 1 1 3 2 1 1) - глагол стечь

в форме: прош.вр., женск.род, ед.число

Упрощенный вариант программы МОРФ1 - программа МОРФ3 - решает так называемую задачу лемматизации: определяет только начальную форму слова, не формируя список грамматических характеристик словоформы.

Примеры:

стеки ? стек, стечь

стекла ? стекло, стечь

стеками ? стек

Морфологический анализ незнакомых слов. Программа МОРФ2

На вход программы поступает сформированный МОРФ1 список вариантов трактовки словоформы.

Пример (словоформа квазибиологом):

квазибиологом+? (ср. космодром/управдом)

квазибиолог+ом (ср. биолог+ом)

квазибиологом (ср. бегом)

При обработке незнакомого слова МОРФ2 учитывает флексию и строение основы. В большинстве случаев исследование флексии не позволяет однозначно установить не только П-класс, род слов субстантивного склонения, вид спрягаемых слов, но даже М-класс анализируемого слова, так как, например, флексия – а встречается у слов всех четырех рассматриваемых М-классов (класс-а, красив-а, дядин-а, ворош-а). Для уточнения грамматических признаков незнакомых слов МОРФ2 учитывает следующие составляющие (диагностические сегменты) основы: префикс, суффикс или некоторую цепочку букв в конце основы, последнюю букву основы.

По префиксу можно обнаружить некоторые Н-слова и установить вид некоторых глаголов. Анализ суффикса помогает установить М-класс, П-класс, род (а иногда и одушевленность) слова субстантивного склонения, вид глагола или даже все нужные (описываемые в словарной статье) грамматические признаки слова. По последней букве основы легко уточняется П-класс, а иногда и М-класс слова. Программа МОРФ2 работает с таблицами, содержащими 28 префиксов и 67 суффиксов. Анализ незнакомого слова МОРФ2 начинает с варианта расщепления с максимальной длиной флексии.

Поделиться с друзьями: