Главная    

Построение полных парадигм слов русского языка на базе грамматического словаря

Цель проекта

Целью проекта является построение полных парадигм слов русского языка, данных в словарной части книги "Зализняк А. А. Грамматический словарь русского языка: Словоизменение - 3-е изд. - М.: Рус.яз., 1987.", в соответствии с правилами словоизменения, описанными в части "Грамматические сведения" того же словаря.

Исходные данные

Исходный материал для программы взят с сайта С. А. Старостина. Словарь доступен для скачивания в двух форматах: в текстовом формате (файл dicts.EXE) и в формате DBF/VAR (файл ZALIZNIA.EXE). Исходные данные в обоих форматах соответствуют словарной части словаря А. А. Зализняка. Но так как данные в текстовом формате содержат меньше ошибок, то они и используются в данном проекте.

Исправление ошибок в исходных текстах словаря

Исходные тексты содержат следующие типы ошибок:

  • опечатки в бумажной версии словаря (печатном издании);
  • опечатки в электронной версии словаря;

Преобразование fuzzy исходных данных в набор атрибутов

convert zaliz database files from original fuzzy format to more parsable.

Условные знаки

c0019.gif c0020.gif
Наименование в бумажной версии в электронной версии имя поля в файле ADB
заглавное слово первое слово статьи первое слово статьи с
ударение заглавного слова прямые или обратные штрихи над ударной буквой числа за заглавным словом, разделённые запятыми или точками у
часть речи в основном буквенном символе (явно или неявно) первое слово за ударением (явно или неявно) т, т2
существительные группы pluralia tantum "мн." в основном буквенном символе "мн." в основном буквенном символе мн
род существительных "м", "ж" или "с" в основном буквенном символе существительных "м", "ж" или "с" в основном буквенном символе существительных р, рм
одушевленность существительных "о" в основном буквенном символе существительных "о" в основном буквенном символе существительных о
вид глаголов "св" или "нсв" в основном буквенном символе глаголов "св" или "нсв" в основном буквенном символе глаголов гв
переходность или непереходность глаголов "нп" в основном буквенном символе глаголов "нп" в основном буквенном символе глаголов гп
многократные глаголы "многокр." в основном буквенном символе глаголов "многокр." в основном буквенном символе глаголов гмн
безличные глаголы "безл." в основном буквенном символе глаголов "безл." в основном буквенном символе глаголов гбл
номер типа склонения или спряжения число от 0 до 16 число от 0 до 16 и
схема ударения латинская буква от a до f (без штрихов или со штрихами) или пара таких букв, записанных через косую черту латинская или русская буква (без штрихов или со штрихами) или пара таких букв, записанных через косую черту у1, у2
подтип склонения или спряжения, отличающийся от основного типа чередованием беглой гласной с нулем надстрочная звёздочка (*) при цифре звёздочка (*) при цифре ч
подтип склонения или спряжения, отличающийся от основного типа определенными чередованиями надстрочный кружочек (о) при цифре две звёздочки (**) при цифре ч2
указание, позволяющее правильно образовать основу настоящего времени глаголов русская буква или буквенная последовательность (между черточками, в скобках) русская буква или буквенная последовательность (между черточками, в скобках) ч3
слово имеет чередование ё/е ё Ё чё
слово имеет чередование о/е о о чо
страдательное причастие глаголов текст "_прич. страд._" и буквенная последовательность (между черточками, в скобках) текст "_прич. страд._" и буквенная последовательность (между черточками, в скобках) гпс
номер характерного отклонения от стандартного склонения/спряжения цифра в кружочке от 1 до 9 цифра в кавычках от "1" до "9" ос, осф
предположительны сведения об образовании мн. числа существительных или краткой формы мужского рода прилагательных - (минус) - (минус) фп
затруднительно образование кратких форм прилагательных или страдательного причастия прош. времени глаголов X ! фз
нет краткой формы мужского рода прилагательных и страдательного причастия прош. времени глаголов [X] ? фн, фз
нет сравнительной степени прилагательных ~ ~ фн
наличие у существительных 2-го родительного падежа Р2 Р2 р2
наличие у существительных 2-го предложного падежа П2, П2(в), П2(во), П2(на) П2, П2(в), П2(во), П2(на) п2, п2ф
отсылка к соответствующему параграфу раздела "Дополнительные особенности в склонении/спряжении" знак параграфа и число от 1 до 18 # и число от 1 до 18 до
указание значения в круглых скобках курсивом в круглых скобках со знаком подчёркования з, з2
факультативная часть индекса; сведения о вариантах слова [ ] [ ] фк, з3
морфологически нерегулярные формы треугольник @ искл
особые формы, выступающие во фразеологизмах ромб % фр
сведения о соответствующем глаголе противоположного вида заштрихованный круг $ гпр
тип образования соответствующего глагола несовершенного вида римская цифра I, II или III римская цифра I, II или III гпр
слово употребляется только в приводимых сочетаниях : : слсч
склоняются обе части существительного текст "_склоняются обе части_" текст "_склоняются обе части_" с2ч
варианты наряду с .... параллельно // // вар

Список свойств и значений

Поле Имя Возможные значения
заглавное слово с строка символов русского алфавита и дефиса
ударение заглавного слова у положение ударного гласного; после точки перечисляются положения дополнительных ударений; после запятой перечисляются положения букв ё, если вместо ё в заглавном слове используется е
часть речи т с - существительное
п - прилагательное
мс - местоимение-существительное
мс-п - местоименное-прилагательное
г - глагол
н - наречие
числ - числительное
числ-п - счётное прилагательное
вводн - вводное слово
межд - межометие
предик - предикатив
предл - предлог
союз - союз
сравн - сравнительная степень
част - частица
тип склонения т2 п - адъективный
мс - местоименный
мс-п - местоименный
ч - числительных
существительные группы pluralia tantum мн от - форма мн.числа от существительного, употребляющегося также и в ед.числе
род существительных р м - мужской
ж - женский
с - средний
мж - мужской и женский
мс - мужской и средний
жс - женский и средний
см - средний и мужской
сж - средний и женский
о - общий
род морфологический рм ж - женский
с - средний
одушевлённость существительных о н - неодушевленное
о - одушевленное
но - неодушевленное и одушевленное
номер типа склонения или спряжения и число от 0 до 16
основная схема ударения у1 a, a1, b, b1, c, c1, d, d1, e, f, f1, f2, где 1 обозначает один штрих, а 2 - два штриха
дополнительная схема ударения у2 b, b1, c, c1, c2, где 1 обозначает один штрих, а 2 - два штриха
2-й родительный падеж р2 -
2-й предложный падеж п2 в, во, на
2-й предложный падеж факультативный п2ф в, на
склоняются обе части существительного с2ч
чередование беглой гласной с нулем ч -
чередование ё/е чё -
чередование о/е чо -
определенные чередования ч2 -
основа настоящего времени глаголов ч3 б, с, т, д, г, ст, к, им, щ, м, н
вид глаголов гв нсв - несовершенный
св - совершенный
св-нсв - двувидовой
переходность или непереходность глаголов гп нп - непереходный
п - переходный
многократные глаголы гмн -
безличные глаголы гбл -
глагол противоположного вида гпр
суффикс страдательного причастие глаголов гпс жд
отклонения от стандартного склонения ос 1, 2, 3, 4, 6, 7, 8, 9, 12, 47, 56
факультативные отклонения от стандартного склонения осф 1, 2, 3, 4, 5, 6, 7, 8, 9, 37, 56
дополнительные особенности в склонении/спряжении до число от 1 до 18
исключения искл внутренняя структура данных для исключений (см.ниже)
форма затруднительна фз регулярное выражение для кода склонения/спряжения (см.ниже)
форма предположительна фп регулярное выражение для кода склонения/спряжения (см.ниже)
формы нет фн регулярное выражение для кода склонения/спряжения (см.ниже)
факультативная часть индекса фк
особые формы, выступающие во фразеологизмах фр
слово употребляется только в приводимых сочетаниях слсч
указание значения з
указание значения з2
сведения о вариантах слова з3
варианты вар число от 1 до 3

Коды склонений/спряжений


Часть речи 1-й символ 2-й символ 3-й символ 4-й символ
с Падеж:
и - именительный
р - родительный
д - дательный
в - винительный
т - творительный
п - предложный
Число:
е - единственное
м - множественное
п п - полная форма
к - краткая форма
с - сравнительная степень
Падеж:
и - именительный
р - родительный
д - дательный
в - винительный
т - творительный
п - предложный
Число:
е - единственное
м - множественное
Род (только в единственном числе):
м - мужской
ж - женский
с - средний
мс Падеж:
и - именительный
р - родительный
д - дательный
в - винительный
т - творительный
п - предложный
мс-п Падеж:
и - именительный
р - родительный
д - дательный
в - винительный
т - творительный
п - предложный
Число:
е - единственное
м - множественное
Род (только в единственном числе):
м - мужской
ж - женский
с - средний
Одушевлённость (только в винительном падеже):
н - неодушевленное
о - одушевленное
числ Падеж:
и - именительный
р - родительный
д - дательный
в - винительный
т - творительный
п - предложный
Одушевлённость (только в винительном падеже):
н - неодушевленное
о - одушевленное
г и - инфинитив
п - прошедшее время
н - настоящее время
б - будущее время
! - повелительное наклонение
д - деепричастие
ч - причастие
Число (в прошедшем времени):
е - единственное
м - множественное

Лицо (в настоящем и будущем времени и повелительном наклонении):
1 - первое
2 - второе
3 - третье

Время (в деепричастии и причастии):
п - прошедшее время
н - настоящее время
Род (в прошедшем времени):
м - мужской
ж - женский
с - средний

Число (в настоящем и будущем времени и повелительном наклонении):
е - единственное
м - множественное

Залог (в деепричастии и причастии):
д - действительный
с - страдательный
В деепричастии и причастии после минуса все формы прилагателного

Коды в таблице стандартных окончаний

1-й символ 2-й символ 3-й символ 4-й символ 5-й символ
Склонение:
а - адъективное
к - краткие формы адъективного
м - местоименное
с - субстантивное
Род:
м - мужской
ж - женский
с - средний
Тип окончания:
1 - первый
2 - второй
8 - восьмой
Одушевлённость:
н - неодушевленное
о - одушевленное
Ударность:
б - безударное
у - ударное

Поля хеша полной информации

Имя Значение
тс тип спряжения
уо ударение основное
уд ударения дополнительные

Построение полных парадигм

Реализация правил словоизменения русского языка, описанных в книге: Образы страниц "Грамматические сведения" словаря А. А. Зализняка (стр. 3-142) построение всех парадигм и кодирование (представление) их в компактном виде RU::Morfo::Zaliz::Inflect - Russian inflection from dictionary of A.A.Zaliznyak

Результаты (статистика)

Из 96000? гнёзд? получено 1000000? уникальных словоформ. для дальнейшего использования примеры Результатом работы являются таблицы основ ... Так как алгоритм построения парадигмы в соответствии с условными обозначениями и индексами, то целесообразно использовать готовый результат.

Формат файлов с полными парадигмами

zaliz2.adb - все слова и ссылки на парадигмы

Пример:
с:автомобиль б:9 ио:29 иу:23 р:м т:с у:8

Типы полей: с - слово
б - база слова, т.е. количество первых неизменных букв слова; например, длина неизменной основы "автомобил" - 9
ио - парадигма склонения/спряжения слова, номер надо искать в файле суффиксов парадигм zaliz2.suf
ио - парадигма ударений форм слова, номер надо искать в файле ударений парадигм zaliz2.acc
р - род
т - тип (существительное, прилагательное, глагол)
у - порядковый номер ударной буквы

zaliz2.suf - файл суффиксов парадигм

Пример:
29 479 ь;я;ю;ь;ем;е;и;ей;ям;и;ями;ях

Поля:
1. Номер парадигмы (ссылка из поля "ио" файла zaliz2.adb)
2. Количество слов с такой парадигмой
3. Окончания данной парадигмы, разделенные точкой с запятой (по 6 падежей для ед.ч. и мн.ч.)

zaliz2.acc - файл ударений парадигм

Пример:
23 2129 8;8;8;8;8;8;8;8;8;8;8;8

Поля:
1. Номер парадигмы ударений (ссылка из поля "иу" файла zaliz2.adb)
2. Количество слов с такими ударениями парадигмы
3. Места ударения в каждой парадигме, разделенные точкой с запятой (по 6 падежей для ед.ч. и мн.ч.)

Скачать

Файл результата zaliz.adb
Файл слов и ссылкок на парадигмы zaliz2.adb
Файл суффиксов парадигм zaliz2.suf
Файл ударений парадигм zaliz2.acc

Инструкции по установке и использованию программы находятся в файле README внутри архива программ.

Комментарии

Отличный материал. Огромное

Отличный материал. Огромное спасибо за то, что вы делаете!

Огромнейшее спасибо. Супер!

Огромнейшее спасибо. Супер! Именно то, что нужно.