Построение полных парадигм слов русского языка на базе грамматического словаря
Цель проекта
Целью проекта является построение полных парадигм слов русского языка, данных в словарной части книги "Зализняк А. А. Грамматический словарь русского языка: Словоизменение - 3-е изд. - М.: Рус.яз., 1987.", в соответствии с правилами словоизменения, описанными в части "Грамматические сведения" того же словаря.
Исходные данные
Исходный материал для программы взят с сайта С. А. Старостина. Словарь доступен для скачивания в двух форматах: в текстовом формате (файл dicts.EXE) и в формате DBF/VAR (файл ZALIZNIA.EXE). Исходные данные в обоих форматах соответствуют словарной части словаря А. А. Зализняка. Но так как данные в текстовом формате содержат меньше ошибок, то они и используются в данном проекте.
Исправление ошибок в исходных текстах словаря
Исходные тексты содержат следующие типы ошибок:
- опечатки в бумажной версии словаря (печатном издании);
- опечатки в электронной версии словаря;
Преобразование fuzzy исходных данных в набор атрибутов
convert zaliz database files from original fuzzy format to more parsable.Условные знаки
c0019.gif c0020.gif| Наименование | в бумажной версии | в электронной версии | имя поля в файле ADB |
|---|---|---|---|
| заглавное слово | первое слово статьи | первое слово статьи | с |
| ударение заглавного слова | прямые или обратные штрихи над ударной буквой | числа за заглавным словом, разделённые запятыми или точками | у |
| часть речи | в основном буквенном символе (явно или неявно) | первое слово за ударением (явно или неявно) | т, т2 |
| существительные группы pluralia tantum | "мн." в основном буквенном символе | "мн." в основном буквенном символе | мн |
| род существительных | "м", "ж" или "с" в основном буквенном символе существительных | "м", "ж" или "с" в основном буквенном символе существительных | р, рм |
| одушевленность существительных | "о" в основном буквенном символе существительных | "о" в основном буквенном символе существительных | о |
| вид глаголов | "св" или "нсв" в основном буквенном символе глаголов | "св" или "нсв" в основном буквенном символе глаголов | гв |
| переходность или непереходность глаголов | "нп" в основном буквенном символе глаголов | "нп" в основном буквенном символе глаголов | гп |
| многократные глаголы | "многокр." в основном буквенном символе глаголов | "многокр." в основном буквенном символе глаголов | гмн |
| безличные глаголы | "безл." в основном буквенном символе глаголов | "безл." в основном буквенном символе глаголов | гбл |
| номер типа склонения или спряжения | число от 0 до 16 | число от 0 до 16 | и |
| схема ударения | латинская буква от a до f (без штрихов или со штрихами) или пара таких букв, записанных через косую черту | латинская или русская буква (без штрихов или со штрихами) или пара таких букв, записанных через косую черту | у1, у2 |
| подтип склонения или спряжения, отличающийся от основного типа чередованием беглой гласной с нулем | надстрочная звёздочка (*) при цифре | звёздочка (*) при цифре | ч |
| подтип склонения или спряжения, отличающийся от основного типа определенными чередованиями | надстрочный кружочек (о) при цифре | две звёздочки (**) при цифре | ч2 |
| указание, позволяющее правильно образовать основу настоящего времени глаголов | русская буква или буквенная последовательность (между черточками, в скобках) | русская буква или буквенная последовательность (между черточками, в скобках) | ч3 |
| слово имеет чередование ё/е | ё | Ё | чё |
| слово имеет чередование о/е | о | о | чо |
| страдательное причастие глаголов | текст "_прич. страд._" и буквенная последовательность (между черточками, в скобках) | текст "_прич. страд._" и буквенная последовательность (между черточками, в скобках) | гпс |
| номер характерного отклонения от стандартного склонения/спряжения | цифра в кружочке от 1 до 9 | цифра в кавычках от "1" до "9" | ос, осф |
| предположительны сведения об образовании мн. числа существительных или краткой формы мужского рода прилагательных | - (минус) | - (минус) | фп |
| затруднительно образование кратких форм прилагательных или страдательного причастия прош. времени глаголов | X | ! | фз |
| нет краткой формы мужского рода прилагательных и страдательного причастия прош. времени глаголов | [X] | ? | фн, фз |
| нет сравнительной степени прилагательных | ~ | ~ | фн |
| наличие у существительных 2-го родительного падежа | Р2 | Р2 | р2 |
| наличие у существительных 2-го предложного падежа | П2, П2(в), П2(во), П2(на) | П2, П2(в), П2(во), П2(на) | п2, п2ф |
| отсылка к соответствующему параграфу раздела "Дополнительные особенности в склонении/спряжении" | знак параграфа и число от 1 до 18 | # и число от 1 до 18 | до |
| указание значения | в круглых скобках курсивом | в круглых скобках со знаком подчёркования | з, з2 |
| факультативная часть индекса; сведения о вариантах слова | [ ] | [ ] | фк, з3 |
| морфологически нерегулярные формы | треугольник | @ | искл |
| особые формы, выступающие во фразеологизмах | ромб | % | фр |
| сведения о соответствующем глаголе противоположного вида | заштрихованный круг | $ | гпр |
| тип образования соответствующего глагола несовершенного вида | римская цифра I, II или III | римская цифра I, II или III | гпр |
| слово употребляется только в приводимых сочетаниях | : | : | слсч |
| склоняются обе части существительного | текст "_склоняются обе части_" | текст "_склоняются обе части_" | с2ч |
| варианты наряду с .... параллельно | // | // | вар |
Список свойств и значений
| Поле | Имя | Возможные значения |
|---|---|---|
| заглавное слово | с | строка символов русского алфавита и дефиса |
| ударение заглавного слова | у | положение ударного гласного; после точки перечисляются положения дополнительных ударений; после запятой перечисляются положения букв ё, если вместо ё в заглавном слове используется е |
| часть речи | т |
с - существительное п - прилагательное мс - местоимение-существительное мс-п - местоименное-прилагательное г - глагол н - наречие числ - числительное числ-п - счётное прилагательное вводн - вводное слово межд - межометие предик - предикатив предл - предлог союз - союз сравн - сравнительная степень част - частица |
| тип склонения | т2 |
п - адъективный мс - местоименный мс-п - местоименный ч - числительных |
| существительные группы pluralia tantum | мн | от - форма мн.числа от существительного, употребляющегося также и в ед.числе |
| род существительных | р |
м - мужской ж - женский с - средний мж - мужской и женский мс - мужской и средний жс - женский и средний см - средний и мужской сж - средний и женский о - общий |
| род морфологический | рм |
ж - женский с - средний |
| одушевлённость существительных | о |
н - неодушевленное о - одушевленное но - неодушевленное и одушевленное |
| номер типа склонения или спряжения | и | число от 0 до 16 |
| основная схема ударения | у1 | a, a1, b, b1, c, c1, d, d1, e, f, f1, f2, где 1 обозначает один штрих, а 2 - два штриха |
| дополнительная схема ударения | у2 | b, b1, c, c1, c2, где 1 обозначает один штрих, а 2 - два штриха |
| 2-й родительный падеж | р2 | - |
| 2-й предложный падеж | п2 | в, во, на |
| 2-й предложный падеж факультативный | п2ф | в, на |
| склоняются обе части существительного | с2ч | |
| чередование беглой гласной с нулем | ч | - |
| чередование ё/е | чё | - |
| чередование о/е | чо | - |
| определенные чередования | ч2 | - |
| основа настоящего времени глаголов | ч3 | б, с, т, д, г, ст, к, им, щ, м, н |
| вид глаголов | гв |
нсв - несовершенный св - совершенный св-нсв - двувидовой |
| переходность или непереходность глаголов | гп |
нп - непереходный п - переходный |
| многократные глаголы | гмн | - |
| безличные глаголы | гбл | - |
| глагол противоположного вида | гпр | |
| суффикс страдательного причастие глаголов | гпс | жд |
| отклонения от стандартного склонения | ос | 1, 2, 3, 4, 6, 7, 8, 9, 12, 47, 56 |
| факультативные отклонения от стандартного склонения | осф | 1, 2, 3, 4, 5, 6, 7, 8, 9, 37, 56 |
| дополнительные особенности в склонении/спряжении | до | число от 1 до 18 |
| исключения | искл | внутренняя структура данных для исключений (см.ниже) |
| форма затруднительна | фз | регулярное выражение для кода склонения/спряжения (см.ниже) |
| форма предположительна | фп | регулярное выражение для кода склонения/спряжения (см.ниже) |
| формы нет | фн | регулярное выражение для кода склонения/спряжения (см.ниже) |
| факультативная часть индекса | фк | |
| особые формы, выступающие во фразеологизмах | фр | |
| слово употребляется только в приводимых сочетаниях | слсч | |
| указание значения | з | |
| указание значения | з2 | |
| сведения о вариантах слова | з3 | |
| варианты | вар | число от 1 до 3 |
Коды склонений/спряжений
| Часть речи | 1-й символ | 2-й символ | 3-й символ | 4-й символ |
|---|---|---|---|---|
| с | Падеж: и - именительный р - родительный д - дательный в - винительный т - творительный п - предложный |
Число: е - единственное м - множественное |
||
| п |
п - полная форма к - краткая форма с - сравнительная степень |
Падеж: и - именительный р - родительный д - дательный в - винительный т - творительный п - предложный |
Число: е - единственное м - множественное |
Род (только в единственном числе): м - мужской ж - женский с - средний |
| мс | Падеж: и - именительный р - родительный д - дательный в - винительный т - творительный п - предложный |
|||
| мс-п | Падеж: и - именительный р - родительный д - дательный в - винительный т - творительный п - предложный |
Число: е - единственное м - множественное |
Род (только в единственном числе): м - мужской ж - женский с - средний |
Одушевлённость (только в винительном падеже): н - неодушевленное о - одушевленное |
| числ | Падеж: и - именительный р - родительный д - дательный в - винительный т - творительный п - предложный |
Одушевлённость (только в винительном падеже): н - неодушевленное о - одушевленное |
||
| г |
и - инфинитив п - прошедшее время н - настоящее время б - будущее время ! - повелительное наклонение д - деепричастие ч - причастие |
Число (в прошедшем времени): е - единственное м - множественное Лицо (в настоящем и будущем времени и повелительном наклонении): 1 - первое 2 - второе 3 - третье Время (в деепричастии и причастии): п - прошедшее время н - настоящее время | Род (в прошедшем времени): м - мужской ж - женский с - средний Число (в настоящем и будущем времени и повелительном наклонении): е - единственное м - множественное Залог (в деепричастии и причастии): д - действительный с - страдательный |
В деепричастии и причастии после минуса все формы прилагателного |
Коды в таблице стандартных окончаний
| 1-й символ | 2-й символ | 3-й символ | 4-й символ | 5-й символ |
|---|---|---|---|---|
| Склонение: а - адъективное к - краткие формы адъективного м - местоименное с - субстантивное |
Род: м - мужской ж - женский с - средний |
Тип окончания: 1 - первый 2 - второй 8 - восьмой |
Одушевлённость: н - неодушевленное о - одушевленное |
Ударность: б - безударное у - ударное |
Поля хеша полной информации
| Имя | Значение |
|---|---|
| тс | тип спряжения |
| уо | ударение основное |
| уд | ударения дополнительные |
Построение полных парадигм
Реализация правил словоизменения русского языка, описанных в книге: Образы страниц "Грамматические сведения" словаря А. А. Зализняка (стр. 3-142) построение всех парадигм и кодирование (представление) их в компактном виде RU::Morfo::Zaliz::Inflect - Russian inflection from dictionary of A.A.ZaliznyakРезультаты (статистика)
Из 96000? гнёзд? получено 1000000? уникальных словоформ. для дальнейшего использования примеры Результатом работы являются таблицы основ ... Так как алгоритм построения парадигмы в соответствии с условными обозначениями и индексами, то целесообразно использовать готовый результат.Формат файлов с полными парадигмами
zaliz2.adb - все слова и ссылки на парадигмы
Пример:
с:автомобиль б:9 ио:29 иу:23 р:м т:с у:8
Типы полей:
с - слово
б - база слова, т.е. количество первых неизменных букв слова;
например, длина неизменной основы "автомобил" - 9
ио - парадигма склонения/спряжения слова, номер надо искать в файле
суффиксов парадигм zaliz2.suf
ио - парадигма ударений форм слова, номер надо искать в файле
ударений парадигм zaliz2.acc
р - род
т - тип (существительное, прилагательное, глагол)
у - порядковый номер ударной буквы
zaliz2.suf - файл суффиксов парадигм
Пример:
29 479 ь;я;ю;ь;ем;е;и;ей;ям;и;ями;ях
Поля:
1. Номер парадигмы (ссылка из поля "ио" файла zaliz2.adb)
2. Количество слов с такой парадигмой
3. Окончания данной парадигмы, разделенные точкой с запятой
(по 6 падежей для ед.ч. и мн.ч.)
zaliz2.acc - файл ударений парадигм
Пример:
23 2129 8;8;8;8;8;8;8;8;8;8;8;8
Поля:
1. Номер парадигмы ударений (ссылка из поля "иу" файла zaliz2.adb)
2. Количество слов с такими ударениями парадигмы
3. Места ударения в каждой парадигме, разделенные точкой с запятой
(по 6 падежей для ед.ч. и мн.ч.)
Скачать
| Файл результата | zaliz.adb |
| Файл слов и ссылкок на парадигмы | zaliz2.adb |
| Файл суффиксов парадигм | zaliz2.suf |
| Файл ударений парадигм | zaliz2.acc |
Инструкции по установке и использованию программы находятся в файле README внутри архива программ.

Комментарии
Отличный материал. Огромное
Отличный материал. Огромное спасибо за то, что вы делаете!
Огромнейшее спасибо. Супер!
Огромнейшее спасибо. Супер! Именно то, что нужно.