Автоматическая обработка текста

Вашингтон Дж.Н., Байыр-оол А., Салчак А., Тайерс Ф.М.
Разработка конечного морфологического анализатора тувинского языка (на англ. языке)

Статья посвящена разработке конечного морфологического анализатора тувинского языка, одного из тюркских языков, носители которого проживают в Республике Тыва в России и за ее пределами. Анализатор находится в открытом доступе. Конечный морфологический анализатор используется в программном обеспечении Helsinki Finite-State Toolkit (HFST); для моделирования морфотактики применяется формальный язык lexc, а для моделирования морфонологических чередований - формальный язык twol. Показано, как разработка анализатора может способствовать новому пониманию грамматических обобщений, как в опциях самого анализатора, так и в модели языковой морфологии, подвергаемой проверке. Анализатор позволяет добавить к существующим моделям тувинской морфологии описание морфологической комбинаторики квазидеривационных морфем тувинского языка, а также впервые описать некоторые морфонологические явления. Представленный результат показывает, что анализатор справляется со своими задачами на 93% объема тестовой выборки, находящейся в открытом доступе, и высокая точность проявляется на более чем 99% тестовой выборки, проверенной вручную.

Ключевые слова: тувинский язык, морфологические анали- заторы, конечные автоматы

pdf-iconЧитать статью целиком...