Показать сокращенную информацию
Building an Open Corpus and a Morphological Parser for Corpus Annotation for Standard Dargwa
Автор | Toldova, Svetlana Iu. | en |
Автор | Sokur, Elena O. | en |
Автор | Толдова, С. Ю. | ru_RU |
Автор | Сокур, Е. О. | ru_RU |
Дата внесения | 2024-05-14T07:17:40Z | |
Дата, когда ресурс стал доступен | 2024-05-14T07:17:40Z | |
Дата публикации | 2024-05 | |
URI (для ссылок/цитирований) | https://elib.sfu-kras.ru/handle/2311/152894 | |
Аннотация | This paper is devoted to the ongoing project of creating a Standard Dargwa Сorpus (Standard Dargwa is a Nakh-Dagestanian language). A pilot version was released in 2022. The paper describes building a fully-functional version of the corpus. First, we describe the pipeline used to develop the corpus. Second, we discuss the procedure of building and enhancing the morphological parser. The parser provides morphological annotation. The layers include the morphemic structure of a word, the grammatical labels of morphemes, the translations of lexemes from the dictionary. Third, we discuss the drawbacks of the parser and ways for overcoming them. Finally, we describe the corpus usage functionality | en |
Аннотация | Статья посвящена продолжающемуся проекту по созданию корпуса текстов на литературном даргинском языке (нахско-дагестанская группа языков). Пилотная версия корпуса была создана в 2022 г. В настоящей статье описывается опыт разработки полной версии корпуса. Во-первых, дан полный цикл разработки корпуса (необходимая последовательность этапов его разработки). Во-вторых, обсуждается процедура разработки и оптимизации морфологического парсера, обеспечивающего поморфемную аннотацию текстов в корпусе. Слои такой аннотации для каждой словоформы в корпусе включают: (а) слой поморфемной сегментации, (б) слой словарной формы, (в) слой грамматической поморфемной аннотации, (в) перевод лексемы на русский язык по двуязычному словарю. В‑третьих, анализируются проблемы, возникающие при применении выбранного инструмента для разработки системы морфологической аннотации (системы UniParser Т. Архангельского) к материалу даргинского языка, а также возможные пути их решения. Помимо этого, в статье описывается корпусной функционал | ru_RU |
Язык | en | en |
Издатель | Siberian Federal University. Сибирский федеральный университет | en |
Тема | under-resourced language | en |
Тема | corpus development | en |
Тема | Standard Dargwa | en |
Тема | Nakh-Daghestanian languages | en |
Тема | morphological parser | en |
Тема | interlinear glossing | en |
Тема | малоресурсные языки | ru_RU |
Тема | корпуса текстов | ru_RU |
Тема | литературный даргинский | ru_RU |
Тема | нахско-дагестанские языки | ru_RU |
Тема | предоставившим нам данные по Даргве | ru_RU |
Название | Building an Open Corpus and a Morphological Parser for Corpus Annotation for Standard Dargwa | en |
Альтернативное название | Опыт создания открытого корпуса текстов на литературном даргинском языке и разработки морфологического парсера для его аннотации | ru_RU |
Тип | Journal Article | en |
Контакты автора | Toldova, Svetlana Iu.: National Research University “Higher School of Economics” Moscow, Russian Federation; toldova@yandex.ru | en |
Контакты автора | Sokur, Elena O.: National Research University “Higher School of Economics” Moscow, Russian Federation | en |
Контакты автора | Толдова, С. Ю.: Национальный исследовательский университет «Высшая школа экономики» Российская Федерация, Москва | ru_RU |
Контакты автора | Сокур, Е. О.: Национальный исследовательский университет «Высшая школа экономики» Российская Федерация, Москва | ru_RU |
Страницы | 905–915 | ru_RU |
Журнал | Журнал Сибирского федерального университета. Гуманитарные науки 2024 17 (5). Journal of Siberian Federal University. Humanities & Social Sciences 2024 17(5) | en |
EDN | QCUVBE |