• русский
    • English
  • русский 
    • русский
    • English
    Просмотр элемента 
    •   Главная
    • Научные журналы
    • Журнал СФУ. Гуманитарные науки. Journal of SibFU. Humanities & Social Sciences
    • Гуманитарные науки. Humanities & Social Sciences. 2024 17 (5)
    • Просмотр элемента
    •   Главная
    • Научные журналы
    • Журнал СФУ. Гуманитарные науки. Journal of SibFU. Humanities & Social Sciences
    • Гуманитарные науки. Humanities & Social Sciences. 2024 17 (5)
    • Просмотр элемента
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Building an Open Corpus and a Morphological Parser for Corpus Annotation for Standard Dargwa

    Скачать файл:
    07_Toldova.pdf (706.9 КБ)
    EDN:
    QCUVBE
    URI (для ссылок/цитирований):
    https://elib.sfu-kras.ru/handle/2311/152894
    Автор:
    Toldova, Svetlana Iu.
    Sokur, Elena O.
    Толдова, С. Ю.
    Сокур, Е. О.
    Дата:
    2024-05
    Журнал:
    Журнал Сибирского федерального университета. Гуманитарные науки 2024 17 (5). Journal of Siberian Federal University. Humanities & Social Sciences 2024 17(5)
    Аннотация:
    This paper is devoted to the ongoing project of creating a Standard Dargwa Сorpus (Standard Dargwa is a Nakh-Dagestanian language). A pilot version was released in 2022. The paper describes building a fully-functional version of the corpus. First, we describe the pipeline used to develop the corpus. Second, we discuss the procedure of building and enhancing the morphological parser. The parser provides morphological annotation. The layers include the morphemic structure of a word, the grammatical labels of morphemes, the translations of lexemes from the dictionary. Third, we discuss the drawbacks of the parser and ways for overcoming them. Finally, we describe the corpus usage functionality
     
    Статья посвящена продолжающемуся проекту по созданию корпуса текстов на литературном даргинском языке (нахско-дагестанская группа языков). Пилотная версия корпуса была создана в 2022 г. В настоящей статье описывается опыт разработки полной версии корпуса. Во-первых, дан полный цикл разработки корпуса (необходимая последовательность этапов его разработки). Во-вторых, обсуждается процедура разработки и оптимизации морфологического парсера, обеспечивающего поморфемную аннотацию текстов в корпусе. Слои такой аннотации для каждой словоформы в корпусе включают: (а) слой поморфемной сегментации, (б) слой словарной формы, (в) слой грамматической поморфемной аннотации, (в) перевод лексемы на русский язык по двуязычному словарю. В‑третьих, анализируются проблемы, возникающие при применении выбранного инструмента для разработки системы морфологической аннотации (системы UniParser Т. Архангельского) к материалу даргинского языка, а также возможные пути их решения. Помимо этого, в статье описывается корпусной функционал
     
    Коллекции:
    • Гуманитарные науки. Humanities & Social Sciences. 2024 17 (5) [16]
    Метаданные:
    Показать полную информацию

    Связанные материалы

    Показаны похожие ресурсы по названию, автору или тематике.

    • Corpus Use in the Translation Classroom, or Dies Diem Docet 

      Kononova, Valentina A.; Кононова, В.А. (Сибирский федеральный университет. Siberian Federal University., 2015-01)
      This article discusses the advantages of language corpora use in the modern university translation classroom. Corpora can be valuable resources for translation students and also a solid base for development of professional ...
    • О философско-исторических предпосылках к появлению корпусов текстов 

      Мордовин, А.Ю.; Mordovin, Alekseiy Yu. (Сибирский федеральный университет. Siberian Federal University., 2013-01)
      В статье рассматриваются философские и исторические предпосылки к возникновению первых компьютерных корпусов в 1960-х годах. Рассматриваются основные методологические характеристики корпусного подхода к исследованию языка ...
    • Corpus-based Contrastive Study of Discursive Strategy of Construing Interpersonal Relations in English Language Academic Discurse 

      Kochetova, Larisa A.; Kononova, Inna V.; Кочетова, Л.А.; Кононова, И.В. (Сибирский федеральный университет. Siberian Federal University, 2018)
      Based on comparison of two corpora, BE2006 sub-corpus of learned (academic) prose and corpus of English language texts written by Russian scholars compiled by the authors, the article seeks to find out differences in ...
    • Statistical Analysis of the Slavonic Paraenesis by Ephrem the Syrian (on Three Electronic Copies of the 13–14th Centuries from the Manuscript Corpus) 

      Baranov, Victor A.; Баранов, В.А. (Сибирский федеральный университет. Siberian Federal University, 2018-08)
      The work presents an experience of applying statistical methods to discovering thematically valuable words in three Old Russian (Old East Slavic) copies of the Ephrem the Syrian’s Paraenesis. The quantitative data were ...
    • Rival to the Time: a Search for Specific Features of A. F. Losev’s Personality 

      Butin, Maxim A.; Бутин, М.А. (Сибирский федеральный университет. Siberian Federal University., 2013-10)
      There has been modeled a structure of personality of Aleksey Fedorovich Losev, a Russian philosopher. We have tried to apply Losev’s developments on theory of personality and myth to the author of this theory and critically ...

    DSpace software copyright © 2002-2015  DuraSpace
    Контакты | Отправить отзыв
    Theme by 
    @mire NV
     

     


    DSpace software copyright © 2002-2015  DuraSpace
    Контакты | Отправить отзыв
    Theme by 
    @mire NV