The National Corpus of Kazakh Language: Development of Phonetic and Prosodic Markers
Author:
Bazarbayeva, Zeinep M.
Zharkynbekova, Sholpan K.
Amanbayeva, Aisaule Zh.
Zhumabayeva, Zhanar T.
Karshygayeva, Ainur A.
Базарбаева, З. М.
Жаркынбекова, Ш. К.
Аманбаева, А. Ж.
Жумабаева, Ж. Т.
Каршыгаева, А. А.
Date:
2023-08Journal Name:
Журнал Сибирского федерального университета. Гуманитарные науки 2023 16 (8). Journal of Siberian Federal University. Humanities & Social Sciences 2023 16(8)Abstract:
The article focuses on the issue of corpus linguistics in Kazakh language studies. Nowadays, the sphere of corpus linguistics is being researched, and the base for the National corpus of the Kazakh language is in the process of preparation. The article discusses the ways of entering phonetic and prosodic markers to the oral text subcorpus of the Kazakh language. The analysis of vowels, consonants, and the three types of syllables is done. The system of linguistic knowledge is taken into consideration for entering the texts to the corpus base automatically. In particular, the article describes the rules of putting phonetic and prosodic markers, the studies of word melody, the analysis of automatically dividing a word into syllables, and distinctive features of phonemes. All the sounds of the Kazakh language are described in the article, and the differences and definitions of phonemes and phonetics are given. Also, to demonstrate the intonational features of words, the markers signifying tone, loudness, pauses, and intensity are given. The models of intonemes of sentences are created. For instance, the following model is described, and the ways of its automatization are given: in the beginning of the sentence, there is rising tone, and the sign of incomplete intoneme (↑) is given; at the end of the sentence the tone falls, and the sign of complete intoneme (↓) is given, while the tone stabilizes in the middle of the sentence (→). The results of the study will be useful for preparing the prosodic marking of the oral subcorpus, for the research in the fields of phonetics and phonology, and for writing Master’s and Doctor’s scientific papers В статье изучается проблема корпусной лингвистики в казахском
языкознании. В настоящее время проводятся исследования, связанные с корпусной
лингвистикой и подготавливается база национального корпуса казахского языка.
В статье рассматриваются пути расстановки фонетической и просодической разметки
в устном текстовом подкорпусе казахского языка, анализируются гласные и согласные
звуки, а также открытые, полузакрытые и закрытые слоги. Для автоматического
введения текстов в базу корпуса взята за основу система лингвистических знаний,
в том числе описаны правила расстановки фонетической и просодической
разметки, исследования, проведенные с целью определения мелодики слова, анализ
автоматического деления слова на слоги, а также дифференциальные признаки
каждой фонемы. В статье описываются все звуки, характерные для казахского
языка, даются описания и различия фонем и фонетики. Также с целью демонстрации
интонационных особенностей отдельных слов даны условные знаки, обозначающие
тон, громкость, паузы и темп. Созданы модели интонем предложений. К примеру,
в начале предложения присутствует повышение тона (интонема), то есть ставится знак
интонемы незавершенности, а в конце предложения наблюдается понижение тона,
и ставится знак интонемы завершенности (↓), тогда как в середине предложения тон
стабилен (→). Приведенный пример описан в виде модели, даны пути ее автоматизации.
Результаты исследования будут полезны в создании просодической разметки базы
устного подкорпуса, в проведении фонетико-фонологических
исследований, а также
в написании научных работ магистрантов и докторантов