Statistical Analysis of the Slavonic Paraenesis by Ephrem the Syrian (on Three Electronic Copies of the 13–14th Centuries from the Manuscript Corpus)
Скачать файл:
URI (для ссылок/цитирований):
https://elib.sfu-kras.ru/handle/2311/71914Автор:
Baranov, Victor A.
Баранов, В.А.
Дата:
2018-08Журнал:
Журнал Сибирского федерального университета. Гуманитарные науки. Journal of Siberian Federal University. Humanities & Social Sciences;2018 11 (8)Аннотация:
The work presents an experience of applying statistical methods to discovering thematically valuable words in three Old Russian (Old East Slavic) copies of the Ephrem the Syrian’s Paraenesis.
The quantitative data were obtained with the help of the search forms in the historical corpus Manuscript (manuscripts.ru), namely the multitext and N-Gram modules. The basic corpus for analysis of the 28 most frequent lemmas of content words from the Paraenesis (the collection volume exceeds 100 thousand word forms) comprised five corpus collections of different genres: copies of the Menaion for May, Service Menaions for other months of the year, Sticherarion (Book of stichera), Acts and Epistles of the Apostles, and Gospels (the total amount of word forms is more than 1 million).
To evaluate the lemmas obtained with the help of the system automatic morphological analyser the statistic TF-ICTFʹ (version of the weighting scheme TF-IDF) and Log-Likelihood were used. The increase of the number of analysed lemmas from 10 to 28 allowed demonstration of the great statistical weight of lemmas that are used less often than the most frequent lemmas.
To eliminate the discrepancies in the statistical evaluation of lemmas there were made a comparison of the lemmas’ ranks and corresponding diagrams. The analysis of the diagrams made it possible to find the core and periphery of the lists; identify the lemmas with the greatest averaged statistical weight – ПОМЫСЛЪ and СТРАХЪ and also the lemmas in the nearest periphery – ВЕКЪ, ЖИТИ, ХОТЕТИ, БРАТИЯ that represent the orientation of the Paraenesis texts to the spiritual search and motifs of punishment and apocalypse.
The conclusion concerns efficiency and effectiveness of the statistical methods as regards the evaluation of linguistic data in the historical corpora that due to the objective causes considerably cede to the modern corpora by their volume. Moreover, the materials for analysis shall involve the data from the entire corpus of the Slavonic texts (Manuscript) and the entire list of word forms (lemmas) from the analysed manuscript (subcorpus) Представлен опыт использования статистических мер для поиска тематически значимых слов в трех древнерусских списках Паренесиса Ефрема Сирина.
Количественные данные получены с помощью поисковых форм исторического
корпуса «Манускрипт» (manuscripts.ru) – многотекстового модуля и модуля n-грамм.
Базовым корпусом для анализа 28-ми наиболее частотных лемм знаменательных слов
Паренесиса (объем коллекции – более 100 тыс. словоформ) стали пять разножанровых
коллекций корпуса – списков майской минеи, служебных миней на другие месяцы года,
стихирарей, Апостола, Евангелий (общий объем – более 1 млн словоформ).
Для оценки значимости лемм, полученных с помощью автоматического морфологического анализатора системы, использованы статистические меры TF-ICTF' (вариант
меры TF-IDF) и Log-Likelihood. Увеличение количества анализируемых лемм с 10-ти
до 28-ми позволило продемонстрировать больший статистический вес лемм, которые используются реже, чем максимально частотные.
Для устранения расхождений в статистической оценке лемм осуществлено сравнение
рангов лемм и построены диаграммы. Анализ диаграмм позволил выявить ядро и
периферию перечней и определить леммы с наибольшим усредненным статистически
весом – ПОМЫСЛЪ и СТРАХЪ, а также леммы ближайшей периферии ВЕКЪ, ЖИТИ,
ХОТЕТИ, БРАТИЯ, которые репрезентируют направленность текстов Паренесиса на
духовный поиск и мотивы наказания и конца света.
Сделан вывод о результативности и эффективности применения статистических
методик к оценке лингвистических данных исторических корпусов, которые сегодня
в силу объективных причин существенно уступают современным по объему,
и о необходимости расширения материалов для анализа за счет привлечения данных
всего корпуса славянских письменных памятников «Манускрипт» и всего списка
словоформ (лемм) анализируемой рукописи (подкорпуса).