Дискретный подход при классификации текстов
View/ Open:
URI (for links/citations):
https://elib.sfu-kras.ru/handle/2311/72501Author:
Понамарев, Илья Андреевич
Scientific Advisor:
Олейников, Борис Васильевич
Corporate Contributor:
Институт математики и фундаментальной информатики
Базовая кафедра вычислительных и информационных технологий
Date:
2017Bibliographic Citation:
Понамарев, Илья Андреевич. Дискретный подход при классификации текстов [Электронный ресурс] : выпускная квалификационная работа бакалавра : 02.03.01 / И. А. Понамарев. — Красноярск : СФУ, 2017.Graduate Speciality:
02.03.01 Математика и компьютерные наукиAcademic Degree or Qualification:
БакалаврAbstract:
Объект работы – текстовый документ с математическими формулами.
Цели:
- применение известных методов классификации документов;
- проверка влияния формул на качество классификации;
- опробирование метода перевода звукового сигнала в текст для преобразования математических формул;
- опробирование способа перевода текстового документа в формат ТеХ
- сравнение качества классификации при применении каждого из методов
В результате применения методов преобразования формул, которые стоит рассматривать в качестве предобработки было замечено увеличение количества классифицируемых текстов, содержащих математические формулы. Более эффективным показал себя метод Speech-To-Text, который имел более качественные результаты классификации по сравнению с способом перевода текстового документа в ТеХ формат.
В итоге предложенные методы преобразования формул могут дополнить арсенал уже существующих в дискретной модели методов классификации.