Topic Categorization Based on Collectives of TermWeighting Methods for Natural Language Call Routing
Скачать файл:
URI (для ссылок/цитирований):
https://elib.sfu-kras.ru/handle/2311/20248Автор:
Sergienko, Roman B.
Shan, Muhammad
Minker, Wolfgang
Semenkin, Eugene S.
Сергиенко, Роман Б.
Шан, Мухаммад
Минкер, Вольфганг
Семенкин, Евгений С.
Дата:
2016-06Аннотация:
Natural language call routing is an important data analysis problem which can be applied in different do-
mains including airspace industry. This paper presents the investigation of collectives of term weighting
methods for natural language call routing based on text classification. The main idea is that collectives
of different term weighting methods can provide classification effectiveness improvement with the same
classification algorithm. Seven different unsupervised and supervised term weighting methods were tested
and compared with each other for classification with k-NN. After that different combinations of term
weighting methods were formed as collectives. Two approaches for the handling of the collectives were
considered: the meta-classifier based on the rule induction and the majority vote procedure. The nu-
merical experiments have shown that the best result is provided with the vote of all seven different term
weighting methods. This combination provides a significant increasing of classification effectiveness in
comparison with the most effective term weighting methods Маршрутизация вызовов на естественном языке – актуальная задача анализа данных, которая
может найти применение в различных областях, включая аэрокосмическую индустрию. В ста-
тье представлено исследование коллективов методов взвешивания термов для машрутизации
вызовов на естественном языке на основе классификации текста. Основная идея предлагаемого
подхода заключается в том, что коллективы методов взвешивания термов могу обеспечить по-
вышение эффективности классификации при использовании одного и того же алгоритма класси-
фикации. Семь различных методов взвешивания термов были протестированы и сравнены между
собой с использованием метода ближайших соседей в качестве алгоритма классификации. После
этого были сформированы различные комбинации методов взвешивания термов для дальнейшего
использования в коллективных решающих правилах. Рассмотрено два подхода для формирования
коллективных решающих правил: мета-классификатор на основе индукции правил и голосование
простым большинством. Численные исследования показали, что наилучший результат дости-
гается при включении всех семи рассматриваемых методов взвешивания термов в коллективное
решающее правило на основе голосования простым большинством. Такая комбинация обеспечи-
вает статистически значимое улучшение эффективности классификации в сравнении с лучшим
по эффективности отедльным методом взвешивания термов