Исследовательский проект посвящен разработке и апробации автоматизированной системы для классификации текстовых документов, ориентированной на использование формальных признаков. Основной акцент делается на анализе таких характеристик, как размеры полей, типы и размеры шрифтов, а также общей структуры документа (наличие заголовков, списков, таблиц). Система призвана обеспечить высокую точность категоризации разнообразных текстовых материалов, включая научные статьи, юридические документы, отчеты и другие. Будут разработаны алгоритмы извлечения и векторизации признаков, а также модели машинного обучения для их последующей классификации. Результаты могут найти применение в автоматизации документооборота, информационном поиске и организации больших текстовых корпусов.