Настоящий проект ставит своей целью компьютерное определение качественных и количественных характеристик арабографических письменных текстов и их пропорционального соотношения  на основе оптического распознавания их компонентов. На основе современных методов интеллектуального анализа данных (Data Mining) предлагается разработать программную систему, позволяющую автоматически группировать тексты по схожим признакам. В качестве таких признаков могут выступать стиль письма, почерк, цветовая палитра, пропорции текста, использование специальных символов и др. Проект также ставит своей целью определение принципов распознавания рукописного текста, выделение основных маркеров его вертикальной и линейной сегментации.

Библиотеки и научные центры Санкт-Петербурга располагают значительными рукописными фондами, так, в Восточном отделе библиотеки им. Горького СПбГУ находится более 900 арабских рукописей. Наличие такого большого банка данных делает возможным использование современных средств интеллектуального анализа данных (Data Mining), на основе которых могут быть автоматически получены объективные количественные и качественные характеристики арабографических текстов, такие как стиль письма, дата написания, авторство. Также может быть произведен автоматический анализ всего банка текстовых данных для выявления полезной аналитической информации. Например, могут быть обнаружены взаимосвязи между отдельными группами текстов, проанализирована эволюция какого-либо из стилей, построена общая тенденция развития языка.

CoA_Medium_color_whitebgThe_Faculty_of_Mathematics_and_Mechanics_LogoVF-logo-160-125