Лично я для решения этой задачи использовал комбинацию моделей сегментации и классификации. Сперва нужно обучить одну модель различать (сегментировать), в каких областях изображения есть буквы и другие символы, а в каких - нет. Это делается довольно просто с помощью таких сетей, как UNet. Далее вырезаете все сегментированные области и делите их на отдельные изображения. При этом, всем им нужно присвоить лейблы, т.е. указать для каждого сегмента, что за слово или символ на нём изображено. Далее в ход идёт модель классификации. Обучаете её на полученных картинках и задача решена.