Есть ли "роботы", которые могут прочитать "капчу", и что мешает создать такую программу?

Технологии

Mikhail Suvorov · 6 нояб 2015 · 4,5 K

пользователь TheQuestion. · 12 нояб 2015

Сначала очень упрощенно о том, как вообще работают системы распознавания готовых текстов (распознание текстов в процессе написания -- другая задача).

Текст делится на отдельные символы. Каждый отдельный символ приводится к масштабу символов хранящихся в базе данных и сравниваются по точкам, минимум отличий по точкам -- символ считается считанным (вообще там хитрая сложная система -- изображение символа делится на участки и для каждого участка огромного множества образцов считается вероятность того, что точка черная).

На небольшом фрагменте текста программа пытается сравнивать полученный текст со словарями и уточнять результаты, потом обрабатывать текст полностью получив уточнения шаблонов.

Если качество печати низкое, то отличий от шаблонов будет слишком много. В этом случае программа пытается распознать структуру символа и сравнить её со структурами описанными в базе. Структура описывается как граф (объекты представляются как вершины, или узлы графа, а связи — как дуги, или рёбра). wikipedia.org)

Также буквы можно представлять как набор признаков -- "а" -- кружок+линия справа+линия сверху. Это очень универсальный способ, но требует много ресурсов.

Из того, как работают эти способы мне кажется ясным, что текст испорченный специально прочитать машинно почти невозможно. Если бы это был большой текст с мусором, то мусор можно было бы попытаться отсеять с помощью статистики, есть разработанные теории отделения сигнала от шума. Но у нас только несколько испорченных букв. Кроме того эти несколько букв в классической капче не связаны друг с другом, не являются словом, поэтому поиск с шаблоном по словарю тут тоже не помогает. Кроме того капча не даёт попыток её угадать, выводится каждый раз заново, мусор добавляется разный, после нескольких попыток блокирует -- не даёт собирать статистику.

Да, как написали другие авторы, некоторые капчи всё-таки взламывают. Но эти взломы основываются на недочётах реализации капчи. Примеры: intsystem.org intsystem.org Ошибки реализации взломанных систем очевидны. Одинаковый мусор, одинаковый текст и тому подобное.

Также рекомендую почитать про ReCAPTCHA wikipedia.org Это интересная штука. Только вчера я думал о том, как много книг (на примере вопроса здесь по истории астрономии), очень интересных книг, остаются неоцифрованными, а предлагаются к чтению в формате картинок. Оцифровка -- очень трудный процесс, требует много ресурсов и человеческого участия. Гугл придумал как подключить к этому людей не сильно их обременяя ))

ps Кстати, вот небольшой текст по распознаванию на хабрахабр habrahabr.ru

Юрий Пирогов

12 нояб 2015

Я вот почитал чего: habrahabr.ru и как бы понятно, что человек делал. Но я попробовал (чисто для себя)... Читать дальше

Виталий

https://catcut.net/product/44678 · 21 мар 2023

На счёт того: что мешает создать ( ответ) : ничего, а вот если бы я знал о существовании такого бота ( поверьте) : с этой тайной я бы и умер, оставив детям и внукам в наследство😉

Vassili Bagrov

— · 18 июл 2015

DeathByCaptcha, De-Captcher и многие другие. Обычно подобные сервисы дают доступ к своему API, что обычно многим нужно. Сам пользуюсь первым и крайне доволен. Дёшево и эффективно.

Георгий Степико

19 июл 2015

А это именно боты или стопицот индусов, которые получают Ваши капчи по тому самому API, набирают капчи вручную? Я... Читать дальше

Dmitry Sorochenkov

Software engineer · 12 нояб 2015

Такие "роботы" существуют, что собственно и привело к усложнению "капч". С другой стороны, есть сервисы предоставляющие услуги настоящих людей по разгадыванию "капч".

Юрий Пирогов

12 нояб 2015

Где код такого "робота" можно посмотреть? Пусть, для "расшифровывания" самой простой капчи - картинки, допустим, с... Читать дальше