Download the PHP package chipslays/cracker without Composer
On this page you can find all versions of the php package chipslays/cracker. It is possible to download/install these versions without Composer. Possible dependencies are resolved automatically.
Informations about the package cracker
🍪 Cracker
Автоматическое распознавание капчи в игровом сервисе Steam.
Проблема
При написании библиотеки Steam Client, я сталкивался с вводом капчи. В какой-то момент постоянный ввод капчи стал надоедать, поэтому было принято решение сделать распознование капчи.
Решение
Для распознования используется Tesseract OCR + отдельно обученная модель (языковой файл) на основе 5000 разных капч.
Обучение модели сделано на основе этого репозитория.
Процесс распознования следующий: каждый раз ссылка на картинку с капчей генерирует один и тот же текст в течении некоторого времени, а потом умирает. Но текст на картинке всегда будет один и тот же, меняется только хаотичность букв и шума. Поэтому на основе этого, задается количество итераций распознования, например 10 итераций, после окончания цикла, выбираются те символы которые встречались чаще всего.
Зависимости
Imagick
Tesseract OCR
Trained model (for better recognition)
Установка
Использование
Капча:
Как видно из результата, в sortedChars
все 3 итерации распознали одни и те же символы.
Время выполнение (ключ time
) заняло 0.9 сек, чем больше итераций, тем больше времени занимает распознование.
В примере указана обученная модель, ей достаточно 1 итерации для корректного распознования, но так как изображение модифицируется, в некоторых случаях бывают артефакты, когда буква залита или наоборот ее не видно, либо видно только маленький кусок, в таких случаях конечно есть погрешности.
Внимание! Этот репозиторий не содержит обученную модель, поэтому вам необходимо самостоятельно собрать данные и обучить ее. Я лишь показал, что это возможно сделать. Информация по обучению находится здесь.
Можно попробовать использовать стандартную модель eng
:
Для модели eng
нужно больше итераций и времени, но качество распознавания в любом случае оставляет желать лучшего.
TODO
- Рефакторинг кода
- Возможность модифицировать изображение
All versions of cracker with dependencies
thiagoalessio/tesseract_ocr Version ^2.9
guzzlehttp/guzzle Version 7.0