28 янв. 2013 г.

Ура-ура, я на Хабре!

Вчера написал статью: «Решение MintEye CAPTCHA в 31 строку кода, даже не открывая картинку», сегодня - получил инвайт. Прошу любить и жаловать хабраюзера RolexStrider!

24 янв. 2013 г.

MintEye CAPTCHA - свежО, занятно, но...

Вот эти ребята решили, что придумали идеальную капчу. И даже пытаются ее продавать. Типа супер-мега-ноу-хау.

Но бравые кул-хакеры таки ее решили в 23 строки кода на Python!

Это шедеврально! Всем, кто интересуется данной темой - читать обязательно, хотя бы для расширения кругозора. Особенно про Оператор Собеля. Хотя тут, наверное, лучше бы подошел оператор Кэнни, и в этом случае вместо хитровыделанного подсчета суммы длин границ я бы, пожалуй, тупо посчитал бы количество белых пикселей. Впрочем это уже детали. А за идею с корреляцией длины границ со «скрученностью» изображения автору - честь, хвала, респект и уважуха!

«Капча России» - опоздал...

Свято место пусто не бывает... Впрочем, мое решение всяко более изящно, но... победителей не судят.

Красивая история от Криса Касперски

«В далеких шестидесятых, когда компьютеры были большими, а 20-мегабайтовые винчестеры напоминали собой стиральные машины, родилась одна из красивейших легенд о зеленом инопланетном существе, прилетевшим со звезд и записавшим всю Британскую энциклопедию на тонкий металлический стержень нежно-серебристого цвета, который существо и увезло с собой.

Сегодня, когда габариты 100 Гб жестких дисков сократились до размеров сигаретной пачки, такая плотность записи информации уже не кажется удивительной и даже вызывает улыбку. Но! Все дело в том, что инопланетное существо обладало технологией записи бесконечного количества информации на бесконечно крошечном отрезке и Британская энциклопедия была выбрала лишь для примера. С тем же успехом инопланетянин мог скопировать содержимое всех серверов Интернета, нанеся на свой металлический стержень всего одну-единственную риску.

Не верите? А зря! Переводим Британскую энциклопедию в цифровую форму, получая огромное-преогромное число. Затем - ставим впереди него запятую, преобразуя записываемую информацию в длиннющую десятичную дробь. Теперь только остается найти два числа A и B, таких, что результат деления A и B как раз и будет равен данному числу с точностью до последнего знака. Запись этих чисел на металлических стержень осуществляется нанесением риски, делящей последний на два отрезка с длинами, кратными величинам А и B соответственно. Для считывания информации достаточно всего лишь измерить длины отрезков А и B, а затем - поделить один на другой. Первый десяток чисел после запятой будет более или менее точен, ну а потом...

Потом жестокая практика опустит абстрактную теорию по самые помидоры, окончательно похоронив последнюю под толстым слоем информационного мусора, возникающего из невозможности точного определения геометрических размеров объектов реального мира.»

Крис Касперски

23 янв. 2013 г.

Apache + mod_proxy + Tomcat/Jetty

http://stackoverflow.com/questions/6070335/retain-original-request-url-on-mod-proxy-redirect

17 янв. 2013 г.

Project OCR - 中国邮政速递物流

Сегодня сделал распознавалку капчи "Почты Китая, которую китайцы приделали к сервису трекинга посылок.

Работает практически безошибочно - по-крайней мере, на моем тестовом наборе из почти тысячи образцов распознаватель не ошибся ни разу.

Вообще-то после капчи с sts.gov.ua это даже отдаленно было нельзя назвать сложной задачей: вся логика очистки от шума и разделения на отдельные символы уложилась менее чем в 100 строк кода на Java.

Кстати, была как-то на хабре статья: "Сервис трекинга Почты России уподобился китайскому коллеге". Может за русских попробовать взяться? ;)

16 янв. 2013 г.

Project OCR - Начало (Teaser)

Итак, однажды жарким летом 2012 года… О, это весьма увлекательная история, которую, поверьте мне, я обязательно расскажу вам на страницах этого блога. Немного позже. А пока - ближе к делу!

Да, это действительно существует, и весьма эффективно работает.

Да, объем исходного кода на Java - порядка 800 строк. Для обеих вариантов.

Нет, никаких библиотек, кроме тех, что включены в JDK 7, не используются.

Нет, и никакой скрытой информации о тексте на картинке в изображениях не содержится.

Нет, никаких библиотек, кроме тех, что включены в JDK 7, не используются.

Нет, и нейросети тоже тут не задействованы.

Нет, и полмиллиона китайцев тоже нет.

ДА!, jar-файл, в котором реализована вся логика распознавания, имеет размер 14996 байт.. Плюс пара файлов с данными - 61560 и 3129 байт.

Да, существует NativeAPI - версия (пока только для sts.gov.ua). Но она не продается.

Бета-версия веб-сервиса и (частично) технические подробности - скоро на экранах страны.