Появился алгоритм машинного обучения, который обходит текстовую капчу проще, быстрее и точнее предыдущих методов: он распознаёт её за 0,05 секунд с помощью настольного ПК. Разработали алгоритм учёные из Великобритании и Китая, используя GAN — генеративно-состязательную сеть.
Почему это опасно?
Обычные алгоритмы машинного обучения требуют миллионов образцов начальных данных для обучения. Ботов, собирающих изображения капч, легко распознать и заблокировать. Сам процесс обучения требователен к ресурсам.
Для нового алгоритма такого количества данных не требуется, а значит, злоумышленнику не нужно их собирать. Нейросеть нетребовательна к вычислительным ресурсам и легко тренируется — это снижает затраты на подготовку атаки.
Исследователи заявили, что их метод со 100-процентной точностью распознал капчи на таких сайтах, как Megaupload, Blizzard и Authorize.NET. На Amazon, PayPal, Yahoo и других ресурсах точность оказалась меньше, но тоже высокой.
Как защититься от угрозы?
Исследователи рекомендуют владельцам веб-сайтов применять альтернативные способы обнаружения ботов. Например, анализировать шаблоны поведения пользователей и местоположение устройств или использовать биометрические данные.
Как работает алгоритм?
Учёные из английского Ланкастерского и китайских Северо-Западного и Пекинского университетов использовали генеративно-состязательную сеть — GAN (Generative Adversarial Network). Этот класс ИИ-алгоритмов эффективен в сценариях, где нет большого количества обучающих данных.
GAN построен на основе двух конкурирующих нейронных сетей. Одна — генеративная — генерирует образцы, смешивая несколько исходных, а другая — дискриминативная — старается расшифровать их. Обе сети стремятся выиграть друг у друга. В процессе совместного конкурентного обучения они значительно улучшают качество своей работы без необходимости использования большого количества начальных данных.
Исследователи собрали всего 500 образцов от 11 сервисов капчи, используемых на 32 сайтах из топ-50 в рейтинге Alexa. На сбор разработчики потратили всего 2 часа. В процессе же обучения было «синтезировано» более 200 000 тысяч капч.
В октябре 2017 года компания Vicarious использовала рекурсивную кортикальную сеть (RCN, Recursive Cortical Network), имитирующую поведение человека, для обхода reCAPTCHA. Тогда же группа исследователей из Мэрилендского университета разработала алгоритм unCAPTCHA, способный обмануть reCAPTCHA с вероятностью 85 %.
Источник: