Спам с пословицами

Как и многих других владельцев блогов, меня регулярно донимают спамеры, гадящие в комментариях. Большинство пытается маскироваться под читателей и пишут что-то вроде "Замечательно изложено, пишите больше подобных статей!", а где-нибудь внутри расположена скрытая ссылка на рекламируемый ресурс. Наличие подобных комментариев не только загаживает комментарии, но и отрицательно сказывается на рейтинге блога - поисковики отслеживают источники поискового спама и принимают соответствующие меры.

Поскольку я получаю уведомления о комментариях на почту, а почту читаю практически в реальном времени, подобные комментарии (и пользователи, их оставившие) живут максимум несколько часов. Но давить каждого спамера вручную все-таки некомфортно, поэтому я задумался об автоматизации процедуры - тем более, что противник тоже явно не руками работает.

Установка капчи на регистрацию нового пользователя несколько улучшила положение, но ненамного. Перебрав несколько антиспамовых модулей, я остановился на spambot, который при регистрации нового пользователя сверяется с сервисом Stop Forum Spam, и при выявлении спамера сразу его блокирует. Кроме того, упростилась процедура очистки результатов жизнедеятельности спамеров: одним движением удаляется и пользователь, и все его комментарии, а заодно и отсылается уведомление на тот же Stop Forum Spam.

После того, как я установил себе модуль spambot, спамеры практически перестали меня беспокоить. Но один особо настойчивый продолжает долбиться, обходя все блоки. Мне уже жутко интересно, что это за явление, поэтому я и пишу про него в надежде, что кто-нибудь когда-нибудь мне расскажет про него поподробнее.

Итак, некто оставляет комментарии с пословицей, в которую "запрятано" от одной до трех скрытых ссылок. Пословицы самые разные, от крылатых до таких, которые я видел впервые - база пословиц у него огромна, он практически не повторяется:

"Хочешь жить - умей вертеться!"

"И среди дураков находится умный: тот, кто молчит. "

"Кандалы остаются кандалами, даже если они позолочены."

"Когда нет хлеба, едят и желуди."

Комментарии с пословицами и скрытыми ссылкамиЛогично предположив, что спамер работает по площадям, я полез в Гугл и нашел множество других жертв этого спамера, у которых в комментариях висели такие же пословицы со ссылками. Ими оказались блоги, форумы и прочие платформы на базе Drupal - причем преимущественно русскоязычные.

Собственно, встал вопрос, как это фильтровать. Вводить премодерацию любого рода я не хочу принципиально: любой пользователь считается благонамеренным, пока он не доказал обратного. Spambot может распознавать спамеров по email-адресу и по IP-адресу, но "знаток пословиц" заводит ящик на mail.ru, использует его до тех пор, пока он не наберет достаточно негативной статистики для блокировки, после чего выбрасывает и заводит новый. Аналогично он поступает и с IP-адресами: берет какого-нибудь левого провайдера с динамическим IP (преимущественно из стран бывшего СССР), поочередно "отрабатывает" адреса из диапазона, потом меняет провайдера. Иногда вместе со страной. Не знаю, как технически это делается, но, подозреваю, что это требует изрядного количества ручной работы

При этом почтовые адреса выглядят вполне пристойно, например: lera-bеsperstova@mail.ru, еmelyanchikova-katerina@mail.ru, dоnin_kondrat@mail.ru, nikоlaj_zyatev@mail.ru и т.п.

Единственная имеющаяся на данный момент зацепка - это имена, под которыми пользователь регистрируется. Они генерируются случайным образом и состоят из набора цифр, букв, потом опять цифр: 162sentitarsarh1574, 975liodiabige291, 875woostiysanpio1513 и т.п. Даже располагая примитивным штатным фильтром Друпала, можно создать правило "блокировать пользователя, чье имя начинается на цифру и длиннее десяти знаков" - все подобные имена в этот шаблон укладываются, при этом не страдает ни один легитимный пользователь.

Но это будет работать только до тех пор, пока наш "знаток пословиц" не изменит механизм генерации имен. Так что следующий ход за ним :)

Комментарии

товарищ по несчастью :)
меня этот тоже долбит, тоже поставил спамбот, и он поначалу даже помогал более-менее.
А в какой-то момент этот спамер совсем пропал недели на 2-3, но вот сегодня смотрю - опять пословицы, сцуко.

Меня гораздо больше достаёт какой-то другой спаммер, на которого вообще ничего не действует - ни усиление опций спамбота, ни изменение и усложнение капчи, и циферок у него в именах нету. Создаёт он в моём форуме новые топики с большим текстом, обычно на турецком (!) языке, изредка на английском, с парой линков.

А не подскажешь, где выставляется штатный фильтр с условием по символам в имени? Хоть пословичника отрублю.

Изображение myx

Я верил, что я не одинок :)

Фильтр настраивается в "Правилах доступа" (обычно путь в URL такой: /admin/user/rules). Я вот такие правила сделал:

Удачи в обороне! :)

Влад, я не сталкивался ли ты с таким спамом в почте:
заголовок - обычно вопрос (надело платить штрафы? надоело работать на дядю? и т.п.)
в письме короткая фраза типа "решение тут", за ней ссылка (вполне открытая, не замаскированная),
а потом с абзаца идет ужасно странный бредотекст строк на пять, не имеющий смысла. текст выглядит, как будто собрали в кучу куски из разных предложений, каждый кусок по 4 слова. при этом стоят знаки препинания, внешне создающие иллюзию нормального текста. но в одном "предложении" может быть несколько не связанных по смыслу "отрезков" по 4 слова.

мне такая прелесть приходит регулярно на оба рабочих адреса, потому что они засвечены на сайте. гугл их исправно отправляет спам, а бат с корпоративным адресом всех входящие валит в одну кучу.

я не то чтобы спрашиваю, как с этим бороться. мне интересно ШОЭТОБЫЛО. если люди это регулярно рассылают, они же имеют какую-то отдачу? зачем они этот "текст" присобачивают???

и вообще интересно - неужели на спам еще кто-то настолько массово ведется, что спамеры тратят на это время и силы? (понятно, что все автоматизировано, но все равно)

Изображение myx

Бред генерируется специально для обмана фильтров, которые распознают спам при помощи частотного анализа слов, из которых состоит письмо. Он создает шум, на фоне которого теряется "полезный сигнал" - ключевые слова, являющиеся признаком спама.

У Гугла есть на вооружении фильтры другого рода, поэтому он такое успешно ловит.

А отдача, несомненно, имеется. Спам - чисто экономическое явление. Тем более, что себестоимость рассылки, выполненной профессионалами, настолько низка, что достаточно буквально нескольких откликов, чтобы спам окупился.

а обычный текст не создает необходимого "шума"?
просто мне кажется, что любой человек, способный прочесть более 4 слов подряд (и привыкший понимать, что он читает), реагирует на такую рассылку не просто нейтрально,а отрицательно. то есть если бы не было бреда, то я бы с мааалой долей вероятности могла ткнуть в ссылку. но имея дурацкую привычку читать, я прихожу в ужас и мгновенно удаляю.
или на таких спам в принципе не рассчитан?

еще у меня к тебе будет вопрос по бату (точнее, комплект вопросов, в том числе про спам), если у тебя найдется время в выходные.

Изображение myx

Обычный текст затратнее сгенерировать, поскольку этим должен человек заниматься. Бред должен быть уникальным, иначе антиспамовые роботы моментально начнут его узнавать, и львиная доля популяции спама будет вырезана на подлете.

Подозреваю, что такие, как ты, составляют меньшинство в целевой аудитории спамеров, поэтому в их системе ценностей это допустимая жертва :)

Обращайся, конечно. Я, правда, мало чего уже помню про Бат, но что вспомню - расскажу.