Elmord's Magic Valley

Software, lingüística e rock'n'roll. Às vezes em Português, sometimes in English.

Spam, spam, spam

2013-11-10 00:26 -0200. Tags: about, em-portugues

Em comemoração ao 150-ésimo post do blog, apresento-vos uma análise do comportamento dos spambots que me visitam tão assiduamente por aqui.

[Sir Spamalot]
Ilustração by Hélio encontrada em um caderno

Desde o dia 15/04/2012 até ontem (572 dias), os logs do blog registram 2051 tentativas de submissão de comentário. (Os logs têm um furo de cerca de duas semanas nesse período por um pequeno descuido com os arquivos.) Destas, 386 foram comentários bem-sucedidos (contendo a "resposta"). As outras 1665 são tentativas mal-sucedidas, das quais a grande maioria são spambots. (Algumas são pessoas que esqueceram de pôr a resposta ao submeter.) Isso dá uma média de 2.91 tentativas de spam por dia. Na prática, a quantidade de spam diário atualmente é maior que isso, pois a quantidade foi aumentando com o tempo:

# cat htlog-* | grep 'array ('  | grep -v "'cmmanswer' => 'XLII'"  |
  cut -d- -f1,2 | sort | uniq -c | sort -k2
      4 2012-04
      4 2012-05
     10 2012-06
      8 2012-07
      7 2012-08
     14 2012-09
    100 2012-10
     41 2012-11
     36 2012-12
     79 2013-01
     82 2013-02
     70 2013-03
     92 2013-04
     90 2013-05
    147 2013-06
    156 2013-07
    208 2013-08
    180 2013-09
    300 2013-10
     37 2013-11

2013-11 está menor do que o esperado porque estamos no começo do mês. Curiosamente, outubro de ambos os anos apresentam picos. Spam season?

Os "países" mais spamosos (baseado na saída do geoiplookup) são:

306     RU, Russian Federation
262     PL, Poland
216     UA, Ukraine
181     IP Address not found
157     US, United States
120     CA, Canada
99      CN, China
83      FR, France
81      LU, Luxembourg
52      A1, Anonymous Proxy
24      BR, Brazil
16      RO, Romania
15      NL, Netherlands
12      BE, Belgium

O conteúdo dos spams é que apresenta algumas surpresas. Por exemplo, o camarada 46.21.144.*, da Holanda, submeteu 14 comentários similares a esse:

Nome: 'lubgevvza'
Site: 'http://yngezlobxfcn.com/'
Resposta: 'Ac7NmB'
Texto: 'URFM5N <a href=\\"http://bpsgeffyfmzo.com/\\">bpsgeffyfmzo</a>, [url=http://gurqntepjlik.com/]gurqntepjlik[/url], [link=http://fdqlcjpcplfo.com/]fdqlcjpcplfo[/link], http://axymrrxyrgif.com/'

Os domínios mencionados não existem, e os acessos ocorrem em abril do ano passado e depois só em janeiro e fevereiro deste ano de novo.

Outra classe de spam são os comentários do tipo "whoa, que legal o teu texto, clique aqui":

Nome: 'strona główna'
Site: 'flazsdwtu@gmail.com'
Resposta: 'http://ths.pl/product-pol-5745-CERSANIT-Wanna-asymetryczna-CALABRIA-170-lewa-.html'
Texto: 'Throughout this great scheme of things you actually secure an A+ for hard work. Exactly where you lost everybody was first in your facts. You know, it is said, details make or break the argument.. And it could not be more correct here. Having said that, let me tell you just what did give good results. Your authoring is definitely extremely convincing and this is possibly the reason why I am taking the effort to opine. I do not make it a regular habit of doing that. 2nd, although I can certainly notice a leaps in logic you come up with, I am definitely not confident of just how you appear to unite your points which inturn make the final result. For right now I shall yield to your issue but wish in the future you actually link the dots much better. <a href=\\"http://ths.pl/product-pol-5745-CERSANIT-Wanna-asymetryczna-CALABRIA-170-lewa-.html\\" title=\\"strona główna\\">strona główna</a>'

(No post sobre o IPA.)

Ou:

Nome: 'discount homecoming dresses uk'
Site: 'uizckrptegw@gmail.com'
Resposta: 'http://eyeuser.com/blogs/viewstory/2127697'
Texto: 'Adult web Step into this I was suggested this web site by my cousin. I am not sure whether this post is written by him as nobody else know such detailed about my trouble. You’re wonderful! Thanks! your article about Adult web Step into this Best Regards Veronica Lawrence discount homecoming dresses uk http://eyeuser.com/blogs/viewstory/2127697'

(No post sobre prevérbios.)

Outros são pessoas se oferecendo para escrever por mim:

Nome: 'supra shoes'
Site: 'cttmmddww@gmail.com'
Resposta: 'http://www.suprashoes-skytop.com'
Texto: 'Please let me know if you’re looking for a article author for your blog. You have some really good articles and I think I would be a good asset. If you ever want to take some of the load off, I’d really like to write some material for your blog in exchange for a link back to mine. Please shoot me an e-mail if interested. Thank you!'

O mais legal de todos era um que continha uma conversa altamente filosófica sobre a Europa na Idade Moderna com links aleatórios no meio, mas não consegui mais encontrar.

Outra surpresa que eu tive agora é que das 1665 tentativas, 706 estão submetendo o formulário incorretamente, e não teriam sucesso mesmo que não houvesse qualquer mecanismo de antispam. O formulário para submissão de comentários do blog começa com:

<FORM ACTION='#cmmstatus' METHOD='POST'>

Aparentemente um bocado de bots descarta a query string (?entry=...) da URL do post ao submeter, enquanto o correto é submeter usando a mesma query string se nenhuma for especificada na ação (e o método não for GET; nunca testei o que acontece se o método é GET...). O post sobre o IPA parece ser particularmente atrativo a spambots, com 261 tentativas, seguido do post sobre múltiplos keymaps com o XKB e o sobre a performance de bounds checking.

Algumas das palavras mais freqüentes no texto dos spams, eliminando palavras funcionais (e.g., is, of, the, etc.):

    707 online
    547 asia
    537 shoes
    521 million
    429 seattle
    427 kings
    424 blog
    415 nba
    378 ranadive
    369 button
    312 sacramento
    311 nike
    276 buttons
    273 startup
    257 deal
    248 franchise
    244 claims

Um bocado dessas palavras (shoes, nba, ranadive, nike, kings) provêm de comentários gigantes com notícias sobre times de basquete com links perdidos para vendas de sapatos.

Comentários / Comments (1)

Kobe Bryant, 2013-11-10 01:56:13 -0200 #

Antes de qualquer coisa, eu queria dizer que o autor do desenho é um gênio sem tirar nem por. Depois de qualquer coisa, os comentários do "nossa, que coisa boa" são muito a la gerador de lero-lero. Post-scriptum de tudo, os primeiros colocados no ranking de spam não são nenhuma surpresa, e a China só não tá melhor colocada porque o governo censura tudo.


Deixe um comentário / Leave a comment

Main menu

Posts recentes

Comentários recentes

Tags

em-portugues (213) comp (138) prog (68) in-english (51) life (47) unix (35) pldesign (35) lang (32) random (28) about (27) mind (25) lisp (23) mundane (22) fenius (20) web (18) ramble (17) img (13) rant (12) hel (12) privacy (10) scheme (10) freedom (8) bash (7) copyright (7) music (7) academia (7) lash (7) esperanto (7) home (6) mestrado (6) shell (6) conlang (5) emacs (5) misc (5) latex (4) editor (4) book (4) php (4) worldly (4) politics (4) android (4) etymology (4) wrong (3) security (3) tour-de-scheme (3) kbd (3) c (3) film (3) network (3) cook (2) poem (2) physics (2) wm (2) treta (2) philosophy (2) comic (2) lows (2) llvm (2) perl (1) en-esperanto (1) audio (1) german (1) kindle (1) old-chinese (1) pointless (1) translation (1)

Elsewhere

Quod vide


Copyright © 2010-2020 Vítor De Araújo
O conteúdo deste blog, a menos que de outra forma especificado, pode ser utilizado segundo os termos da licença Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International.

Powered by Blognir.