moja preporuka je da pogledaš tekst
a plan for spam od paula grahama, i nastavak
http://www.paulgraham.com/better.html
govori o tzv Bayesian filterima koji odlučuju na osnovu *sadržaja* maila, a ne hedera i sličnih stvari..
za dalje proučavanje, pretraži pominjanje tog texta na
google:a+plan+for+spam. tu ima dosta dobrih praktičnih implementacija ovog (u osnovi teoriskog) članka..
ako želiš više heder-filter pristup prepoznavanju spama, pogledaj
http://spamassassin.org/ i opis njegovog algoritma (tj skup pravila i ključnih reči u telu i hederu poruke po kojima spam assassin prepoznaje spam)..