TU Wien | ZID | ZIDline 8 | Markierung von Spam-Mail
In Anbetracht des ständig steigenden Aufkommens von Spam-E-Mails stellt der ZID auf den zentralen Mailroutern für den eingehenden Mail-Verkehr ein Markierungsservice zur Verfügung.
Dieses Service erlaubt den Empfängern, Spam-Mails mit einer gewissen Wahrscheinlichkeit als solche zu erkennen und diese gegebenenfalls gesondert zu behandeln. Mit Hilfe von Filtermöglichkeiten des persönlich verwendeten Mailprogramms können z. B. entsprechend bewertete Nachrichten in einen separaten Ordner ablegt werden.
Dieses Service nimmt selbst keinerlei (Aus-)Filterung vor und verändert daher weder den eigentlichen Inhalt noch wird die Weiterleitung (von vermeintlich erkannten Spam-Mails) verhindert oder gestoppt. Lediglich die Markierungsinformation wird den Kontrolldaten der E-Mail hinzugefügt.
Man profitiert erst von diesem Service, wenn man im verwendeten Mailprogramm entsprechende Filter-Regeln definiert, die die markierten Nachrichten in irgendeiner Weise behandeln. Für diese Einstellungen kann bei aufrechtem Wartungsvertrag des Rechners das Systemunterstützungs-Service der Abt. Standardsoftware in Anspruch genommen werden.
Das Mailmarkierungsservice bewertet alle eingehenden E-Mails mit einem Score (quasi eine Art "Spam-Faktor"), fügt Header-Zeilen der Mail hinzu bzw. ändert diese, allerdings nur unter ganz speziellen Umständen.
Kern der verwendeten Software ist das Open Source Paket SpamAssassin. Dieses ermittelt den Score anhand einer umfangreichen und flexiblen (anpassbaren und regelmäßig aktualisierten) Regelbasis. Es werden nicht nur spezifische Anomalitäten im Mail-Header analysiert, sondern es wird auch im Mail-Body auf entsprechende spam-verdächtige Strukturen, Schlüsselwörter und Phrasen untersucht.
Weiters sind auch diverse DNS-basierte Überprüfungen inkludiert, unter anderem auch das kostenpflichtige und von der TU Wien abonnierte RBL+ (Realtime Black- hole List Plus) von mail-abuse.org, wo bekannt offene Mailrelay-Hosts, Dialup-Line-Adressbereiche sowie unzulässige Adressbereiche (Blackholes) registriert sind. Auch eine Reihe von kostenlos verfügbaren DNS-Listen wie dsbl.org, rfc-ignorant.org, dnsbl.njabl.org u.a. werden herangezogen, wo auch offene Proxy-Server, CGI-Scripts und sonstige notorische Spamquellen aufscheinen. Je nach Qualität und Zuverlässigkeit der Eintragungen wirken sich Vorkommnisse auf solchen Listen im Score-Wert unterschiedlich aus. Speziell Bewertungen, dass Mails von Dialup- bzw. DSL-Lines stammen, und solche aus jenen Listen, deren Eintragungsmodus nicht sonderlich vertrauenswürdig erscheint, wirken sich auf den Score-Wert geringfügiger aus.
Einen weiteren Ansatz enthält SpamAssassin in Form des so genannten Auto-Whitelist-Features, wo durch eine Automatik eine Datenbank mit positiven (also nicht als Spam klassifizierten) und negativen (spam-klassifizierten) Absenderadressen gepflegt wird und anhand deren der Score-Wert entsprechend korrigiert (erhöht oder reduziert) wird. Im Spam-Report taucht diese Information als "AWL: Auto-whitelist adjustment" auf. Diese Funktion reizt allerdings aufgrund des zentralen Einsatzes prinzipbedingt nicht das Optimum aus und kann so auch nicht mit für kleinere Benutzergruppen zuständigen Spam Assassin-Installationen konkurrieren.
Der Stern am Himmel der Spam-Bekämpfung ist derzeit ein statistisches Verfahren der Mailbewertung nach dem Bayes'schen Prinzip, das auch Bestandteil der Spam Assassin-Installation an der TU Wien ist. Hier sind theoretische Spam-Erkennungsraten von 99,7% bis in den Bereich von 99,9% bei entsprechend geringer False-Positive-Rate (fälschlicherweise als Spam erkannte Nicht- Spam-Mail). Dabei werden Wörter bzw. Teile davon entsprechend ihrer Häufigkeit in Spam- bzw. Nicht-Spam- Mails in einer Datenbank statistisch als "böse" und "gute" (gerne auch als "Spam" bzw. "Ham" bezeichnet) Wörter erfasst. Hier gilt, dass Wörter nicht unbedingt im klassischen Sinne zu verstehen sind, sondern auch unterschiedliche Schreibweisen in gesperrter Schrift, verfälschte Wörter, Akronyme oder Web-Adressen umfassen. Je nach Wahrscheinlichkeit der Zugehörigkeit der einzelnen Wörter einer neu ankommenden E-Mail, lässt sich eine Aussage ableiten, wie wahrscheinlich eine E-Mail nun als Spam oder Ham einzustufen ist. Dieses Verfahren ist hochadaptiv und ermöglicht die Erkennung von Spam-Mails auch durch nahezu beliebige von den Spam-Versendern erfundene Verfälschungen (die ihre natürlichen Grenzen in der Lesbarkeit durch den menschlichen Betrachter haben, wie etwa die Ziffer "0" statt des Buchstabens "O").
Bei all diesen technischen Errungenschaften zeichnet sich eine Tendenz ab, wie die Spam-Mails der Zukunft aussehen. Dem Bayes'schen Ansatz entfliehen lediglich Spam-Mails der Gestalt, die nur eine URL enthalten und ev. einen unverfänglichen Satz mit dem Thema des Treffens und Kennenlernens (ohne spezielle Begriffe) enthalten. Mangels eindeutig zuordenbarer Wörter ist hier eine eindeutige Bewertung schwer. Allerdings gehen Analysten davon aus, dass diese Art des Mail-Marketings aufgrund der schwachen Rücklaufquote bedingt durch die Art selbst kaum eine längerfristige Überlebenschance haben wird und somit zu keiner Bedeutung gelangen wird.
Trotz der nahezu idealen Eigenschaften des Bayes'schen Ansatzes, kann sich auch wie im Falle der obigen AWL-Funktion dieses Verfahren nicht zur Höchstform entfalten. Voraussetzung für den optimalen Einsatz wäre eine empfängerspezifische Optimierung durch Anlernen von Spam-Mails, was auf einem zentral gelegenen Mailgateway wie dem Mailrouter oder der Mailbastion prinzipbedingt nicht umsetzbar ist. Die idealen Voraussetzungen bringen hier nur jene Mailserver mit, die die entsprechenden Mailboxen enthalten (beispielsweise im Wesentlichen jene, die auf den Instituten ihren Dienst verrichten).
Obwohl die zentrale Spam-Markierung mit einigen prinzipbedingten Schwächen zu kämpfen hat, kann man dennoch von einer insgesamt recht guten Erkennungsrate ausgehen.
Absender | Empfänger | behandelt von |
nur außerhalb TUNET | *@*.tuwien.ac.at | Mailbastion |
überall | *@tuwien.ac.at | Incoming Mailrouter |
überall | *@student.tuwien.ac.at | Incoming Mailrouter |
Wird eine Mail als Spam erkannt, wird im Betreff zu Beginn die Phrase "[SPAM?]" eingefügt. Da in seltenen Fällen auch reguläre Mails derart klassifiziert werden, sollte man vermeiden, eine derart markierte Nachricht unmittelbar zu löschen. Weitere - detaillierte - Bewertungsdaten werden der Nachricht als Kontrollinformationen in den Headerzeilen hinzugefügt, abhängig vom ermittelten Score-Wert, wobei auf ein gewisses LIMIT, das auf den Wert 6,0 festgelegt ist, Bezug genommen wird. Der LIMIT-Wert dient primär dazu, Mails als Spam zu klassifizieren. Erreicht der Score den LIMIT-Wert, werden zusätzliche Informationen in die Nachricht aufgenommen.
Eine organisationsspezifische Markierung, die zum einen bedeutet, dass die Mail den Spamfilter durchlaufen hat und zum anderen ermöglicht, bei aufeinander folgenden Mailservern die mehrfache Filterung (mit ev. immer gleichem Ergebnis) zu verhindern.
X-Spam-Level: ****+++
Score-Wert in grafischer Notation: * entsprechen Einer, + Zehntel. In diesem Beispiel entspricht das dem Score von 4,3. Es werden nur positive Werte angezeigt, bei negativen Werten bleibt der Wert des Header-Eintrags leer.
X-Spam-Status: STATUS ; SCORE
Der hier angegebene Score-Wert ist der um den Faktor 10 multiplizierte Wert, den SpamAssassin eigentlich berechnet.
Score | Status |
< 60 | Low |
>= 60 < 100 | Medium |
>= 100 |
High
|
Subject: [SPAM?] ...
Eingefügter Subject-Prefix, um den Outlook (Express) Benutzern die Möglichkeit des Filterns zu geben.
X-Spam-Flag: YES
Man beachte, dass es kein Gegenstück in Form eines "NO" gibt. In einem solchen Fall wird die Headerzeile überhaupt nicht generiert.
X-Spam-Report: Score / LIMIT
z.B.:
X-Spam-Report: 12.9/6.0
* 2.9 -- BODY: Cable Converter
* 0.4 -- BODY: List
removal information
* 0.5 -- BODY: No such thing as a free lunch (1)
*
1.3 -- BODY: Money back guarantee
* 2.9 -- BODY: Bayesian classifier says
spam probability
is 90 to 99% [score: 0.9805]
* 1.5 -- Date: is 3 to 6
hours after Received: date
* 0.6 -- RBL: Received via a blacklisted relay,
see
http://www.mail-abuse.org/
[RBL check: found 77.46.78.200.rbl-plus.
mail-abuse.org.,
type: 127.1.0.2]
* 0.6 -- RBL: Received from dialup,
see http://www.mail-abuse.org/dul/
*
0.1 -- Message has X-MSMail-Priority, but no X-MimeOLE
* 2.1 -- Forged
mail pretending to be from MS Outlook
Dieser Report enthält alle Komponenten, aus denen sich die Score-Bewertung (additiv) zusammensetzt. Details dazu sind im Allgemeinen unter spamassassin.org/tests.html (umfangreiche Seite) nachzulesen.
Das eigentliche Filtern oder Löschen von Spam-Mails obliegt dem Empfänger. Dieser kann seine Mailsoftware, sei es am Mailserver des Instituts oder im Mailclient durch entsprechende Filterfunktionen darauf ausrichten.
Speziell Outlook (Express) Benutzer sind hier auf die Änderung im Subject-Header angewiesen, da sich dort nur ein Subject-Filter definieren lässt. Damit beschränkt sich dort auch die Spam-Erkennung auf den vorgegebenen LIMIT-Wert von 6,0. Die meisten anderen Produkte können sich flexibel am numerischen oder grafischen Score-Wert orientieren und damit selbst die Grenze festlegen, wonach eine Mail aus der Sicht verschwinden soll.
An dieser Stelle sei auf die Dokumentation der entsprechenden Mailprogramme hingewiesen bzw. auf das Systemunterstützungsservice der Abt. Standardsoftware oder auf einschlägige Foren im Usenet und WWW.
Einige Grundregeln sollte man beachten, wenn man in Zukunft mit Personen innerhalb und auch außerhalb der TU Wien kommuniziert (denn auch dort ist SpamAssassin zunehmend im Einsatz) und dabei verhindern möchte, dass die E-Mail beim Empfänger als Spam-Mail eingestuft wird, bzw. sicherstellt, dass die E-Mail im ordentlichen Zustand und für alle lesbar erscheint:
Mailrouter/-bastion Dokumentation (Anti-Spam-Maßnahmen): http://nic.tuwien.ac.at/services/mail/
Spam-Markierungsservice: http://nic.tuwien.ac.at/services/mail/spam-markierung/
SpamAssassin Software: http://spamassassin.org/
"A Plan for Spam". Vorgehensweisen gegen Spam:
http://www.paulgraham.com/spam.html
"Forever Spam!? Warum Spam nicht schon längst abgeschafft wurde". Alexander
Talos, Comment 03/1:
http://www.univie.ac.at/comment/03-1/031_2.html
Campussoftware Support (Mailprogramme, lokaler Spam Filter Lyris MailShield Desktop) und Systemunterstützung-Service des ZID Abt. Standardsoftware: http://sts.tuwien.ac.at/