TU Wien | ZID | ZIDline 8 | Markierung von Spam-Mail

[SPAM?] . . .
Markierung von Spam-Mail

Johann Klasek

In Anbetracht des ständig steigenden Aufkommens von Spam-E-Mails stellt der ZID auf den zentralen Mailroutern für den eingehenden Mail-Verkehr ein Markierungsservice zur Verfügung.

Dieses Service erlaubt den Empfängern, Spam-Mails mit einer gewissen Wahrscheinlichkeit als solche zu erkennen und diese gegebenenfalls gesondert zu behandeln. Mit Hilfe von Filtermöglichkeiten des persönlich verwendeten Mailprogramms können z. B. entsprechend bewertete Nachrichten in einen separaten Ordner ablegt werden.

Dieses Service nimmt selbst keinerlei (Aus-)Filterung vor und verändert daher weder den eigentlichen Inhalt noch wird die Weiterleitung (von vermeintlich erkannten Spam-Mails) verhindert oder gestoppt. Lediglich die Markierungsinformation wird den Kontrolldaten der E-Mail hinzugefügt.

Wie wird das Service aktiviert?

Die Markierung der E-Mails in Form einer numerischen Bewertung und gegebenenfalls Auszeichnung der Betreffzeile erfolgt automatisch und erfordert keinerlei Anmeldung oder Freischaltung.

Man profitiert erst von diesem Service, wenn man im verwendeten Mailprogramm entsprechende Filter-Regeln definiert, die die markierten Nachrichten in irgendeiner Weise behandeln. Für diese Einstellungen kann bei aufrechtem Wartungsvertrag des Rechners das Systemunterstützungs-Service der Abt. Standardsoftware in Anspruch genommen werden.

Funktionsweise

Das Mailmarkierungsservice bewertet alle eingehenden E-Mails mit einem Score (quasi eine Art "Spam-Faktor"), fügt Header-Zeilen der Mail hinzu bzw. ändert diese, allerdings nur unter ganz speziellen Umständen.

Kern der verwendeten Software ist das Open Source Paket SpamAssassin. Dieses ermittelt den Score anhand einer umfangreichen und flexiblen (anpassbaren und regelmäßig aktualisierten) Regelbasis. Es werden nicht nur spezifische Anomalitäten im Mail-Header analysiert, sondern es wird auch im Mail-Body auf entsprechende spam-verdächtige Strukturen, Schlüsselwörter und Phrasen untersucht.

Weiters sind auch diverse DNS-basierte Überprüfungen inkludiert, unter anderem auch das kostenpflichtige und von der TU Wien abonnierte RBL+ (Realtime Black- hole List Plus) von mail-abuse.org, wo bekannt offene Mailrelay-Hosts, Dialup-Line-Adressbereiche sowie unzulässige Adressbereiche (Blackholes) registriert sind. Auch eine Reihe von kostenlos verfügbaren DNS-Listen wie dsbl.org, rfc-ignorant.org, dnsbl.njabl.org u.a. werden herangezogen, wo auch offene Proxy-Server, CGI-Scripts und sonstige notorische Spamquellen aufscheinen. Je nach Qualität und Zuverlässigkeit der Eintragungen wirken sich Vorkommnisse auf solchen Listen im Score-Wert unterschiedlich aus. Speziell Bewertungen, dass Mails von Dialup- bzw. DSL-Lines stammen, und solche aus jenen Listen, deren Eintragungsmodus nicht sonderlich vertrauenswürdig erscheint, wirken sich auf den Score-Wert geringfügiger aus.

Einen weiteren Ansatz enthält SpamAssassin in Form des so genannten Auto-Whitelist-Features, wo durch eine Automatik eine Datenbank mit positiven (also nicht als Spam klassifizierten) und negativen (spam-klassifizierten) Absenderadressen gepflegt wird und anhand deren der Score-Wert entsprechend korrigiert (erhöht oder reduziert) wird. Im Spam-Report taucht diese Information als "AWL: Auto-whitelist adjustment" auf. Diese Funktion reizt allerdings aufgrund des zentralen Einsatzes prinzipbedingt nicht das Optimum aus und kann so auch nicht mit für kleinere Benutzergruppen zuständigen Spam Assassin-Installationen konkurrieren.

Der Stern am Himmel der Spam-Bekämpfung ist derzeit ein statistisches Verfahren der Mailbewertung nach dem Bayes'schen Prinzip, das auch Bestandteil der Spam Assassin-Installation an der TU Wien ist. Hier sind theoretische Spam-Erkennungsraten von 99,7% bis in den Bereich von 99,9% bei entsprechend geringer False-Positive-Rate (fälschlicherweise als Spam erkannte Nicht- Spam-Mail). Dabei werden Wörter bzw. Teile davon entsprechend ihrer Häufigkeit in Spam- bzw. Nicht-Spam- Mails in einer Datenbank statistisch als "böse" und "gute" (gerne auch als "Spam" bzw. "Ham" bezeichnet) Wörter erfasst. Hier gilt, dass Wörter nicht unbedingt im klassischen Sinne zu verstehen sind, sondern auch unterschiedliche Schreibweisen in gesperrter Schrift, verfälschte Wörter, Akronyme oder Web-Adressen umfassen. Je nach Wahrscheinlichkeit der Zugehörigkeit der einzelnen Wörter einer neu ankommenden E-Mail, lässt sich eine Aussage ableiten, wie wahrscheinlich eine E-Mail nun als Spam oder Ham einzustufen ist. Dieses Verfahren ist hochadaptiv und ermöglicht die Erkennung von Spam-Mails auch durch nahezu beliebige von den Spam-Versendern erfundene Verfälschungen (die ihre natürlichen Grenzen in der Lesbarkeit durch den menschlichen Betrachter haben, wie etwa die Ziffer "0" statt des Buchstabens "O").

Bei all diesen technischen Errungenschaften zeichnet sich eine Tendenz ab, wie die Spam-Mails der Zukunft aussehen. Dem Bayes'schen Ansatz entfliehen lediglich Spam-Mails der Gestalt, die nur eine URL enthalten und ev. einen unverfänglichen Satz mit dem Thema des Treffens und Kennenlernens (ohne spezielle Begriffe) enthalten. Mangels eindeutig zuordenbarer Wörter ist hier eine eindeutige Bewertung schwer. Allerdings gehen Analysten davon aus, dass diese Art des Mail-Marketings aufgrund der schwachen Rücklaufquote bedingt durch die Art selbst kaum eine längerfristige Überlebenschance haben wird und somit zu keiner Bedeutung gelangen wird.

Trotz der nahezu idealen Eigenschaften des Bayes'schen Ansatzes, kann sich auch wie im Falle der obigen AWL-Funktion dieses Verfahren nicht zur Höchstform entfalten. Voraussetzung für den optimalen Einsatz wäre eine empfängerspezifische Optimierung durch Anlernen von Spam-Mails, was auf einem zentral gelegenen Mailgateway wie dem Mailrouter oder der Mailbastion prinzipbedingt nicht umsetzbar ist. Die idealen Voraussetzungen bringen hier nur jene Mailserver mit, die die entsprechenden Mailboxen enthalten (beispielsweise im Wesentlichen jene, die auf den Instituten ihren Dienst verrichten).

Obwohl die zentrale Spam-Markierung mit einigen prinzipbedingten Schwächen zu kämpfen hat, kann man dennoch von einer insgesamt recht guten Erkennungsrate ausgehen.

Eigenschaften

Die Mail wird im Aufbau (Attachments/Anhänge) nicht geändert und bleibt auf jeden Fall lesbar.
Mails werden unter allen Umständen weitergeleitet, d.h. nicht blockiert oder nicht (wesentlich) verzögert oder zwischengelagert. Das eigentliche Verwerfen oder Ausfiltern der Mail ist am Instituts-Mailserver oder durch den Mail-Client durchzuführen.
Für den Fall von technischen Problemen bei der Spamfilterung bzw., wenn E-Mails bestimmte Parameter hinsichtlich Umfang erfüllen, ist es möglich, dass Mails unbewertet passieren.
Die Regeln, Limits bzw. generell das Verhalten von SpamAssassin können nicht user-spezifisch angepasst werden.

Wen betrifft die Filterung?

Absender	Empfänger	behandelt von
nur außerhalb TUNET	@.tuwien.ac.at	Mailbastion
überall	*@tuwien.ac.at	Incoming Mailrouter
überall	*@student.tuwien.ac.at	Incoming Mailrouter

Welche Mails sind von der Markierung ausgenommen?

Mails, deren Größe mehr als 500.000 Byte beträgt, werden stets unmarkiert weiter geleitet (diese werden auch sonst nicht markiert).
Nachrichten, deren Analyse ein Zeitlimit überschreiten (man denke nur an die DNS-basierten Überprüfungen) werden schlussendlich ohne weitere Prüfung weiter geleitet.

Wie wird markiert?

Wird eine Mail als Spam erkannt, wird im Betreff zu Beginn die Phrase "[SPAM?]" eingefügt. Da in seltenen Fällen auch reguläre Mails derart klassifiziert werden, sollte man vermeiden, eine derart markierte Nachricht unmittelbar zu löschen. Weitere - detaillierte - Bewertungsdaten werden der Nachricht als Kontrollinformationen in den Headerzeilen hinzugefügt, abhängig vom ermittelten Score-Wert, wobei auf ein gewisses LIMIT, das auf den Wert 6,0 festgelegt ist, Bezug genommen wird. Der LIMIT-Wert dient primär dazu, Mails als Spam zu klassifizieren. Erreicht der Score den LIMIT-Wert, werden zusätzliche Informationen in die Nachricht aufgenommen.

Bei allen Score-Werten:

X-Spam-TU-Processing-Host: HOSTNAME

Eine organisationsspezifische Markierung, die zum einen bedeutet, dass die Mail den Spamfilter durchlaufen hat und zum anderen ermöglicht, bei aufeinander folgenden Mailservern die mehrfache Filterung (mit ev. immer gleichem Ergebnis) zu verhindern.

X-Spam-Level: ****+++

Score-Wert in grafischer Notation: * entsprechen Einer, + Zehntel. In diesem Beispiel entspricht das dem Score von 4,3. Es werden nur positive Werte angezeigt, bei negativen Werten bleibt der Wert des Header-Eintrags leer.

X-Spam-Status: STATUS ; SCORE

Der hier angegebene Score-Wert ist der um den Faktor 10 multiplizierte Wert, den SpamAssassin eigentlich berechnet.

Score	Status
< 60	Low
>= 60 < 100	Medium
>= 100	High

Bei Score>= LIMIT:

Subject: [SPAM?] ...

Eingefügter Subject-Prefix, um den Outlook (Express) Benutzern die Möglichkeit des Filterns zu geben.

X-Spam-Flag: YES

Man beachte, dass es kein Gegenstück in Form eines "NO" gibt. In einem solchen Fall wird die Headerzeile überhaupt nicht generiert.

X-Spam-Report: Score / LIMIT

z.B.:

X-Spam-Report: 12.9/6.0 * 2.9 -- BODY: Cable Converter * 0.4 -- BODY: List removal information * 0.5 -- BODY: No such thing as a free lunch (1) * 1.3 -- BODY: Money back guarantee * 2.9 -- BODY: Bayesian classifier says spam probability is 90 to 99% [score: 0.9805] * 1.5 -- Date: is 3 to 6 hours after Received: date * 0.6 -- RBL: Received via a blacklisted relay, see http://www.mail-abuse.org/ [RBL check: found 77.46.78.200.rbl-plus. mail-abuse.org., type: 127.1.0.2] * 0.6 -- RBL: Received from dialup, see http://www.mail-abuse.org/dul/ * 0.1 -- Message has X-MSMail-Priority, but no X-MimeOLE * 2.1 -- Forged mail pretending to be from MS Outlook

Dieser Report enthält alle Komponenten, aus denen sich die Score-Bewertung (additiv) zusammensetzt. Details dazu sind im Allgemeinen unter spamassassin.org/tests.html (umfangreiche Seite) nachzulesen.

Durchführung von Filtermaßnahmen

Das eigentliche Filtern oder Löschen von Spam-Mails obliegt dem Empfänger. Dieser kann seine Mailsoftware, sei es am Mailserver des Instituts oder im Mailclient durch entsprechende Filterfunktionen darauf ausrichten.

Speziell Outlook (Express) Benutzer sind hier auf die Änderung im Subject-Header angewiesen, da sich dort nur ein Subject-Filter definieren lässt. Damit beschränkt sich dort auch die Spam-Erkennung auf den vorgegebenen LIMIT-Wert von 6,0. Die meisten anderen Produkte können sich flexibel am numerischen oder grafischen Score-Wert orientieren und damit selbst die Grenze festlegen, wonach eine Mail aus der Sicht verschwinden soll.

An dieser Stelle sei auf die Dokumentation der entsprechenden Mailprogramme hingewiesen bzw. auf das Systemunterstützungsservice der Abt. Standardsoftware oder auf einschlägige Foren im Usenet und WWW.

Vermeidung einer Spam-Klassifizierung bei der Erstellung von E-Mails

Einige Grundregeln sollte man beachten, wenn man in Zukunft mit Personen innerhalb und auch außerhalb der TU Wien kommuniziert (denn auch dort ist SpamAssassin zunehmend im Einsatz) und dabei verhindern möchte, dass die E-Mail beim Empfänger als Spam-Mail eingestuft wird, bzw. sicherstellt, dass die E-Mail im ordentlichen Zustand und für alle lesbar erscheint:

Das unter Windows sehr gerne betriebene Cut&Paste von Textteilen in eine E-Mail bewirkt das Einschleusen von überflüssigen Carriage-Return-Zeichen (^M), die negativ bewertet werden.
Die oftmals bei grafisch orientierten Mailprogrammen automatische Umbruchsfunktion (optisch) führt zu extrem langen Zeilen. Auch dass wird negativ bewertet.
Nur HTML-formatierte (manchmal auch als Rich-Text Format deklarierte) E-Mails sind ein starkes Kriterium für Spam-Mails und sollten grundsätzlich vermieden werden. Nur-Text bzw. alternate-(Text+HTML) formatierten Nachrichten ist hier den Vorzug zu geben.
Die Unart, leere Betreffzeilen zuzulassen, bzw. übermäßig viele Interpunktionszeichen wie "!", "?" etc. sowie Ziffern und Sonderzeichen ("$") im Betreff wie auch in der Nachricht selbst disqualifizieren eine E-Mail beträchtlich.

Weitere Informationen

Mailrouter/-bastion Dokumentation (Anti-Spam-Maßnahmen): http://nic.tuwien.ac.at/services/mail/

Spam-Markierungsservice: http://nic.tuwien.ac.at/services/mail/spam-markierung/

SpamAssassin Software: http://spamassassin.org/

"A Plan for Spam". Vorgehensweisen gegen Spam:
http://www.paulgraham.com/spam.html

"Forever Spam!? Warum Spam nicht schon längst abgeschafft wurde". Alexander Talos, Comment 03/1:
http://www.univie.ac.at/comment/03-1/031_2.html

Campussoftware Support (Mailprogramme, lokaler Spam Filter Lyris MailShield Desktop) und Systemunterstützung-Service des ZID Abt. Standardsoftware: http://sts.tuwien.ac.at/

Seitenanfang | ZIDline 8 - Juni 2003 | ZID | TU Wien

[SPAM?] . . . Markierung von Spam-Mail