Rubrik: Produkte/Hintergrund

GROUP Technologies: So arbeiten wirksame Anti-Spam-Konzepte

Brennpunkt Spam: Dem Chaos mit System begegnen

Von Markus Goss*

(19.04.04) - Spam und kein Ende. Die lästige Post nimmt mittlerweile einen Großteil von Zeit und Nerven der E-Mail-User in Anspruch, Tendenz steigend. Man kann die Lawine jedoch eindämmen, indem man E-Mail als einen Geschäftsprozess auffasst, der festen Regeln folgt und in einer sinnvollen Kombination aus Technologie in Form leistungsstarker Filterverfahren und individueller Nutzerverantwortung realisiert wird.

 

Anzeige

Das Spam-Problem ist "ganz oben" angekommen: Die Organisation für wirtschaftliche Entwicklung und Zusammenarbeit (OECD) hat bereits eine Sonderkonferenz zum Thema Spam abgehalten, der deutsche Bundestag eine Gesetzesnovelle gegen den unlauteren Wettbewerb verabschiedet, die auf die unerwünsch-te elektronische Post zielt. An Vorschlägen, wie sich das Problem mit neuen Technologien lösen ließe, fehlt es ebenfalls nicht. Die Empfehlungen reichen von Rechenaufgaben, die Mail-Server vor dem Verschicken bearbeiten müssen, was den Millionenversand von Spam durch die schiere CPU-Auslastung unterbinden soll, bis zur so genannten "Sender Permitted From"- (SPF) Technik, mit der sich Absenderangaben angeb-lich zuverlässig verifizieren lassen.

Dass die Spam-Problematik an allen Fronten bekämpft wird, ist richtig und notwendig. Wer sich durch täglich wachsende E-Mail-Berge wühlen muss, verliert langsam das Vertrauen in das Kommunikations-medium und ist immer weniger geneigt, überhaupt noch auf die Suche nach den wirklich wichtigen Nachrichten im Postfach zu gehen. Nicht von ungefähr vermerken regelmäßige Umfragen einen steilen Anstieg derjenigen Nutzer, die schon einmal wichtige Post übersehen haben. In diesem "Zermürbungs-effekt" liegt die eigentliche Gefahr von Spam, denn langfristig steht die Akzeptanz von E-Mail als bis dato unerreicht schnelles und bequemes Kommunikationsmittel auf dem Spiel.

Das zu verhindern sind weder juristische noch technologische Vorkehrungen für sich alleine in der Lage. Nur eine Kombination aus festen Regeln für den E-Mail-Umgang und an der richtigen Stelle eingesetzten Technologien hilft. Kurz: Das E-Mail-Management muss als unternehmensweiter Geschäftsprozess verstanden und realisiert werden.

Gute und schlechte Post

Am Beginn steht dabei die Abwägung, was überhaupt als Spam gelten soll. Blockiert man pauschal alle Nachrichten unbekannter Absender, ist meistens mehr verloren als gewonnen. Das gilt auch für subtilere Methoden, etwa wenn der empfangende Mail-Server den Absender automatisch um Identifizierung bittet und bei deren Ausbleiben die Nachricht unterdrückt. Das hilft bei bekannten IP-Adressen und Domänen-namen, die von Spammern benutzt werden. Aber nicht, wenn der der Absender die Bestätigung einfach vergisst. Oder bei einem automatisch verschickten Newsletter, denn da kann der Sender-Server mit einer Identifikationsanfrage gewöhnlich nichts anfangen. Wenn der Newsletter aber durchaus wichtige Nachrichten für den Empfänger transportiert, lässt sich hier schwerlich von erfolgreicher Spam-Abwehr sprechen. Selbst bei Werbe-Mails ist die Lage nicht immer eindeutig. Was den Mitarbeiter in der Technik stört, gibt dem Marketing unter Umständen wichtige Hinweise auf Entwicklungen am Markt.

Schon aus diesen Überlegungen heraus wird klar: Es gibt sie nicht, die Eier legende Wollmilchsau für die Spam-Abwehr. Ein Rest nicht eindeutig bestimmbarer, aber potenziell wichtiger Nachrichten bleibt immer übrig, und da kann trotz leistungsstarker Filtertechnologien nur der "Faktor Mensch" entscheiden, also das Urteil des Empfängers selbst.

Filter an verschiedenen Stationen

Ein wirksames Konzept zur Spam-Abwehr muss daher "granuliert" umgesetzt werden, das heißt die ein-gehende E-Mail-Masse zunächst einer Grobfilterung der offensichtlichsten Spam-Mails unterziehen und den Rest durch Interaktion mit dem jeweiligen Empfänger entweder zustellen oder zurückhalten.

Praktisch lässt sich das mit einer Multi-Level-Filterstrategie erreichen, wie sie von GROUP Technologies in der "iQ.Suite" umgesetzt ist. Nachrichten werden nicht nur an einer "Station" in der E-Mail-Architektur geprüft, sondern an den drei Knotenpunkten Gateway, Server, Desktop. Am Gateway geht es um die Grobfilterung. Alles, was gemäß der Mail-Policy des Unternehmens eindeutig als Spam identifiziert oder generell unerwünscht ist (z.B. ausführbare Dateien, Audio- oder Video-Anhänge), wird hier geblockt. Ein Großteil der üblichen Spam-Mails wie elektronische Kettenbriefe, Aktienoptionen, Erotikangebote, falsche Viruswarnungen (Hoaxes), Unterschriftenlisten, Witze, Organspende-Aufrufe, Vermisstensuche, obskure Geldgeschäfte und Terrorwarnungen, bleiben bereits hier auf der Strecke. Diese Stelle ist für die reine Spam-Filterung anhand eindeutiger Merkmale zuständig - vergleichbar mit der Virenfilterung auf Grundlage klar identifizierbaren Codes.

Dass es damit nicht getan ist, lehren praktische Erfahrungen. Wer ernsthaft Spam verschickt, vermeidet im Text allzu offensichtliche Signalworte oder benutzt sie in verfremdeter Form. Für den Empfänger ist "A New&Car in 5% Minute§" das gleiche Ärgernis wie in korrekter Schreibweise - als Passierschein für die Grobfilterung reicht die Modifikation womöglich schon aus.

Kleine Verfahrenskunde

Im nächsten Schritt kommen daher Filterverfahren zum Einsatz, die eine Vielzahl von Kriterien berück-sichtigen und den E-Mails bestimmte Wertigkeiten zuordnen. Da es sich bei Spam in aller Regel um textlastige Nachrichten handelt, werden zur Prüfung auf dem Mail-Server Verfahren angewandt, die sich in der EDV-gestützten Klassifizierung von Texten bereits etabliert haben. Man unterscheidet dabei regel-basierte und statistische (heuristische) Verfahren.

Die regelbasierten Ansätze haben den Vorteil großer Transparenz für den Benutzer und sind für die Sortierung eines Großteils der E-Mails sehr nützlich. Neue Regeln lassen sich einfach erstellen und anwen-den. Gerade Nachrichten mit bestimmten Zeichenketten im "Betreff"-Feld und Textteil oder von bestimmten Absendern und Domänen können leicht als Spam kategorisiert werden. Allerdings leben die Verfahren von der Aktualität der Regeln. Wird nur nach den definierten Zeichenkombinationen gesucht, lässt sich das mit kleinen orthografischen und syntaktischen Änderungen aushebeln (siehe Beispiel oben). Analog dazu bleibt wichtige Post womöglich als False Positive auf der Strecke, in die sich lediglich ein paar Tippfehler eingeschlichen haben.

Dem beugen die heuristischen Klassifizierungsansätze vor. Sie liefern Wahrscheinlichkeiten, nach denen E-Mailtexte einzuordnen sind, indem sie den Inhalt als Ganzes zu "verstehen" versuchen. Das künstliche neuronale Netz (ANN-Artificial Neural Network) etwa ahmt die Unterscheidungsfähigkeit des menschlichen Gehirns nach, indem es Spam-Mails unter der Prämisse beurteilt, dass solche Nachrichten "anders" sind als jene, die erwünscht und wichtig sind. Ein paar Beispiele zur Unterscheidung genügen, um ähnliche Texte künftig richtig einzuschätzen. ANN führt diese Lernprozesse als Computersimulation durch und lernt Muster erkennen, aus denen der Nutzer die Qualität einer E-Mail als Spam oder Nicht-Spam ableitet.

Ein anderes verbreitetes Klassifizierungsverfahren ist der Naive Bayes-Ansatz. Er gründet sich auf dem Prinzip, dass Ereignisse vorhersagbar sind, wenn bestimmte andere bereits eingetreten sind. Enthält eine E-Mail immer wiederkehrende Begriffe, die auf Spam hindeuten, ist die Wahrscheinlichkeit hoch, dass die aktuelle Nachricht ebenfalls Spam ist. Ein Bayes-basierter Klassifikator lernt anhand von Trainingsdaten, wie die Klassen Spam und Nicht-Spam definiert sind. Enthält eine neue Nachricht Begriffe und Phrasen (Attribute), die oft in Spam-Mails vorkommen, wird sie gegen eine Datenbank verglichen, wo die relative Häufigkeit der Attribute den jeweiligen Klassen Spam und Nicht-Spam zugeordnet ist, und entsprechend klassifiziert.

Die Verwendung von Wahrscheinlichkeiten hat den grundsätzlichen Vorteil, dass "gute" und "schlechte" Indikatoren gleichermaßen in die E-Mail-Beurteilung einfließen. Kommen die Begriffe "Geld" und "reich" beide mehrfach in einer Nachricht vor, weist das eher auf Spam hin. Enthält der Text dagegen neben "Geld" auch eher Spam-unübliche Komponenten wie "Schließfach" und "Schlüssel", wächst die Wahrscheinlichkeit, dass es sich um eine E-Mail handelt, die nicht als Spam zu klassifizieren ist und daher auch nicht als False Positive zurück gehalten wird.

Leistungsstarke Support-Vektoren

Ein neueres Verfahren ist Support Vector Machines (SVM). Ähnlich wie die anderen beschriebenen Methoden zieht es auf Basis von Trainingsdaten Rückschlüsse auf die Klassifizierung neuer Texte. Zunächst werden mit Hilfe statistischer Methoden alle Begriffe, die für die Zuordnung zur jeweiligen Klasse Spam oder Nicht-Spam relevant sind, in den Beispieltexten identifiziert. Diese werden dann durch einen Vektor repräsentiert. Dessen Komplexität ergibt sich aus der Anzahl der Einzelwörter im Dokument. Besteht es aus den Sätzen "Es regnet" und "Es schneit" – drei Einzelwörter – ist der Vektor dreidimensional. Bei großen Textmengen entstehen demnach vieldimensionale Vektoren. Die immer noch gültige Referenz, ein Textkorpus aus knapp 10 000 Reuters-Nachrichtenmeldungen zwischen 1987 und 1991, ergab 9962 Einzelwörter. Jedes Einzeldokument lässt sich demnach als 9962-dimensionaler Vektor darstellen. Das ist zu komplex, um die Algorithmen mit vertretbarem Aufwand ausführen zu können. Daher werden die Vektoren in verschiedenen Verfahren normiert und komprimiert.

Die Unterscheidung, ob ein Dokument einer Kategorie angehört oder nicht, erfolgt, indem der Textvektor gegen ein Bezugselement verglichen wird, die Support-Vektoren. Man gewinnt sie durch Berechnung einer Hyperebene, die positive und negative Trainingsbeispiele für eine Textkategorie optimal trennt. Es gibt also einen Support-Vektor für "Spam" und einen für "Nicht-Spam". Ein neuer Text wird klassifiziert durch seine Nähe zu den beiden Support-Vektoren. Ab wann das Dokument einer Kategorie zufällt oder nicht, lässt sich mit diesen Verfahren flexibel durch Schwellwerte bestimmen, d.h. ab einer definierten Nähe zu einem Support-Vektor gehört der Text zur betreffenden Kategorie.

Support Vector Machines liefert im Vergleich zu anderen statistischen Verfahren derzeit die höchsten Trefferquoten bei der Texterkennung. Die Methode liegt auch der Content Recognition Engine (CORE)-Technologie zugrunde, die in der iQ.Suite von GROUP Technologies für die "Feinfilterung" von E-Mails zuständig ist.

Empfänger einbeziehen

Nachdem die Grob- und Feinfilterstufen am Gateway und auf dem Mail-Server ihren Dienst erfüllt haben, steht der letzte Schritt im Filterprozess an, bei dem die schon erwähnte Interaktion mit dem Empfänger im Mittelpunkt steht. Interaktion deshalb, weil dieser entscheiden muss, wie er mit den E-Mails umgeht, die beide vorigen Filterstufen passiert haben. Das geschieht, indem Beispieltexte via Desktop noch einmal den beschriebenen Textklassifikatoren zugeführt werden. Der Nutzer "füttert" dabei den Spam-Filter mit Hilfe von frei erstellbaren, schlagwortbasierten Klassifizierungsordnern. So landet beispielsweise jede E-Mail, die als Newsletter definiert ist, im entsprechenden Ordner. Der Filter selbst liegt zentral auf dem Server.

Prozesse durchgängig verbinden

Werden die drei Filterstufen konsequent ausgeführt, ist viel erreicht im Kampf gegen Spam. Das E-Mail-Management im Sinne eines Geschäftsprozesses geht aber noch weiter. Dieselben Verfahren, die zum Aussortieren von Spam genutzt werden, lassen sich auch zur "positiven" Prüfung der übrigen Nachrichten im Sinne des Content Based Routing anwenden. Das betrifft beispielsweise die automatisierte Archivierung von E-Mails, die durch Textklassifikation als geschäftswichtiger Vorgänge erkannt werden und daher besonderen Aufbewahrungspflichten unterliegen. Oder Support-Anfragen, nach deren Erkennung z.B. CRM-Systeme und Datenbanken automatisch abgefragt werden und dem Bearbeiter nicht nur die Anfrage selbst, sondern gleich weitere Informationen zur Bearbeitung des Vorgangs ins Postfach schicken. Die nahtlose Verzahnung von Spam-Abwehr (und anderen Sicherheitsprozessen wie Virenprüfung, Ver- und Entschlüsselung) und sinnvoller Mail-Verwaltung in einem Schritt ist die große Herausforderung an das E-Mail-Management der Zukunft. (ma)

*Markus Goss ist Vice President Marketing, GROUP Technologies AG, Karlsruhe

 

Weitere Informationen:

GROUP Technologies AG

Ottostraße 4, D-76227 Karlsruhe

Tel. (0721) 4901-0

Fax (0721) 4901-199

E-Mail: info@group-technologies.com

Web: www.group-technologies.com

 


Diesen Beitrag per E-Mail versenden Diesen Beitrag ausdrucken