Die Tagesschau in der Datenbank

Vor einiger Zeit ist ja ein Torrent aufgetaucht, der ein Archiv der inzwischen auf Drängen der Zeitungs-Lobby zum großen Teil gelöschten Tagesschau-Website enthält. Dieses Archiv liegt zwar scheinbar leicht benutzbar in Form einer XML-Datei für jede einzelne Meldung vor, ist aber dennoch kaum brauchbar. Sicher, es handelt sich um wohlgeformtes XML, dieses erweckt allerdings den Eindruck, dass es als Export aus einer Software entstanden ist, die »mal eben« um die Möglichkeit zum XML-Export erweitert wurde, weil dieses Thema gerade so gehyped wurde, ohne dass besondere konzeptuelle Überlegungen bei dieser Funktionalität angestellt wurden, wie ein solcher Export in nützlicher und leicht verarbeitbarer Weise aufbereitet werden könnte. Oder kurz gesagt: Was einem aus diesen XML-Dateien entgegenschaut, das mag vielleicht für eine Handvoll spezieller Anwendungen – mit Sicherheit für das CMS, aus dem heraus sie entstanden sind – nützlich sein, nicht jedoch für eine »normale« Datenverarbeitung.

Ich bin in den letzten Tagen mehrfach aus recht unterschiedlicher Richtung angesprochen worden, ob ich diesen XML-Export nicht in ein »zugänglicheres« Format bringen könnte, das gezielte Suchen nach Themen und generell die Arbeit mit diesem recht riesigen (als tar.bz2-Archiv immerhin 133 MiB, ausgepackt gut 2 GiB) Textkörper ermöglicht. In diesen Gesprächen hätten sich die meisten Menschen eine einfache Datenbank mit den reinen Meldungstexten gewünscht, die frei von Ballast und Verwaltungsinformationen ist und sich gut für den Aufbau eines Webfrontends im lokalen Netzwerk eignet.

Deshalb habe ich ein Python-Skript geschrieben, das die Texte der Meldungen in eine MySQL-Datenbank importiert. Dieses Skript steht hier zum freien Download und ist von mir unter den Bedingungen der Piratenlizenz veröffentlicht, damit es den größtmöglichen Nutzen entfalte.

Download: Tagesschau-Importer.

Kurzanleitung

Ich setze bei den Interessierten voraus, dass sie wissen, wie eine Datenbank auf einem MySQL-Server angelegt wird und wie darin Nutzerrechte vergeben werden, oder dass sie doch zumindest wissen, wie sich solche Grundlagen nachlesen lassen. Ebenso setze ich voraus, dass sie wissen oder nachzulesen verstehen, wie man sich einen MySQL-Server, einen Python-Interpreter und das benötigte Python-Modul MySQLdb für sein Betriebssystem installiert. Sowohl Python als auch das RDBMS MySQL stehen für jedes moderne Betriebssystem zur Verfügung, so dass das Skript beinahe überall nutzbar sein sollte. Ich habe es allerdings nur mit MySQL 5.0.x und Python 2.6.2 getestet, bei älteren Versionen kann es durchaus Probleme geben.

Nachdem die Datenbank angelegt wurde, ist der Rest recht einfach. Im oberen Teil des Skriptes stehen fünf Variablen, die an die lokalen Gegebenheiten angepasst werden müssen, in meiner Testumgebung sieht das so aus:

DBNAME="tagesschau"
DBUSER="tagesschau"
DBPASS="tagesschau"
DBHOST="localhost"
XMLDIR="./xml"

Die Variablen DBNAME, DBUSER, DBPASS und DBHOST sind die Zugangsdaten für die Verbindung zu verwendeten Datenbank, die Variable XMLDIR gibt an, in welchem Verzeichnis die entpackten XML-Dateien liegen; es kann natürlich auch ein absoluter Pfad verwendet werden.

Nachdem diese Variablen mit dem jeweiligen Lieblingseditor an die lokalen Bedingungen angepasst wurden, kann das Skript gestartet werden – wie ein Skript gestartet wird, ist von Betriebssystem zu Betriebssystem unterschiedlich, ich mache das einfach an der Kommandozeile. Nach dem Start ist der Rechner mehrere Stunden lang damit beschäftigt, XML zu parsen und Meldungen in die Datenbank zu befördern.

Die gegenwärtige Version des Skriptes schlägt für einen kleinen Anteil der Meldungen aus verschiedenen Gründen fehl, und sie nimmt nur Meldungen mit Text (also keine reinen Video- oder Bildbeiträge aus dem CMS der Tagesschau) in die Datenbank auf, da die multimedialen Inhalte durch die umfangreichen Löschungen auf der ARD-Site verloren sind.

Die drei Datenbanktabellen werden automatisch angelegt, und wenn vorher Tabellen des gleichen Namens in der Datenbank existierten, denn werden diese Tabellen gelöscht. Bitte vorher darüber nachdenken und am besten eine eigene Datenbank für die alten Tagesschau-Meldungen benutzen!

Datenbank

Die Datenbank besteht aus drei Tabellen.

Tabelle: meldung

Die Meldungen.

  • meld_id INT(10) UNSIGNED NOT NULL
    Primärschlüssel
  • meld_pubdatum DATETIME NOT NULL
    Publikationszeitpunkt
  • meld_kurztitel VARCHAR(255)
    Ein kurzer Text, der bei Tagesschau-Meldungen gewöhnlich in kleinerem Schriftgrad über dem Titel steht
  • meld_internal_id VARCHAR(16)
    Eine interne ID aus den XML-Dateien, die ich für Debugging-Zwecke aufgenommen habe.
  • meld_kurztext TEXT
    Ein meist kurzer Absatz, der den Meldungstext anreißt, manchmal leer
  • meld_text TEXT
    Der Text der Meldung. Die einzelnen Absätze habe ich mit jeweils einer Leerzeile getrennt.
  • meld_titel VARCHAR(255)
    Der Titel der Meldung, entspricht etwa dem, was man unter einer Schlagzeile versteht.

Auf den Feldern meld_kurztext und meld_text ist ein FULLTEXT-Index gelegt, um Volltextrecherchen zu ermöglichen. Auch weitere Indizes sind für die meisten Anwendungen hoffentlich sinnvoll angelegt.

Tabelle: kategorie

Bei den Tagesschau-Meldungen wurde ein System der Verschlagwortung benutzt, das ähnlich den »Tags« in typischen Blogsystemen ist. Diese Schlagwörter können auch für Recherchen nützlich sein, deshalb wurden sie in die Datenbank aufgenommen.

  • kat_id INT(10) UNSIGNED NOT NULL
    Primärschlüssel
  • kat_name VARCHAR(64) NOT NULL
    Der Name der Kategorie, grundsätzlich in Kleinbuchstaben umgewandelt.
  • kat_count INT(10)
    Die Anzahl Meldungen für diese Kategorie, dies kann nützlich sein, um die häufigsten Kategorien in einer Software oder einer Webanwendung anzuzeigen.

Tabelle: v_kat_meld

Verbindertabelle, welche die N-zu-N-Beziehung zwischen Meldungen und Kategorien abbildet.

  • v_kat INT(10) UNSIGNED NOT NULL
    Foreign Key für die Beziehung zu kategorie.kat_id
  • v_meld INT(10) UNSIGNED NOT NULL
    Foreign Key für die Beziehung zu meldung.meld_id

Abschließender Hinweis (und Warnung)

Das Urheberrecht für die Meldungen der Tagesschau liegt bei der Tagesschau-Redaktion. Es ist ein Verstoß gegen das Urheberrecht, wenn man diese Meldungen – so bequem dies mit einer MySQL-Datenbank auch gehen mag – in das öffentlich zugängliche Internet stellt, und es wird völlig sicher einen sehr unerfreulichen Schriftverkehr mit der Rechtsabteilung der ARD und den juristischen Beauftragten jener Verleger- und Baumbestempler-Lobby haben, die so viel Mühe darauf verwendet haben, diese von Gebührenzahlern finanzierten Inhalte von ihren Freunden und Speichelleckern aus der classe politique aus dem deutschen Internet entfernen zu lassen. Neben dem unerfreulichen Schriftverkehr wird es zu zivilrechtlichen Forderungen kommen, die finanziell schmerzhaft werden können. Deshalb sollten die alten Meldungen der Tagesschau niemals im Internet veröffentlicht werden, auch wenn ein paar hundert Zeilen PHP für diesen Zweck ein leichter Hack sind, wenn diese Meldungen erst einmal in einer MySQL-Datenbank vorliegen.

Ich habe zu diesem Vorgang natürlich auch eine marginalisierte und möglicherweise irrelevante Meinung, die natürlich nichts an der Illegalität einer Zweitveröffentlichung der alten Tagesschau-Inhalte ändert.

Der Versuch der Verleger- und Zeitungs-Lobby, die Löschung solcher Inhalte aus dem Internet zu erzwingen, die von der Allgemeinheit über die Rundfunkgebühren bezahlt wurden, nur damit die Verleger- und Zeitungs-Lobby im Internet mit ihren Archiven so etwas wie ein »Alleinstellungsmerkmal« hat, drückt eine Verachtung gegenüber den Menschen in Deutschland aus, welche die Menschen in Deutschland der Verleger- und Zeitungs-Lobby zurückgeben sollten. Übrigens bemerkt die Verleger- und Zeitungs-Lobby die Verachtung am schnellsten, wenn diese finanziell spürbar wird; und so ein Zeitungsabo ist schnell abbestellt und auf die Morgenlektüre von größtenteils aus dem NITF-Ticker der großen Agenturen abgeschriebenen Meldungen kann man leicht und ohne besonderen Schmerz verzichten. Sollte sich die Journaille allerdings jemals darauf besinnen, dass im Zeitalter quasi lichtschneller Medien nicht die Jagd nach dem Selbstzweck der Aktualität ein angemessener Maßstab für die Qualität ist, sondern das Erschließen von Hintergründen und größeren Zusammenhängen (natürlich ist so etwas niemals frei von Meinung, und das soll es auch gar nicht sein – aber die jetzige scheinbare »Sachlichkeit« ists ja auch nicht), denn braucht sie auch kein mit politischer Einflussnahme, Gewalt und Verachtung gegenüber den Menschen in Deutschland durchgesetztes »Alleinstellungsmerkmal« mehr, da sie ihr Alleinstellungsmerkmal aus der geänderten Haltung heraus selbst entwickeln wird. Ob es jemals dazu kommen wird? Es hängt wesentlich davon ab, wie sehr der Journaille die so breit ausgeteilte Verachtung der Menschen in Deutschland zurückgegeben wird, indem auf den Kauf ihrer Produkte verzichtet wird.

Veröffentlicht unter Download | Verschlagwortet mit , , , | 4 Kommentare

Kleine Designänderungen

Das Design dieser Homepage war über viele Monate hinweg ein schlechtes Provisorium – bekanntlich halten solche Provisorien ja am längsten. Ich hatte es ursprünglich von meinem alten Blogdesign abgeleitet. Dieses war zwar recht gut für mein Blog geeignet, aber die Navigation in einer Website mit mehreren Seiten und Unterseiten war doch eher ein bisschen schäbig.

Nun habe ich mich endlich einmal aufgerafft, für diese Site ein geeigneteres Design zu entwerfen, das die Inhalte über ein leicht durchschaubares Menü zur Verfügung stellt. Dabei habe ich die betont schlichte Gestaltung nicht verändert, denn ich glaube immer noch nicht, dass ein Streben nach unnötigem Ausschöpfen technischer Möglichkeiten und grafischer Exzellenz der richtige Weg ist, eine Website aufzuwerten. (Mein am simpelsten gestaltetes Blog, das Blah-Blog, ist auch gleichzeitig das erfolgreichste geworden.) Tatsächlich ist der Unterschied auf dem ersten Blick kaum zu sehen, wenn man einmal davon absieht, dass ich eher noch ein bisschen grafischen Ballast abgeworfen habe.

Technisch ist das neue Design übrigens ein child theme vom WordPress-3.0-Standard-Theme twenty ten. Mit dieser Vorgehensweise hat es mich nur zwei Stunden meiner Lebenszeit gekostet, möglichst viel vom alten Design in die neuen Techniken zu retten.

Zurzeit habe ich das »neue« Design noch nicht mit jedem Browser testen können. Ich gehe aber davon aus, dass es keine besonderen Darstellungsprobleme verursachen wird. Auch werde ich in den nächsten Wochen wohl noch die eine oder andere kleine Anpassung hier vornehmen, um die letzten kleineren Schwächen auszuräumen – ich habe das mal wieder mit etwas heißer Nadel stricken müssen und werde kleinere Fehler erst durch die Benutzung lernen. Trotz solcher kleineren Fehler ist es jetzt bereits ein echter Gewinn für diese kleine, unbeachtete Homepage im Internet.

Veröffentlicht unter Allgemeines | Verschlagwortet mit , , , | Schreib einen Kommentar

Niemand will »das Schöne« im Internet

Ich finde es wirklich faszinierend, welche meiner Projekte viele Leser anziehen und welche eben nicht. Wenn ich über die Dinge abjauche, wenn ich dabei sogar in zuweilen unflätige Sprache verfalle, denn bekommt solches Schreiben eine (in Zugriffszahlen gemessen) enorme Aufmerksamkeit – ganz so, als ob die Menschen keine eigenen Schimpfwörter kennten. Und auch das immer wieder ins Gallige und zuweilen Unreflektierte und Hingeklatschte abdriftende Blahblog erfreut sich einer geradezu erschreckenden Leserzahl, obwohl es kaum mehr ist als eine beinahe inhaltslose Linkschleuder mit kurzen Kommentaren, oder, wie ich es gern nenne, mein persönliches Twitter.

So bald ich eher verhalten, zweideutig (manchmal bis zur Schwammigkeit) und ruhig schreibe, ist es hingegen uninteressant, wenn ich nach den Leserzahlen gehe. Und wenn ich gar meiner eigentlichen Lust nachgehe und versuche, etwas nur Schönes zu machen und ein Blog mit ästhetisch ansprechenden Fraktalen fülle (und dabei nur selten so etwas schwergängiges wie die mathematischen Hintergründe und die verwendeten Formeln behandle), zeigen mir die Zugriffszahlen, dass es völlig am »Bedarf« der Internetnutzer vorbeigeht.

»Fraktale Welten« ist unter allen meinen Projekten das Unbeachteste. (Gut, meine Musik wird noch seltener angehört, aber das ist auch sehr speziell.)

»Das Schöne« scheint nicht das zu sein, was jemand sucht oder sehen möchte, wenn er im Internet unterwegs ist.

Und das ist auch das ganze Dilemma dieses Mediums.

Veröffentlicht unter Bloggen | Verschlagwortet mit , , , , | 3 Kommentare

Es gibt ein paar »Themen«…

Es gibt ein paar »Themen« in den Suchbegriffen, die scheinen unsterblich zu sein, die tauchen genau so immer wieder von Neuem auf wie die damit verbundenen Spiele der Marke »Ruf mich für relativ hohe Kosten an und beantworte eine einfache Frage und hoffe darauf, dass du in diesem intransparenten Spiel durchgestellt wirst und gewinne einen Haufen Geld für diese Nullleistung«. Eines dieser Themen, das immer wieder Leser in das Blahblog führt…

Tiere mit f am Ende in diversen Kombinationen

…ist zum Beispiel die Suche nach einem Tier mit »f« am Ende, die vorgestern ein paar Leutchen über Google auf einen inzwischen uralten Eintrag gelotst hat… neuerdings ist das Spiel aber »erschwert« durch die Erweiterung, dass die Tiere auch ohne »a« sein müssen, so dass die ganzen Schafe da draußen sich mal weitere Tiernamen ausdenken müssen, während ihr Geld von den Wölfen der Contentindustrie aufgegessen wird… :mrgreen:

Unfassbar allerdings, dass wohl immer noch genug Leute auf diese inzwischen etwas ausgelutschte Nummer hereinfallen. Denn der einzige Gewinner sind die Deutsche Telekom und die Veranstalter dieser wenig spielerischen Spiele, die sich die Einnahmen durch die Telefongebühren teilen.

Veröffentlicht unter Bloggen | Verschlagwortet mit , , , | Schreib einen Kommentar

Nach dem Hack…

I keep my head above the surface.
Trying to breathe, looking for land.
I keep an eye at the distant horizon.
Waiting for help, clutching the sky.

Covenant, Phoen IX

Tja, nach dem Hack… ist vor dem nächsten Hack. Es ist nun einmal jeder Rechner im Internet ein Opferrechner, und zurzeit sind meine Projekte jeden Tag mindestens zehn Versuchen einer »feindlichen Übernahme« ausgesetzt, die von Kinderkram bis zu sehr ernsthaften Angriffen reichen. Das ist der ganz normale Irrsinn, vor dem sich jeder gestellt sieht, der etwas im Internet macht – vor allem, wenn dieses Etwas eine Beachtung findet, die weit über den persönlichen Wirkkreis hinaus geht und damit Begehrlichkeiten weckt.

Ich habe mir dieses Mal allerdings gesagt, dass ich auf diese Art Scheiße gar keine Lust mehr habe, dass ich mich viel lieber meinem Leben neben dem Internet widmen möchte, das ich doch immer noch für die Hauptsache in meinem Dasein halte. Ich möchte schon seit Monaten etliche Projekte einstampfen, da ich mich leergeschrieben wie ein Einwegkugelschreiber im Mülleimer fühle – da reicht denn manchmal schon eine »Kleinigkeit«, um das Fass zum Überlaufen zu bringen. Nur das Bloggende Hannover hätte ich um jeden Preis retten wollen, und noch einige weniger beachtete Projekte, an denen mir wirklich etwas liegt.

Dennoch, der Vollständigkeit halber hier ein kleiner Rückblick auf den bislang miesesten Tag dieses Jahres, das auch ansonsten nicht gerade arm an miesen Tagen war.

Am späten Montag Nachmittag – gar nicht hell zur Sommersonnenwende – erblickte ich fern einer guten Internetanbindung ein vollständiges Defacement des Blahblogs, des Spamblogs, des Bloggenden Hannover, der Homepage zur deutschen Sprachdatei für bbPress und des »offiziellen« deutschen Verschwörungsblogs. Meine nächste Tat war es… zunächst gar nichts Überstürztes zu tun, sondern ganz schnell einen »richtigen« Arbeitsplatz zu bekommen, an dem ich die Sache unter die Lupe nehmen kann. Deshalb rief ich Frank an, ob ich schnell vorbei kommen könnte (und mit der Frage, ob er einen strammen Kaffee für mich hat, den ich für diese Nacht brauchen würde), und anschließend schwang ich mich auf mein Fahrrad und legte den Weg in einer für mich rekordverdächtig guten Zeit zurück, mit Stöpseln und der Musik von Ordo Rosarius Equilibrio in den Ohren und einer so schlechten Laune, dass mir fast schon wieder zum Lachen zumute war. Immerhin, ich habe keine kleinen Kinder vorsätzlich angefahren. Aber ich habe daran gedacht…

Nein, die kleinen Kinder können nichts dafür, wenn ich dartige Lücken offenlasse, die einem Cracker derartige Möglichkeiten bieten. Auf dem Weg hatte ich mich noch gefragt, wie der Angriff wohl gelaufen sein könnte. Das Blahblog und das Spamblog liefen ja schon unter WordPress 3.0, und die »Punkt-Nuller« von WordPress haben oft ihre Anfälligkeiten, es konnte also gut sein, dass »ich« hier über einen ganz frischen Exploit übernommen wurde. Ich verwünschte mich schon innerlich dafür, dass ich entgegen meinen sonstigen Gewohnheiten eine »Punkt-Nuller« genommen hatte, statt auf den ersten Bugfix zu warten, der gewöhnlich nach spätestens einen Monat kommt. Aber die lange Beta-Phase von WordPress 3.0 und der gute Eindruck in einer Testinstallation hatten mich überzeugt, dass es diesmal wohl nicht so schlimm sein werde.

Nun, ich sollte in dieser Entscheidung Recht behalten. Es war keine Lücke in WordPress, mit der meine Projekte übernommen wurden. Aber dazu später etwas mehr.

Als ich bei Frank ankam – ziemlich außer Atem und beswingt drauf – hatte ich beinahe gute Laune. Ich fuhr meinen dort bereit stehenden Arbeitsrechner hoch, es ist einer von diesen Rechnern, an denen ich so oft sitze, eigentlich ein wahrer Schrotthaufen, den jeder andere Mensch wegwerfen würde und der allein zum Hochfahren eine kleine Ewigkeit benötigt. Statt mir entspannt die Bootmeldungen anzuschauen, machte ich mir einen Kaffee, der deutlich jenseits der Grenze jeder Genießbarkeit liegt. Gut, dass ich für alles, was ich noch vor mir hatte, keine grafische Oberfläche benötigte… 😉

Meine erste Tat, nachdem ich mich über ssh mit dem Server verbunden hatte, war ein Check, ob der automatisierte, jeden Tag durchlaufende Backup der Datenbanken auch wirklich fehlerfrei war. Technik – von griechisch techne, Kunst – hat ja die unangenehme Eigenschaft, genau dann zu versagen, wenn es einmal darauf ankommt, und ich lasse mir die Meldung, dass der Backup gelungen ist, nur einmal in der Woche zumailen. Ärgerlicherweise war das schon ein paar Tage her, und daher meine Unsicherheit. Oh, wie ich mich gefreut habe, in den gzip-komprimierten Dateien richtige SQL-Dumps zu sehen, die völlig plausibel aussahen.

Nun hätte ich einfach zurückspielen können, aber ich saß ja vor einem kompromittierten System, dem ich nicht mehr trauen konnte. Ich musste herauskriegen, was los war. Deshalb warf ich mich zunächst auf die betroffenen WordPress-Installation und überprüfte mit Hilfe des find-Befehles, ob sich in diesen Installationen in den letzten 24 Stunden Dateien geändert hatten oder ob welche neu angelegt wurden. Erfreulicherweise war das nicht der Fall. Was immer der Angreifer getan hatte, dachte ich mir, er hat seine Spuren gut verwischt. Beim letzten Angriff, den ich abwehren musste, lagen ca. 50 Hintertüren aller Art im System verstreut, und die Bereinigung der Installationen war kein Spaziergang. Mira, die das damals miterlebte, war wirklich erstaunt über meinen ausgesprochen deftigen Wortschatz, den ich dabei aus meinem Munde entließ. 😉

So übel war es diesmal nicht. Aber es war übel genug. Ich hätte nun einfach die Datenbanken zurückspielen können – es waren noch nicht einmal Daten gelöscht, so dass der ebenfalls automatisch angelegte Vollbackup nicht erforderlich gewesen wäre – aber da war immer noch ein irgendwie offengelegtes System, und ich hatte zu verstehen, auf welche Weise das System offen gelegt wurde, bevor ich etwas anderes mache. Wenn man es gar nicht weiß, kann das eine recht knifflige Suche werden. Darüber hinaus stellte ich fest, dass sowohl mein Twitter-Account als auch mein ICQ-Account übernommen worden waren – ich nehme beides nicht besonders ernst und legte deshalb keinen Wert auf wirklich sichere Passwörter. Da war jemand schon sehr erpicht darauf, mir Probleme zu bereiten. Auf Twitter hinterließ der freundliche Sparringpartner eine deftige Selbstbeschimpfung, die dort als meine erschien, aber sprachlich so gestaltet war, dass jedem klar sein musste, dass sie nicht von mir sein konnte, und was er mit ICQ anfing, wusste ich noch nicht. Ich sollte es bald erfahren.

Ich holte mir erstmal Twitter zurück und gab dort eine kleine Information heraus, dass in größerem Maße Projekte von mir kompromittiert sind und dass meiner Kommunikation der letzten Stunden nicht unbedingt zu trauen ist. Außerdem löschte ich die etwas kindisch anmutende Kritzelei auf Twitter.

Nach einigen Minuten des Forschens auf einem kompromittierten Server wußte ich auch, wie der Angriff verlaufen war. Er geschah über einen FTP-Zugang.

Nun stellt sich noch die Frage, wie der freundliche Angreifer wohl an Zugangsdaten aller Art gekommen ist. Zum näheren Verständnis dieses Vorganges hier nur der Log eines ICQ-Gespräches zwischen »goebelmasse« (dem Angreifer, der fröhlich mit meinem Konto schnatterte und sich als mich ausgab) und yyy (einem Menschen, der mich kennt), der mir zugestellt wurde:

(18:21:41) goebelmasse: oh XD darf doch nich war sein!
(18:22:04) goebelmasse: du sagmal, hast du noch die zugangsdaten von [Von mir entfernt]? kann die nich mehr finden o.0
(18:22:21) yyy: öhm ich hatte nie die zugangsdaten von Wut
(18:23:01) goebelmasse: hm das ist nich gut.,… weil auf meine email komm ich auch nich mehr drauf 🙁
(18:23:16) yyy: ich habe nur den zugang zu den statistiken
(18:23:50) yyy: wieso kannst du nicht mehr auf deine Email zugreifen?
(18:24:57) goebelmasse: pw funktioniert nich mehr… also nich bei der googlemail sondern bei der [Mailadresse von mir entfernt]
[… Ein paar Zeilen »persönlicher« Kommunikation von mir entfernt]
(18:26:09) yyy: ok
(18:40:45) yyy: bist du bei [Name von mir entfernt]?
(18:41:00) goebelmasse: elias
(18:41:02) goebelmasse: 😀
(18:41:08) yyy: ?
(18:41:12) yyy: äh?
(18:41:28) goebelmasse: elias schwerdtfeger
(18:41:31) yyy: ?
(18:41:38) yyy: wo bist du im moment?
(18:42:30) goebelmasse: na zu hause ? o.0
(18:42:38) yyy: okey
(18:42:45) yyy: muß jetzt los, bis dann

Einmal ganz davon abgesehen, dass ich sogar beim Chatten ein deutlich besseres Deutsch ohne dieses Übermaß an Emoticons und Abkürzungen von mir gebe, zeigt sich hier, dass der Cracker nicht besonders gut vorbereitet war und eher ein »Standardprogramm« beim Social Hacking abspulte. Offenbar hat er mehrere derartige »Konversationen« parallel betrieben und die Frage »bist du bei xxx« beim flüchtigen Lesen gar nicht richtig verstanden, weil er sich nicht einmal die Mühe machte, diese Frage richtig zu lesen und sie halbautomatisch mit meinem Vornamen beantwortete. Und die durch schlichtes Lesen mit Leichtigkeit zu ermittelnde Tatsache, dass ich obdachlos bin, hat der unfreundliche Zeitgenosse auch nicht zu »recherchieren« gewusst, so dass er sich dazu hinreißen ließ, zu sagen, dass ich »zu hause« wäre. Nun, in genau diesem Moment war für »yyy« alles klar. Er musste auch nicht etwa »los«, sondern setzte alle Hebel in Bewegung, um mich wegen des laufenden Hacks zu warnen. Daraufhin konnte ich mir auch sehr genau vorstellen, auf welche Weise das FTP-Passwort herausgegangen ist…

So kann sich jede Nachlässigkeit in der Vergabe von Passwörtern rächen. Ich werde mir das jedenfalls gut merken und bedanke mich bei meinem anonymen Sparringpartner für das kostenlose Sicherheitstraining. Ein derartiger Angriff – mit einem bisschen mehr Recherche und Mühe im Vorfeld durchgeführt – hätte deutlich übler verlaufen können.

Da habe ich tatäschlich noch einmal Glück gehabt. Nun, manchmal braucht man eben auch Glück. Ebenfalls zum Glück weiß ich, auf welchem Hintergrund versucht wurde, meine Projekte aus dem Internet zu entfernen – es handelt sich um diesen (recht moderat geschriebenen) Artikel im Spamblog dessen weitere Hintergründe schon klar machen, womit man es bei diesen Leuten zu tun hat. Um den Artikel etwas resistenter gegen weitere Attacken derartiger Leute zu machen, habe ich zum Abschluss meiner Tätigkeiten zur Wiederherstellung der Projekte eine Spiegelung des gegenwärtigen Standes des Spamblogs bei WordPress.com angelegt. Damit auch ja niemand auf die unsäglich dumme Idee kommt, »Browserspiele« zu spielen, die über Spam angeboten werden!

Abschließendes

Ich kann einen Tag nach diesen Ereignissen nur davor warnen, allzuviel Vertrauen in die Kommunikation über Instant Messaging oder ICQ zu haben. Neben den direkt sichtbaren Bereichen wurden mit derart abgephishten Passwörtern noch ganz andere Dinge übernommen, unter anderem auch einige Forenaccounts. Grundsätzlich würde ich jedem Menschen raten, niemals ein bekanntes Passwort über ICQ oder über Mail herauszugeben, weil jemand Bekanntes darum bittet – denn so kann aus einer einzelnen erfolgreichen Übernahme schnell eine Lawine werden, in der jemand untergeht. Alle Alarmglocken sollten schrillen, wenn der sprachliche Stil des Gegenübers vom Gewohnten abweicht.

Ebenfalls muss ich im Moment davor warnen, einer Mail nur wegen ihrer Absenderadresse zu trauen, denn auch die lässt sich leicht fälschen oder könnte aus einem übernommenen Account stammen. Da ich mir wirklich »Freunde« gemacht habe, gilt dies in ganz besonderer Weise bei Mails, die scheinbar von mir stammen. Denn von denen gibt es gerade eine ganze Menge. Ich versende grundsätzlich keine Links ohne besonderen Grund, und mein normaler sprachlicher Stil ist auch in Mails unverändert, wenn auch oft dezent informeller. Wer mich kennt, weiß übrigens auch, dass ich ganz besondere, gesellschaftlich eher unübliche Grußformeln in Mails verwende, die ich hier jetzt aus naheliegenden Gründen nicht genauer erläutere. Wenn solche Grußformeln fehlen, stammt die Mail mit an Sicherheit grenzender Wahrscheinlichkeit nicht von mir. Wenn sie vorhanden sind, ist dies aber auch nicht gerade ein Zeichen, dass ich der Verfasser der Mail bin.

Von daher werde ich wohl demnächst zu signierter Mail übergehen, um den Missbrauch ein bisschen schwieriger zu machen.

Veröffentlicht unter Technisches | Verschlagwortet mit , , , , | Schreib einen Kommentar