Smartial Wayback Machine Text Extractor



Live version of this page exists.
However, it is different from the archived page (1 redirect/s found...)


This article contains 1 images. You will find them at the very end of the article.

This article contains 277 words.

Black Hat Show 002 : Scraping von Internetseiten

In dieser Ausgabe dreht sich alles um das Scraping vom Internetseiten.

Damit man Seiten sinnvoll analysieren kann erklären wir die Basics des HTTP Protokolls und zeigen euch Tools und Möglichkeiten nennen, wie man effezient Scrapen kann.

Leider konnten wir aufgrund von technischen Einschränkungen bei der Aufnahme die Livesession nicht wie geplant durchführen, somit werden in der nächsten Show die ganzen Beispiele noch gezeigt und erklärt.

News

In den Exploit News gehen wir dieses mal auf die WordPress 3.3 XSS Attacke ein und warnen vor dem Ramnit Trojaner (Detailierte Beschreibung).

Weitere Nachrichten aus der IT Welt waren die in Schweden annerkannte Filesharing Religion, die 28c3 und die neue Ausgabe der Hakin9.

In unserer OpenData Sektion schlagen wir das Dokument Extracting Structured Information from Wikipedia Articles vor. Zusätzlich zeigen wir die Gemeinde DB des Statistischen Bundesamtes.

Scraping

Für den Einstieg in das Scraping sollte man sich das RFC 1945 und RFC 2616 durchlesen.

Um mit PHP eine DOM aufzubauen empfehlen wir die Klasse DomDocument und den Simple HTML Dom.

XPath, RegExp, regexlib

Im Offtopic reden wir in der Show über die Sicherheit von der MD5 Verschlüsselung und den Ergebnissen der gestoppten Vorratsdatenspeicherung.

Diese Ausgabe musste leider wegen der technsichen Probleme geschnitten werden, bitte verzeiht die Sprünge in der Sendung.

Die nächste Liveshow finde am 2.2. ab 19 Uhr statt und wird ab 6.2. bei Radio4SEO zu hören sein.

Black Hat Show 002 : Scraping von Internetseiten [ 50:09 ] Jetzt abspielen | Play in Popup | Download



Images:

The images are downsized due to limited space here. The original dimensions may differ.
Click on the image to open it on a new tab.



Please close this window manually.