Feeds & Crawler

In diesem Kapitel möchten wir uns damit beschäftigen, wie wir an Inhalte aus dem WWW kommen können.

Dabei gibt es eigentlich zwei Möglichkeiten:

  1. Man lässt sie sich per Feed liefern
    • Feed muss vorhanden sein
    • Einigermaßen übersichliches html muss interpretiert werden
  2. Man muss sie von Webseiten scrapen
    • Feed muss nicht vorhanden sein
    • Einigermaßen unübersichtliche Seitenstruktur muss interpretiert werden

Feeds

- Beispiel für einen Volltextfeed: https://texperimentales.hypotheses.org/feed

- Beispiel für einen Übersichtsfeed: https://www.spiegel.de/schlagzeilen/tops/index.rss

- Beispiel für einen Podcastfeed: https://www.zeitsprung.fm/feed/nospoilers/


Crawler / Scraper

- Der Scaper für ODRAlighthouse - Präsentation von Dennis Demmer

- [DEPRECATED] Der Code des Scapers auf GitHub - https://github.com/DDemmer1/odra-test

- [DEPRECATED] Arbeitsversion des Scrapers für den 4.11.2019

- [NEU] GitHub-Verzeichnis für die Referenzversion des Scrapers [Java] https://github.com/DH-Cologne/ODRAscraper-java

- [NEU] GitHub-Verzeichnis für die Referenzversion des Scrapers [Python] https://github.com/DH-Cologne/ODRAscraper-python


Datenstruktur für das Austauschformat "Artikel"

class Article {
String headline; // Überschrift des Artikels
String textBody; // Content des Artikels (nur Text und HTML)
String source; // URL des Mediums
String sourceName; // Name des Mediums
String author; // Name des Autors / der Autorin (falls vorhanden)
String topic; // Ressort des Artikels (falls ermittelbar)
String link; // URL des Artikels
Date crawlDate; // genaues Crawl-Datum
String creationDate; // Datum der Artikelerstellung (wenn vorhanden)
}