Feeds & Crawler
In diesem Kapitel möchten wir uns damit beschäftigen, wie wir an Inhalte aus dem WWW kommen können.
Dabei gibt es eigentlich zwei Möglichkeiten:
- Man lässt sie sich per Feed liefern
- Feed muss vorhanden sein
- Einigermaßen übersichliches html muss interpretiert werden
- Man muss sie von Webseiten scrapen
- Feed muss nicht vorhanden sein
- Einigermaßen unübersichtliche Seitenstruktur muss interpretiert werden
Feeds
- Beispiel für einen Volltextfeed: https://texperimentales.hypotheses.org/feed
- Beispiel für einen Übersichtsfeed: https://www.spiegel.de/schlagzeilen/tops/index.rss
- Beispiel für einen Podcastfeed: https://www.zeitsprung.fm/feed/nospoilers/
Crawler / Scraper
- Der Scaper für ODRAlighthouse - Präsentation von Dennis Demmer
- [DEPRECATED] Der Code des Scapers auf GitHub - https://github.com/DDemmer1/odra-test
- [DEPRECATED] Arbeitsversion des Scrapers für den 4.11.2019
- [NEU] GitHub-Verzeichnis für die Referenzversion des Scrapers [Java] https://github.com/DH-Cologne/ODRAscraper-java
- [NEU] GitHub-Verzeichnis für die Referenzversion des Scrapers [Python] https://github.com/DH-Cologne/ODRAscraper-python
Datenstruktur für das Austauschformat "Artikel"
class Article { | ||
String headline; | // Überschrift des Artikels | |
String textBody; | // Content des Artikels (nur Text und HTML) | |
String source; | // URL des Mediums | |
String sourceName; | // Name des Mediums | |
String author; | // Name des Autors / der Autorin (falls vorhanden) | |
String topic; | // Ressort des Artikels (falls ermittelbar) | |
String link; | // URL des Artikels | |
Date crawlDate; | // genaues Crawl-Datum | |
String creationDate; | // Datum der Artikelerstellung (wenn vorhanden) | |
} |