Eigenschaften Digitaler Sammlungen

Diskussionspunkte:

  1. Was unterscheidet eine traditionelle Bibliothek von einer Digitale Bibliothek?
  2. Was wird in einer Bibliothek/Archiv/Museum gesammelt? Was wird in einer digitalen Bibliothek/Archiv/Museum gesammelt?
  3. Identifier dienen dem Zweck, Objekte, Entitäten wie Variablen, Datensätze, Prozesse oder Ressourcen eindeutig zu identifizieren. Sie kommen in unterschiedlichen Kontexten vor. Welche Anforderungen müssen an einen Identifier gestellt werden, der zur Identifikation von digitalisierten Kulturerbe dient? Ist eine URL ein sinnvoller Identifier?
  4. Wo liegen die Unterschiede hinsichtlich der Auswirkungen dieser Datenformate?
Word-Dokument pdf-Dokumet jpg-Dokument

.

1. Was ist eine Digitale Bibliothek?

Digitale Bibliotheken sind Informationssysteme, die das Ziel verfolgen, das kulturelle Erbe in digitaler Form langfristig zu erhalten. (Oft nach dem Open Archival Information System – OAIS Referenzmodell- Erläuterung) Sie teilen sich dieses Ziel mit digitalen Archiven und Museen und die Abgrenzung zwischen diesen ist mindestens unscharf. An alle diese Systeme werden besondere Anforderungen gestellt und eine große Anzahl dieser Systeme sind derzeit mit unterschiedlichem Erfolg im Einsatz.


„Es ist Aufgabe einer digitalen Bibliothek, für einem privaten, akademischen und industriellen Nutzerkreis attraktive Produkte und effiziente Dienste anzubieten, die diesem helfen, an das benötigte und gewünschte in digitalen Dokumenten gespeicherte Fachwissen zu gelangen.“ [Endres, Albert; Fellner, Dieter W.: Digitale Bibliotheken. Informatik-Lösungen für globale Wissensmärkte; Heidelberg: dpunkt, 2000, S. 81]

Der Begriff des digitalen Dokumentes hat sich in diesem Zusammenhang inzwischen überlebt (veraltet?), besser ist der des Digitalen Objektes.

2. Was wird von einer digitalen Bibliothek gesammelt? / Was sind die Produkte einer digitalen Bibliothek??

Digitale Objekte mit ihren digitale Metadaten. siehe auch hier

Metadaten werden eingeteilt in Katalogdaten, Strukturdaten und inhaltsbezogene Metadaten. Diese können frei oder standardisiert erhoben werden. Der entscheidende Vorteil des Standards ist immer die Einheitlichkeit und damit die leichtere (digitale) Verarbeitung.

Erschließung von Medien bei der DNB siehe hier.

Stichwörter für die Diskussion: Index, Verschlagwortung/Schlagworte, Personen und Verortung: Gemeinsame Normdatei (GND), Thesaurus: Getty Thesaurus of Geographic Names
Auch interessant: Metadatenmapping im Projekt Deutsche Digitale Bibliothek anhand von Dublin Core, Lido und EAD.


Digital Object Architecture (DOA)

Die Digital Object Architecture (DOA) und das damit verbundene Handle System® ist im Kontext der Corporation for National Research Initiatives (CNRI) in den frühen 1990 Jahren entstanden.
Digital Object Architecture provides a means of managing digital information in a network environment. A digital object has a machine and platform independent structure that allows it to be identified, accessed and protected, as appropriate. A digital object may incorporate not only informational elements, i.e., a digitized version of a paper, movie or sound recording, but also the unique identifier of the digital object and other metadata about the digital object. The metadata may include restrictions on access to digital objects, notices of ownership, and identifiers for licensing agreements, if appropriate.
siehe http://www.handle.net/ 15.03.2009

3. Wo liegen die Vor- und Nachteile von digitalen Objekten gegenüber analogen?

Speicherkapazität, Übertragungsgeschwindigkeit, parallele, weltweite 24/7 Nutzungsmöglichkeit, selektive Informtionsverteilung (Aufteilung in kleine Einheiten zur zielgruppenspezifischen Distribution), Möglichkeit der weiteren Bearbeitung, verbesserte Erschließungsmöglichkeiten, heterogene Inhalte, …
versus
Abhängigkeit von interpretierenden Werkzeugen und elektrischen Strom, leichtere Manipulationsmöglichkeit, Speicherbedarf (v.a. digitalen Objekte mit multimedialen Inhalten), unbemerkte Beschädigungen oder Verlust, Langzeitarchivierung, …

4. Was ist ein sinnvoller Identifier für digitale Kulturgüter?

Die zentrale Funktion von Identifieren besteht darin, eine eindeutige Referenz für Objekte oder Daten zu schaffen, um deren Verfolgbarkeit und Zuordnung zu gewährleisten.

Ein persistenter Identifier (auch "Permanenter Bezeichner" genannt) ist ein eindeutiger und dauerhafter Verweis auf eine Ressource, wie etwa ein Dokument, Datensatz, Bild, Video oder eine andere Art von digitalen Objekten. Im Gegensatz zu herkömmlichen Identifiern, die sich ändern oder veralten können (wie z. B. URLs), ist ein persistenter Identifier darauf ausgelegt, langfristig stabil zu bleiben, auch wenn die zugrunde liegende Ressource oder deren Speicherort geändert wird.

Eigenschaften eines persistenten Identifiers:

  1. Eindeutigkeit: Jeder Identifier ist eindeutig und verweist auf genau eine Ressource.
  2. Persistenz: Der Identifier bleibt über einen langen Zeitraum stabil, auch wenn sich die Ressourcen-URL oder der Speicherort ändert.
  3. Unveränderlichkeit: Einmal zugewiesen, ändert sich der Identifier selbst nicht.
  4. Auflösbarkeit: Der Identifier kann in der Regel durch ein System oder einen Dienst in den aktuellen Speicherort der Ressource aufgelöst werden (ähnlich wie ein DNS-System).

Beispiele für persistente Identifier:

  1. DOI (Digital Object Identifier): Ein weit verbreiteter Standard zur Kennzeichnung digitaler Objekte, insbesondere wissenschaftlicher Publikationen. Ein DOI verweist immer auf das gleiche Werk, auch wenn sich dessen Speicherort ändert.
    • Beispiel: doi:10.1000/182
  2. URN (Uniform Resource Name): Ein URI (Uniform Resource Identifier), der als dauerhafte Referenz für Ressourcen verwendet wird. URNs sind speziell dafür gedacht, über lange Zeiträume stabil zu bleiben.
    • Beispiel: urn:isbn:0451450523
  3. Handle System: Ein weiteres System, das persistente Identifier bereitstellt. Handles werden häufig für die Verwaltung von digitalen Ressourcen in Repositorien verwendet.
    • Beispiel: hdl:20.1000/100
  4. ARK (Archival Resource Key): Ein persistent Identifier, der oft in Archiven und Bibliotheken verwendet wird, um auf digitale und physische Objekte zu verweisen.
    • Beispiel: ark:/13030/tqb3kh

Persistente Identifier sind besonders wichtig in Bereichen wie:

  • Wissenschaft und Forschung: Um sicherzustellen, dass akademische Publikationen, Forschungsdaten und andere digitale Inhalte langfristig auffindbar bleiben.
  • Bibliotheken und Archive: Für die dauerhafte Verwaltung von digitalen und physischen Sammlungen.
  • Digitale Repositorien: Um sicherzustellen, dass Inhalte auch bei technischen Änderungen (z. B. Migration auf neue Systeme) auffindbar bleiben.

Persistente Identifier gewährleisten also, dass digitale Inhalte auch in Zukunft zuverlässig aufgerufen werden können, was für die Langzeitarchivierung und das Forschungsdatenmanagement essenziell ist.

Konzept: URI URN URL Video
Entscheidend: Persistent Identifier (DOI, Kontext FDM), der die Bestandteile eines digitalen Objektes über Datei- und Speichergrenzen hinaus zusammenhält.

6. Wo liegen die Unterschiede?

1. Volltext- versus Imagedigitalisierung.
2. Propritäre versus offene Dateiformate.

OCR

OCR (Optical Character Recognition) ist eine Technologie zur automatischen Erkennung und Umwandlung von gedrucktem oder handgeschriebenem Text in maschinenlesbare digitale Daten. Mit OCR können Texte aus gescannten Dokumenten, Bildern oder PDFs extrahiert und in editierbare Formate wie Textdateien oder Word-Dokumente umgewandelt werden.

Funktionsweise: OCR-Software analysiert die Form der Zeichen in einem Bild oder Scan und vergleicht sie mit einer internen Datenbank von Schriftzeichen. Dabei werden Muster und Strukturen von Buchstaben und Zahlen erkannt und in digitale Texte umgewandelt.

Traditionell basierte OCR auf festgelegten Mustern und Regeln, was bei komplexen oder schlecht gedruckten Texten oft zu ungenauen Ergebnissen führte.
Machine Learning und Deep Learning-Algorithmen revolutionieren diesen Bereich, indem sie OCR leistungsfähiger und flexibler macht.

  1. Erhöhung der Erkennungsgenauigkeit: Durch den Einsatz von Machine Learning und Deep Learning-Algorithmen kann KI unterschiedliche Schriftarten, Handschriften und sogar stark beschädigte oder verwischte Texte besser erkennen. KI-Modelle werden auf riesige Datenmengen trainiert und können so Buchstaben, Wörter und Satzstrukturen mit höherer Präzision identifizieren, selbst bei unklaren oder ungewöhnlichen Layouts.

  2. Kontextbasierte Texterkennung: KI kann den Kontext eines Textes analysieren, um schwer erkennbare Zeichen oder Wörter besser zu interpretieren. Wenn ein Wort unscharf oder beschädigt ist, kann die KI basierend auf dem umgebenden Text erraten, was das Wort sein sollte. Das ist besonders hilfreich bei historischen Manuskripten, wo Texte oft unvollständig sind.

  3. Erkennung von Handschriften: Während traditionelle OCR Schwierigkeiten mit Handschriften hatte, können KI-gestützte Systeme deutlich bessere Ergebnisse liefern. Sie lernen individuelle Schreibstile und -muster zu erkennen und auch handgeschriebene Texte effizienter in maschinenlesbare Formate zu konvertieren.

  4. Multilinguale Texterkennung: KI hilft bei der Texterkennung in vielen verschiedenen Sprachen und sogar bei der Erkennung von Schriften wie Chinesisch oder Arabisch, die mit traditionellen OCR-Ansätzen schwer zu verarbeiten sind.

  5. Automatische Korrektur: KI kann nicht nur den Text erkennen, sondern auch Rechtschreibfehler automatisch korrigieren. Selbst wenn das OCR einen Fehler bei der Erkennung gemacht hat, kann die KI diese basierend auf sprachlichen Modellen korrigieren, ähnlich wie Autokorrekturfunktionen in Textverarbeitungsprogrammen.

  6. Layout- und Strukturverständnis: KI kann komplexe Layouts wie Tabellen, Spalten oder grafische Elemente in Dokumenten erkennen und korrekt verarbeiten. Das geht über die reine Texterkennung hinaus und erlaubt es, komplexe Dokumente als Ganzes in maschinenlesbare Formate zu übertragen, einschließlich der Anordnung von Text und Bildern.