Typesetting
Die Zukunft des kunsthistorischen Publizierens
27 Mar 2021
Making-of: Die “Zukunft des elektronischen Publizierens” als Experimentierfeld
Zusammenfassung: Elektronisches Publizieren eröffnet bislang nicht denkbare Interaktionsformen als auch neue Felder der formalen und inhaltlichen Analyse. Dies betrifft das Detail ebenso wie die Vernetzung zu großen Korpora (fach)wissenschaftlicher Information. Der Beitrag von Christof Schöch in diesem Band diente dem Heidelberger arthistoricum.net-Team als Anregung, Anforderungen an Daten in den Blick zu nehmen, die primär der maschinellen Weiterverarbeitung von Forschungsliteratur dienen sollen und nicht der „klassischen“ lesenden Lektüre. Dieser Sammelband wurde zum selbstreflexiven Experimentierfeld für die fünf von Schöch formulierten Anforderungen an maschinenlesbare wissenschaftliche Publikationen, von denen immerhin drei ­erfüllt und das redaktionelle wie technische Vorgehen hier dokumentiert werden konnten: Die Anreicherung mit Metadaten, die Kodierung von Textstrukturen sowie die semantische Datenanreicherung in Form von Entitäten und Konzepten und deren Verknüpfung mit der Gemeinsamen Normdatei (GND) und der Wissensdatenbank Wikidata.
Schlagworte: Datenbanken, Digitale Strategie, Digitales Publizieren, E-Book, Fachcommunity, Forschungsdaten, Geisteswissenschaften, Gold Open Access, Hosting, Langzeitverfügbarkeit, Maschinenlesbarkeit, Normdaten, Ontologien, Open Monograph Press (OMP), Open Access, Open Data, Open-Access-Books, Open-Access-Monografie, Publikationsformate, Social Media, Software-Entwicklung, Wissenschaftliches Publizieren, XML, Zeitschriften
Abstract: Electronic publishing opens up previously inconceivable forms of interaction as well as new fields of formal and content analysis. This concerns the details as well as the networking to large corpora of (specialized) scientific information. The contribution of Christof Schöch in this volume served as a stimulus for the Heidelberg arthistoricum.net team to take a look at the requirements for data that should primarily serve the machine processing of research literature and not the "classical" reading. This anthology became a self-reflexive experimental field for the five requirements formulated by Schöch for machine-readable scientific publications, three of which were met and the editorial and technical procedure could be documented here: The enrichment with metadata, the encoding of text structures as well as the semantic data enrichment in the form of entities and concepts and their linkage with the Gemeinsame Normdatei (GND) and the knowledge database Wikidata.
Keywords: Academic publishing, databases, digital publishing, digital strategy, e-book, gold open access, hosting, humanities, journals, long-term availability, machine readability, normative data, ontologies, open access, open access books, open access monographs, open data, Open Monograph Press (OMP), professional community, publication formats, research data, social media, software development, XML
Die Vision
Digitales Publizieren [Wikidata, GND] hat ein immenses Potenzial. Schöpft man seine Möglichkeiten aus, wird es letztlich eine neue epistemische Stufe des Kommunizierens, Diskutierens und Denkens in allen Wissenschaften eröffnen. Für die Geisteswissenschaften wird diese Entwicklung deren Unterscheidung in „traditionelle [Wikidata, GND]“ und Digital Humanities [Wikidata, GND] aufheben. Es wird ganz sicher weiterhin sinnvoll sein, Publikationen zu einzelnen Aspekten oder Fragestellungen in Print [Wikidata, GND] oder als PDF-E-Book [Wikidata, GND] etc. zu veröffentlichen, aber wer die volle Bandbreite der Möglichkeiten ausschöpfen und das gesamte Spektrum an Inhalten, Bezügen, Medien eines Wissensbereiches darstellen will, wird auf die neuen digitalen und maschinenlesbaren [Wikidata, GND] Publikationsformate und Darstellungsmöglichkeiten angewiesen sein.
Der Weg dorthin ist weit, orientiert sich das elektronische Publizieren [Wikidata, GND] doch heute nach wie vor noch weitgehend am traditionellen Paradigma des gedruckten Buches [Wikidata, GND]. Monografien [Wikidata, GND] und Sammelbände [Wikidata, GND] werden zu „E-Books [Wikidata, GND]“, Zeitschriften [Wikidata, GND] zu „E-Journals [Wikidata, GND]” und PDF-Artikel werden in regelmäßig erscheinende E-Journal-„Hefte” eingebunden. All dies orientiert sich noch immer eng an den etablierten Modellen der gedruckten (Verlags-)Publikationen.
Diesen Status quo gilt es zu überwinden, wobei digitale Publikationen [Wikidata, GND] sich von den herkömmlichen Druckfassungen durch mehr unterscheiden müssen als „nur“ durch maschinenlesbares [Wikidata, GND] Tagging, Annotierung, Verlinkung und Verknüpfung mit im Sinne eines „Enhanced Publishing“. Digitales Publizieren [Wikidata, GND] meint nicht (nur) theoretisch unbegrenzte Akkumulation von aufeinander bezogenen wissensgenerierenden Informationen. Es meint die Möglichkeit vorher nicht denkbarer Interaktionsformen. Damit entfaltet das digitale Publizieren [Wikidata, GND] seine volle Wirksamkeit, weit über den Vorzug des globalen Golden Open Access [Wikidata, GND] hinaus.
Das digitale Publizieren [Wikidata, GND] wird es ermöglichen, neue Felder der formalen und inhaltlichen Analyse, der historischen, geografischen, sozialen Implikationen, der Präzision im Detail und Vernetzung mit anderen Wissenschaften und deren Ergebnissen zu erreichen, die vorher auch mit dem größten Forscherfleiß nicht möglich waren. Dieses digitale Publizieren [Wikidata, GND] erlaubt Überlegungen und Erkenntnisse zu Fragen zu kommunizieren, die sich bisher im gedruckten Buch gar nicht stellen ließen.
Das ist noch Vision – dieses Buch will einen weiteren Schritt dorthin machen.
Die Ausgangslage
Das Ziel, das sich das Heidelberger arthistoricum.net-Team [Wikidata, GND] vor nun schon über 10 Jahren gesetzt hatte, war klar: der Aufbau einer nachhaltigen Open-Access [Wikidata, GND]-Publikationsinfrastruktur als Angebot an die kunstwissenschaftlichen Nutzer*innen in Deutschland, aber auch darüber hinaus. Anfangs waren die technischen Möglichkeiten noch begrenzt: Es konnten lediglich PDF-Dateien auf einem Dokumentenserver (ART-Dok) dauerhaft und zitierfähig veröffentlicht werden. Mittlerweile reicht das Angebotsspektrum im Routinebetrieb vom Hosting von E-Journals [Wikidata, GND] über die Veröffentlichung von E-Books [Wikidata, GND] bis hin zu digitalen Editionen und Werkverzeichnissen. Höchste Priorität hat dabei die maximale Sichtbarkeit der Herausgeber*innen und Autor*innen und die Zugänglichkeit ihrer Veröffentlichungen im „goldenen [Wikidata, GND]”, also genuin digitalen, frei zugänglichen Open Access, aber auch im Wege der elektronischen Zweitveröffentlichung im sogenannten „grünen” Open Access. Dabei sind auch hybride Modelle möglich, die sowohl eine elektronische Open-Access-Publikation als auch eine Print-on-Demand-Lösung [Wikidata, GND] beinhalten.
Eingebettet ist das Publikationsangebot des von der DFG geförderten Fachinformationsdienstes Kunst, Fotografie, Design – arthistoricum.net [Wikidata, GND] seit 2015 in die Gesamtstrategie der Universitätsbibliothek Heidelberg, sich neben der Wahrnehmung ihrer traditionellen Aufgabe, der analogen und digitalen Informationsversorgung der Heidelberger Universität, auch im verlegerischen Bereich als professioneller Dienstleister zu etablieren; geleitet von der Vision eines praktikablen, nachnutzbaren Modells für ein neues, zeitgemäßes, qualitätsorientiertes wissenschaftliches Publikationswesen im Open Access [Wikidata, GND], dessen Publikationen international sichtbar sind und das ohne die etablierten Großverlage auskommt. Die wissenschaftliche Bibliothek steht dabei nicht mehr nur bei der Informationsbereitstellung am Anfang der „Wertschöpfungskette der Wissenschaft” in der Rolle eines Dienstleisters. Sie steht vielmehr zusätzlich auch an deren so wichtigem Ende, nämlich dem Moment der weithin sichtbaren Veröffentlichung der neuen Forschungsergebnisse, dem Moment, der aus „der Erkenntnis des ‚Privatgelehrten‘ eine in der Fachcommunity (oder einer breiteren Öffentlichkeit) diskutierte, evaluierte, evtl. revidierte und damit erst akzeptierte wissenschaftliche Erkenntnis“ macht.
Die stetig steigende Aufmerksamkeit, die arthistoricum.net [Wikidata, GND] seit seiner Gründung erfährt, die jährliche wachsende Anzahl an E-Book-Veröffentlichungen [Wikidata, GND], die zahlreichen angestoßenen und begleiteten Transformationen vormals nur gedruckt erschienener Kunstzeitschriften, die hohen Downloadzahlen, aber auch die diversen strategischen Partnerschaften mit Kultureinrichtungen und Verlagen [Wikidata, GND] belegen, dass die bisherigen Publikationsangebote durchaus den Bedürfnissen der kunstwissenschaftlichen Fachcommunity entsprechen.
Großes Entwicklungspotenzial stellt darüber hinaus die Tatsache dar, dass arthistoricum.net [Wikidata, GND] seit Oktober 2020 Teil der von der Deutschen Forschungsgemeinschaft geförderten Nationalen Forschungsdateninfrastruktur (NFDI) ist. Das Konsortium NFDI4Culture nimmt sich dabei der Forschungsdaten [Wikidata, GND] zu materiellen und immateriellen Kulturgütern an. Die beiden Betreiber von arthistoricum.net [Wikidata, GND] – UB Heidelberg und SLUB Dresden – verantworten dabei als Mitantragsteller vor allem die Aktivitäten in Task Area 4, „Data publication and data availability“.
Mehr als „nur” ein PDF?
Der erste Meilenstein – nämlich die Bereitstellung einer verlässlichen und nachhaltigen digitalen Publikationsinfrastruktur für die kunstwissenschaftliche Fachcommunity – ist bei arthistoricum.net [Wikidata, GND] also längst erreicht und wird rege genutzt; allerdings bis auf wenige Ausnahmen bisher „nur” für die Publikation von PDF-Dateien. Weitere Schritte waren nötig auf dem Weg hin zu einer Publikationsform, die die Potenziale des Online-Publizierens [Wikidata, GND] wirklich auszuschöpfen beginnt.
Grundlage hierfür ist die Einbettung der in Heidelberg für arthistoricum.net [Wikidata, GND] bereitgestellten Publikationsplattformen in die in den letzten 20 Jahren aufgebaute modulare digitale Forschungsinfrastruktur der Universitätsbibliothek Heidelberg (heiRIS – Heidelberg Research Infrastructure) (Abb. 1). Sie dient – mit besonderem Blick auf die Bedarfe der Geisteswissenschaften [Wikidata, GND], der „Digital Humanities [Wikidata, GND]” – ganz umfassend der Arbeit mit Digitalisaten, digitalen Medien und Texten und umfasst Werkzeuge für semantische Modellierung, Bildannotation, Textedition sowie wissenschaftliche Publikation. Nachhaltige Mehrwerte schaffen die Erschließung mit Normdaten, bibliothekarische Katalogisierung [Wikidata, GND], Verfügbarmachung von Forschungsdaten [Wikidata, GND] sowie vor allem die Langzeitarchivierung [Wikidata, GND].
Vor dem Hintergrund all dieser Möglichkeiten war es nun das Ziel, die Forschungsergebnisse bei der Veröffentlichung eines Buches – neben einer PDF- [Wikidata, GND] und einer Printausgabe – auch online in einer interaktiven HTML-Version anzubieten, die den Nutzer*innen zusätzliche Funktionalitäten bietet. Texte können hierbei mit erarbeiteten digitalen Daten im Forschungsdatenrepositorium nicht nur ergänzt, sondern grundlegend verschränkt werden. Historische Quellen, Video- und Audiosequenzen oder auch andere weiterführende digitale Angebote liefern Zusatz- oder Hintergrundinformationen. Über eine Kommentarfunktion kann dieser so geschaffene Wissensraum zusätzlich angereichert werden, sodass der wissenschaftliche Diskurs im Idealfall direkt an der Publikation stattfinden kann.
Eine Ende 2020 bei heiUP erschienene Dissertation, bei der im Sinne eines „Enhanced E-Book“ alle verfügbaren und gemeinfreien Online-Quellen, mit welchen sich die Autorin auseinandersetzt, sowohl in der PDF- als auch in der HTML-Version des Buchs direkt und seitengenau im Text verlinkt wurden, ist beispielgebend für entsprechende Bände auch bei arthistoricum.net [Wikidata, GND]. So stützt sich diese Arbeit auf zahlreiche im Internet frei zugängliche Quellen, vor allem aber auch auf digitalisierte Bücher und auf den eigens hierfür digitalisierten Briefwechsel der behandelten Autorin. Auch das Forschungsobjekt selbst, Marie Luise Gotheins Geschichte der Gartenkunst, wurde digitalisiert und vielfach spezifisch und feingranular in dem Band verknüpft.
Bei der Neugründung der von einem internationalen Herausgeberteam betreuten kunstwissenschaftlichen Open-Access-Zeitschrift 21: Inquiries into Art, History, and the Visual – Beiträge zur Kunstgeschichte und visuellen Kultur im Jahr 2020 konnte das arthistoricum.net-Team [Wikidata, GND] nicht nur die technische Infrastruktur bereitstellen, sondern das Redaktionsteam bei allen Fragen des Onlinegangs, der begleitenden Printausgabe, aber vor allem bei der Einrichtung eines HTML-Workflows beraten, unterstützen sowie einen Teil der notwendigen verlegerischen Aufgaben übernehmen. Alle Beiträge erscheinen dabei parallel sowohl als PDF- und auch als HTML-Version.
Um die Akzeptanz dieser HTML-Versionen auch im Hinblick auf ihre abschnittsgenaue Zitierfähigkeit zu erreichen – immerhin gilt in geisteswissenschaftlichen Veröffentlichungen noch immer die Angabe der Seitenzahl bei Verweisen und Zitaten als Standard –, wird in Kürze jeder Abschnitt innerhalb des HTML-Textes über einen spezifischen DOI [Wikidata, GND] eindeutig referenzierbar sein. Auf dem Gebiet der Zitierfähigkeit leistet die HTML-Ausgabe damit künftig mehr als das PDF: Über den persistenten Zitierlink lässt sich die zitierte Stelle nicht nur referenzieren, sondern auch mit nur einem Klick direkt von der Bibliographie aus im Volltext der Publikation aufrufen.
Nur kurz erwähnt sei der Einsatz von WissKI (Wissenschaftliche Kommunikations-Infrastruktur), einer ontologiebasierten [Wikidata, GND] virtuellen Forschungsumgebung, die sich immer dann als Publikationsort anbietet, wenn Texte, die komplexere Fragestellungen behandeln, auf der Grundlage digitaler semantischer [Wikidata, GND] Tiefenerschließung veröffentlicht und visualisiert werden sollen. Strukturierte wissenschaftliche Texte können mit Bildern, Karten oder 3D-Visualisierungen verknüpft werden. Durch die ontologiebasierte [Wikidata, GND], auf dem CIDOC Conceptual Reference Model [Wikidata, GND] aufbauende Datenhaltung in einem Triple Store stehen Forschungsergebnisse mittels Linked Data [Wikidata, GND] weltweit zur Verknüpfung mit anderen Datenrepositorien bereit.
Das Experimentierfeld
Aber was ist nun eigentlich bei unserer Veröffentlichung des vorliegenden Bandes über Die Zukunft des kunsthistorischen Publizierens (Abb. 2) das „Experiment”? Ausgangspunkt war die Anregung von Christof Schöch in diesem Band, der ganz zu Recht dazu auffordert, das „Potenzial digitaler Technologien für die Wissensproduktion” auszuschöpfen und sich nicht mit der „Reinkarnation des gedruckten Buches”, also eben dem oben schon kritisch beleuchteten PDF, zufrieden zu geben, sondern gerade im Gegenteil auf dessen Ablösung zugunsten von Datenformaten [Wikidata, GND] für wissenschaftliche Publikationen hinzuarbeiten, die den FAIR-Prinzipien [Wikidata, GND] – findable (auffindbar), accessible (zugänglich), interoperable (interoperabel) und reusable (wiederverwendbar) – entsprechen.
Dies haben sich die Herausgeber dieses Bandes zu Herzen genommen und erproben für arthistoricum.net [Wikidata, GND] nun erstmals – neben dem oben kurz beschriebenen semantischen [Wikidata, GND], ontologiebasierten [Wikidata, GND] Publizieren und dem Erzeugen von RDF-Triples und deren Bereitstellung im Triple-Store (Linked Open Data [Wikidata, GND]) in unseren WissKI-basierten Projekten –, wichtige, in den Textbeiträgen behandelte inhaltliche Aspekte maschinenlesbar semantisch auszuzeichnen und damit die Publikation quasi selbst als Linked-Open-Data-Datensatz [Wikidata, GND] für das Semantic Web [Wikidata, GND] aufzubereiten. Geleitet wurden wir dabei auch von dem „5-Sterne-Modell” von Tim Berners-Lee, einem Plädoyer für möglichst „offene Daten” (Open Data).
Wir erfüllen bei unserem Experiment im Grundsatz immerhin drei der fünf Anforderungen, die Schöch als die Möglichkeiten maschinenlesbarer wissenschaftlicher Publikationen benennt. Zwei davon, die „strukturierte und standardisierte Kodierung von dokumentbezogenen Medadaten [Wikidata, GND]” (Anforderung 1) sowie die „explizite Kodierung von Textstrukturen” (Anforderung 2), gehören zu den Grundlagen des medienneutralen Publizierens mit XML [Wikidata, GND] und waren daher ohne Mehraufwand umzusetzen. Eine besondere Herausforderung stellte jedoch für uns die nun experimentell umgesetzte Anforderung 4 dar, nämlich die „maschinenlesbare Auszeichnung der Entitäten (Akteure, Organisationen, Ort, Zeiten) und Konzepte in einem Beitrag (Abstrakta, Fachbegriffe)”. Wie Schöch ausführt, geht dies weit über das Vorgehen hinaus, das bei der Erstellung eines Stichwortverzeichnisses in einem klassischen Sachbuch Anwendung findet. So dient die Auszeichnung der Entitäten und Konzepte nicht nur der Band-immanenten Erschließung des Inhalts: sie werden durch die Verknüpfung mit Normdaten eindeutig identifiziert und im Idealfall in eine domänenspezifische Ontologie [Wikidata, GND] des Semantic Web [Wikidata, GND] integriert.
Dieser Tagungsband über Die Zukunft des kunsthistorischen Publizierens erscheint also in vier Ausgabeformaten. Drei davon für den „Menschen”: als E-PDF, als Printausgabe (Print-on-Demand) sowie als interaktive und mit Links auf externe Zusatzinformationen „angereicherte” HTML-Version. Das vierte Format – eine validierte und mit Normdatenverknüpfungen angereicherte XML-Datei [Wikidata, GND] – ist für die „Maschine” und verweist in die Zukunft – in gewisser Weise also ein experimenteller Selbstversuch. Die Auszeichnungen konzentrieren sich dabei allerdings weitgehend auf die Konzepte, da die in den vorliegenden Texten enthaltenen Entitäten wie z. B. Personennamen aufgrund der Themenstellung des Bandes eher von untergeordneter Bedeutung waren.
Die redaktionelle Umsetzung
Bei unserem Vorhaben wurden auch die Autor*innen in den notwendigen erweiterten Publikationsprozess eingebunden. Neben den Abstimmungen im Zusammenhang mit dem Lektorat sowie der Prüfung der üblichen Druckfahnen-PDFs und deren Freigabe für das PDF-E-Book [Wikidata, GND] sowie die Printausgabe wurden sie in zwei weiteren Zwischenschritten um Unterstützung gebeten:
  1. Erzeugung eines Gesamtregisters: Aus den von den Autor*innen zu ihrem jeweiligen Aufsatz gemeldeten Schlagworten wurde quasi eine „Gesamtschlagwortwolke” gebildet, die wiederum allen Autor*innen bereitgestellt wurde, um sich daraus noch einmal zu bedienen. Aus den in Deutsch und in Englisch vorliegenden Schlagworten wurde jeweils ein Gesamtregister generiert, das Nutzer*innen der HTML-Ausgabe einen alternativen Einstieg in die Lektüre ermöglicht.
  2. Selektion der Normdatenbegriffe: Die Autor*innen wurden gebeten, in ihrem Text die aus ihrer Sicht wichtigsten Wörter zu markieren, um dann durch Tagging (siehe unten) eine gezielte Verknüpfung von Entitäten (Personen, Institutionen u. a.) und Konzepten (Fachbegriffe) mit Normdaten zu ermöglichen. Da wir aufgrund noch fehlender Erfahrung den Autor*innen keine genaueren Kriterien für die Auswahl der als Normdaten zu kennzeichnenden Begriffe vorgeben konnten, blieb die Entscheidung für Selektion und Gewichtung der einzelnen Termini bei den Autor*innen. Hier muss zukünftig von Herausgeberseite aus optimiert werden, um eine einheitlichere Durchdringung des Textes zu erreichen.
    Das vor allem für die maschinelle Auswertung gedachte Normdatentagging findet in XML-Dateien [Wikidata, GND] statt und bleibt den Augen der Leser*innen normalerweise verborgen. Um unser Experiment dennoch „sichtbar” zu machen und für künftige Publikationsprojekte als Beispiel für Normdatenauszeichnung dienen zu können, haben wir uns entschieden, das Normdatentagging in der HTML-Ausgabe der vorliegenden Publikation durch Unterstreichung der ausgezeichneten Begriffe hervorzuheben und die Hyperlinks zu den Normdatenressourcen ebenfalls darzustellen (Abb. 3). Um eine davon ungestörte Lektüre zu ermöglichen, haben wir auf eine Hervorhebung in der PDF- [Wikidata, GND] und Druckausgabe verzichtet.
Die angereicherte XML-Datei [Wikidata, GND] des kompletten Sammelbandes [Wikidata, GND] wird nach ihrer Fertigstellung im Forschungsdatenrepositorium arthistoricum.net@heiDATA abgelegt, mit einem eigenen DOI [Wikidata, GND] ausgestattet, im Verbundkatalog K10plus erfasst und darüber hinaus auch im OAIS-kompatiblen [Wikidata, GND] universitären Langzeitarchivsystem [Wikidata, GND] heiARCHIVE nachhaltig archiviert. Bei arthistoricum.net-ART-Books wird auf der Einstiegsseite des Sammelbandes [Wikidata, GND] neben den Zugängen zur PDF-, HTML- und Printversion die XML-Datei [Wikidata, GND] über einen eigenen Button zur Nutzung angeboten.
Die technische Umsetzung
Im Sinne dieses selbstreferenziellen Experiments haben wir die ersten vier von Christof Schöch formulierten Anforderungen als Leitfaden genutzt, um zu überprüfen, welche davon bereits heute durch die „Heidelberger” Publikationsprozesse erfüllt werden können und auf welche Art und Weise künftig diejenigen umgesetzt werden könnten, die heute noch nicht Teil etablierter Publikationsprozesse sind.
Die Heidelberger Publikationsinfrastrukturen setzen immer dann, wenn XML-Auszeichnungssprachen [Wikidata, GND] im Publikationsprozess zum Einsatz kommen sollen, auf JATS und TEI [Wikidata, GND]. TEI [Wikidata, GND] hat sich aufgrund seiner Stärken in der editionswissenschaftlichen und linguistischen Auszeichnung zum Standard in den Editionswissenschaften entwickelt und ist das zentrale Datenformat von heiEDITIONS. JATS wiederum geht auf die Initiative der National Library of Medicine (NLM) zurück, eine Auszeichnungssprache zur Kodierung und zum Austausch wissenschaftlicher Zeitschriftenbeiträge zu etablieren. JATS ist heute ein Industriestandard (NISO Z39.96-2012) und verfügt mit BITS (Book Interchange Tag Set) über eine Erweiterung für wissenschaftliche Bücher, deren Zertifizierung als Standard allerdings noch aussteht. Zur Erstellung von JATS-XML kommt der quelloffene Kommandozeilenkonverter meTypeset zum Einsatz, mit dessen Hilfe Manuskripte in den Formaten von Open/Libre Office (odt) oder Microsoft Office (docx) nach JATS ‚roh’ konvertiert und anschließend nach- und weiterbearbeitet werden können. Zu den Anforderungen von Schöch im Einzelnen:
1. strukturierte und standardisierte Kodierung von dokumentbezogenen Metadaten (unter anderem bibliografische Angaben; Stichworte; Lizenz; persistente Identifikatoren wie DOIs) [Schöch, hier und nachfolgend S. 84 in diesem Band]
Die strukturierte und standardisierte Kodierung von Metadaten [Wikidata, GND] in XML [Wikidata, GND] ist heute Standard. JATS und BITS bieten hierzu umfassende tag sets, deren Tags in einigen Fällen zur Disambiguierung (z. B. ISBNs für unterschiedliche Ausgaben, Rollen beteiligter Personen) oder Präzisierung durch Attribute tiefer beschrieben werden können. JATS und BITS sind hervorragend dokumentiert, in der Dokumentation aufgeführte Codebeispiele werten wir als Best Practice und orientieren uns an diesen, wenn möglich und sinnvoll. Normdaten bzw. kontrollierte Vokabulare setzen wir bereits jetzt dort ein, wo vorgegebene oder als Best Practice vorgeschlagene Attributwertemengen zur Beschreibung von Metadaten nicht ausreichen. In der vorliegenden Publikation beispielsweise setzen wir zur Beschreibung der beteiligten Personen auf MARC 21 relator codes und dokumentieren dies im Header der BITS-Datei durch einen XML-Kommentar [Wikidata, GND]. Da der Fokus auf der Weiterverarbeitung der Daten durch Dritte liegt, binden wir die Lizenzangaben sowohl in englischer als auch in deutscher Sprache ein, und zwar in menschenlesbarer Form, wie auch durch entsprechende Verweise auf die ausführliche Beschreibung der Lizenz auf den Webseiten von Creative Commons (Abb. 4).
2. explizite Kodierung von Textstrukturen (unter anderem Haupttext versus Anmerkungen; Einleitung, Hauptteil, Fazit; gegebenenfalls Daten, Hypothesen, Methoden, Ergebnisse; Autor*innentext versus Zitate)
Die Ablösung von Layoutinformationen zugunsten einer beschreibenden Kodierung der Textstruktur ist die Basis medienneutraler Publikationsprozesse mit XML [Wikidata, GND] und seit den medialen Umbrüchen durch das Aufkommen digitaler Alternativen zum gedruckten Buch in vielen Wissenschaftsverlagen bereits gängige Praxis. Im Kern geschieht dies bei uns ganz zu Beginn durch die Konvertierung in meTypeset: Die im Manuskript eingebetteten Layoutinformationen werden von den Heuristiken des Konverters analysiert und interpretiert. Anschließend werden sie entfernt, durch eine Kodierung der Textstruktur ersetzt und im Anschluss an die Konvertierung dort von Hand korrigiert, wo die heuristische Analyse nicht zum gewünschten Ergebnis geführt hat. Am Ende der Prozesskette steht dann üblicherweise die Erzeugung der Ausgabeformate, das heißt die medial spezifische Anreicherung mit neuen Layoutinformationen.
Derart strukturiertes XML [Wikidata, GND] galt in der Verlagsproduktion bisher eher als ein intermediäres Format, dem durch die Konzentration auf medienneutrale Publikationsprozesse und die strenge Fokussierung auf menschliche Akteur*innen eher nur in Ausnahmefällen ein Eigenwert als Ausgabeformat zugemessen wurde (z. B. im B2B-Geschäft größerer Wissenschaftsverlage), das für die Auswertung umfangreicher Textbestände mit Methoden des Text- und Data-Mining aber große Bedeutung hat.
3. strukturierte Kodierung von bibliografischen Verweisen (unter anderem bibliografische Angaben einschließlich persistenter Identifier wie DOIs für Forschungsliteratur und gegebenenfalls Primärquellen)
Die Einbettung bibliografischer Verweise erfolgt bei dem vorliegenden Band noch in unstrukturierter Form. Zum einen finden sich bibliografische Verweise in geisteswissenschaftlichen [Wikidata, GND] Texten oftmals eingebettet in die Forschungsdiskussion oder eng mit ihr verschränkt, wo sie für automatische Verarbeitungswerkzeuge oder durch Text-Mining nicht zuverlässig vom flankierenden Text zu isolieren sind, zum anderen verfügen nicht alle Publikationen über ein separates Literaturverzeichnis. Auch sind strukturierte bibliografische Daten auf Autorenseite in den Geisteswissenschaften [Wikidata, GND] eher noch die Ausnahme denn die Regel. Aber es herrscht – hier legt Schöch zu Recht den Finger auf einen wunden Punkt – auf Seiten der Verlage [Wikidata, GND] bisher nur geringe Sensibilität, strukturierte bibliografische Daten zu übernehmen, wenn Autor*innen neben dem Textmanuskript über solche Daten (in Formaten wie BibTeX oder RDF, wie sie Zotero oder andere Tools exportieren) verfügen. Er stellt als Zwischenlösung BibTex als persistent zitierbares Datensupplement zu seinem Beitrag zur Verfügung.
4. maschinenlesbare Auszeichnung der Entitäten (Akteure, Organisationen, Orte, Zeiten) und Konzepte in einem Beitrag (Abstrakta, Fachbegriffe)
Mit der vierten Anforderung schnürt Schöch ein umfangreiches Arbeitspaket, nämlich „[d]ie maschinenlesbare Auszeichnung der Entitäten und Konzepte”, bei der „[z]udem [...] solche Auszeichnungen nicht nur manuell durch die Autoren eingefügt, sondern verfügbare Werkzeuge zur automatischen Annotation [...] und zur Eingliederung in jeweils relevante Ontologien [Wikidata, GND] genutzt werden”. Schöch formuliert damit einen zweistufigen Prozess: (1) die Anreicherung mit Normdaten und (2) die Eingliederung in Ontologien [Wikidata, GND]. Im Rahmen dieses Experiments war Letzteres nicht zu leisten, und so mussten wir uns auf die Anreicherung mit Normdaten beschränken.
Da entsprechend breit aufgestellte kunsthistorisch orientierte Normdatenbanken (und Ontologien [Wikidata, GND]) ein Desiderat darstellen, fiel die Wahl auf die Gemeinsame Normdatei (GND) [Wikidata, GND] und Wikidata [Wikidata, GND]. Beide Datenbanken enthalten sowohl Entitäten als auch Konzepte. Während die GND [Wikidata, GND] primär in deutscher Sprache angelegt ist, kann Wikidata [Wikidata, GND] unter einer einzigen ID Konzepte und Entitäten auch in mehreren Sprachen liefern und bietet, wenn auch aufgrund der teilweise stark variierenden Zahl der Sprachverknüpfungen in eingeschränktem Umfang, sprachübergreifende Anknüpfungspunkte.
JATS ermöglicht über das Bezeichner-Element <named-content> sowohl das Tagging von Normdaten als auch die Einbindung in Ontologien [Wikidata, GND] in Form von RDF-Tripeln und gibt hierzu Beispiele in der Dokumentation. Da in diesem Fall zwei Vokabulare eingebunden werden sollten, musste das Tagging gegenüber den dokumentierten Beispielen erweitert werden (Abb. 5).
Eine Entscheidung, die zu treffen war, liegt in den Unterschieden zwischen JATS und der Erweiterung BITS begründet: JATS 1.2 ermöglicht die Verknüpfung von Inhalten mit Vokabularen, die Übernahme in das Content Modell von BITS 2.0 steht jedoch aus und ist ein dringendes Desiderat. Da die Produktionspipeline für Sammelbände [Wikidata, GND] und Monografien [Wikidata, GND] auf JATS/BITS basiert, war ein Ausweichen auf TEI [Wikidata, GND] ohne Weiteres nicht möglich. So fiel die Entscheidung, die in JATS definierten Attribute für das Tagging von Vokabularen in das valide BITS-XML zu übernehmen und zu dokumentieren, auch wenn die publizierte BITS-Datei damit nicht mehr valide gegen BITS 2.0 ist.
Als Begriff wurde die grammatische Grundform in named-content/@vocab-term getaggt. Dort wo eine flektierte Form zur konventionellen Begriffsverwendung gehört („Normdaten” vs. „Normdatum”), wurde diese statt der Grundform getaggt. Die Überprüfung der Grundformen erfolgte in einem redaktionellen Schritt.
Unser optimistischer Plan sah vor, die so getaggten und auf die Grundform gebrachten Begriffe zur rein maschinellen Datenabfrage von GND [Wikidata, GND] und Wikidata [Wikidata, GND] zu verwenden und unsere XML-Daten [Wikidata, GND] anzureichern. Statt nur die Ressourcen-IDs einzutragen, sollten die vollständigen Uniform Resource Identifier (URI) eingetragen werden, um weiterverarbeitenden Werkzeugen direkten Zugriff auf die verlinkten Normdaten-Ressourcen zu ermöglichen.
Sowohl die GND-Abfrage [Wikidata, GND] über Lobid als auch die Abfrage von Wikidata liefern strukturierte JSON-Daten [Wikidata, GND] als Suchergebnisse zurück, die sich maschinell leicht auswerten lassen. In einigen Fällen sind GND [Wikidata, GND] und Wikidata bereits gegenseitig mit Normdaten verbunden, wie der nachfolgende Auszug aus dem JSON-Suchergebnis [Wikidata, GND] für den GND-Eintrag [Wikidata, GND] „Semantic Web [Wikidata, GND]” illustriert (Abb. 6).
Die Suche unseres einfachen, experimentellen Skriptes lieferte mit ca. 40 % Trefferquote erstaunlich wenig Treffer, von denen einige aufgrund von Kontextabhängigkeiten („Ontologie” als Lehre in der Philosophie vs. Netzwerk logischer Begriffsrelationen in der Informatik) oder Ähnlichkeiten (Frank Büttner, Kunsthistoriker [1944-2016] [Wikidata, GND] vs. Frank [Olaf] Büttner, Kunsthistoriker [*1942-]) falsche Ergebnisse lieferten. Teilweise waren Normdatenverknüpfungen unter Verwendung von Synonymen oder nahen, übergeordneten Klassenbegriffen zu finden; aufgrund der Mehrsprachigkeit von Wikidata half in einigen Fällen die Verwendung der englischen oder französischen Übersetzung. Die Anforderungen an einen automatischen Abfragealgorithmus sind also vergleichsweise hoch, sodass wir uns schließlich entscheiden mussten, die Ressourcen-URIs manuell zu suchen. Nach der manuellen Verknüpfung sah das Ergebnis wie folgt aus:
  • 1145 verschiedene Normdatenmarkierungen im Buch
  • 385 (33,6 %) konnten nicht mit der GND verknüpft werden
  • 200 (17,5 %) konnten nicht mit Wikidata verknüpft werden
  • 178 (15,5 %) konnten weder mit der GND noch mit Wikidata verknüpft werden.
Die 178 Begriffe, die weder mit GND-Normdaten [Wikidata, GND] noch mit Wikidata-Ressourcen [Wikidata, GND] verknüpft werden konnten, bleiben in den XML-Daten [Wikidata, GND] getaggt, aber unverknüpft, und können so ggf. zu einem späteren Zeitpunkt mit (anderen) Normdaten verknüpft werden.
Ausblick
Aus dem oben Ausgeführten werden mindestens zwei Dinge deutlich: Zum einen konnten wir mit dem experimentell an diesem Band erprobten Vorgehen – sowohl in organisatorischer als auch in technischer Hinsicht – erste Erfahrungen sammeln und eine ungefähre Vorstellung davon bekommen, mit welch großem zusätzlichen Aufwand die Herstellung dieses (zusätzlichen) Delivery-Formats verbunden ist. Zum anderen wurde recht bald deutlich, dass sich der vorliegende Tagungsband zwar eigentlich aufgrund seines Themas dafür eignete, an seinen Texten ein zukunftsweisendes Verfahren des digitalen Publizierens zu erproben, dass vor allem die hier versammelten Konzepte – sieht man aus dem Blickwinkel eine*r Kunsthistoriker*in auf das Ergebnis – allerdings vielfach über die Grenzen der Kunstgeschichte hinausreichen und sich deswegen weniger für eine Verknüpfung in ontologischen kunstwissenschaftlichen Netzwerken eignen als beispielsweise fachspezifische Lexika oder Inventare (für die beispielsweise mit CIDOC-CRM [Wikidata, GND] schon umfangreiche Anwendungen existieren).
Aber über diese, sich auf den konkreten Band beziehenden Erkenntnisse hinaus ist klar: Eigentliche Wirksamkeit entfalten wissenschaftliche Publikationen als Forschungsdaten [Wikidata, GND] nur im Netzwerk mit anderen Publikationen. Lesende Maschinen bedürfen für ihr Training – anders als Menschen – sehr großer Datenmengen: Big Data.
Digitalisierungszentren und -projekte haben bis heute große Mengen an Content digitalisiert, mit Metadaten [Wikidata, GND] versehen und als Reproduktionen menschlichen Leser*innen zur Verfügung gestellt; die maschinelle Zugänglichkeit ist jedoch technisch und rechtlich oft unzureichend oder eingeschränkt. Konsequent weitergedacht, müsste die nächste Stufe die weitere Erschließung der Volltexte und ihre maschinelle Verfügbarmachung nach den FAIR-Prinzipien [Wikidata, GND] sein. Das von Schöch formulierte fünfstufige Maximalmodell ist, das haben auch wir anhand des vorliegenden Bandes gesehen, kein Modell für “Tag 1”. Es ist aber sehr wohl ein Modell für die kontinuierliche Fortschreibung und Anreicherung eines gemeinsamen, offenen wissenschaftlichen Textkorpus und die Weiterentwicklung entsprechender Erschließungskonzepte und -methoden durch die Wissenschaftscommunity. Dafür muss das wissenschaftliche Textkorpus aber zuerst einmal zugänglich gemacht werden, und zwar sowohl durch fachgerechte Digitalisierung als auch durch adäquate offene Lizenzierungsmodelle, die die Weiterverarbeitung explizit ermöglichen statt sie zu behindern. Digitalisierungszentren müssten hierzu ihre personellen Kompetenzen erweitern, Data Scientists und Computerlinguisten wären hier als Erstes zu nennen. Gleichzeitig wäre zu diskutieren, unter welchen Bedingungen bestehende Normdatensysteme zur verbesserten Nutzung durch die jeweiligen Fachdisziplinen erweitert und miteinander verknüpft werden könnten. Möglicherweise können hier Fachinformationsdienste wie arthistoricum.net [Wikidata, GND] – gegebenfalls auch im Kontext ihrer Einbindung in die gerade im Aufbau befindliche Nationale Forschungsdateninfrastruktur (NFDI) – eine Rolle bei der Vernetzung und Koordinierung von Projekten spielen, die auf diesem Gebiet Grundlagenarbeit leisten, und Fachwissenschaftler*innen eine Plattform bieten, die zu einer Konsensbildung in Bezug auf Begriffe, Definitionen und Methoden beitragen kann.
Die XML-Daten [Wikidata, GND] des Sammelbandes können unter https://doi.org/10.11588/data/XTLTCA aufgerufen werden.
ORCID®
Making-of: Die “Zukunft des elektronischen Publizierens” als Experimentierfeld
Maria EffingerFrank Krabbes
Die Vision
Die Ausgangslage
Mehr als „nur” ein PDF?
Das Experimentierfeld
Die redaktionelle Umsetzung
Die technische Umsetzung
Ausblick
ORCID®