Typesetting
Die Zukunft des kunsthistorischen Publizierens
27 Mar 2021
Open Access für die Maschinen
Zusammenfassung: Die Debatten um Open Access kreisen derzeit stark um geeignete Finanzierungsmodelle, wobei aus den Augen verloren wird, dass auch die Publikationsformate grundsätzlich offener, und das heißt, jenseits des PDF-Formats als digitale Reinkarnation des gedruckten Buchs, gedacht werden müssen, wenn das Potential digitaler Technologien für die Wissensproduktion bestmöglich genutzt werden soll. Daher geht es im vorliegenden Beitrag um die Frage von wissenschaftlichen Publikationen als Daten (nicht aber um die Publikation von Forschungsdaten). Zentrale Forderung des Beitrags ist, auf eine Ablösung des PDF-Formats und die Entwicklung und Nutzung offener, standardisierter und die FAIR-Prinzipien erfüllender Datenformate für wissenschaftliche Publikationen hinzuarbeiten. Dabei, so argumentiert der Beitrag, geht es neben den Metadaten, Schlagworten, der Textstruktur und den bibliografischen Verweisen insbesondere auch um die Textinhalte: Es sind Modelle und technische Lösungen dafür nötig, wie zentrale Aussagen einer wissenschaftlichen Publikation in maschinenlesbarer Form in die Publikation selbst eingebettet werden können. Für all diese Aspekte kommt weit verbreiteten, semi-strukturierten Formaten wie XML (beispielsweise TEI, JATS oder RDF) und JSON (wie in BibJSON, ähnlich auch BibTeX) sowie dem Prinzip des Semantic Web mit der Verwendung von Linked Open Data eine wichtige Rolle zu.
Schlagworte: BibTeX, Linked Open Data (LOD), Open Access, Wissenschaftliches Publizieren, XML
Abstract: The debates about open access currently revolve around the question of suitable financing models, losing sight of the fact that publication formats must also be thought of as fundamentally more open. That means looking beyond the PDF format as the digital reincarnation of the printed book, if the full potential of digital technology to produce knowledge is to be exploited in the best possible way. This paper therefore deals with the question of scientific publications as data (but not with the publication of research data). The central demand of this paper is to work towards a replacement of the PDF format and the development and use of open, standardised data formats for scientific publications that meet the FAIR principles. The paper argues that, in addition to metadata, keywords, text structure and bibliographic references, text content is of particular importance. Models and technical solutions are needed for how central statements of a scientific publication can be embedded in the publication itself in a machine-readable form. For all these aspects an important role can be played by the use of semi-structured formats such as XML (for example TEI, JATS or RDF) and JSON (as in BibJSON, similar to BibTex), as well as the semantic web with the use of Linked Open Data.
Keywords: Academic publishing, BibTex, Linked Open Data (LOD), open access, XML
Aktuelle Debatten um Open Access
Die Diskussion um das Thema Open Access in den Wissenschaften hat sich in den letzten Jahren deutlich gewandelt. Auch wenn die Praxis vielfach den Überzeugungen etwas hinterherhinkt und das Ausmaß der Nutzung von Preprint-Servern, der Anteil der Open-Access-Zeitschriften oder die freie Verfügbarkeit von Konferenz-Proceedings variieren, ist doch in weiten Teilen des Wissenschaftssystems zumindest für Zeitschriftenartikel und Konferenzpapers nicht mehr strittig, dass das Publizieren im Open Access sinnvoll und wissenschaftsadäquat ist.1 Zu den gängigsten Argumenten gehört, dass die Ergebnisse von mit öffentlichen Mitteln geförderter Forschung auch der Öffentlichkeit in einem weiten Sinne zugänglich sein sollten und dass wissenschaftlicher Fortschritt am besten durch die weltweite, freie Verfügbarkeit wissenschaftlicher Publikationen gefördert werden kann.
Derzeit wird demnach weniger intensiv über das Warum diskutiert, dafür aber umso mehr über das Wie, wobei der Fokus der Debatten deutlich auf der Frage der angemessenen Finanzierungsmodelle liegt. Die zentrale Frage lautet, wie die für Publikation und Dissemination entstehenden Kosten einerseits, die Kosten für langfristige Weiterentwicklung und Verfügbarkeit von Publikationsinfrastrukturen andererseits finanziert werden können, wenn dies nicht mehr wie bisher über Subskriptionen erfolgt. Unter den derzeit diskutierten und praktizierten Modellen sind unter anderem die sogenannten Article Processing Charges (die von den Autor*innen beziehungsweise ihren Institutionen oder Projektfördernden zu tragenden Publikationsgebühren), die groß angelegten Read-and-Publish-Abkommen (wie die vom DEAL-Konsortium angestrebten Verträge mit Großverlagen auf nationaler Ebene) oder neue kollektive Finanzierungsmodelle (wie beispielsweise das Mitgliedschaftsmodell der Open Library of Humanities) zu nennen.2 Wie kann eine Umschichtung gelingen, die sich weg von Subskriptionsbudgets in Bibliotheken und hin zur Förderung von Verlagen und Initiativen bewegt, die im Open Access publizieren? Wie kann vermieden werden, dass die bisherige Zugangsungerechtigkeit (nur wer bezahlen kann, darf wissenschaftliche Ergebnisse anderer lesen) lediglich durch eine Publikationsungerechtigkeit (nur wer bezahlen kann, darf wissenschaftlichen Ergebnisse publizieren) ersetzt wird?3 Gerade diese letzte Frage hat auch eine stark internationale Dimension und ist insofern auch von politischer Bedeutung.
Die Lösung der Finanzierungsfrage ist zweifelslos von großer Bedeutung, nicht nur, aber gerade auch in den Geisteswissenschaften. Der vorliegende Beitrag möchte den Fokus allerdings auf einen anderen Aspekt der Wie-Frage lenken, der in den intensiven Debatten um die Finanzierungsaspekte derzeit zu kurz kommt: nämlich auf die Frage der wissenschaftsadäquaten Publikationsformate [Wikidata, GND]. In der Praxis dominiert klar die PDF-Datei, die als digitale Entsprechung des gedruckten Buches oder Zeitschriftenartikels fungiert. Einige ihrer Eigenschaften erklären die Akzeptanz und den Erfolg dieses Formats: die direkte Entsprechung zwischen Druckfassung und digitaler Fassung bis ins Layout hinein; der Erhalt der Seitenzählung und damit der Möglichkeit, gewohnte Zitierpraktiken weiterzuführen; oder die scheinbare Unveränderlichkeit und damit Verlässlichkeit einer PDF-Datei. Außer für die Distribution und individuelle Lektüre der Publikationen ist dieses Format allerdings (trotz einiger Erweiterungen wie PDF/A für die Archivierung und Tagged PDF für bessere accessibility) nur eingeschränkt geeignet. Die Arbeitsgruppe Digitales Publizieren des DHd-Verbands empfiehlt in diesem Kontext beispielsweise: „Nutzen Sie PDF nicht als primäres Publikationsformat (Kodierungsschicht), sondern, wenn überhaupt, als derivatives Leseformat.“4 Sowohl für die Langzeitarchivierung als auch für die computergestützte Auswertung größerer Bestände an Publikationen sind andere Formate klar im Vorteil.
Wissenschaftliche Publikationen als Daten
Sobald man sich mit weniger als nur einer Handvoll von Publikationen aus der stetig wachsenden Forschungsliteratur befassen möchte, das heißt, sobald es nicht mehr nur um die Lektüre, sondern um die Verwendung der Publikationen als Datengrundlage für eine quantitative Analyse geht, zeigen sich die zahlreichen Schwächen des PDF-Formats. Wendet man die FAIR-Prinzipien [Wikidata, GND] (FAIR: findable, accessible, interoperable, re-useable) statt auf die Publikation von Forschungsdaten, auf wissenschaftliche Publikationen [Wikidata, GND] als Daten [Wikidata, GND] an, wird schnell klar, wie desaströs die aktuell dominierende Praktik der Publikation ausschließlich als PDF-Datei ist.5 Solche Beiträge sind zwar findable (über persistente Identifier und Metadaten, die heutzutage häufig vorliegen) und, wenn sie im Open Access erscheinen, auch ohne größere finanzielle oder technische Hürden accessible. Sie sind aber eben nur äußerst eingeschränkt interoperable und re-useable: So ist der Text in einer PDF-Datei zwar extrahierbar, allerdings ohne wesentliche Strukturinformationen. Die Trennung zwischen Lauftitel, Haupttext und Anmerkungen ist bestenfalls indirekt, über typografische Hinweise oder andere Muster erschließbar. Innerhalb des Haupttextes kann nicht zuverlässig zwischen verschiedenen Textabschnitten (beispielsweise Abstract, Einleitung, analytischem oder interpretierendem Teil, Ergebnissen oder auch zwischen Haupttext und Belegzitaten im Blocksatz) unterschieden werden. Auch semantische Information ist nicht explizit vorhanden, denn innerhalb des Textes können Entitäten [Wikidata, GND] (Personen, Werke, Organisationen) oder Konzepte [Wikidata, GND] (Fachbegriffe, Abstrakta) nicht gezielt adressiert werden. Ebenso wenig kann innerhalb der bibliografischen Angaben gezielt nach Autor*innen, Herausgeber*innen, Titeln, Publikationsdaten oder Verlagen gesucht werden.
Ihr wahres Potenzial können wissenschaftliche Publikationen unter diesen Umständen nicht ausspielen. Dies können sie erst, wenn sie nicht nur digital und frei zugänglich veröffentlicht werden, sondern auch in strukturierten und semantisch angereicherten Formaten [Wikidata, GND] verfügbar sind. Entsprechende Publikationsstrategien, bei denen soweit wie möglich nicht nur menschen-, sondern auch maschinenlesbare [Wikidata, GND] Publikationen [Wikidata, GND] entstehen, werden seit gut zehn Jahren (angelehnt an die Idee des Semantic Web [Wikidata, GND]) unter dem Stichwort Semantic Publishing diskutiert.6 Ähnlich wie im Falle des Aufbaus und der Publikation geisteswissenschaftlicher Datensätze, sind große Mengen wissenschaftlicher Publikationen zwar nützlich, noch besser aber sind semantisch und strukturbezogen angereicherte Publikationen, die so selbst zu Datensätzen werden.
Einige in diesem Zusammenhang einschlägige Anwendungsszenarien seien hier kurz skizziert. Die linguistische Analyse von Wissenschaftssprache interessiert sich so beispielsweise für die sprachlichen Eigenschaften der Texte verschiedener Disziplinen oder unterschiedlicher Typen von wissenschaftlicher Literatur; sie könnte sich mit strukturbezogen annotierten [Wikidata, GND] Publikationsdaten aber auch für Vokabular, Stilistik und Argumentationsmustern funktional verschiedener Abschnitte wissenschaftlicher Texte (wie Einleitung, Hauptteil oder Fazit) befassen. Die quantitative Forschung zur Fachgeschichte beispielsweise könnte durch detaillierte und groß angelegte Analysen von Zitationsnetzwerken auf der Grundlage strukturierter Bibliografien auf wesentlich breitere, empirische Grundlagen gestellt werden. Und die korpusbasierte Erarbeitung von Forschungsständen zu einem bestimmten Autor, Werk oder Problem profitiert schon heute von Abstracts und Schlagworten, könnte aber wesentlich präziser und reichhaltiger arbeiten, wenn die wesentlichen Entitäten im Text annotiert und die Kernaussagen aller Publikationen maschinenlesbar [Wikidata, GND] abrufbar und automatisch zu einem Netzwerk von Aussagen verknüpfbar wären.
Die wesentlichen Anforderungen an die Möglichkeiten, die solche maschinenlesbaren wissenschaftlichen Publikationen bieten sollten, lassen sich wie folgt zusammenfassen:
  1. strukturierte und standardisierte Kodierung von dokumentbezogenen Metadaten [Wikidata, GND] (unter anderem bibliografische Angaben; Stichworte; Lizenz; persistente Identifikatoren wie DOIs)
  2. explizite Kodierung von Textstrukturen (unter anderem Haupttext versus Anmerkungen; Einleitung, Hauptteil, Fazit; gegebenenfalls Daten, Hypothesen, Methoden, Ergebnisse; Autor*innentext versus Zitate)
  3. strukturierte Kodierung von bibliografischen Verweisen (unter anderem bibliografische Angaben einschließlich persistenter Identifier wie DOIs für Forschungsliteratur und gegebenenfalls Primärquellen)
  4. maschinenlesbare [Wikidata, GND] Auszeichnung der Entitäten [Wikidata, GND] (Akteure, Organisationen, Orte, Zeiten) und Konzepte [Wikidata, GND] in einem Beitrag (Abstrakta, Fachbegriffe)
  5. maschinenlesbare [Wikidata, GND] Repräsentation der Kernaussagen eines Beitrags
Der Nutzen der ersten vier hier genannten Anforderungen ist weitgehend unstrittig. Überwiegend liegen auch technische Lösungen vor, die lediglich genutzt und, um diese Nutzung zu fördern, von den bestehenden Publikationsinfrastrukturen (besser) unterstützt oder stärker für die Nachnutzung durch Dritte geöffnet werden müssten.
Die strukturierte Kodierung von dokumentbezogenen Metadaten [Wikidata, GND] (Anforderung 1) wird derzeit überwiegend separat von den Artikeltexten selbst in den Datenbanken der Anbieter gehandhabt, wo sie selbstverständlich für Discovery-Zwecke intensiv genutzt werden. Eine stärkere Integration könnte dadurch umgesetzt werden, dass entsprechende Metadaten [Wikidata, GND] in den "Properties"-Bereich einer PDF-Datei eingebettet werden. Andere Verfahren sind, den DOI als Verweis auf den Beitrag und die entsprechenden Metadaten vorzuhalten oder, wenn mit einem semi-strukturierten Format gearbeitet wird, diese Metadaten im entsprechenden Bereich der XML-Datei (beispielsweise in JATS oder TEI) zu kodieren.7
Für die explizite Kodierung von Textstrukturen beispielsweise durch Zuordnung von Textabschnitten zu strukturellen oder semantischen Klassen (Anforderung 2) gilt, dass dies im Kontext von PDF-Dateien (trotz eigentlich vorhandener Möglichkeiten) in der Regel nicht umgesetzt wird. Zu sehr dominiert das layoutbezogene Verständnis der PDF-Datei, zu wenig entwickelt sind auch die Infrastrukturen, die solche Informationen nutzen könnten. Hier ist man auf die Möglichkeiten von XML-basierten Formaten wie JATS oder TEI angewiesen, die allerdings im Zeitschriftenbereich (noch) eine marginale Rolle spielen. Bisher akzeptieren nur die wenigsten Zeitschriften oder Verlage Manuskripte in solchen Formaten. Ausnahmen von dieser Regel sind das Digital Humanities Quarterly (DHQ) und das Journal of the Text Encoding Initiative (jTEI), die XML-TEI verwenden.8 Die Journal-Anbieter Public Library of Science (PLOS) und Open Library of Humanities generieren für ihre Zeitschriftenartikel eine XML-Fassung in JATS und bieten diese zum Download an. Im naturwissenschaftlichen und informatischen Bereich wird häufig LaTeX akzeptiert. Elsevier beispielsweise konvertiert dieses intern zu XML, publiziert dieses aber nicht.
Für die strukturierte Kodierung von bibliografischen Verweisen (Anforderung 3) wiederum liegen eine ganze Reihe gut etablierter Datenformate vor, unter denen sich BibTeX [Wikidata, GND] sicherlich als besonders zentral herausgestellt hat. Zahlreiche Tools, wie das kostenpflichtige Citavi oder das kostenfreie Zotero, ermöglichen die komfortable Verwaltung solcher Daten sowie ihre Nutzung beim Schreiben wissenschaftlicher Texte.9 Ganz überwiegend werden diese Formate und Programme heute allerdings lediglich dazu genutzt, um eine einheitlich nach einem arbiträren Zitationsstil formatierte Bibliografie [Wikidata, GND] zu generieren, die dann dem Text beigefügt wird, allerdings unter Verlust der expliziten Strukturiertheit der Daten. Auch existierende Konzepte für die Erweiterung solcher Daten beispielsweise um Angaben zum Verwendungszweck einer Referenz in einer Publikation unter Verwendung einer Ontologie [Wikidata, GND] wie der Citation Type Ontology (CiTO) werden kaum genutzt.10 Diese Daten besser zu nutzen, erfordert durchaus weitreichende Infrastrukturanpassungen, beispielsweise die Möglichkeit, einer gegebenen Publikation gewissermaßen als Supplement eine BibTeX-Datei [Wikidata, GND] mit den bibliografischen Angaben [Wikidata, GND] beizufügen.11
Linked Open Data für die Kodierung von Inhalten
Kommen wir nun aber zu den beiden letzten Anforderungen, die sich unmittelbar auf den Einsatz von Linked Open Data [Wikidata, GND] beziehen. Seit David Shottons Artikel von 2009 hat sich das Publikationswesen stark verändert. Dennoch gilt wohl weiterhin, was er damals formulierte: "With a few shining exceptions, online journals currently provide no semantic mark-up of text that would facilitate increased understanding of the underlying meaning."12 Die von Shotton genannten Beispiele haben sich nicht durchgesetzt, die semantische Wende des wissenschaftlichen Publikationswesens steht noch aus. Dies hat sicherlich vielfältige Gründe, unter denen wohl auch mangelndes Bewusstsein für den Nutzen und die Möglichkeiten zur Umsetzung einer solchen semantischen Kodierung von Bedeutung ist. An diesem Punkt möchte der vorliegende Beitrag ansetzen.
Die maschinenlesbare [Wikidata, GND] Auszeichnung der Entitäten [Wikidata, GND] und Konzepte [Wikidata, GND] in einem Beitrag (Anforderung 4) ist im Grunde nichts Neues: Es handelt sich hier letztlich um die Grundlage für das Erstellen eines Stichwortverzeichnisses oder Registers, wie sie bei Sachbüchern üblich sind. Diese beziehen sich in der Regel auf Entitäten (wie Personen, Organisationen, Orte und Werktitel) einerseits, auf Konzepte (Abstrakta, Konzepte, Fachbegriffe) andererseits. Neu im Kontext digitaler Publikationen ist allerdings, dass die Indizierung nicht nur innerhalb einer Publikation das Register mit den Fundstellen im Text verbindet und so die Publikation erschließt, sondern dass die Entitäten und Konzepte durch die Verknüpfung mit Normdaten 13 eindeutig identifiziert, in eine domänenspezifische Ontologie [Wikidata, GND] integriert und so als Linked (Open) Data [Wikidata, GND] Teil des Semantic Web [Wikidata, GND] werden können.14 Zudem sollten solche Auszeichnungen selbstverständlich nicht nur manuell durch die Autoren eingefügt, sondern verfügbare Werkzeuge zur automatischen Annotation (zum Beispiel durch Named Entity Recognition) und zur Eingliederung in jeweils relevante Ontologien [Wikidata, GND] genutzt werden.
Durch eine solche Integration der Artikelinhalte in das Semantic Web [Wikidata, GND] wird nicht nur eine Indizierung über zahlreiche Publikationen hinweg möglich, sondern die indizierten Entitäten [Wikidata, GND] und Konzepte können zugleich dynamisch durch weitere Informationen angereichert werden: erwähnte Personen beispielsweise durch Lebensdaten und Wirkungsort(e) oder Disziplin(en). Beides erfordert Infrastrukturen [Wikidata, GND] in einem mehrfachen Sinne: im Sinne von Datenformaten, die eine entsprechende Anreicherung von Publikationen erlauben; von Normdatensätzen, auf die für die Disambiguierung und Anreicherung von Entitäten [Wikidata, GND] verwiesen werden kann; und von Publikationsinfrastrukturen, die eine entsprechende Indizierung, Verlinkung und Nutzung der Daten dann auch ermöglichen. Was die Datenformate [Wikidata, GND] angeht, so ist JATS hier begrenzt expressiv, während TEI [Wikidata, GND] alle wesentlichen Mechanismen bereitstellt. Bezüglich der Publikationsinfrastrukturen sind dem Verfasser keine Publikationsplattformen, Verlage oder Zeitschriften bekannt, die entsprechend annotierte Datenformate bei der Einreichung akzeptieren und die Daten dann auch für die Publikation nutzen würden. Allerdings gibt es hier von anderen Einsatzgebieten von Normdaten, beispielsweise in der Editionsphilologie, einiges zu lernen.15 Nicht zuletzt erfordert die Integration ins Semantic Web [Wikidata, GND] aber eben auch Open Access, damit der freie Zugriff auf relevante Publikationen quer über alle Publikationsorte und nicht nur auf das Portfolio eines Anbieters beschränkt erfolgen kann. Dies steht allerdings in direktem Widerspruch zu den Interessen der Verlage, welche ihre Leser*innen auf der eigenen Plattform halten möchten.
Die letzte oben genannte Anforderung lautet, dass eine maschinenlesbare [Wikidata, GND] Publikation [Wikidata, GND] ihre Kernaussagen oder Ergebnisse in sorgfältig semantisch modellierter Form anbieten sollte. Seringhaus und Gerstein nennen dies ein „Structured Digital Abstract“ und definieren dieses als ein „machine-readable XML summary of pertinent facts in the article“.16 Anders als die bis hierher diskutierten Anforderungen ist diese Anforderung weniger allgemein akzeptiert, zumindest im Kontext des Verfassens wissenschaftlicher Publikationen. Mit diesem Stand der Entwicklung hängt zusammen, dass es sowohl weniger spezifische und ausreichend weit entwickelte technische Lösungen gibt, als auch dass das Thema an sich konzeptionell noch weit weniger gut reflektiert ist. Dabei sind die technische Implementierung einerseits und die konzeptuelle Lösung andererseits zu unterscheiden. Die technische Implementierung erscheint zum aktuellen Stand der Debatte sekundär und ist vor allem eine Frage der Konsensbildung und der verfügbaren Tools in einer Community [Wikidata, GND]. Klar scheint allerdings, dass eine solche Implementierung (wie im Falle der Auszeichnung von Entitäten [Wikidata, GND] und Konzepten [Wikidata, GND]) die Mechanismen von Linked Open Data [Wikidata, GND] (LOD) und damit des Semantic Web [Wikidata, GND] nutzen sollte.
Der Fokus soll im Folgenden daher auf der konzeptionellen Seite liegen, dem vermutlich kontroversesten Aspekt des Themas. Ein Teil der Schwierigkeit ergibt sich im geisteswissenschaftlichen Kontext zudem daraus, dass hier (anders als beispielsweise in der Biologie oder Chemie, wo zahlreiche relevante Ontologien [Wikidata, GND] vorliegen, oder in der Linguistik, wo es mit „Linguistic Linked Open Data (LLOD)“17 bereits umfassende Erfahrungen und einschlägige Projekte gibt) die Verwendung von Linked Open Data [Wikidata, GND] (zumindest jenseits der Kodierung grundlegender bibliografischer Metadaten und jenseits der digitalen Editionswissenschaften) noch kaum verankert ist. Daher sollen hier einige Überlegungen in diese Richtung anhand eines Fallbeispiels angestellt werden, das aus dem Fachgebiet des Verfassers, der Literaturgeschichte [Wikidata, GND], kommt.
Die Fallstudie nimmt die Perspektive der retrospektiven Anreicherung existierender wissenschaftlicher Publikationen [Wikidata, GND] durch „Structured Digital Abstracts“ ein. Die hier zu sammelnden Erfahrungen werden aber auch für die Beantwortung der Frage nützlich sein, wie der Inhalt neu entstehender wissenschaftlicher Publikationen maschinenlesbar dokumentiert werden kann. Inhaltlich geht es um den französischen Roman der zweiten Hälfte des 18. Jahrhunderts. Ausgehend von einer Bibliografie [Wikidata, GND] aller in Frankreich zwischen 1750 und 1799 erschienen Romane (es sind rund 2000 verschiedene Titel), die bereits als LOD [Wikidata, GND] modelliert wurde,18 werden die dort enthaltenen Entitäten [Wikidata, GND] (Romane und Romanautor*innen) nun aus einschlägiger Fachliteratur [Wikidata, GND] mit fachwissenschaftlich, das heißt literaturhistorisch relevanten Aussagen angereichert und damit auch erschlossen.19
Als Beispiel soll der folgende kleine Abschnitt über den Roman Candide aus einer literaturgeschichtlichen [Wikidata, GND] Überblicksdarstellung von Erich Köhler dienen:
Candide ist das meistgelesene Werk Voltaires und war es wohl schon zu Lebzeiten des Autors. Als es 1759 in Genf erstmals im Druck erschien, wurde es zwar sofort verboten, aber doch nur mit dem Ergebnis, daß es im gleichen Jahr noch dreizehn Neuauflagen erlebte.“20
Die Grundidee ist nun, zentrale Inhalte eines solchen Textes in Form basaler Aussagen festzuhalten, die in Form von „Subjekt-Prädikat-Objekt“-Statements im Sinne der Linked Open Data formuliert und als sogenannte Tripel beispielsweise in einem Format wie RDF oder Turtle festgehalten werden.21
Zunächst einmal kann sich eine semantische, explizite Kodierung von Aussagen [Wikidata, GND] in einer wissenschaftlichen Publikation auf die annotierten Entitäten [Wikidata, GND] und Konzepte [Wikidata, GND] stützen, deren Auszeichnung im Sinne von Anforderung 4 (siehe oben) hier vorausgesetzt wird. Es liegen also bereits Mechanismen vor, mit denen man, einem Linked Open Data-Ansatz folgend, auf Entitäten [Wikidata, GND] und Konzepte [Wikidata, GND] verweisen und diese als Entitäten [Wikidata, GND] in Statements [Wikidata, GND] verwenden kann. Relevante Entitäten [Wikidata, GND] sind im hier verhandelten Fallbeispiel dann Personen (konkret: Autor*innen entweder von Romanen oder von Fachliteratur; hier: Voltaire), andererseits Werke (konkret: entweder Romane oder fachwissenschaftliche Einzelartikel, Einzelkapitel oder monografische Publikationen; hier: Candide).22 Das Inventar der denkbaren Entitäten ist grundsätzlich als unabgeschlossene Liste zu verstehen und somit auch nicht zu kodifizieren. Darüber hinaus können auch aus grundlegenden literaturwissenschaftlichen Bereichen wie Inhalt, Stil, Genre, Epoche etc. konzeptuelle Entitäten [Wikidata, GND] gewonnen werden. Die Annotation (in XML-TEI und unter Verwendung von Identifiern aus Normdatensätzen wie dem VIAF oder dem Getty Thesaurus of Geographical Names) könnte dann wie folgt aussehen:
<p><title type="work" ref="viaf:176620251">Candide</title> ist das meistgelesene Werk <persName type="author" ref="viaf:36925746">Voltaires</persName> und war es wohl schon zu Lebzeiten des Autors. Als es <date>1759</date> in <placeName type="city" ref="tgn:7007279">Genf</placeName> erstmals im Druck erschien, wurde es zwar sofort verboten, aber doch nur mit dem Ergebnis, daß es im gleichen Jahr noch dreizehn Neuauflagen erlebte.</p>
Weniger konzeptuelle Vorarbeiten bestehen hingegen bei den Aussagen, die nun auf der Grundlage solcher Entitäten formuliert werden können. Diese können erstens (und trivialerweise) natürlich schlicht den Text selbst mit den im Text erwähnten Entitäten verbinden:
Köhler_1984 (viaf:174648806) HAS_SUBJECT Voltaire (viaf:36925746); Candide (viaf:176620251); Genf (tgn:7007279)
Darauf aufbauend ist die zentrale Frage aber nun, wie der Textinhalt formalisiert werden kann. Diese Frage rührt bis an das Grundverständnis einer gegebenen Disziplin, denn es geht darum festzulegen, welche Art von Aussagen [Wikidata, GND] eine wissenschaftliche Fachcommunity nun jeweils als so grundlegend für eine bestimmte Domäne erachtet, dass sie für sie einen Aussagentyp formalisiert. Im obigen Beispiel sind eine Reihe von Aussagen [Wikidata, GND] enthalten, die hier in Frage kämen und die hier pseudo-formalisiert genannt werden:
  • Voltaire (viaf:36925746) IS_CREATOR_OF Candide (viaf:176620251)
  • Candide (viaf:176620251) HAS_PUBLICATION_DATE 1759
  • Candide (viaf:176620251) HAS_PUBLICATION_LOCATION Genf (tgn:7007279)
  • Candide (viaf:176620251) HAS_RECEPTION_INTENSITY high
  • Candide (viaf:176620251) HAS_RECEPTION_TIME immediate;long-term
  • Candide (viaf:176620251) HAS_LEGAL_STATUS censored (1759)
Dabei sind die ersten drei Aussagen [Wikidata, GND] nicht viel mehr als bibliografische Metadaten, wie man sie auch in einem Katalog oder einer Sachbibliografie [Wikidata, GND] finden könnte (und wie sie in unserem Fall bereits vorliegen). Für einen Teil dieser Aussagetypen, insbesondere wenn es sich um prosopografische und bibliografische Informationen handelt, kann man entsprechend für die Formalisierung auf vorhandene Ontologien [Wikidata, GND] zurückgreifen, zum Beispiel auf Dublin Core (für creator, publisher, date, title, subject) oder die SPAR Ontologies (für die weiterführende bibliografische Modellierung).23 Für die darauf folgenden Aussagen gilt dies aber nicht. Die zentrale Frage ist demnach, wie eine Ontologie [Wikidata, GND] zentraler Aussagetypen für eine bestimmte wissenschaftliche Domäne (hier: die Literaturgeschichte [Wikidata, GND] als Teil der Literaturwissenschaften) gestaltet sein sollte und wie ein Konsens zu diesen Themen in der Community [Wikidata, GND] hergestellt werden kann. Welche domänenspezifischen (und das heißt hier: genuin literaturhistorischen) Informationen sollten als basale Statements formuliert werden können?
Vergleichsweise unstrittig dürften, ähnlich wie die bereits erwähnten, grundlegenden bibliografischen Aussagen, etablierte prosopografische Informationen sein, wie man sie beispielsweise in Wikidata findet:
  • (Person) DATE_OF_BIRTH (Datum); DATE_OF_DEATH (Datum)
  • (Person) OCCUPATION (Berufsbezeichnung)
  • (Person) RELIGION (Religionsbezeichnung)
  • (Person) MOVEMENT (Ideologie, Weltanschauung, Bewegung)
Etwas stärker domänenspezifische Aussagen, wie sie bislang zwar nicht offiziell im Rahmen einer Ontologie standardisiert sind, aber beispielsweise in Wikidata praktiziert werden, sind die folgenden:24
  • (Person) INFLUENCED_BY (Person)
  • (Person) AWARD_RECEIVED (Auszeichnung)
  • (Werk) GENRE (Gattung)
  • (Werk) CHARACTERS (Figurennamen)
  • (Werk) NARRATIVE_LOCATION (Geografischer Ort)
  • (Werk) SET_IN_PERIOD (Zeitspanne)
  • (Werk) DERIVATIVE_WORK (Werk)
  • (Werk) INSPIRED_BY (Werk)
  • (Werk) NARRATOR (Figurennamen)
Hier beginnt deutlich zu werden, dass eine systematische Auseinandersetzung mit dieser Art von Aussagen in Form einer Ontologie [Wikidata, GND] noch aussteht. So stehen beispielsweise „RELIGION“ und „MOVEMENT“ in einer unklaren Beziehung oder gibt es auf der Personenebene „INFLUENCED_BY“ und auf der Werkebene „INSPIRED_BY“. Für manche Aspekte könnten vorhandene Taxonomien [Wikidata, GND] oder Ontologien [Wikidata, GND] nachgenutzt werden, wie beispielsweise im Bereich der (historischen und aktuellen) Berufsbezeichnungen;25 für andere Aspekte, wie (literarische) Gattungen, Epochen, Formen oder Themen gibt es keine vergleichbar formalisierten und konsensuellen Ressourcen. Und natürlich sind die in Wikidata bisher verwendeten Prädikate keineswegs ausreichend für eine literaturhistorisch adäquate Beschreibung literarischer Werke, Autor*innen und Epochen. Nur in Bezug auf literarische Werke selbst wären beispielsweise folgende weitere Sachinformationen relevant:
  • (Werk) HAS_FORM (Prosa|Vers|Anderes)
  • (Werk) HAS_NARRATIVE_PERSPECTIVE (autodiegetisch|homodiegetisch|heterodiegetisch) – Erzählform bei narrativen Werken
  • (Werk) HAS_DIALOGUE_PROPORTION (Prozentsatz) – Anteil der direkten Rede in einem narrativen Werk, in Prozent der Wörter oder Sätze
  • (Werk) HAS_STAGE_DIRECTIONS (Prozentsatz) – Anteil der Bühnenanweisungen in einem dramatischen Werk, in Prozent der Wörter.
Dies ist selbstverständlich nicht einmal in Ansätzen eine abschließende Auflistung; eine systematische Modellierung [Wikidata, GND] der Domäne steht noch aus. Zu ergänzen ist in diesem Zusammenhang allerdings noch, dass die jeweils erhobenen oder extrahierten Informationen nicht als Fakten, sondern als Aussagen [Wikidata, GND] aufgefasst werden: insofern jedes Statement [Wikidata, GND] einer Quelle zugeordnet ist, repräsentiert es die Meinung einer Fachwissenschaftlerin oder eines Fachwissenschaftlers beziehungsweise den Stand der Forschung zum Zeitpunkt der Publikation. Folglich kann ein Informationssystem [Wikidata, GND], das große Mengen solcher Aussagen versammelt, auch sich gegenseitig widersprechende oder anderweitig inkompatible Aussage beinhalten, ohne dass der Bestand des Systems deswegen als inkonsistent gelten müsste.
Im derzeit laufenden Projekt Mining and Modeling Text (MiMoText) geht es zwar nur indirekt um die Frage, wie wissenschaftliche Publikationen [Wikidata, GND] zukünftig erschlossen werden sollten. Zentral ist hingegen das Ziel, in einem Korpus bestehender (insbesondere auch älterer, überblickshafter) Fachliteratur [Wikidata, GND] dem skizzierten Ansatz folgend und weitgehend automatisch ein bestimmtes Inventar literaturhistorischer [Wikidata, GND] Aussagetypen zu identifizieren und semantisch [Wikidata, GND] zu modellieren [Wikidata, GND]. Auch ältere Literaturgeschichtsschreibung [Wikidata, GND] soll wieder sichtbar und in großem Umfang nutzbar gemacht werden, indem sie als Linked Open Data [Wikidata, GND] unter Verwendung von domänenspezifischen Ontologien [Wikidata, GND] modelliert [Wikidata, GND] und publiziert wird. Zudem sollen auf diese Weise auch über selten gelesene Romane Informationen ermittelt werden und in das so entstehende, literaturhistorische [Wikidata, GND] Informationssystem [Wikidata, GND] einfließen. Auf diese Weise entsteht, eine ausreichend umfangreiche Menge semantisch erschlossener Fachliteratur [Wikidata, GND] vorausgesetzt, ein literaturhistorisches [Wikidata, GND] Informationssystem [Wikidata, GND], das eine Reihe von Anwendungsszenarien unterstützt. Beispielsweise wird es so möglich, die Rezeptionsgeschichte einer bestimmten Autorin nicht nur quantitativ zu ermitteln (beispielsweise über die Anzahl der relevanten Publikationen pro Jahr), sondern auch inhaltlich nachzuvollziehen, indem Entwicklungen in den jeweils angesprochenen Themen, in den Bewertungstendenzen oder den jeweils mobilisierten Vergleichsautor*innen analysiert werden. Ebenso wird es möglich sein, auf der Grundlage der im System enthaltenen (inhaltlichen, stilistischen, bewertenden, einordnenden usw.) Aussagen [Wikidata, GND] literarische Werke zu identifizieren, die den jeweils gewählten Kriterien zufolge Gemeinsamkeiten haben und sich so für weiterführende, vergleichende Analysen eignen könnten.
Diese Form der recht aufwendigen, retrospektiven semantischen Erschließung würde zukünftig überflüssig, wenn neu publizierte Fachliteratur [Wikidata, GND] ihre wesentlichen Aussagen eben bereits in Form von Linked Open Data [Wikidata, GND] mitveröffentlichte. Sei es, dass die Identifikation der relevanten Entitäten und das Formulieren der entsprechenden Aussagen von den Autor*innen selbst geleistet werden oder dass Verfahren entwickelt werden, die dies automatisch auf Grundlage des Volltextes bewerkstelligen.26 Für die Zukunft wäre eine größere Präzision (bei gleichzeitig geringerer Abdeckung) zu erwarten, wenn sich eine entsprechende Praktik beim Verfassen von wissenschaftlichen Publikationen [Wikidata, GND] etablieren würde, ähnlich wie es derzeit üblich ist, beim Einreichen von Artikeln oder Kapiteln auch eine Reihe von Schlagworten anzugeben beziehungsweise Begriffe aus einer fachwissenschaftlichen Ontologie auszuwählen. Bis dahin ist es allerdings noch ein weiter Weg und zukünftige wissenschaftliche Publikationsweisen und die retrospektive Erschließung der Fachgeschichte bleiben voneinander nicht unberührt: Einerseits entstehen durch eine zeitgemäße Praktik der semantischen Annotation wissenschaftlicher Publikationen [Wikidata, GND] in Kombination mit dem Volltext auch Trainingsdaten für das Entwickeln automatischer Verfahren. Andererseits kann die retrospektive Erschließung auch dazu beitragen, Anforderungen an zukünftige semantische [Wikidata, GND] Annotationsverfahren wissenschaftlicher Publikationen [Wikidata, GND] und an zugrunde liegende, domänenspezifische Ontologien [Wikidata, GND] zu präzisieren.
Die Vision des Verfassers ist jedenfalls, dass wir in naher Zukunft Forschungsergebnisse nicht mehr nur in natürlichsprachiger Prosa formulieren und als PDF-Dateien publizierte Artikel oder Bücher produzieren, verbreiten und rezipieren, und dass diese Prosa auch nicht unverbunden mit der dazugehörigen Publikation von Datensätzen und dem Programmiercode erfolgt. Vielmehr wird dieser Prosatext mit relevantem Code und Datensätzen verbunden, mit reichhaltigen Metadaten versehen, in seiner Textstruktur ausgezeichnet, unter Verwendung strukturierter bibliografischer Daten mit Entitäten und Konzepten annotiert und in Form von LOD-Statements zusammengefasst publiziert werden. Dass der in natürlichsprachiger Prosa ausformulierte Fließtext dadurch obsolet wird, soll nicht behaupten werden; aber der Fließtext wird in Zukunft nicht mehr allein stehen, sondern eingebettet sein in einen reichhaltigen, maschinenlesbaren Kontext von Daten, Code, Metadaten, Zitationsdaten und modellierten Aussagen.27
ORCID®
Open Access für die Maschinen
Christof Schöch
Aktuelle Debatten um Open Access
Wissenschaftliche Publikationen als Daten
Linked Open Data für die Kodierung von Inhalten
ORCID®