Arbeitsablauf

Inhaltsverzeichnis

Die Herstellung kritischer digitaler Editionen unterliegt einem stetem Wandel, der mit häufiger Anpassung der Arbeitsmittel einhergeht. Da wir die meiste Zeit nur zu zweit an der Edition arbeiten, ist auch der informelle Austauch beständig da und es wird immer wieder eine kleinere Änderung vorgenommen, ohne dass diese anders als durch die Verwendung selbst dokumentiert würde. Eine Darstellung des Arbeitsablaufs kann somit nur eine Momentaufnahme sein, obgleich wir uns bemühen, sie aktuell zu halten und auch Änderungen im Zeitablauf zu dokumentieren. Der hier geschilderte Stand stellt den Stand nach wenigen Monaten der dritten Projektlaufzeit (Anfang 2026) ab; Adaptionen zur ersten und zweiten Laufzeit werden weiter unten beschrieben.

Recherche

Die Recherche, welche Korrespondenzen aufgenommen werden, steht am Anfang der Arbeit und wird im Projektantrag festgehalten. Danach folgt die Abklärung der Rechte. Die Regelschutzfrist in Österreich beträgt 70 Jahre nach dem Tod, am 1. 1. des Folgejahres werden die Rechte an den Texten frei. In wenigen Fällen besitzen Nachkommen noch Rechte. In Fällen, in denen wir diese freundlicherweise zur Verfügung gestellt bekommen, können wir zu arbeiten beginnen. Korrespondenzen, deren Rechte offen sind, greifen wir nicht an.

Im Anschluss suchen wir einerseits im Nachlass Schnitzlers nach Briefen, andererseits in verschiedenen anderen internationalen Archiven, Bibliothekskatalogen, Antiquariatsangeboten und Verzeichnissen. Besonders hilfreich ist der Kalliope Verbundkatalog.

Im nächsten Schritt beziehen wir die Faksimiles, wobei wir uns mit zwei Nachlässigkeiten abfinden: Wir lassen uns die Bilder so liefern, wie die Institutionen das herkömmlich tun und geben keine eigenen Vorgaben bezüglich Farbprofil, Farbkarte, Dateiformat etc. Bislang sind uns keine erkennbaren Nachteile daraus erwachsen. Und wir verzichten auf leere Rückseiten. Das hat ausschließlich pekuniäre Gründe.

Sofern sich auf einem Faksimile zwei Seiten auf einem Blatt finden, teilen wir das Faksimile mit einem ImageMagick-Skript in zwei Teile mit einer Überlappung von 5%. Das garantiert, dass die Schnittkante gut zu erkennen ist.

Transkribus

Es folgt der Import der Faksimiles in Transkribus. Transkribus ist eine in Innsbruck entwickelte Plattform zur automatischen Texterkennung nicht nur von gedruckten Texten, sondern auch von Handschriften. Die Webseite ist kostenlos und kommt mit einem bestimmten Freikontingent. Bei der Menge, mit der wir es zu tun haben, sind aber (keine sehr hohen) Kosten einzukalkulieren. Wir verfügen über einen institutionellen Account der Österreichischen Akademie der Wissenschaften, ob wir aber Funktionen verwenden, die ausschließlich solchen zur Verfügung stehen, wissen wir gerade nicht. In Transkribus erstellen wir für jeden Verfasser, jede Verfasserin eine Collection. Üblicherweise sind dann mehrere Briefe eines Schreibers, einer Schreiberin in einer Collection in einem Dokument, üblicherweise alle Briefe einer Korrespondenz in einem bestimmten Archiv. Mittlerweile ist die Desktop-App von Transkribus eingestellt und wir sind auf die Web-App umgestiegen.

In Transkribus lassen wir zuerst eine automatische Zeilenerkennung laufen, die wir händisch nachkorrigieren. Das ist eine etwas mühselige Arbeit, die aber für die folgenden Schritte relevant ist. In Transkribus benutzen wir bestimmte Tags, die teilweise bereits von Haus aus vorhanden sind, teilweise aber auch erst von uns unter dem Namen der TEI-Elemente angelegt wurden. Die Tags nutzen wir, um bestimmte Textphänomene (z. B. Streichungen) und zu indizierende Stellen (z. B. Personennamen) zu markieren. Die Möglichkeit, bereits in Transkribus Normdaten einzugeben, benützen wir nicht. Neben den Tags verwenden wir in der ersten Zeile eines Absatzes ein Element <paragraph/>, um zu markieren, wo ein neuer Absatz beginnt. Als weitere Idiosynkrasie haben wir ein Element, <letter-begin/> definiert, das wir in die erste Zeile eines neuen Briefes setzen. Es dient als Marker, wo jeweils eine neue Datei angelegt werden muss (jeder Brief wird in einer eigenen XML-Datei gespeichert).

Mit dem einmaligen Durcharbeiten eines Briefes und einem einmaligen Korrekturlesen steht üblicherweise die erste Abschrift.

Oxygen

Es folgt der Export. Um von Transkribus zu XML/TEI zu gelangen, gab es zeitweise einen online ablaufenden Prozess (GitHub-Action), der sich aber als fehleranfällig erwies, beispielsweise wenn irgendwo im Text ein ›&‹ stand, weswegen wir in Transkribus nur einen Mets-Download auslösen und die Verarbeitung lokal laufen lassen. Die heruntergeladenen Dateien werden in den Ordner transkribus-transformation/transkribus-export gespeichert. In import-parameter.xml können noch Standardwerte für den Import gesetzt werden, die für alle zu exportierenden Briefe gelten (z. B. die Archivsignatur). Jedenfalls wird die exportierte METS-Datei zuerst mit dem im Oxygen-Projekt angelegten Transformationsszenario page2tei-1, das Ergebnis dann mit page2tei-2 umgewandelt. Nun stehen die Einzeldateien mit korrekten Dateinamen und IDs im Verzeichnis »editions«. Diese neuen Dateien werden dann mit page2tei-3 und back-element-hinzufuegen_facs-normalisieren weiter transformiert.

Das Ergebnis sind einzelne Briefdateien im Format XML in einem separaten Ordner temp, bei denen der <teiHeader/> schon weitgehend ausgefüllt ist. Die Dateien validieren noch nicht gegen das Schema und es gibt mehrere Probleme, die mit händischer Nacharbeit behoben werden müssen.

Wichtig ist im ersten Schritt, dass das Datum des Briefs (auch im Format ISO) im Element <correspAction type="sent"/> vermerkt wird. Schnitzlers Aufenthaltsorte können mit der Liste für schnitzler-orte durch eine Transformation automatisch bezogen werden. Das Empfangsdatum (<correspAction type="received"/>) wird, wenn nicht vorhanden, auf einen bestimmten Zeitraum geschätzt und ebenfalls automatisch ausgefüllt. Auch die Anpassung der Objektbeschreibung (Brief, Postkarte, Schreibmaterial, Stempel…) kann nun erfolgen. Ausführliche Kodierungsrichtlinien sind hier zu finden.

In einem weiteren Schritt werden die PMB-IDs der markierten Entitäten eingefügt – durchaus auch in mehreren Dateien gleichzeitig, indem beispielsweise folgender XPath alle Personen im Projekt auflistet, die noch keine Nummer aus der PMB haben: //rs[@type='person' and @ref='' or not(@ref)]. Jederzeit kann das Transformationsszenario brief_ziehen-des-back-elements erneut durchgeführt werden. Es zieht aus der PMB die erwähnten Entitäten und schreibt sie in ein <back/>-Element. Hier finden auch schon Überprüfungen statt, etwa ob eine Personennummer für ein Werk verwendet wurde: <rs type="work" ref="#pmb2121"/> würde einen Fehler zeigen, weil die ID für Arthur Schnitzler für ein Werk verwendet wurde.

Briefe bleiben so lange im temp-Ordner, bis sie validieren oder zumindest nur geringfügigere Probleme (beispielsweise eine noch nicht ergänzte Werknummer) besteht. Ab dem Moment, ab dem ein back-Element gerechnet werden kann, wird die Datei in den editions-Ordner verschoben.

Nun können die Korrespondenzstücke bereits auf die Webseite geladen werden, ihr Entwurfszustand ist aber noch deutlich erkennbar. Zuerst werden die Briefe automatisch aus dem Arbeitsrepositorium in das Repositorium für die Webseite, schnitzler-briefe-data, kopiert. Das geschieht über eine GitHub-Action. Dieser Import bearbeitet den ›whitespace‹, indem alles, was mehr als ein einzelnes Leerzeichen ist, auf ein Leerzeichen reduziert wird. Und aus den in den ursprünglich angelegten Dateien expliziten Lang-s-Vorkommen (z. B. »Muſe«) werden Elemente (z. B. »Mu<c rendition="#langeS">s</c>e«), um sicherzustellen, dass die Suche auch mit ›s‹ funktioniert. Danach holt eine weitere GitHub-Action die neuen Dateien auf die Webseite.

Die Website basiert auf dem DSE-Static-Cookiecutter, die unter der Leitung von Peter Andorfer entwickelte Vorlage für statische Editionen. XSLTs transformieren die TEI-Dateien in HTML-Darstellungen um. Dadurch kann auf eine eigene Datenbank verzichtet werden. Für die Suche kommen Typesense und NoSketch-Engine zum Einsatz, die als separate Instanz für viele Projekte auf den Servern der Akademie betrieben werden.

Es folgen mehrere Sichtungen den Korrespondenzstücke. Dafür rechnen wir mit den beiden Transformationen einzel-korrektur-nach-TeX.xsl PDFs der Briefe in kritischer Ansicht. Die TeX-Dateien finden sich in einem eigenen Repositorium, schnitzler-briefe-tex, und liefern eine Korrekturansicht als PDF, in dem auch die vorkommenden Entitäten ausgewiesen sind. (Eine mehr oder weniger analog erstellte Variante ist die Leseansicht, bei der die PDFs ohne farblich hervorgehobene Entitäten erstellt werden.)

Die Sichtungen erfolgen in Schritten, ein Minimalfall besteht aus vier Schritten:

Transkription des Textes in Transkribus
Händische Nachbearbeitung der exportierten XML-Datei, Blick auf das Faksimile notwendig
Kollationierung (Abgleich) von Korrektur-PDF und Faksimile auf der Webseite; die Indizierung muss separat als gesichtet erwähnt werden
Ein anderes Teammitglied nimmt eine abschließende Lektüre des Textes vor, nunmehr nur im Ausnahmefall mit Blick auf das Faksimile

Oft genug kommt es zu mehreren Sichtungsvorgängen.

Archivierung

Am Projektende landen alle Korrespondenzstücke geschlossen in der Langzeitarchivierung ARCHE der Österreichischen Akademie der Wissenschaften und sollten so noch auf Jahrzehnte hinaus verfügbar sein.

Adaption von Projekt 1 zu Projekt 2

In der ersten Laufzeit wurde Transkribus noch nicht verwendet. Stattdessen haben wir die Korrespondenzstücke direkt im Oxygen XML Editor mit Vorlagen angelegt. Die Webseite war auf eXist-db aufgebaut, was etwas mühsamer zu erstellen war und auch nicht nachhaltig, da nicht sichergestellt werden konnte, dass Server-Updates nicht zu einem Absturz der ganzen Seite führten. Die nunmehr praktizierte Lösung mit einer statischen HTML-Seite ist zwar deutlich ausführlicher (›verbose‹), sollte aber, vor allem weil nicht mehr auf eine Datenbank zurückgegriffen werden muss und die aktive Entwicklung abgeschlossen ist, deutlich länger halten.

Adaption von Projekt 2 zu Projekt 3

Diese Laufzeit wurde mit der eigenständigen App von Transkribus bestritten. Auch haben wir auf die folgende Weise Handschriften trainiert: Im Normalfall wandten wir eine automatische Texterkennung an, zuerst mit einem der angebotenen Standardmodelle von Transkribus. Den erkannten Text korrigierten wir händisch, indem wir Zeile für Zeile durchgingen. Hatten wir zumindest 30 Seiten einer Handschrift entziffert, trainierten wir ein eigenes Handschriftenmodell. Damit ließen wir die nächsten Seiten erkennen. In unregelmäßigen Intervallen trainierten wir so fortlaufend das HTR-Modell neu. Ab dem Zeitpunkt, an dem es verlässlich funktionierte, stellten wir das Modell frei zur Verfügung, wie hier: HTR Paul Goldmann und HTR Felix Salten. Inzwischen sind die Standardmodelle von Transkribus aber so gut und dürften auch unsere Trainings enthalten, dass wir auf weitere Spezialtrainings vorläufig verzichten.