Die Herstellung kritischer digitaler Editionen unterliegt einem stetem Wandel, der mit häufiger Anpassung der Arbeitsmittel einhergeht. Da wir die meiste Zeit nur zu zweit an der Edition arbeiten, ist auch der informelle Austauch beständig da und es wird immer wieder eine kleinere Änderung vorgenommen, ohne dass diese anders als durch die Verwendung selbst dokumentiert würde. Eine Darstellung des Arbeitsablaufs kann somit nur eine Momentaufnahme sein, obgleich wir uns bemühen, sie aktuell zu halten und auch Änderungen im Zeitablauf zu dokumentieren. Der hier geschilderte Stand stellt den Stand nach wenigen Monaten der dritten Projektlaufzeit (Anfang 2026) ab; Adaptionen zur ersten und zweiten Laufzeit werden weiter unten beschrieben.
Die Recherche, welche Korrespondenzen aufgenommen werden, steht am Anfang der Arbeit und wird im Projektantrag festgehalten. Danach folgt die Abklärung der Rechte. Die Regelschutzfrist in Österreich beträgt 70 Jahre nach dem Tod, am 1. 1. des Folgejahres werden die Rechte an den Texten frei. In wenigen Fällen besitzen Nachkommen noch Rechte. In Fällen, in denen wir diese freundlicherweise zur Verfügung gestellt bekommen, können wir zu arbeiten beginnen. Korrespondenzen, deren Rechte offen sind, greifen wir nicht an.
Im Anschluss suchen wir einerseits im Nachlass Schnitzlers nach Briefen, andererseits in verschiedenen anderen internationalen Archiven, Bibliothekskatalogen, Antiquariatsangeboten und Verzeichnissen. Besonders hilfreich ist der Kalliope Verbundkatalog.
Im nächsten Schritt beziehen wir die Faksimiles, wobei wir uns mit zwei Nachlässigkeiten abfinden: Wir lassen uns die Bilder so liefern, wie die Institutionen das herkömmlich tun und geben keine eigenen Vorgaben bezüglich Farbprofil, Farbkarte, Dateiformat etc. Bislang sind uns keine erkennbaren Nachteile daraus erwachsen. Und wir verzichten auf leere Rückseiten. Das hat ausschließlich pekuniäre Gründe.
Sofern sich auf einem Faksimile zwei Seiten auf einem Blatt finden, teilen wir das Faksimile mit einem ImageMagick-Skript in zwei Teile mit einer Überlappung von 5%. Das garantiert, dass die Schnittkante gut zu erkennen ist.
Es folgt der Import der Faksimiles in Transkribus. Transkribus ist eine in Innsbruck entwickelte Plattform zur automatischen Texterkennung nicht nur von gedruckten Texten, sondern auch von Handschriften. Die Webseite ist kostenlos und kommt mit einem bestimmten Freikontingent. Bei der Menge, mit der wir es zu tun haben, sind aber (keine sehr hohen) Kosten einzukalkulieren. Wir verfügen über einen institutionellen Account der Österreichischen Akademie der Wissenschaften, ob wir aber Funktionen verwenden, die ausschließlich solchen zur Verfügung stehen, wissen wir gerade nicht. In Transkribus erstellen wir für jeden Verfasser, jede Verfasserin eine Collection. Üblicherweise sind dann mehrere Briefe eines Schreibers, einer Schreiberin in einer Collection in einem Dokument, üblicherweise alle Briefe einer Korrespondenz in einem bestimmten Archiv. Mittlerweile ist die Desktop-App von Transkribus eingestellt und wir sind auf die Web-App umgestiegen.
In Transkribus lassen wir zuerst eine automatische Zeilenerkennung laufen, die
wir händisch nachkorrigieren. Das ist eine etwas mühselige Arbeit, die aber für
die folgenden Schritte relevant ist. In Transkribus benutzen wir bestimmte Tags,
die teilweise bereits von Haus aus vorhanden sind, teilweise aber auch erst von
uns unter dem Namen der TEI-Elemente angelegt wurden. Die Tags nutzen wir, um
bestimmte Textphänomene (z. B. Streichungen) und zu indizierende Stellen (z. B.
Personennamen) zu markieren. Die Möglichkeit, bereits in Transkribus Normdaten
einzugeben, benützen wir nicht. Neben den Tags verwenden wir in der ersten Zeile
eines Absatzes ein Element <paragraph/>, um zu markieren, wo
ein neuer Absatz beginnt. Als weitere Idiosynkrasie haben wir ein Element,
<letter-begin/> definiert, das wir in die erste Zeile
eines neuen Briefes setzen. Es dient als Marker, wo jeweils eine neue Datei
angelegt werden muss (jeder Brief wird in einer eigenen XML-Datei
gespeichert).
Mit dem einmaligen Durcharbeiten eines Briefes und einem einmaligen Korrekturlesen steht üblicherweise die erste Abschrift.
Es folgt der Export. Um von Transkribus zu XML/TEI zu gelangen, gab es zeitweise
einen online ablaufenden Prozess (GitHub-Action), der sich aber als fehleranfällig erwies,
beispielsweise wenn irgendwo im Text ein ›&‹ stand, weswegen wir in
Transkribus nur einen Mets-Download auslösen und die Verarbeitung lokal laufen
lassen. Die heruntergeladenen Dateien werden in den Ordner
transkribus-transformation/transkribus-export gespeichert. In
import-parameter.xml können noch Standardwerte für den Import
gesetzt werden, die für alle zu exportierenden Briefe gelten (z. B. die
Archivsignatur). Jedenfalls wird die exportierte METS-Datei zuerst mit dem im
Oxygen-Projekt angelegten Transformationsszenario
page2tei-1, das Ergebnis dann mit page2tei-2
umgewandelt. Nun stehen die Einzeldateien mit korrekten Dateinamen und IDs im
Verzeichnis »editions«. Diese neuen Dateien werden dann mit
page2tei-3 und
back-element-hinzufuegen_facs-normalisieren weiter
transformiert.
Das Ergebnis sind einzelne Briefdateien im Format XML in einem separaten Ordner
temp, bei denen der <teiHeader/> schon
weitgehend ausgefüllt ist. Die Dateien validieren noch nicht gegen das Schema und es gibt mehrere Probleme, die mit händischer Nacharbeit
behoben werden müssen.
Wichtig ist im ersten Schritt, dass das Datum des Briefs (auch im Format ISO) im
Element <correspAction type="sent"/> vermerkt wird.
Schnitzlers Aufenthaltsorte können mit der Liste für schnitzler-orte durch eine Transformation automatisch bezogen werden.
Das Empfangsdatum (<correspAction type="received"/>) wird,
wenn nicht vorhanden, auf einen bestimmten Zeitraum geschätzt und ebenfalls
automatisch ausgefüllt. Auch die Anpassung der Objektbeschreibung (Brief,
Postkarte, Schreibmaterial, Stempel…) kann nun erfolgen. Ausführliche
Kodierungsrichtlinien sind hier
zu finden.
In einem weiteren Schritt werden die PMB-IDs der markierten Entitäten eingefügt – durchaus auch in
mehreren Dateien gleichzeitig, indem beispielsweise folgender XPath alle
Personen im Projekt auflistet, die noch keine Nummer aus der PMB haben:
//rs[@type='person' and @ref='' or not(@ref)]. Jederzeit kann
das Transformationsszenario brief_ziehen-des-back-elements erneut
durchgeführt werden. Es zieht aus der PMB die erwähnten Entitäten und schreibt
sie in ein <back/>-Element. Hier finden auch schon
Überprüfungen statt, etwa ob eine Personennummer für ein Werk verwendet wurde:
<rs type="work" ref="#pmb2121"/> würde einen Fehler
zeigen, weil die ID für Arthur Schnitzler für ein Werk verwendet wurde.
Briefe bleiben so lange im temp-Ordner, bis sie validieren oder
zumindest nur geringfügigere Probleme (beispielsweise eine noch nicht ergänzte
Werknummer) besteht. Ab dem Moment, ab dem ein back-Element gerechnet werden
kann, wird die Datei in den editions-Ordner verschoben.
Nun können die Korrespondenzstücke bereits auf die Webseite geladen werden, ihr
Entwurfszustand ist aber noch deutlich erkennbar. Zuerst werden die Briefe
automatisch aus dem Arbeitsrepositorium in das Repositorium für die Webseite, schnitzler-briefe-data, kopiert. Das geschieht über eine GitHub-Action. Dieser Import bearbeitet den ›whitespace‹, indem
alles, was mehr als ein einzelnes Leerzeichen ist, auf ein Leerzeichen reduziert
wird. Und aus den in den ursprünglich angelegten Dateien expliziten
Lang-s-Vorkommen (z. B. »Muſe«) werden Elemente (z. B. »Mu<c
rendition="#langeS">s</c>e«), um sicherzustellen, dass die
Suche auch mit ›s‹ funktioniert. Danach holt eine weitere GitHub-Action die neuen Dateien auf die Webseite.
Die Website basiert auf dem DSE-Static-Cookiecutter, die unter der Leitung von Peter Andorfer entwickelte Vorlage für statische Editionen. XSLTs transformieren die TEI-Dateien in HTML-Darstellungen um. Dadurch kann auf eine eigene Datenbank verzichtet werden. Für die Suche kommen Typesense und NoSketch-Engine zum Einsatz, die als separate Instanz für viele Projekte auf den Servern der Akademie betrieben werden.
Es folgen mehrere Sichtungen den Korrespondenzstücke. Dafür rechnen wir mit den beiden Transformationen einzel-korrektur-nach-TeX.xsl PDFs der Briefe in kritischer Ansicht. Die TeX-Dateien finden sich in einem eigenen Repositorium, schnitzler-briefe-tex, und liefern eine Korrekturansicht als PDF, in dem auch die vorkommenden Entitäten ausgewiesen sind. (Eine mehr oder weniger analog erstellte Variante ist die Leseansicht, bei der die PDFs ohne farblich hervorgehobene Entitäten erstellt werden.)
Die Sichtungen erfolgen in Schritten, ein Minimalfall besteht aus vier Schritten:
Oft genug kommt es zu mehreren Sichtungsvorgängen.
Am Projektende landen alle Korrespondenzstücke geschlossen in der Langzeitarchivierung ARCHE der Österreichischen Akademie der Wissenschaften und sollten so noch auf Jahrzehnte hinaus verfügbar sein.
In der ersten Laufzeit wurde Transkribus noch nicht verwendet. Stattdessen haben wir die Korrespondenzstücke direkt im Oxygen XML Editor mit Vorlagen angelegt. Die Webseite war auf eXist-db aufgebaut, was etwas mühsamer zu erstellen war und auch nicht nachhaltig, da nicht sichergestellt werden konnte, dass Server-Updates nicht zu einem Absturz der ganzen Seite führten. Die nunmehr praktizierte Lösung mit einer statischen HTML-Seite ist zwar deutlich ausführlicher (›verbose‹), sollte aber, vor allem weil nicht mehr auf eine Datenbank zurückgegriffen werden muss und die aktive Entwicklung abgeschlossen ist, deutlich länger halten.
Diese Laufzeit wurde mit der eigenständigen App von Transkribus bestritten. Auch haben wir auf die folgende Weise Handschriften trainiert: Im Normalfall wandten wir eine automatische Texterkennung an, zuerst mit einem der angebotenen Standardmodelle von Transkribus. Den erkannten Text korrigierten wir händisch, indem wir Zeile für Zeile durchgingen. Hatten wir zumindest 30 Seiten einer Handschrift entziffert, trainierten wir ein eigenes Handschriftenmodell. Damit ließen wir die nächsten Seiten erkennen. In unregelmäßigen Intervallen trainierten wir so fortlaufend das HTR-Modell neu. Ab dem Zeitpunkt, an dem es verlässlich funktionierte, stellten wir das Modell frei zur Verfügung, wie hier: HTR Paul Goldmann und HTR Felix Salten. Inzwischen sind die Standardmodelle von Transkribus aber so gut und dürften auch unsere Trainings enthalten, dass wir auf weitere Spezialtrainings vorläufig verzichten.