Sylvia Springer

Erfahrungen in der Produktion
von elektronischen Diensten
Die Pestalozzi-Volltextdatenbank

Vorwort

Die Erstellung der vorliegenden Volltextdatenbank mit den Werken und Briefen Johann Heinrich Pestalozzis ist die "Geschichte der Mutation" einer großen, komplexen Buchausgabe in eine CD-ROM. Da bislang ein solcher Weg in dieser Vielschichtigkeit noch nicht beschritten wurde, ist der Text bewußt als detaillierter und praxisorientierter Erfahrungsbericht verfaßt, der auch nicht verschweigt, aus welchen Erfahrungen die Autoren erst im Laufe des Projektes klug wurden. So kann er möglicherweise andere, die Ähnliches planen, sachdienlich unterstützen.

Die Pestalozzi-CD-ROM ist, was das Konzept betrifft - inhaltlich, strukturell wie auch technisch -, das Ergebnis von rund 7 Jahren "Phantasie und Arbeit": "Phantasie" im Sinne von "Mut zum Träumen", von hochgesteckten Zielen, von Vorstellungskraft des vielleicht auch noch Möglichen; "Arbeit" im Sinne von Erprobung vorhandener Möglichkeiten, Evaluation von Software-Angeboten und Anpassung des Text-Grundstocks an die Bedingungen von Recherchierbarkeit.

Diese CD-ROM ist, was ihre eigentliche Realisierung anbetrifft - Aufbereitung und Strukturierung des Volltextes im Hinblick auf die ausgewählte Software, Programmierung und Herstellung -, das Ergebnis intensiven Nachdenkens und Arbeitens in einem Zeitraum von ca. anderthalb Jahren. Der Entschluß zur Umsetzung des Projektes mit der Firma Makrolog in Wiesbaden unter der Retrieval-Software CDIS fiel im Dezember 1992. Bis dahin war der Text lediglich gescannt und orthographisch vereinheitlicht. Im Juni 1994 war die CD in der DOS-Version fertiggestellt; die Versionen unter Windows und Macintosh werden Ende des Jahres erwartet.

Ohne den vorlaufenden Raum des Träumens und Erprobens wäre diese letztendlich sehr schnelle Realisierung nicht möglich gewesen. Ohne die intensive Konzentration auf die Umsetzung in den besagten 18 Monaten wäre der Traum "Pestalozzi-CD-ROM" nicht in Erfüllung gegangen. Phantasie und Arbeit bleiben für ein solches Pilot-Unternehmen untrennbar miteinander verwoben.

Ich will im folgenden den Vorlauf - die Entwicklung der Idee und die Evaluation der Möglichkeiten - darlegen; im Anschluß daran möchte ich die schrittweise Verwirklichung in der anderthalbjährigen Arbeitsphase beschreiben und die Resultate am fertigen Produkt demonstrieren. Dabei möchte ich versuchen, Überlegungen und Arbeitsschritte, so weit es geht, zu generalisieren.

Der Rahmen des Projekts

Mitte der achtziger Jahre übernahm am Erziehungswissenschaftlichen Institut der Heinrich-Heine-Universität in Düsseldorf Prof. Dr. Leonhard Friedrich - heute Professor an der Friedrich-Schiller-Universität in Jena - die Entwicklung eines dringlichen Projektes im Rahmen der Pestalozzi-Forschung: Es ging um die Erstellung von Gesamtregistern zur Kritischen Gesamtausgabe der Werke und Briefe Pestalozzis.

Diese Gesamtausgabe stellt ein in Umfang und Konzept in den Erziehungswissenschaften herausragendes Textcorpus dar. Sie wurde 1927 - im 100. Todesjahr Pestalozzis - begonnen und umfaßt heute 28 Werk- und 13 Briefbände von jeweils etwa 500 Druckseiten Umfang. In den nächsten Jahren wird sie noch um einige Ergänzungsbände mit bislang unveröffentlichten Texten und Fragmenten sowie mit Briefen an Pestalozzi erweitert werden.

Der Aufbau der einzelnen Bände ist in beiden Abteilungen - Werke und Briefe - im allgemeinen chronologisch. Jeder Band enthält vier Anhänge, nämlich einen textkritischen Apparat mit Lesarten und Varianten, Sacherklärungen zu Hintergründen von Textpassagen und/oder angeführten Personen, Erläuterungen typisch schweizerischer sowie veralteter Begriffe und ein - freilich lückenhaftes - Orts- und Personennamen-Verzeichnis. Außerdem existiert mittlerweile ein erster Band der Gesamtregister mit Verzeichnissen aller Personen- und geographischen Namen sowie diversen Unterverzeichnissen (vgl. Abb. 1: Übersicht über den Aufbau der Kritischen Pestalozzi-Ausgabe).

Die Herausgeber und Bearbeiter der einzelnen Bände hatten sich für eine "konservative Behandlung" der Texte "im Interesse strenger Wissenschaft-lichkeit" entschieden, worunter insbesondere das Bemühen zu rechnen ist, alle orthographischen Eigenheiten Pestalozzis zu erhalten - ein Umstand, der uns bei der Erstellung der Volltextdatenbank noch stark beschäftigen sollte.

Die vorliegenden Texte beinhalten ein breites Spektrum von Fragestellungen, die über die Erziehungswissenschaft und die Lehrerbildung hinaus beispielsweise für Literaturwissenschaftler, Kulturhistoriker, Juristen und Philosophen von Interesse sind. Doch sind diese Informationen weit gestreut über ein Werk mit einem Umfang von 258 Schriften und 6252 Briefen auf rund 21000 Druckseiten; ohne umfassende und wiederum differenzierte Register ist eine gezielte, systematische und lückenlose Erschließung des Gesamtwerks - wenn diese nicht wenigen Spezialisten vorbehalten bleiben soll - ausgesprochen schwierig. Der Leser benötigt in der Regel Hilfsmittel, wie thematisch eingegrenzte Sekundärliteratur, und konzentriert sich auf ausgewählte Schriften, "Klassiker" wie den "Stanser Brief", den Volksroman "Lienhard und Gertrud" und die anthropologischen "Nachforschungen über den Gang der Natur in der Entwicklung des Menschengeschlechts".

Aus diesem Grunde übernahm Prof. Friedrich - unterstützt aus Mitteln der Deutschen Forschungsgemeinschaft - an seinem Lehrstuhl die Aufgabe, ein Gesamtsachregister sowie diverse Gesamtnamenregister, dazu etliche Unterverzeichnisse, u.a. eines der von Pestalozzi bestellten Bücher, zu erarbeiten.

Angesichts des Umfangs des Werkes, bei dessen Auswertung allein aufgrund von Lektüre - also "traditionelle" Register-Erstellung mit Hilfe von Zettelkästen - ein beträchtlicher Ausfall- und Fehlerquotient unvermeidlich bliebe, schienen die Erfassung des Textes auf EDV und die Nutzung von Retrievalsoftware den sinnvollsten Weg zu bieten. Allerdings lagen kaum Erfahrungen im geisteswissenschaftlichen Bereich vor, jedenfalls nicht mit nichtrelationalen Datenbanken.

Von der optimalen Methode der Texterfassung über die geeigneten Speichermedien bis zur adäquaten Software mußte alles durchdacht und evaluiert werden.

Die DFG schlug in einem Begleitbrief zum Bewilligungs-Bescheid die Kontaktaufnahme mit einem Literaturwissenschaftler und EDV-Experten vor, der sich insbesondere auf das neuartige Speichermedium CD (CD-WORM und CD-ROM) spezialisiert hatte. Dies könne möglicherweise die geeignete Grundlage bei der Registererstellung bieten, da es den gescannten Text in nur einer Datei präsentieren könne.

Aus Kostengründen schied dieses Medium als reine Zwischenstufe aus. Es blieb allerdings die Überlegung, längerfristig eine Publikation des Volltextes auf CD-ROM im Auge zu behalten. Zunächst einmal galt es, die 42 Bände zu scannen und geeignete Hard- und Software für das Retrieval zu finden.

Die elektronische Erfassung der Texte

Sowohl der technische Stand als auch die Preise von Scanner-Hardware und OCR-Software können heute mit 1987 nicht mehr verglichen werden. Wir waren genötigt, das Einlesen der aufgeschnittenen Bände an Institutionen mit guter Ausrüstung zu delegieren - an das Universitätsrechenzentrum in Tübingen und die Gesellschaft für wissenschaftliche Datenverarbeitung in Göttingen, die über KDEM-Omnifont-Lesemaschinen der Firma Kurzweil verfügten, die für unseren Zweck - das Scannen einer sehr komplizierten Textvorlage mit verschiedenen Fonts und einer komplexen Struktur - die geeignetste zu sein schien. Von der DFG finanzierte Hilfskräfte bewerkstelligten das Scannen und Umsetzen in einer Durchschnittsrate von 13 Seiten in der Stunde (i. e. pro Seite ca. 4,7 Minuten). Ausgespart wurden reine Images wie Abbildungen und Faksimiles.

Etwas problematisch war die Umsetzung durch die amerikanische Software im Hinblick auf Umlaute und "ß", die eine Sondercodierung erhielten, die wir später zurücksetzen mußten.

Es war wichtig, bei der elektronischen Erfassung die Seiten- und Zeilenbezüge zur Druckvorlage zu erhalten, sollte die elektronische Version doch buchbezogene Register erstellen helfen. So wurden sogenannte "feste" Zeilen- und Seitenumbrüche gesetzt.

Erhalten blieben auch die Kolumnentitel mit Seitenzahl und die Zeilennummern neben dem Text (Fünfersprünge), denn die Recherche brauchte ja Anhalte, insbesondere im Falle des Überspringens von leeren Seiten.

Den verschiedenen Schrifttypen der Kritischen Ausgabe, deren Verwendung jeweils besondere Bedeutung zukommt, wurden verschiedene Fonts zugeordnet; Kolumnentitel und Zeilennummern unterscheiden sich ebenso wie Überschriften in der Schriftgröße (Klein- resp. Großdruck). Die Anhänge sind im Gegensatz zum Haupttext zum Teil in Fraktur gesetzt, Erläuterungen der Herausgeber innerhalb des textkritischen Apparates sowie Ergänzungen von Wortfragmenten typographisch ebenso abgesetzt wie von Pestalozzi gestrichene Textteile (vgl. Abb. 2: Beispiel für eine Buchseite aus dem textkritischen Apparat).

Die Bände wurden in jeweils zwei Dateien (Text- und Anhangteil) gespeichert; insgesamt umfaßt der elektronische Textbestand etwa 55 Megabyte.

Herstellung von Recherchierbarkeit der Texte

Die Pestalozzi-Gesamtausgabe wurde, wie bereits erwähnt, nach strengen textkritischen Maßgaben herausgegeben. Für die Recherchierbarkeit eines Textes stellt es wiederum ein bedeutendes Hindernis dar, wenn Schreibvarianten verwendet werden, die so ungewöhnlich sind, daß man darauf kaum kommen könnte. Genau dies ist bei Pestalozzi der Fall. In der Kritischen Ausgabe findet man nicht nur solche für das 18. und beginnende 19. Jahrhundert typischen Schreibvarianten wie "th" statt "t" oder "ey" statt "ei". Solche Möglichkeiten ließen sich beim Recherchieren leicht einbeziehen. Man stößt aber auch auf Abweichungen wie "Teütschland" für "Deutschland" und "Jde" für "Idee". Daß hiermit nicht gewollte orthographische Finesse dokumentiert wird, belegt Pestalozzi selbst, der von sich bekennt, er habe seine Texte "ungewaschen und ungekämmt ins Publikum geworfen". Insofern scheint orthographische Vereinheitlichung kein Sakrileg zu sein; immerhin findet man sie auch innerhalb der Kritischen Ausgabe bei zu Lebzeiten veröffentlichten Texten. Das heißt, daß auch hier der korrigierende Eingriff des Verlags erwünscht war.

Die gescannten Texte mußten ohnehin auf Einlesefehler hin kontrolliert werden. Es gab darunter ganz typische wie "umd" für "und" und "jhr" für "ihr", durch die Frakturschrift bedingte wie "f" für "s", aber auch eine Vielzahl von nicht voraussagbaren, die Folge der teilweise nicht sehr guten Vorlage waren. Die bereits erwähnte Variantenvielfalt hätte es zum Wiederherstellen des Zustandes der Textvorlage erforderlich gemacht, den gescannten Text Wort für Wort mit der Druckvorlage zu vergleichen. Auf diesem Wege hätte dann zugleich jeder ungewöhnlichen Schreibweise die heute gültige verdeckt hinterlegt werden können, um das Retrieval aller Varianten zu gewährleisten. Dieser Abgleich von 21000 Druckseiten war ökonomisch nicht realisierbar und scheint aus den bereits diskutierten Gründen auch nicht zwingend.

So entschied sich die Projektleitung für die orthographische Vereinheitlichung des Textes nach heutigem Standard, sozusagen also für die "kosmetische Aufbereitung der ungepflegten Vorlage". Zur Dokumentation des Grades der Abweichung ist der erste Band der Werkausgabe als Faksimile der CD-ROM beigegeben. Von jeder Textseite aus kann das entsprechende Bild aufgerufen werden. Aus Speicherplatzgründen wurde dieses Verfahren noch nicht für alle Bände durchgeführt, ist allerdings für die nächste Auflage vorgesehen.

Die korrekturarbeiten ließen sich mit herkömmlichen Rechtschreibprogrammen nicht bewerkstelligen. Dem äußerst vielseitigen, kreativen Wortschatz Pestalozzis waren jene Programme nicht gewachsen. Ihre Erweiterung wäre extrem aufwendig gewesen und hätte an Umfang vermutlich die damaligen Arbeitsspeicher überfordert. Darüber hinaus wären semantische Fehler, etwa durch falsches Einlesen erfolgte Buchstabenverwechslungen, überhaupt nicht gefunden worden.

Also wurde der komplette Text am Bildschirm korrigiert, bandweise, allerdings unter Zuhilfenahme von Makros mit "Suche und Ersetze"-Befehlen für sehr häufige Schreibvarianten wie "gieng" ("ging") und "jez" ("jetzt"). Da auf diese Weise einige neue Fehler, insbesondere bei Eigennamen entstanden, mußte beim anschließenden Lesen gebührend darauf geachtet werden. So wurde z. B. die schweizerische Stadt "Thun" ein "Opfer" der "th-Bereinigung".

Ausgeklammert werden mußten auch die englisch- und französischsprachigen Texte; aus jedem englischen "that" wäre sonst ein simples "tat" geworden. Selbstverständlich erfaßten unsere "Korrekturen" nur echte orthographische Varianten. Semantisch bedeutsame Abweichungen wie "Ahnung" und "Ahndung", "Fortschritt" und "Vorschritt" blieben erhalten.

Beim Korrekturlesen wurden Leistungen von durchschnittlich ca. 6 Seiten pro Stunde erreicht. Da mehrere Personen gleichzeitig daran arbeiteten, waren regelmäßige Besprechungen zur Gewährleistung gleichsinniger Richtlinien erforderlich. Nicht immer gab der Duden einhellige Auskunft.

Zum Abschluß dieses aufwendigen, aber notwendigen Arbeitsganges wurden mit Hilfe des Programms "Trenn-Ex" die Silbentrennungen an Zeilenumbrüchen aufgehoben, um auch die betreffenden Worte als Einheiten recherchierbar zu machen.

Hardware und Retrieval-Software

Große Festplatten auf PC zur Bearbeitung des Textes von 55 Megabyte in einem Stück waren zum damaligen Zeitpunkt nur zu Preisen zu bekommen, die im Rahmen der Projektmittel unerschwinglich waren. Da dieses Thema heute nicht mehr relevant ist, will ich es nicht diskutieren, sondern nur vermerken, daß wir als für unsere Zwecke annähernd optimale Lösung PC mit Wechselspeicherplatten von 30 Megabyte wählten. Auf einer Platte war Platz für ein Drittel des Textes in indexierter Form, so daß wir in drei Arbeitsgängen unsere Recherchen für die Register durchführen konnten.

Als Indexierungs- und Retrieval-Software entschieden wir uns für das Programm WordCruncher, in den USA zur Bearbeitung umfangreicher Mormonen-Genealogien entwickelt und auf dem deutschen Markt für eine Textmenge unserer Größenordnung gut geeignet. Viele andere Programme hätten eine Zerlegung des Textes in sachlich unsinnige Einheiten erforderlich gemacht.

Von der Register-Erstellung zur CD-ROM-Konzipierung

Die Pestalozzi-Gesamtausgabe lag nun elektronisch erfaßt und orthographisch vereinheitlicht, also leicht recherchierbar vor. Das Einfachste wäre es gewesen, die CD-ROM mit dem Programm WordCruncher auf den Markt zu bringen. Doch so sehr dieses den Text als ganzen erschließen half - mit hoher Geschwindigkeit Fundstellen als Keyword-in-Context präsentierte -, auch das Zusammenstellen und Abspeichern von Suchlisten ermöglichte, so unerfreulich langsam wurde es bereits bei der Vorne-Trunkierung. Doch vor allen Dingen schien es aufgrund strenger Restriktionen des amerikanischen Herstellers den deutschen Vertreibern nicht möglich zu sein, einige Veränderungen im Programm vorzunehmen, wie sie uns für eine CD-ROM-Ausgabe wichtig erschienen, wenn sie dem Buch in einigen Punkten überlegen sein sollte; insbesondere ist darunter die Verknüpfung von Hypertexten zu fassen.

Die Arbeit mit WordCruncher lehrte uns durchaus, welche erstaunlichen Retrieval-Möglichkeiten bereits bestanden. Gerade auch quantitative Erhebungen (Worthäufigkeiten insgesamt und in einzelnen Texten) eröffneten interessante Forschungsperspektiven. Zugleich weckten diese Retrieval-Erfahrungen aber auch Vorstellungen von einem noch leistungsfähigeren Programm.

Dieses sollte z. B. verschiedenste Hypertext-Anbindungen ermöglichen, Zusatzinformationen bieten, wie die als Images gescannte Originalversion und diverse Abbildungen, sowie systematische Zugriffe ermöglichen.

Wir waren gefragt, unsere Vorstellungen in einem Pflichtenheft klar zu umreißen; wir waren außerdem gefragt, infrage kommende Software-Anbieter zu ermitteln, ihre Produkte zu prüfen und in der Konfrontation mit unserem Pflichtenheft die Möglichkeit der Zusammenarbeit zu erwägen.

Als Mischtyp aus großen Mengen von Fließtext einerseits, zahlreichen Hypertext-Verknüpfungen andererseits, aus Texten und aus Bildern, mit Bedarf an Volltextrecherche ebenso wie an feldorientierter Suche, konnte für die Pestalozzi-Volltextdatenbank das Angebot vorliegender Autorensysteme die Anforderungen an Software nicht hinreichend erfüllen. Die Unterstützung durch versierte Programmierer war erforderlich, wenn die Realisierung dem Werk Pestalozzis und den bestehenden Forschungsinteressen angemessen sein sollte.

Das Pestalozzianum in Zürich unter der Leitung von Prof. Dr. Hans Gehrig erklärte sich zur Finanzierung des Projekts bereit; bei dieser Institution liegen die Vertriebsrechte der CD-ROM.

Pflichtenheft und Software-Evaluation

So galt es, eventuellen Software-Partnern zum einen eine möglichst präzise Vorstellung vom vorliegenden Material zu vermitteln, zum anderen die gewünschten Zugriffsweisen zu beschreiben, Verknüpfungswünsche zu benennen, Ablagemöglichkeiten anzugeben und die technischen Anforderungen zu klären. Es entstand ein neunseitiges Pflichtenheft, das genau diese Angaben enthielt. Vom heutigen Standpunkt aus wirkt es zumindest unvollständig. Zur damaligen Zeit stellte es einen erforderlichen Schritt auf dem Weg zur Umsetzung dar, diente es doch der Klärung von Zielen, die man erreichen wollte. Es wird hier in seinen Grundzügen kurz skizziert, um bereits die Aufgaben zu umreißen, die im Hinblick auf Textaufbereitung bevorstehen sollten.

Als erste Aufgabe wurde der vorliegende Datenbestand beschrieben: die eigentlichen Textteile, der textkritische und der sacherklärende Anhang, die kumulierten Register und Worterklärungen, außerdem der in Faksimile-Images vorliegende erste Band und Abbildungen von Zeitgenossen, Lebensstationen und Wirkungsstätten Pestalozzis. Unter die gewünschten Zugriffsweisen wurde zunächst "Lektüre" gerechnet. Buchidentische Verwendungsmöglichkeiten wie das "Aufschlagen" beliebiger Seiten und fortlaufendes "Blättern" sollten gewährleistet sein. Des weiteren war natürlich Volltextrecherche gewünscht, unterstützt durch die Auswahlmöglichkeit aus einem Gesamtwortindex.

Selbstverständlich sollten die Boolschen Verknüpfungen "und", "oder" und "nicht" bei der Volltextrecherche verwendet werden können, von bis zu drei Worten in einem frei wählbaren Umfeld, z. B. der Einheit "Satz".

Fundstellen sollten als Textausschnitt (Keyword-In-Context/KWIC) oder als Kurztitel mit buchidentischer Fundstellenanzeige, überdies auf Wunsch in chronologischer Sortierung, angezeigt werden. Es war auch daran gedacht, Informationen systematischer Art verdeckt im Text zu hinterlegen und recherchierbar zu machen. Hypertext-Anbindungen sollten zwischen den Textteilen und den beiden zugehörigen Anhängen, zwischen Texten sowie Anhängen und den erläuternden Registern, zwischen den Texten und der als Bilder gescannten Originalversion sowie anderen Abbildungen vorgenommen werden. Zum Export sollten sowohl beliebig markierte Textpassagen als auch Fundstellenlisten bereitstehen.

Unter den technischen Wünschen spielte die Systemanforderung Macintosh eine erhebliche Rolle, da das Schweizer Bildungswesen überwiegend unter diesem System arbeitet, dem die Pestalozzi-CD-ROM selbstverständlich auch zur Verfügung stehen sollte.

Die zweite Aufgabe bestand in der Evaluation der angebotenen Programme. Sie wurde etwa zeitgleich betrieben. Durch Besuche einschlägiger Messen und die Auswertung von Fachzeitschriften konnte ein Überblick über potentielle Kooperationspartner gewonnen werden. Relevant war u.a. die bisher vorgelegte Produktpalette, wenn auch eine Volltextdatenbank wie die geplante in dieser Komplexität noch nicht existierte. Fünf Firmen, die ernsthaftes Interesse an der Zusammenarbeit signalisiert hatten, wurden gebeten, im Hinblick auf das mittlerweile fertiggestellte Pflichtenheft eine Vorführung ihres Programmes zu bieten, wenn möglich unter Einbeziehung eines kleineren Pestalozzi-Textes, um zumindest im Ansatz die Realisierbarkeit unserer Vorstellungen zu dokumentieren.

Für die Auswertung dieser Vorführungen wurde eine Checkliste erstellt, die sich streng an den Forderungskanon des Pflichtenheftes hielt, allerdings auch bereits eine Kalkulation der Kosten vorsah. Der Evaluierungsprozeß erfolgte in seiner Entscheidungsphase in enger Zusammenarbeit mit dem Pestalozzianum.

Die Probe-Indexierungen des Pestalozzi-Textes waren generell nicht sehr überzeugend. Bereits bei kleinen Textmengen zeigten sich strukturelle Schwierigkeiten in der Textanordnung und -zuordnung in der Buchausgabe, die auf einen beträchtlichen manuellen Aufwand in der Textaufbereitung hinzudeuten schienen.

Die Firma MAKROLOG mit der in Israel entwickelten Indexierungs- und Retrieval-Software CDIS erhielt den Auftrag.

Erste Schritte der Zusammenarbeit

Die Demo-Version unter CDIS im Dezember 1992 hatte zwar wiederum deutlich gemacht, daß wir nicht auf Erfüllung aller unserer Vorstellungen würden bestehen können, daß aber andererseits komplexere Verknüpfungen und Strukturierungen möglich sein könnten, als sie im Pflichtenheft benannt worden waren.

MAKROLOG erstellte darum im Anschluß an die Diskussion der Demo-Version ein angepaßtes und ergänztes Pflichtenheft. Auf dieser Grundlage wurde eine Festlegung der von allen beteiligten Seiten zu leistenden Arbeiten vorgenommen: einerseits die von uns noch am Text vorzunehmenden Arbeiten, andererseits die von der Firma programmierbaren Aufbereitungsschritte, schließlich auch der ständige Dialog, um "Fehlpässe" zu vermeiden und Hand in Hand zu arbeiten.

Die Aufgaben, die für die Projektmitarbeiter in Jena unter Prof. Friedrich mittlerweile gewechselt hatten, und in Düsseldorf unter meiner Leitung anstanden, wurden möglichst präzise beschrieben. Sie umfaßten Aufgaben, die dazu dienen sollten,

- den Text an sich vollständig recherchierbar zu machen,

- den Text in verschiedenen Einheiten wie Satz und Absatz recherchierbar zu machen,

- verständliche und präzise Fundstellenangaben bieten zu können,

- korrekte Hypertext-Anbindungen zu gewährleisten,

- systematische Zugriffe zu ermöglichen und

- ergänzende Hinweise anzubieten.

Diese Aufgaben wurden im Rahmen der Möglichkeiten im Zeitraum Anfang 1993 bis Juni 1994 erfüllt. Der Weg ihrer Erfüllung zum einen, die Ergebnisse auf der vorliegenden CD-ROM zum anderen sollen nun im zweiten Teil dieses Beitrages dargestellt werden.

Den Text an sich recherchierbar machen

Wie bereits beschrieben, war der gescannte Text orthographisch vereinheitlicht worden. Dennoch standen etliche typographische und Satz-Probleme einer vollständigen Recherchierbarkeit im Weg. Dazu zählte zunächst die Vielzahl setzerischer Besonderheiten in den Anhängen. Unvollständige Worte Pestalozzis waren durch Bearbeiter mutmaßend ergänzt; um diese Ergänzung kenntlich zu machen, stand sie in Klammern. Das wiederum unterbrach die Buchstabenfolge des Wortes und ließ es bei Rechercheanfragen nicht auffindbar sein. Bearbeiter mußten nun das Fragment wiederherstellen und dahinter das vollständige Wort in Klammern eintragen, um kenntlich zu machen, daß es sich hierbei um ein teilweise oder vollständig ergänztes Wort handelt.

Von Pestalozzi gestrichene Text-, aber auch Wortteile waren durch einen anderen Klammer-Typus gekennzeichnet. Hier gab es den parallelen Fall, daß Wörter aufgrund teilweiser Buchstabenumklammerung nicht recherchierbar waren; auch hier mußte auf das Fragment oder den Teil des Wortes, den Pestalozzi stehen lassen hatte, zusätzlich in Klammern das von ihm zuvor gestrichene Wort folgen (vgl. zu diesen Schwierigkeiten Abbildung 2).

Ein weiteres Problem stellten jetzt die Kolumnentitel und die Zeilennummern dar, die in Fünfersprüngen am Textrand standen. Die Kolumnentitel mit der ständigen Wiederholung einer Überschrift wie z. B. "Wie Gertrud ihre Kinder lehrt" erhöhten auf irrelevante Art und Weise die Gesamtzahl von Fundstellen etwa für die Verbform "lehrt"; die Ziffern führten zu unschönen Zeileneinrückungen. Da beide Angaben durch das Retrievalprogramm überflüssig wurden, das in einer Zeile außerhalb des Textfensters Kurztitel und aktuelle Zeilennummer des Cursors angibt, mußten die entsprechenden Stellen gelöscht werden. Dank der Kennzeichnung von Kolumnentiteln und Zeilenziffern durch Spitzklammern als Kleindruck-Font war diese Bereinigung fast automatisch zu bewerkstelligen.

Nach den Vorarbeiten schien der Gesamtwortindex relativ brauchbar: Der Text konnte jetzt nach jedem Begriff durchsucht werden; durch verschiedene Weisen der Trunkierung war ein Wort mitsamt Flexionen recherchierbar, zumal Umlaute mitberücksichtigt werden (vgl. Abb. 3: Ergebnisbox für die Vorne- und Hinten-Trunkierung um "*rechtig*".

Die ursprünglich vorgesehene halbautomatische Lemmatisierung des Wortbestandes, um das Recherchieren auf Grundformen reduzieren zu können, war aufgrund des schlechten Resultates verworfen worden. Natürlich ist mit Hilfe von Trunkierung auch die Erhebung sämtlicher Komposita möglich, die zunächst in einer Auswahlbox angeboten werden und aussortiert werden können.

Eine Hilfestellung innerhalb des Index wurde allerdings im Hinblick auf die fremdsprachigen Texte erbracht. Der Pestalozzi-Leser hat in der Regel die deutschen Termini vor sich. Oft wird vergessen, daß beispielsweise die nur in englischer Sprache vorliegenden "Letters on Early Education" wichtige Überlegungen Pestalozzis zur frühkindlichen Erziehung beinhalten und daß z. B. in den zahlreichen Briefen an die Eltern von Schülern und Schülerinnen in der französischsprachigen Schweiz interessante Aspekte zur Beurteilung von Pestalozzis Schülerschaft verborgen sind. Aus diesem Grunde griffen wir aus den gesondert erhobenen englischen und französischen Gesamtwortbeständen alle für Pädagogik, Politik etc. sinntragenden Nomina und Verben heraus und ordneten sie den deutschen Äquivalenten zu. So findet der Nutzer, wenn er im Index z. B. "Schule" aufruft, zugleich das Angebot, mit dem Begriff "Schule" auch "école", "institut" und "school" in die Suchbox zu übernehmen. Er ist nicht genötigt dazu, findet hier aber eine Unterstützung.

Den Text in bestimmten Einheiten recherchierbar machen

Nach einzelnen Worten und Wortfragmenten konnte nun im Text als ganzem gesucht werden. Ebenso war die Wortabstandsuche innerhalb eines frei wählbaren Abstandes von einzelnen Wörtern möglich. Um beispielsweise bestimmte Zitate aufzufinden, ist präzise Wortabstandsuche ebenso sinnvoll wie etwas zur Überprüfung des Vorhandenseins von angeblich neuen Text-Funden im bereits gedruckten Bestand.

Um jedoch nach bestimmten Sachverhalten, z. B. der Rolle des "Lehrers" in der "Schule", zu recherchieren, führt in der Regel die Suchanfrage nach beiden Begriffen innerhalb sinnstiftender Einheiten wie Satz und Absatz weiter. Dies stellte uns vor die Schwierigkeit der Satzende- und Absatzende-Erkennung. Letztere wurde automatisch durchgeführt, indem überall da, wo diedurchschnittliche Zeichenmenge pro Zeile um einen bestimmten Anteil unterschritten wird, eine Markierung gesetzt wurde. Der Fehlerquotient ist dabei so niedrig, daß auf eine Kontrolle des gesamten Textes verzichtet werden konnte. Allerdings hätte diese nachträgliche Arbeit erspart bleiben können durch entsprechende Markierungen der Absatzenden bereits beim Scannen.

Satzenden lassen sich deutlich schwieriger verläßlich ausmachen, da die häufigste Satzendemarkierung - der Punkt - in Texten auch andere Funktionen erfüllt, insbesondere die Kennzeichnung von Abkürzungen. Zu deren Erhebung wurde ein kleines Programm geschrieben, mit dessen Hilfe Worte vor Punkten herausgeschrieben wurden, die aufgrund bestimmter Merkmale "in Verdacht" standen, Abkürzungen zu sein, beispielsweise nachfolgende Kleinschreibung, ungewöhnliche Reihungen von Konsonanten oder die deutliche Nähe eines weiteren Punktes. Auf diese Weise wurde eine Liste mit mehreren hundert Wörtern erzeugt, die daraufhin überprüft wurde, ob es sich um Abkürzungen handelte; bei Pestalozzi fanden sich sehr eigenwillige Kürzel wie "Msgh" für "Meine sehr geehrten Herren" oder "nvbre" für "novembre". Sofern dies zutraf, wurden die Abkürzungen in der Liste aufgelöst, damit die CD-ROM zugleich ein Abkürzungsverzeichnis aufnehmen konnte. Die übrigen Begriffe wurden aus den Listen gelöscht. Nun konnte ein weiteres Programm sozusagen im Ausschlußverfahren diejenigen Punkte als Satzende-Marken dispensieren, die auf eines der Kürzel folgten. Der Fehlerquotient ist durch dieses Verfahren auch im Satzerkennungsbereich sehr niedrig.

Zwei Besonderheiten des Buchsatzes, denen die elektronische Fassung nicht ohne weiteres entsprechen konnte, waren beim Scannen ebenfalls nicht deutlich genug bedacht worden: Texte in Spalten und Texte in Fußnoten, die über mehrere Seiten fortlaufen.

Spaltentexte waren beim Scannen in der Regel nebeneinander stehengeblieben. Das warf zwei Schwierigkeiten auf: Zum einen sind gerade bei zweispaltigen Texten die Zeilen so lang, daß sie nicht in eine Bildschirmzeile passen, sondern umbrochen werden. Dann steht allerdings ein Teil des zu Spalte 2 gehörigen Textes optisch angebunden an Spalte 1; dies führt zu deutlichen Irritationen beim Lesen. Zum zweiten macht die Schreibung in Spalten am Bildschirm die Recherche in der Einheit Satz unmöglich, da das Programm die kompletten Bildschirmzeilen nach Punkten durchsucht.

Hier mußten Umsetzungen vorgenommen werden. In künstlich eingefügten "Nullzeilen", also Zeilen, deren Ziffer mit der vorangehenden Textzeile identisch gesetzt wurde, um die authentische Zeilenfortzählung nicht zu beeinträchtigen, wurde der Hinweis "Spalte 1" bzw. "Spalte 2" in den Text eingefügt. Danach wurden die Spalten hintereinander gesetzt. Die hinweisende Überschrift und die relativ schmale Zeilenbreite deuten für den Leser auf die Notwendigkeit hin, den Text der zweiten Spalte vergleichend heranzuziehen(vgl. Abb. 4: Beispiel für einen in Spalten gesetzten Text, der als solcher deutlich erkennbar ist).

Wo Pestalozzi nur sehr kurze Textteile, z. B. Begriffe, kontrastieren wollte, wurde eine Spaltenschreibung beizubehalten versucht; hier entfällt ja auch das Argument des auseinandergerissenen Satzes.

Komplex wurde das Problem bei Spaltentexten, die über mehrere Seiten hinweg laufen. Hier wurde ebenfalls jeweils eine Spalte erst vollständig aneinandergesetzt mit jeweiligen Seitenumbruchsmarkierungen, um dann die zweite hintenanzustellen, wiederum mit der betreffenden vorherigen Seite beginnend; d. h. die Seitenzahl in der Fundstellenanzeige springt automatisch zurück.

Ganz ähnlich stellt sich das Problem dar bei Fußnoten, die unten auf einer Seite beginnen und am Fuße der nächsten und möglicherweise auf weiteren Seiten fortgesetzt werden. Das heißt, der Text gehört in einen Zusammenhang, der im Buch optisch erkennbar, jedoch durch das Scannen der Seiten unterbrochen ist. Beim Scannen wurde nach dem eigentlichen Text selbst der im Buch zur optischen Absetzung angebrachte Strich nicht erfaßt, da die Zeilenzählung diesen nicht berücksichtigt, sondern fortlaufend in die Fußnote weiterzählt. Dennoch liest das Auge auf dem Bildschirm in der nächsten Zeile weiter, wo die umfangreiche Fußnote beginnt. Dieser unvorteilhafte Sprung - verbunden mit der Notwendigkeit, die Fortsetzung des Textes durch Scrollen zu suchen - wurde aufgehoben durch die Hypertext-Anbindung von Fußnoten an Textpassagen. Der Fußnotentext ist nun verborgen und stört den Lesefluß nicht.

Verständliche und präzise Fundstellenangaben bieten

Zwei Anzeigemodi wollten wir anbieten: zum einen das Schlagwort im Kontext (KWIC), mit verschiedenen Optionen der Zeilenanzahl, um jede Fundstelle eines gesuchten Begriffes direkt einsehen zu können; auf diese Weise läßt sich oft schon auf die Relevanz einer Stelle schließen; zum anderen eine Auflistung der Dokumente, in denen der Begriff vorkommt (vgl. Abb. 5: Beispiel für Fundstellenangaben als Dokumentenliste - chronologisch sortiert - und als KWIC).

Was aber ist ein Dokument? Definiert man es als Texteinheit, im Hinblick auf die es sinnvoll erscheint, das Vorhandensein eines Begriffs oder Sachverhaltes zu überprüfen, so wirft eine so vielfältige Texte enthaltende Ausgabe wie die hier vorliegende wichtige Entscheidungsfragen auf: Soll man jeden Text als Dokument auffassen oder die Texte splitten? Wenn ja, nach welchen Kriterien? Zahlreiche kurze Texte wie z. B. sämtliche Briefe, etliche Flugschriften, Aufrufe und kurze Zeitschriftenartikel sind sinnvoll als je ein Dokument aufzufassen. Die Information, ein bestimmtes Thema sei im Brief an X angesprochen, ist aufschlußreich genug; sie ist es nicht, wenn dasselbe Thema in einer über hundert Seiten langen Schrift erwähnt wird. Erfahrungsgemäß werden in einem so langen Text viele Themen angesprochen. Interessant für den Leser wird es hier, ob der gesuchte Begriff oder Sachverhalt mehrmals erwähnt wird, ob es besonders "dichte" Stellen gibt. Bietet der Text von sich aus Einteilungen an, z. B. Kapitel, wie der Roman "Lienhard und Gertrud" oder Datierungen, wie die Tagebücher, so sind Dokumenten-Splits sinnvoll dort anzusetzen. Handelt es sich jedoch nicht um strukturierten Text, so wird eine Einteilung in Seiten vorgenommen, allerdings so, daß die Einheiten Satz und Absatz nach wie vor für die Recherche zugänglich sind.

Der Sinn der Auflistung von Dokumenten besteht darin, einen Überblick über die relevanten Texte bzw. Textteile zu gewinnen. Das Splitten der Datenbank in Dokumente konnte in den Briefbänden automatisch erfolgen, da jeder Brief einheitlich mit einer Ziffer, gefolgt von einem Punkt, überschrieben ist. In den Werkbänden hingegen mußte jeder Textanfang kodiert sowie jede Splitstelle gekennzeichnet werden; lediglich für den Fall des Seitensplitting genügte ein entsprechender Code im Text als Hinweis für die Programmierer auf fortlaufendes Seitensplitting bis zum Ende-Code.

Der Kennzeichnung des Text- bzw. Dokument-Beginns kam jedoch noch eine andere wichtige Bedeutung zu: Von dieser Stelle an galt jeweils ein neuer Dokumententitel - die Anzeige, die auch in der Fundstellenliste erscheint und die bei Einsichtnahme in den Text ebenso angezeigt wird wie beim Export von Text.

Der Dokumententitel enthält folgende Angaben: den Titel des Textes bzw. eine sinnvolle Kurzform, das Datum des Erscheinens bzw. bei nicht veröffentlichten Texten der Abfassung und die Beschreibung der entsprechenden Fundstelle im Buch (Band und Seite). Letzteres ließ sich aufgrund der vorhandenen festen Seitenumbrüche und der bandweisen Archivierung relativ fehlerfrei automatisch erstellen. Die beiden erstgenannten Angaben hingegen mußten, wiederum kodiert, eingegeben werden.

Nur wenige Titel unterschritten die höchstmögliche Zeichenzahl. Nachdem alle Titel im Datenbestand gekennzeichnet worden waren, wurden sie in eine Liste geschrieben und probeweise an der kritischen Stelle geschnitten. Diese künstlichen Schnittstellen wurden durch sinnvolle Unterbrechungen ersetzt bzw. der gesamte Titel so umformuliert, daß er zwar kurz genug, aber zumindest etwas informativer hinsichtlich des Inhalts war als der reine Beginn der Überschrift. "Meine Nachforschungen über den Gang der Natur in der Entwicklung des Menschengeschlechts" war beispielsweise eindeutig zu kürzen, zumal der Text ohnehin oft nur als "Nachforschungen" bezeichnet wird. Hingegen mußte eine komplexe Formulierung wie "Skizze eines Memoire über die Verbindung der Berufsbildung mit den Volksschulen" sinnvoll gekürzt werden zu "Verbindung der Berufsbildung mit den Volksschulen".

Für die Briefe wurden Adressatenzeilen geschaffen. Die vorliegenden Angaben - jeweils im Anschluß an die Briefnummer - waren sehr uneinheitlich, orientiert an der jeweils von Pestalozzi verwandten Anrede. Beispielsweise für seinen Freund Georg Heinrich Ludwig Nicolovius im preußischen Innenministerium finden sich Adressatenzeilen wie "An Nicolovius", "An Seiner Hochwohlgeboren", "An Georg Heinrich Ludwig Nicolovius" oder "An Monsieur". Um jedoch in der Fundstellenliste eine informative Anzeige bieten zu können, wurden diese Anreden sämtlich vereinheitlicht und zwar auf Vor- und Nachname sowie - bei gleichlautenden Namen - die Lebensdaten - selbstverständlich nicht im authentischen Text, sondern - wie bei den Kurztiteln für die Textbände - in einer eigens erzeugten Liste. Auch hier war es notwendig, im Falle besonderer Längen sinnvoll abzuschneiden, etwa bei der Nennung von mehreren Adressaten oder einer sehr ausführlich betitelten Behörde.

Das Jahr der Abfassung bzw. des Erscheinens war in der Regel aus den Anhängen erschließbar; es wurde allerdings über die hier angezeigte Jahreszahl hinaus so weit wie möglich eine Präzisierung bis zum Monat hin vorgenommen. Diese erfüllt eine wichtige Funktion für systematisch eingeschränkte Recherchen, worauf an späterer Stelle hingewiesen wird (vgl. Abb. 6: Beispiel für zwei sinnvolle Kurztitelangaben aus einem Werk- und einem Briefband).

Doch auch im Rahmen der Möglichkeiten beim Anzeigen von Fundstellen kommt ihr Bedeutung zu, denn der Benutzer kann sich die Fundstellen chronologisch sortieren lassen. Um z. B. die Genese einer Idee zu verfolgen, ist eine solche Anzeigevariante durchaus von Vorteil. Wenngleich Werk- und Briefbände im Prinzip chronologisch aufgebaut sind, gibt es Abweichungen von Bedeutung, etwa die drei Fassungen von "Lienhard und Gertrud", die in den Bänden 2-6 stehen, obwohl Jahre des Schaffens dazwischenliegen, oder Entwürfe und Fragmente, die deutlich früher entstanden als der letztendliche Text, ihm aber in der Ausgabe unter- und damit auch nachgeordnet werden. Außerdem lassen sich beim chronologischen Sortieren die Werk- und Briefbände "mischen", die ansonsten nacheinander angezeigt werden.

Natürlich mußte eine sinnvolle Reihenfolge gefunden werden für Texte, die auf den Monat genau datiert sind, solche, denen eine bestimmte Jahreszeit zugeschrieben ist, und diejenigen, für die das Jahr oder sogar nur das ungefähre Jahr feststeht. Die Entscheidung fiel für die Richtung vom Präzisen zum Diffusen.Korrekte Hypertext-Anbindungen gewährleisten

Eine zentrale Erleichterung im Verhältnis zur Arbeit mit der Buchausgabe sollte in der zeilengenauen Verknüpfung der eigentlichen Texte Pestalozzis mit den Anhängen 1 und 2 liegen. Während sich im Buch in den Texten keinerlei Hinweise darauf befinden, ob überhaupt Anhanginformationen zur jeweiligen Stelle vorhanden sind, gibt es auf der CD-ROM Hypertextmarken, die durch ihre Position zugleich deutlich machen, in welchem Anhang etwas zu finden ist; außerdem wird der Anhangtext in der oberen Bildschirmzeile angezeigt; ist er länger als eine Zeile, springt der Benutzer über die Marke in den Anhang und ebenso zurück (vgl. Abb. 7: Beispiel für Hypertextmarken neben einem Pestallozzi-Text).

Die Realisierung hätte einfach sein können - dieser Hinweis gilt z. B. Produzenten einer solchen Datenbank, die ihre Buchausgabe zeitgleich zur CD-ROM-Ausgabe vorbereiten -, wenn nicht einige Tücken des Buchsatzes wiederum Mühe bereitet hätten. Außerdem ergaben sich Schwierigkeiten aus Nachlässigkeit bzw. Gedankenlosigkeit beim Scannen, als die CD-ROM-Ausgabe noch nicht konkret anvisiert war. Als sinnvoll erwies sich immerhin die Teilung in Text- und Anhangdateien, die jetzt sozusagen in zwei verschiedenen Datenpools vorlagen.

Fehlermeldungen bei Indexierungsläufen führten auf das Problem der Gültigkeit bzw. Ungültigkeit von Anbindungen: Während in der Buchausgabe die Bezugsstelle "S." links vom Anhangtext abgesetzt ist, war die Einrückung des Textes beim Scannen verlorengegangen. Auf diese Weise waren Literaturhinweise auf bestimmte Seiten in angeführten Schriften an den linken Zeilenrand geraten und wurden aufgrund des "S." als Bezüge zum Pestalozzi-Text interpretiert. Neben absurden Anbindungen führte dies häufig auch zu Abstürzen, wenn eine solche Seite im betreffenden Band beispielsweise nicht existierte. Um diese Fehlerquelle auszuschließen, mußten der komplette Anhangtext kontrolliert und die entsprechenden Zeilenanfänge geändert werden, d. h. die Seitenbezüge auf andere Werke wurden ans Ende der vorausgehenden Zeile gesetzt.

Die Prüfung in bezug auf Richtigkeit der Angaben wurde sowohl durch Satz- als auch durch Einlesefehler notwendig. Typische Zahlenverwechslungen wie 3 und 8 oder 8 und 0 führten natürlich unbemerkt zu falschen Anbindungen. Um diesen Fehlern "auf die Spur zu kommen", ebenso wie übersehenen ungültigen Anbindungen, wurde eine Liste aller Bezüge erstellt, sodann mit einem Programm alle diejenigen Stellen kenntlich gemacht, bei denen eine Ziffer erschien, die niedriger als die vorhergehende war. Es handelte sich - bis auf wenige Reihenfolgen, die bereits im Buch verdreht gesetzt worden waren -, um jeweils eine der beiden Fehlerquellen (vgl. Abb. 8: Beispiel für eine Liste zur Erhebung falscher Reihenfolgen mit Fehlermarkierung).

Besondere Bestandteile der beiden Anhänge sind die sogenannten "Kopftexte". Sie enthalten im textkritischen Teil in der Regel Informationen zur Editionsgeschichte, lokalisieren Manuskriptbestände etc.; im sacherklärenden Teil werden Hintergrundinformationen zum Entstehen der Texte geboten. Es schien sinnvoll, diese Kopftexte an die Überschrift des eigentlichen Textes anzubinden, zugleich aber eine Möglichkeit zu schaffen, von jeder beliebigen Textstelle aus an diesen Textanfang springen zu können und nach Einsicht in den Kopftext wieder zurückzugelangen. Wenn beispielsweise ein Nutzer über eine Recherche in einen Text wie "Über Gesetzgebung und Kindermord" gelangt ist und kurz etwas über die Bedeutung des Titels und den Hintergrund der Schrift erfahren möchte, kann er jetzt auf diese Weise verfahren.

Die Kopftexte sind in der Buchausgabe nicht einheitlich gestaltet. Manche tragen die Überschrift der entsprechenden Schrift, manche nicht; einige sind an die erste Seite und Zeile der Schrift angebunden, als handele es sich um einen 1-zu-1-Hypertext. Um diesen Irrtum auszuschließen sowie die nicht durch Seitenbezug kenntlichen Kopftexte als eigenständige Texteinheit zu markieren, die nicht automatisch der jeweils letzten Angabe zum vorherigen Text als Fließtext angehängt wurde, mußten die Kopftexte eine Kodierung erhalten, die sie eindeutig mit einer identischen Kodierung am jeweiligen Anfang des eigentlichen Textes verband. Die nämliche Kodierung erhielt der betreffende Titel im Inhaltsverzeichnis des betreffenden Bandes. Dessen Verbindung mit den Texten stellt ebenfalls eine Hypertext-Anbindung dar.

Im Prinzip wesentlich leichter war die Kopftextmarkierung und -anbindung bei den Briefen dar, die in der Regel jeweils mit der betreffenden Briefnummer beginnen. Allerdings stellte sich auch hier beim Versuch der automatischen Realisierung heraus, daß etliche Einlese- und auch Satzfehler zu Ziffernvertauschungen geführt hatten. Es wurde wiederum über eine Liste aller Kopftext-Anfänge nach unüblichen Reihenfolgen, nach eventuell fehlenden Ziffern und nach Sprüngen gesucht. Die Sprünge betreffen in der Regel Regesten, d. h. der Kopftext hat Bezug zu etlichen, auch nicht explizit angeführten Briefnummern, sondern beginnt mit einer "von ... bis"-Angabe. Auch hier mußte manuell eingegriffen werden, da die Regesten einerseits mehrere Briefe zu einem einzigen Dokument werden ließen - schließlich gilt der Regesten-Text ja für sämtliche angeführte Briefnummern. Wiederum beziehen sich auf dieses eine Dokument mitunter mehrere Kopftexte für einzelne der Briefe (vgl. Abb. 9: Hypertext-Links zwischen den verschiedenen Textebenen).

Hypertext-Links wurden auch zwischen den Registereinträgen und den entsprechenden Fundstellen im Werk gelegt, allerdings nicht eins zu eins, sondern nur zur jeweiligen Seite. Präzise Anbindung hätte nochmals intensive Lektüre und Handarbeit notwendig gemacht, da ja nicht jeweils explizit der Name genannt ist, sondern u.U. eine Variante, nur der Vorname oder eine Umschreibung wie "der Vater" oder "sein Freund".

Systematische Zugriffe ermöglichen

Das Gesamtwerk Pestalozzis weist in der Anlage bereits Strukturen auf, die ein Recherchieren in kleineren Einheiten sinnvoll macht. So wie einzelne Dokumente als Recherchegrundeinheit definiert worden waren, lassen sich auch verschiedene "Typen" von Dokumenten unterscheiden, nämlich die eigentlichen Werke und Briefe einerseits, die Anhänge andererseits. Oft interessieren den Forscher nur Aussagen von Pestalozzi selbst, nicht die - zweifellos wertvollen - Informationen der Anhänge. In anderen Fällen möchten sie lediglich auf eben diese Informationen zugreifen, oder es geht um Auskünfte aus den beigegebenen Registern. Auch der unterschiedliche Umgang mit einem Sachverhalt in offiziellen Texten und in persönlichen Briefen könnte gesondert von Interesse sein. Aus diesem Grunde sind die verschiedenen Dokumententypen separat recherchierbar gemacht.

Unterhalb der Dokumentenebene sind diverse Felder unterschieden, von denen einige - wie einzelne Bände oder Briefe - bereits von der Datenstruktur her automatisch aufrufbar sind. Die Felder "Titel" - also Werk-Überschriften - und "Schlagwort" - bezogen auf die Register und das Glossar - bedurften einer gesonderten Aufbereitung. Überschriften wurden durch spezifische Codes begrenzt, um eine gesonderte Suche nach Titel-Begriffen, z. B. "Recht" oder "Methode", zu ermöglichen. Register-Einträge erfolgten mit einer Begrenzung des eigentlichen Schlagwortes durch eindeutiges, in jedem Eintrag nur einmal verwandtes Satzzeichen.

Die bereits im Hinblick auf die Fundstellenanzeigen vorgenommene eindeutige Adressatenzuschreibung bei Briefen konnte nun automatisch für das Feld "Adressat" in Anspruch genommen werden, das eine Zusammenstellung sämtlicher Briefe an ausgewählte Empfänger ermöglicht. Doch bieten sich auch inhaltlich feinere Unterscheidungen der Texte an, die die Recherche auf systematisch definierte Textmengen einschränkt.

Das Werk Pestalozzis birgt eine Vielzahl von Textgattungen; es enthält neben eigenständigen Abhandlungen sowie Aufsätzen für Zeitschriften und Sammelwerke u.a. zahlreiche öffentliche Aufrufe, Flugblätter, Reden, fiktive Texte und Tagebücher. Dem Wissenschaftler muß sich die Überlegung aufdrängen, daß Aussagen im Rahmen diverser Textsorten verschiedenartig zu gewichten sind bzw. in fiktiven Texten wie den Fabeln mit einer anderen Begrifflichkeit nach Sachverhalten zu recherchieren ist als in einer Abhandlung. Entsprechend sinnvoll ist die Option, die Recherche auf Dokumente einzelner oder mehrerer Gattungen zu beschränken (vgl. Abb. 10: Übersicht über die Gattungen der Pestalozzi-CD-ROM). Für die Realisierung dieses Vorhabens war es notwendig, eine Aufstellung aller bei Pestalozzi vorkommenden Textgattungen vorzunehmen. Diese ergab sich zum einen aus Anhang-Informationen, zum anderen aus literaturwissenschaftlichen Überlegungen heraus. Den Gattungen wurden bestimmte Codes zugeordnet, die wiederum bei allen betreffenden Texten anzubringen waren. Da es sich jedoch nicht nur um verschiedene Textsorten, sondern innerhalb dieser noch um verschiedene Textzustände handelt, beispielsweise Entwürfe und Fragmente, veröffentlichte und trotz Fertigstellung zu Lebzeiten nicht veröffentlichte Texte, wurde eine Binnendifferenzierung der einzelnen Codes vorgenommen. Diese wiederum erfolgte in bezug auf alle Gattungen gleichsinnig, also alle Entwürfe erhielten z. B. die gleiche Unterziffer, ebenso alle Fragmente usw. (vgl. Abb. 11: Binndendifferenzierung der Gattung "Rede").

Auf diese Weise ist es dem Nutzer der CD-ROM nicht nur möglich, in allen Reden oder nur allen zu Lebzeiten nicht veröffentlichten Reden zu recherchieren, sondern sich etwa sämtliche zu Lebzeiten nicht veröffentlichten Dokumente - von der Flugschrift bis zur Abhandlung - zusammenzustellen und in diesen zu recherchieren, etwa um der wirkungsgeschichtlich relevanten Frage nachzugehen, welche uns bekannten Textbestände den Zeitgenossen Pestalozzis verborgen waren.

Bereits erwähnt wurde die Codierung der Texte im Hinblick auf eine präzise zeitliche Zuordnung der Fundstellenanzeige und eine chronologische Fundstellensortierung. Diese Kennzeichnung ermöglicht zugleich die systematische Einschränkung von Suchanfragen auf bestimmte Zeiträume, z. B. die Periode der Helvetischen Revolution bzw. den Vergleich von Rechercheergebnissen in bezug auf verschiedene Zeitabschnitte. Darüber hinaus läßt sich die Verteilung von Begriffshäufigkeiten auch graphisch als Balkendiagramm präsentieren (vgl. Abb. 12: Präsentation der Verteilung des Begriffs Schule von 1766-1822 (Wirkungszeit Pestalozzis).

Die besondere Relevanz der diversen systematischen Codierungen liegt in deren Kombinierbarkeit. Der Nutzer der CD-ROM kann beispielsweise ermitteln, wie sich Pestalozzi in bestimmten Lebensphasen, etwa nach dem Scheitern seiner Armenanstalt auf dem Neuhof in veröffentlichten und in unveröffentlichten Texten dazu geäußert hat, wie er das Problem der Strafe in Briefen oder in Abhandlungen darstellt, wie er sich nach der Trennung von seinem Mitarbeiter Niederer einerseits in Briefen an ihn, andrerseits in Briefen über ihn geäußert hat (vgl. Abb. 13: Beispiel für eine komplexe Suchanfrage nach dem Begriff Gewalt in allen Entwürfen, Fragmenten und sonstigen zu Lebzeiten Pestalozzis nicht veröffentlichten Texten im Zeitraum 1790 bis Dezember 1799).

Ergänzende Hinweise anbieten

Zuzüglich zur bislang erschienenen Pestalozzi-Ausgabe wurden der CD-ROM, wie bereits mehrfach angesprochen, der noch im Druck befindliche erste Registerband sowie ein für den zweiten Registerband vorgesehenes Glossar beigegeben.

Der Registerband enthält diverse Gesamtnamenregister, vor allem das als Kurzlexikon konzipierte Verzeichnis der Personennamen, u.a. auch separat zusammengestellte Register der Empfänger von Pestalozzis Briefen und der Subskribenten der ersten Pestalozzi-Gesamtausgabe bei Cotta.

Ein besonderer Vorteil für den CD-ROM-Nutzer im Gegensatz zum Leser des Register-Bandes erwächst aus der Tatsache, daß die Autoren Friedrich/Springer bei Einträgen zu verschiedenen Personen, die jeweils den gleichen Sachverhalt beschreiben, beispielsweise "Schüler" oder "Lehrer in Pestalozzis Anstalt in Burgdorf", jeweils die gleiche Formulierung gewählt haben.

Auf diese Weise läßt sich bei einer Beschränkung auf den Dokumententyp "Personennamenregister" beispielsweise eine Zusammenstellung aller von Pestalozzi bestellten Bücher - vermerkt bei den betreffenden Autoren - erzeugen. Eine Eingrenzung auf den Typ "Briefempfänger" oder "Subskribenten der Cotta-Ausgabe" ermöglicht eine Zusammenstellung aller Händler und Lehrer oder aller Wiesbadener unter diesen. Der bereits für die Buchausgabe vorgenommenen systematischen Gruppierung der Personenkreise nach geographischer Herkunft, Berufsgruppen und gesellschaftlichen bzw. politischen Funktionen kommt im Hinblick auf elektronische Recherchemöglichkeiten nun eine besonders nutzerfreundliche Bedeutung zu.

Das Glossar - im geplanten zweiten Registerband auf die Buchausgabe bezogen - enthält Begriffe in zahlreichen Schreibvarianten, die auf der CD-ROM bereits nivelliert wurden. Es bedurfte darum einer gesonderten Durchsicht im Hinblick auf das Vorkommen der fraglichen Schreibweisen bzw. der Begriffe auf der CD überhaupt.

Eine weitere wichtige Informationszugabe besteht in einer Zusammenstellung von Abbildungen. Es handelt sich dabei u.a. um eine Vielzahl von Pestalozzi-Portraits, um Darstellungen von Familienangehörigen, Freunden und Gegnern sowie Mitarbeitern und Schülern, um Abbildungen von Wirkungsstätten, von Lehrmitteln Pestalozzis wie diversen Anschauungstafeln und von Faksimiles von Handschriften. Diese Bilder erfüllen vor allem die Funktion der Veranschaulichung und sind zu diesem Zweck an entsprechende Textstellen mit Hypertext-Marken angebunden, im wesentlichen bei den Namen-registern, darüber hinaus bei besonders klaren Textbezügen. Sie lassen sich aber auch gesondert als Dokumententyp "Abbildungen" aufrufen und aus thematisch gruppierten Inhaltsverzeichnissen heraus anwählen. Um die Bilder in dieser Weise zu präsentieren und zu verknüpfen, waren zum einen eine Gruppierung und das Verfassen von hinreichenden Bilderläuterungen, zum anderen das Setzen von Codes an den entsprechenden Textstellen erforderlich.

Der zur Veranschaulichung des Textbearbeitungsgrades in Images beigegebene Werkband 1 wurde - nach eindeutiger Benennung der Bilddateien - den jeweiligen Seitenanfängen automatisch zugeordnet.

Zum Schluß ...

Die Aufbereitung und systematische Strukturierung der Pestalozzi-Volltextdatenbank erfolgte aus dem Gesichtswinkel der Wissenschaft. Es waren konkrete Forschungsanliegen, die die Buchausgabe nicht oder nur schwerlich zu befriedigen geeignet ist, die zum Träumen von einer CD-ROM, zur Formulierung eines Pflichtenheftes, zur Auswahl geeigneter Software und zur Bearbeitung des Volltextes führten.

Im Zuge dieser Arbeit erfolgten fortwährend Impulse zu weiteren Möglichkeiten des gezielten, systematischen Recherchierens, zu verschiedenartigen Optionen der Ablage und Weiterverarbeitung usw.

So unendlich wie das "Meer der Fragen" in der Wissenschaft, so unendlich ist auch die Anzahl möglicher geeigneter "Fanggeräte" und "Fangtechniken". Neue Projekte für neue "Ozeane" drängen sich bereits auf.

Anschrift der Verfasserin
Sylvia Springer
Universität Düsseldorf
FB Erziehungswissenschaften
Universitätsstr. 1
40225 Düsseldorf
Tel.: (02 11) 311 36 80