Rainer Dechsling

Versuch einer Typologie der textorientierten elektronischen Fachinformation

Datenbank, Hypertext oder linearer Text?

Die elektronische Fachinformation bestand bislang vorwiegend aus klassischen Datenbanken. Mittlerweile zeichnet sich hier jedoch ein Wandel ab, der vor allem durch CD-ROM-publizie-rende Fachverlage getragen wird. Neben das auf dem Online-Markt dominierende Modell der klassischen Datenbank treten neue Formen der elektronischen Textvermittlung. Im folgenden wird eine Typologie der textuellen Information versucht. Erwägungen zur korrespondierenden Abfragesoftware speziell im CD-ROM-Bereich und ein Ausblick auf die nähere Zukunft sollen den Anbietern elektronischer Fachinformation als Entscheidungshilfe dienen.

Textuelle Information tritt grundsätzlich in zwei vorwiegend nicht-linearen Formen (Datenbank, Hypertext) sowie in linearer Gestalt (Buch) auf:

1. Klassische Datenbank: Bei den existierenden Nachweis- und Volltextdatenbanken handelt es sich zumeist um nichtlinearen Text, der selektiv erschlossen und gelesen wird. Die einzelnen Nachweise, Beiträge bzw. Datensätze haben thematisch meist nur locker miteinander zu tun. Niemand käme auf die Idee, derartige Texte von vorn bis hinten "durchzulesen".

2. Hypertext: Viele Verlage und Institutionen sind im Begriff, ganz eigenständige elektronische Informationsprodukte zu entwickeln, bei denen nicht die Sammlung möglichst vieler Datensätze, sondern die gezielte Wissensvermittlung im Vordergrund steht. Dabei werden Texte ganz bewußt als kurze und in sich verständliche Einheiten konzipiert und sinnvoll miteinander verknüpft. Die Erstellung und bildschirmgerechte Darbietung der Texte ist nicht-linear. Es handelt sich um klassischen Hypertext, der heute meist mit Multimedia-Elementen (Bild, Ton, Video) angereichert wird.

3. Elektronisches Buch: Wohl nur für die Verleger klassisch-sequentieller Bücher stellt sich die Anforderung, den Lesekomfort sorgfältig gestalteter Bücher in das elektronische Medium zu überführen. Am PC sollen mindestens auch diejenigen Zugangswege zum Text eröffnet werden, die ein gut strukturiertes Fachbuch bietet. (Mit dem "elektronischen Buch" sind nicht die "electronic books" eines des weltweit größten Medienkonzerne gemeint. Bei diesen handelt es sich häufig um Lexika und somit um nicht-linearen Text.)

Jede dieser drei Textgestalten findet ihre Entsprechung in spezifischer Abfragesoftware. Die allumfassende marktgängige Software, die alle drei Ausprägungen der Information vollständig abdeckt, gibt es derzeit nicht. Die nachfolgenden Ausführungen sollen Informationsanbietern und Fachverlagen helfen, den nach dem heutigen Stand der Technik richtigen Softwaretyp zu finden.

Nachweis- und Volltextdatenbanken

Der Kategorie der Nachweisdatenbanken dürfte derzeit im Bereich der elektronischen Fachinformation die größte wirtschaftliche Bedeutung zukommen. Kataloge und Verzeichnisse wie das VLB, Wer liefert was, Perinorm (mehrsprachiger Nachweis technischer Regeln) oder die Leitsatzkartei des deutschen Rechts sind CD-ROM-Projekte, die Märkte geöffnet haben. Der durchschlagende Erfolg dieser Nachweisdatenbanken beruht u. a. auf der weitverbreiteten und zutreffenden Erwartungshaltung der Käufer, daß Kataloge und Verzeichnisse zur Umsetzung auf den PC bestens geeignet seien. Aus der Sicht der Verlage lassen sich derartige Projekte relativ unproblematisch als Database Publishing organisieren. Die Substitution der zugrundeliegenden Druckwerke ist erheblich.

Meist erst im zweiten Schritt werden textorientierte Zeitschriften im Volltext zur Verfügung gestellt. Es handelt sich um Volltextdatenbanken, die als raum- und zeitsparendes elektronisches Archiv dienen. Eine nennenswerte Substitution der gedruckten Abonnements durch das elektronische Angebot findet bislang kaum statt, weil es am Umfeld (z. B. Anzeigen und Begleitinformationen im Umschlagteil) fehlt. (Für die aktuelle elektronische Zeitschrift, auf die hier nicht eingegangen werden kann, gelten ganz andere Mechanismen. Dafür bieten sich Tools wie Adobe Acrobat an.)

Die Abfragesoftware bei Nachweis- und Volltextdatenbanken sollte ungefähr die folgenden Charakteristika aufweisen:

- Abbildung einer differenzierten Feldstruktur in Suchmaske, Trefferliste und Vollanzeige. Möglichkeit des Informationsanbieters bzw. Verlages, den Anwendern mehrere Suchmasken, Trefferlisten und Vollanzeigen zur Auswahl anzubieten, um trotz komplizierter Feldstruktur eine einfache und transparente Recherche zu ermöglichen. Felder vom Anwender einzeln ein- und auszublenden.

- Feldbezogene Suchoptionen: Indizes jeweils mit einem Tastatur- oder Mausklick aufzuschlagen. Einfache Navigation im Index, z. B. Positionierung aufgrund Benutzereingabe. Markierung im Index. Direkte Übernahme von Suchbegriffen aus dem Index für die Suche. Synonymfunktion und Thesaurus. Suchoperatoren: UND, ODER, OHNE, NICHT, >, >=, <, <=, =, Bereich, Wort-, Satz- oder Absatzabstand. Flexible Datumssuche (Mai 1985, 5.85, 1.5.85, 1985-05-01 etc.). Schnelle Links-, Mitte- und Rechtstrunkierung. Benutzerkontrollierte Trunkierungsauflösung. Grundformenerkennung. Geschachtelte Klammersetzung, feldübergreifende Verknüpfung. Wahlweise unscharfe Suche (fuzzy logic). Automatische Rechtstrunkierung. Logisch (Ja/Nein). Numerisch. Numerisch in Kombination mit Wort, Zeile, Feld. Zugriff auf frühere Suchen.

- Weitere Indexoptionen des Informationsanbieters bzw. Verlages: Indizierung nach Wort, Zeile oder Feld. Sprache (Deutsch, Englisch, Amerikanisch, Französisch etc.). Stopwortliste. Differenzierte Behandlung von Interpunktion und Akronymen. Bindestrichbegriffe ein-, zwei- oder dreifach indizierbar. Optimierung der Suchgeschwindigkeit nach dem Zahlenverhältnis der unterschiedlichen Indexeinträge und der nachgewiesenen Datensätze. Gemeinsames Indizieren mehrerer Felder in beliebiger Kombination. Mehrere Indizes pro Feld.

- Navigation: Paralleles Suchen in mehreren Fenstern. Querverweissuche aus dem gefundenen Datensatz heraus (soft wired hypertext). Verfolgung fester Verweise (hard wired hypertext) mit einem Klick. Jederzeitiges Umschalten zwischen Suchmaske, Trefferliste und Vollanzeige sowie zwischen verschiedenen Suchen unter vollständiger Erhaltung des jeweiligen Status. Sortierung oder Ranking der gefundenen Datensätze nach verschiedenen Kriterien. Markierung einzelner Datensätze in positiver oder negativer Selektion für die Weiterverarbeitung (Anzeige, Ausdruck, Speicherung, Zwischenablage). Kopf- und Fußzeile in der Vollanzeige. Präzises Highlighting entsprechend der eingegebenen Suche. Präziser Direktsprung zu den gesuchten Passagen des Datensatzes. Expliziter Sprung zum nächsten oder vorigen gefundenen oder benachbart gespeicherten Datensatz (logisches und lineares bzw. physisches Blättern). Volle Zitierfähigkeit nach Seiten- oder Blattzahl.

- Vollanzeige: Zügiges Blättern auch in sehr langen Datensätzen (Volltext größer 64 KB). Unterstützung von Fließtext und geschützten Bereichen (Tabellen). Typographische Hervorhebungen auf Feldebene und innerhalb von Feldern (bei zeichenorientierten DOS-Anwendungen wenigstens Highlighting und Invertierung). Darstellung von Formeln und Graphiken. Zoomfunktion für Graphiken. Für den Informationsanbieter bzw. Verlag: Ausgefeilte Anzeigelogik auf Feldebene.

- Suchgeschwindigkeit: Im Sekundenbereich auch in CD-ROM-Indizes mit mehreren Millionen Einzelvorkommnissen. Dies auch bei Trunkierung und Abstandssuche. Meldung der Trefferzahl vor Aufbau der Trefferliste. Zügiger Aufbau der Trefferliste. Möglichkeit zur Vollanzeige vor Aufbau der Trefferliste.

- Produktionsprozeß: Unterstützung diverser Text-, Graphik- und Datenbankformate beim Einlesen der Daten (SGML, RTF, BMP, TIF, dBase, Oracle, ASCII oder ANSI mit frei definierbaren Delimitern etc.). Umsetzung von Zeichen und Zeichenketten. Schnelle Indizierung auch bei sehr großen Datenbeständen. Menügeführte Anwendungsentwicklung ohne Programmierung. Umfangreiche Statistiken und Testmöglichkeiten. Vollautomatische Erzeugung des Installationsprogramms und des Premasters für die CD-ROM.

Ohne Anspruch auf Vollständigkeit seien die in Deutschland marktgängigen Softwareprodukte genannt, welche die genannten Anforderungen weitgehend erfüllen: CD Answer / CD Author (Dataware Technologies), Cobra (EPS), OptiSearch (MPW Lasec), CDIS (Makrolog).

Grundsätzlich abzuraten ist von relationalen Datenbanken ohne Volltextkomponente (Clipper und andere dBase-Compiler, MS Access Distribution Kit etc.), denn die meisten Kataloge und Verzeichnisse enthalten bei genauerem Hinsehen Felder, in denen eine Volltextsuche bessere Ergebnisse liefert als die dBase-übliche indizierte Feld- bzw. nichtindizierte sequentielle Suche. Auch die nachfolgend unter "Hypertextsysteme" und "Buchkompatible Software" aufgeführten Softwareprodukte sind für Nachweis- und Volltextdatenbanken in der Regel ungeeignet, da ihnen wichtige Funktionalität wie z. B. differenzierte Suchoptionen und Trefferlisten fehlen.

Hypertextsysteme für die elektronische Wissensvermittlung

Informationsorientierte elektronische Medien leben jedoch nicht zwangsläufig von der Quantität der darin gespeicherten Daten. Bisweilen kommt es auch auf die Originalität der dargebotenen Information an. Es gibt beispielsweise im juristischen Bereich Verlage, die primär für das elektronische Medium nicht-linearen, verknüpften Text produzieren lassen. Anhand einer detailliert vorgegebenen Systematik werden zahlreiche Einzelthemen von externen, per Verlagsvertrag gebundenen Autoren bearbeitet. Jedes Thema muß aus sich heraus verständlich sein und darf nicht länger als zwei bis drei Bildschirmseiten (mit jeweils ca. zwanzig Zeilen) sein. Die elektronisch dezentral erfaßten Texte werden von einem fachlich versierten Herausgeber bzw. Wissensingenieur überprüft und mit den übrigen Themen verknüpft. Multimediale Erweiterungen mit Bild, Ton und Video sind möglich.

Damit ist auch schon der klassische, auf nicht-linearem Text basierende Hypertext-Ansatz im Grundsatz beschrieben. Die Navigationsprobleme in einem derart dezentral vernetzten Textraum sind beträchtlich. Dennoch kann es sinnvoll sein, dem Ausruf "Lost in hyperspace!" zum Trotz nicht-lineare Informationssysteme zu schaffen. Besonders im institutionellen Bereich (Großunternehmen, Museen etc.) spielen Hypertextsysteme schon heute eine bedeutende Rolle. Auch im Verlagsbereich gibt es Projekte, bei denen ein originäres Hypertextsystem der schlichten Umsetzung vorhandener Druckwerke vorzuziehen ist. Dabei kann durchaus auf den bestehenden Autorenstamm zurückgegriffen werden, soweit er dem PC aufgeschlossen gegenübersteht.

Als typische Hypertextprodukte sind zu nennen: Hypercard (Apple), Toolbook, Knowledge Pro, Multimedia Viewer (Microsoft). Der Übergang zum Multimedia-Bereich ist fließend. Dort gibt es weitere Tools.

Buchkompatible Software für linearen Text

Bislang wurden die Nachweis- und Volltextdatenbanken sowie der klassische Hypertext als überwiegend nicht-lineare Textgattungen behandelt. Von der ersten bis zur letzten Seite linearer Text findet sich herkömmlich vor allem in Büchern, sei es als Shakespeares Hamlet oder als technisches Handbuch. Wenn nun von "buchkompatibler Software" gesprochen wird, ist damit also Software gemeint, die zur Darstellung von linearem Text besonders geeignet ist. Die Arbeitsgruppe "CD-ROM/informationsorientiert" des Arbeitskreises Elektronisches Publizieren im Börsenverein des Deutschen Buchhandels hat hierzu im März 1994 die "Leipziger Empfehlungen" verabschiedet.

Wichtige Anforderungen an buchkompatible Software sind:

- Buchtypographie am Bildschirm und im Ausdruck,

- Zugang auch über Gliederung (Inhaltsverzeichnis),

- sequentielle Darstellung des linearen Textes,

- komfortable Fußnotenverwaltung,

- Notizfunktion, Lesezeichen, Exzerpieren,

- lebender Kolumnentitel bzw. mitlaufende Gliederung,

- dreidimensionales Blättern (von Abschnitt zu Abschnitt außerhalb der Treffermenge - zum nächsten oder vorigen gefundenen Datensatz - Direktsprung von Treffer zu Treffer).

Für die oben beschriebenen nicht-linearen Informationssammlungen sind diese Anforderungen teilweise wenig bedeutsam oder sogar unpassend. So ist etwa der Zugang über eine Gliederung bei Nachweis- und Volltextdatenbanken häufig nur um den Preis intensiver redaktioneller Nachbearbeitung realisierbar, weil die zugrundeliegenden Kataloge, Verzeichnisse und Fachzeitschriften lediglich alphabetisch oder chronologisch geordnet und bestenfalls mit wenig interessanten, ständig wiederkehrenden Rubriken versehen sind. Auch die sequentielle bzw. lineare Textdarstellung ist in nicht-linearen Datenbanken regelmäßig belanglos. Sinn macht darin allenfalls das lineare (bzw. sequentielle bzw. physische) Blättern außerhalb der Treffermenge, um die ursprüngliche alphabetische, chronologische oder sonstige Ordnung am Bildschirm nachvollziehen zu können. Auch das kann aber durch eine parallele Suche z. B. nach den Seiten 800 bis 850 eines bestimmten Zeitschriftenjahrgangs ersetzt werden, wenn nur die Datensätze in der Folge des gedruckten Vorbilds auf der CD-ROM (oder irgendeinem anderen Medium) gespeichert sind. Wenig sinnvoll wäre es, sämtliche Datensätze einer nicht-linearen Datenbank als Endlostext darzustellen, da das kaum merkliche Überfliegen von Datensatzgrenzen die konzentrierte Arbeit in heterogenen Datenbeständen erschwert.

Ergänzende Anforderungen an buchkompatible Software ergeben sich aus der bei Nachweis- und Volltextdatenbanken üblichen Funktionalität (s. oben). Einzelheiten können den bereits erwähnten "Leipziger Empfehlungen" entnommen werden.

Folgende in Deutschland gängige Softwareprodukte verdienen das Etikett "buchkompatibel": CD Answer Hypertext (Dataware Technologies), Folio Views, Dynatext. Mit der Einschränkung, daß der lineare Text am Bildschirm nicht sequentiell, sondern datensatzbezogen mit der Möglichkeit jederzeitigen linearen Blätterns dargestellt wird, sind auch CDIS (Makrolog) und Multimedia Viewer (Microsoft) zu nennen. Auch diese Nennungen können nicht den Anspruch auf Vollständigkeit erheben.

Konvergenz und Konnektivität

Eine für alle linearen und nicht-linearen Textgattungen gleichermaßen perfekt geeignete Abfragesoftware gibt es derzeit nicht. Der Versuch, das textorientierte elektronische Publizieren auf ein einziges Softwareprodukt zu vereinheitlichen, ist beim jetzigen Stand der Technik zum Scheitern verurteilt, weil kein Informationsanbieter oder Verlag seinen Kunden den Verzicht auf werkbezogen sinnvolle und längst selbstverständliche Funktionalität zumuten kann. Das ist indes kein Grund zur Resignation:

1. Die Anwender haben unter den immer stärker dominierenden graphischen Benutzeroberflächen (Windows, Apple etc.) viel weniger Aufwand, sich in neue Anwendungen hineinzufinden, als dies unter DOS der Fall ist (war). Die Bedienerfreundlichkeit ist deshalb kein besonders starkes Argument für eine Festlegung der Informationsanbieter und Verlage auf eine bestimmte Abfragesoftware.

2. Die Nachfragemacht der Informationsseite gegenüber den Herstellern und Distributoren von Abfragesoftware ist gewiß dann am größten, wenn sie gebündelt auftritt. Andererseits brächte die konsequente Einigung auf ein bestimmtes Abfragetool auch einen Verlust an Konkurrenz, der die technische Entwicklung zu behindern geeignet wäre. Es fragt sich deshalb, ob es eine gute Strategie wäre, durch die gezielte Förderung eines - zumindest heute noch - suboptimalen Softwareproduktes auf der Anbieterseite oligopolistische oder sogar monopolistische Strukturen zu fördern.

3. Unterhalb der graphischen Programmoberfläche tut sich so einiges. Produkte wie CD Answer, Folio Views und MS Multimedia Viewer erlauben schon heute, datenbank- bzw. textübergreifend zwischen CD-ROM-Anwendungen verschiedener Anbieter zu springen, sofern diese unter derselben Software laufen und der Anwender über möglichst viel Laufwerkskapazität (CD-ROM oder Festplatte) verfügt. Für CD Answer (DOS, Windows, Unix, Apple), CD Answer Hypertext (DOS, Windows) und den Microsoft Viewer (Windows) existieren Schnittstellen, die es erlauben, mit Hilfe von Programmiersprachen oder Autorensystemen auf die Datenbestände zuzugreifen. (So weit ist Folio Views noch nicht.) Praktisch alle Softwareanbieter geloben, ihre Datenbankprodukte konsequent auf eine plattform-, d. h. betriebssystemübergreifende Client/Server-Architektur umzustellen, die eine umfassende anbieterübergreifende Connectivity erlauben wird.

Angesichts der faktischen Aussichtslosigkeit einer Einigung auf eine bestimmte Abfragesoftware jedenfalls zum jetzigen Zeitpunkt eröffnen sich für die Informationsanbieter und Verlage zwei Szenarien, die sich gegenseitig durchaus nicht ausschließen:

Szenario 1: Es gibt Softwarehäuser, die daran arbeiten, die Dualität zwischen nicht-linearem und linearem Datenbankkern mit einem umfassenden Produkt zu überwinden. Da die komplette Funktionalität einer entsprechenden Abfragesoftware verwirrend wäre, geht der Trend zur "konfigurierbaren Funktionalität". Damit ist gemeint, daß der Verlag im Produktionsprozeß entscheidet, wieviel und vor allem welche Funktionalität er für das konkret geplante elektronische Produkt benötigt. Der Anwender wird dann nur die Funktionen, die für den betreffenden Datenbestand Sinn machen, in der Abfragesoftware vorfinden.

Szenario 2: Die Informationsanbieter und Verlage gehen daran, die Schnittstellen ihrer elektronischen Produkte offenzulegen. Softwareanbieter, die hier technische oder lizenzrechtliche Barrieren aufbauen, werden von den jeweils interessierten Verlagen dazu bewegt, diese Barrieren abzubauen. Nach und nach werden alle elektronischen Produkte für gegenseitige Zugriffe geöffnet. Nachweis- und Volltextdatenbanken, Hypertext- und Multimediasysteme sowie buchkompatible Produkte bis hin zu den hier noch gar nicht erwähnten Lexika, Lernprogrammen, Berechnungsprogrammen und Expertensystemen werden in einigen Jahren so durchlässig sein, wie es unter Windows heute schon die gängigen Büroprogramme (Textverarbeitung, Tabellenkalkulation etc.) sind.

Fazit

Wer im Begriff ist, in das textorientierte elektronische Publizieren einzusteigen oder eine bereits existierende Produktpalette zu erweitern, sollte sehr genau prüfen, welcher Textgattung seine Daten zuzurechnen sind. Handelt es sich um Kataloge, Verzeichnisse oder Fachzeitschriften? Dann empfiehlt sich eine marktgängige Volltextdatenbank. Soll ein originär elektronisches Informationsprodukt erstellt werden? In diesem Fall ist wahrscheinlich ein klassisches Hypertextsystem das richtige Tool. Geht es schließlich um die Umsetzung sequentiell strukturierter Bücher? Dann sollten die Leipziger Empfehlungen zur Umsetzung von Büchern auf elektronische Medien zu Rate gezogen werden.

Häufig wird sich zeigen, daß nicht alle Texte, die zur elektronischen Veröffentlichung anstehen, unter der gleichen Abfragesoftware realisiert werden können. Nur bei Lexika, Nachschlage-werken und Anthologien dürfte es regelmäßig unerheblich sein, ob Datenbanksoftware oder buchkompatible Software (jeweils mit Volltextsuche und Hypertextfunktion) zum Einsatz kommt.

Anschrift des Verfassers:

Dr. Rainer Dechsling
Leiter des Lektorats für elektronisches Publizieren (LeP)
in der juristischen Abteilung des Verlages C. H. Beck
Wilhelmstr. 9
80801 München
Tel.: (089) 3 81 89-423; Fax: -398