Options
Aufbau und Bereitstellung eines Benchmark-Datensatzes von historischen Tabellen (1750-1990)
Existing situation
Ongoing
Title
Aufbau und Bereitstellung eines Benchmark-Datensatzes von historischen Tabellen (1750-1990)
Project leader
Etat
50.000 €
Start date
March 1, 2025
End date
December 31, 2025
Category
Grundlagenforschung
Research profile of the University of Bamberg
Acronym
BenchmarkDatensatz
Description
Tabellarisch strukturierte Quellen spielen in der Sozial- und Wirtschaftsgeschichte sowie in anderen historisch arbeitenden Geisteswissenschaften eine zentrale Rolle als Datenlieferanten. Während in den letzten Jahren die KI-gestützte Texterkennung angewandt auf narrative Quellen rasante Fortschritte verzeichnen konnte, hinkt der Bereich der KI-gestützten Struktur- und Inhaltserkennung von historischen gedruckten Tabellen, noch stark hinterher. Tabellarisch aufgebaute Nachschlagewerke mit einer zentralen Bedeutung für die Sozial- und Wirtschaftsgeschichte, wie etwa Preiskuranten, Bevölkerungstabellen, oder Nachschlagewerke für den kaufmännischen Gebrauch, sind zwar als Digitalisate verfügbar, aber aufgrund ihrer komplexen tabellarischen Struktur kaum umfassend auswertbar. Im jetzigen Status Quo ist die KI-gestützte Bearbeitung von historischen Tabellen bestenfalls teil-automatisiert, in der Nachbearbeitung zeitaufwendig, und aufgrund der Vielfalt und Komplexität historischer Tabellen kaum skalierbar. Vorhandene Tools, wie etwa das in der Beta-Version verfügbare Tabellenerfassungstool von Transkribus, bieten entweder für ein bestimmtes, konsistentes Tabellenformat eine Lösung oder müssen händisch auf Tabellen angewandt werden.
Das Projekt setzt sich zum Ziel, die KI-gestützte automatische Struktur- und Inhaltserkennung von historischen Tabellen wesentlich zu verbessern. Um dieses Ziel zu erreichen, planen wir den Aufbau und die Bereitstellung eines Benchmark-Datensatzes von gedruckten historischen Tabellen aus dem Zeitraum von 1750 bis 1990 – von der frühstatistischen Zeit bis zu den Anfängen des WWW, der die Vielfalt und die historische Entwicklung von tabellarischen Datenrepräsentationen abbildet und die Merkmale der Tabellen in Labels (Annotationen) erfasst. Wir planen mit einem Umfang von ca. 10.000 Tabellenseiten, und streben eine Verteilung an, die der relativen Bedeutung der Jahrhunderte in unserem Zeitraum entspricht (15% 1750-1800; 30% 1800-1900 und 55% 1900-1990). Wir widmen uns ausschließlich gedruckten ganzseitigen, doppelseitigen und mehrseitigen Tabellen und Tabellenwerken (d.h. Büchern, die (fast) ausschließlich aus Tabellen bestehen).
Im Rahmen der ICDAR, die International Conference on Document Analysis and Recognition, fand zuletzt 2019 einen Wettbewerb zu einem Benchmark-Datensatz mit gedruckten und zum Teil sogar einigen handgeschriebenen archivalischen Tabellen statt. Auch in anderen Konstellationen wurden Benchmark-Datensätze (z.B. TableBank und PubTables-1M) für die Struktur- und Inhaltserkennung von Tabellen entwickelt und getestet, an denen wir uns für die Beantwortung von methodischen, technischen und infrastrukturellen Fragen orientieren werden.
Mit unserem annotierten Benchmark-Datensatz werden zum ersten Mal überhaupt Trainingsdaten im großen Umfang zur Verfügung stehen, anhand dessen die Entwicklung von neuen informatischen Lösungen für die Erschließung von historischen Tabellenbeständen erprobt und ausgewertet werden kann. Das streben wir gezielt an, indem wir uns mit einem Wettbewerb für die Teilnahme an der ICDAR Konferenz in Wien 2026 bewerben werden. Für den Aufbau und die Bereitstellung des Benchmark-Datensatzes orientieren wir uns an Best Practices im Bereich der Tabellenerkennung in den Computer Sciences. Zum Benchmark-Datensatz stellen wir ein Evaluationsprotokoll zur Verfügung. Darüber hinaus stellen wir für ausgewählte Tabellen auch Ground Truth Daten für die Tabelleninhaltserkennung zur Verfügung, die von Mitgliedern der Community von Sozial- und Wirtschaftshistorikerinnen und –historikern geliefert werden.
Das Projekt setzt sich zum Ziel, die KI-gestützte automatische Struktur- und Inhaltserkennung von historischen Tabellen wesentlich zu verbessern. Um dieses Ziel zu erreichen, planen wir den Aufbau und die Bereitstellung eines Benchmark-Datensatzes von gedruckten historischen Tabellen aus dem Zeitraum von 1750 bis 1990 – von der frühstatistischen Zeit bis zu den Anfängen des WWW, der die Vielfalt und die historische Entwicklung von tabellarischen Datenrepräsentationen abbildet und die Merkmale der Tabellen in Labels (Annotationen) erfasst. Wir planen mit einem Umfang von ca. 10.000 Tabellenseiten, und streben eine Verteilung an, die der relativen Bedeutung der Jahrhunderte in unserem Zeitraum entspricht (15% 1750-1800; 30% 1800-1900 und 55% 1900-1990). Wir widmen uns ausschließlich gedruckten ganzseitigen, doppelseitigen und mehrseitigen Tabellen und Tabellenwerken (d.h. Büchern, die (fast) ausschließlich aus Tabellen bestehen).
Im Rahmen der ICDAR, die International Conference on Document Analysis and Recognition, fand zuletzt 2019 einen Wettbewerb zu einem Benchmark-Datensatz mit gedruckten und zum Teil sogar einigen handgeschriebenen archivalischen Tabellen statt. Auch in anderen Konstellationen wurden Benchmark-Datensätze (z.B. TableBank und PubTables-1M) für die Struktur- und Inhaltserkennung von Tabellen entwickelt und getestet, an denen wir uns für die Beantwortung von methodischen, technischen und infrastrukturellen Fragen orientieren werden.
Mit unserem annotierten Benchmark-Datensatz werden zum ersten Mal überhaupt Trainingsdaten im großen Umfang zur Verfügung stehen, anhand dessen die Entwicklung von neuen informatischen Lösungen für die Erschließung von historischen Tabellenbeständen erprobt und ausgewertet werden kann. Das streben wir gezielt an, indem wir uns mit einem Wettbewerb für die Teilnahme an der ICDAR Konferenz in Wien 2026 bewerben werden. Für den Aufbau und die Bereitstellung des Benchmark-Datensatzes orientieren wir uns an Best Practices im Bereich der Tabellenerkennung in den Computer Sciences. Zum Benchmark-Datensatz stellen wir ein Evaluationsprotokoll zur Verfügung. Darüber hinaus stellen wir für ausgewählte Tabellen auch Ground Truth Daten für die Tabelleninhaltserkennung zur Verfügung, die von Mitgliedern der Community von Sozial- und Wirtschaftshistorikerinnen und –historikern geliefert werden.
Area of research
Table Recognition
Permalink
https://fis.uni-bamberg.de/handle/uniba/106526