Hauptinhalt

Topinformationen

Automatisierte Klassifikation publizierter Texte

Das Institut für Kognitionswissenschaft, der ELAN e.V. und das Zentrum für Informationsmanagement und virtuelle Lehre arbeiten an einem automatisierten Klassifikationsverfahren, das publizierte Texte erkennen soll. Hintergrund sind die Veränderungen in der Vergütung von Sprachwerknutzungen gem. § 52a UrhG und die Tatsache, dass sehr viele Hochschulen dem ab 1.1.2017 geltenden Rahmenvertrag nicht beitreten werden und daher ab diesem Zeitpunkt keine Texte gem. § 52a UrhG mehr anbieten wollen.

Was genau klassifiziert das Verfahren?

Von §52a UrhG sind lt. Gesetz "veröffentlichte Werke" betroffen, vom Rahmenvertrag nur Sprachwerke, d.h. Texte. Nun sind aber nicht alle bereitgestellten veröffentlichten Texte Nutzungen gem. § 52a UrhG: Texte mit Freier Lizenz (z.B. Creative Commons), Texte für die vom Verlag eine gesonderte Lizenz erworben oder deren Nutzung gestattet wurde usw. Das Klassifikationsverfahren unterscheidet hier grundsätzlich nicht, da die dazu notwendigen Informationen meist nicht aus den vorhandenen Daten erschlossen werden können.

Das heißt: Das Klassifikationsverfahren bestimmt die Wahrscheinlichkeit, dass es sich um einen veröffentlichten Text handelt. In der Regel fallen darunter Verlagsprodukte, die mit höherer Wahrscheinlichkeit erkannt werden.

Auf welcher Grundlage trifft das Verfahren seine Entscheidungen?

Im Pilotprojekt zur Erprobung eines Einzelmeldunsverfahrens haben wir mehrere tausend stichprobenartig ausgewählter Dokumente in unserer Lernplattform manuell klassifiziert. Die Ergebnisse dieser Klassifikation werden nun als Grundlage eines maschinellen Lernverfahrens genutzt, dass eigenständig Zusammenhänge zwischen Merkmalen der Dokumente und der Frage aufdeckt, ob es sich um veröffentlichte Texte handelt.

Ergebnisse solcher Lernverfahren sind keine 100% sicheren Algorithmen. Die Anwendung des Klassifikationsverfahrens führt also mit sehr großer Sicherheit zu Fehlern, die allerdings um so geringer ausfallen, je besser das Lernverfahren trainiert wurde und je besser die Dokument-Merkmale ausgewählt wurden. Derzeit befinden wir uns in einer Phase der Optimierung genau dieser Fragen.

Wozu kann es genutzt werden?

Das hier entwickelte Verfahren soll eine Unterstützung bei der automatisierten Filterung vorhandener oder neu hochzuladender Dokumente sein. Mögliche Anwendungsszenarien sind (mit dieser Liste wird keine Aussage darüber getroffen, ob das jeweilige Szenario notwendig oder sinnvoll ist, das muss jeder Standort selbst entscheiden):

Untersuchung von Altdokumenten und Sperrung von wahrscheinlich veröffentlichten Texten als Alternative zur Komplettsperrung
Überprüfung neu hochgeladener Dokumente, um ggf. einen Hinweistext einzublenden und eine erneute Bestätigung einzufordern

Diese Anwendungen sind nicht Teil der von uns entwickelten Lösung, sondern müssen für jede Plattform bzw. jeden Standort in die lokalen Gegebenheiten eingepasst werden.

Welche Daten werden benötigt?

Das Klassifikationsverfahren benötigt eine Reihe von Metadaten und Zugriff auf die PDF-Dokumente (das Verfahren arbeitet nur mit PDF-Dokumenten).

Die Metadaten umfassen:

Name oder Bezeichnung der Datei
ggf. zusätzlich vorhandene Beschreibungen oder Hinweise zur Datei
ggf. Name eines Ordners in einer Dateiablage o.ä., in dem sich die Datei befindet
Rechtestufe der bereitstellenden Person (Dozent/Student)
und noch einige mehr, die aber derzeit darauf überprüft werden, ob sie tatsächlich standortübergreifend genutzt werden können

Aus den Dokumenten werden folgende Daten extrahiert:

Dateigröße und Anzahl Seiten
PDF-Metadaten wie z.B. Angaben zur Software, mit der das PDF erstellt wurde
wenn extrahierbar: Volltext des Dokumentes

Wann und wo ist die Software verfügbar?

Wir werden die Software zu einem Open-Source-lizensierten Paket zusammenstellen, dass Sie über diese Seite herunterladen können. Einen genauen Veröffentlichungszeitpunkt können wir leider noch nicht angeben.

Systemvoraussetzung wird vor allem Python sein, außerdem einige Zusatzpakete zur Behandlung von PDF-Dateien, die auf Linux-Systemen aber in der Regel sehr gut installierbar sind.

Was muss ich selbst implementieren?

Die Klassifikation von Dokumenten läuft in vier Schritten ab, von denen Sie zwei selbst implemenetieren müssen. Ggf. gibt es für verbreitete Plattformen dazu Vorlagen. Wir selbst werden eine für Stud.IP erstellen und suchen noch Hochschulen, die andere Vorlagen selbst erstellen und teilen oder uns bei der Erstellung helfen können.

1. Schritt (Standort- bzw.- plattformspezifisch): Aufbereitung der Input-Daten: Aus der Datenbank des LMS müssen die relevanten Metadaten (Dokument-ID, Dokument-Titel, -Beschreibung, ... - nicht vorhandene Daten bleiben leer) in eine CSV-Datei geschrieben werden, außerdem müssen die tatsächlichen Dateien über das Dateisystem zugreifbar gemacht werden. (In der CSV-Datei wird ein Dateiname mit abgelegt).

2. Schritt (Teil unseres Tools, Python-Script): Vorverarbeitung der Daten - hier werden PDF-Metadaten ausgelesen, PDF-Texte extrahiert und ggf. auch Thumbnails von PDF-Seiten erzeugt.

3. Schritt (Teil unseres Tools, Python-Script): Klassifikation der Dokumente. Anhand eines vortrainierten neuronalen Netzes werden die aufbereiteten Daten verwendet, um die Dokumente zu klassifizieren. Die Ausgabe ist eine CSV-Datei, die für jedes Dokument (Dokument-ID) einen Wert zwischen 0 und 1 für die Erkennung als publizierter Text enthält.

4. Schritt (Standort- bzw. Plattformspezifisch): Sie müssen die Ausgabedatei auf Ihre Datenbank anwenden, d.h. z.B. den Status von Dokumenten ändern, Dokumente sperren, löschen etc. Dabei müssen/können Sie einen Schwellenwert bestimmen, ab dem die Ausgabewerte im Bereich 0..1 als "ja" bzw. "nein" gewertet werden. Über diesen Schwellenwert können Sie die kritische Fehlerrate (Anzahl fehlklassifizierter publizierter Texte) beinflussen, verändern damit als Nebeneffekt allerdings auch die Rate nichtkritischer Fehler (Anzahl fehlklassizierter Dokumente, die keine publizierten Texte beinhalten).