Paperless NGX

Version 12.1 von Daniel Herrmann am 2025/10/24 20:20

Das Herzstück der digitalen Mitgliederakte bildet Paperless NGX. Es wird im Makerspace lokal betrieben und ist daher nur aus dem Netzwerk des Makerspaces oder per VPN erreichbar. Der Zugang zu Paperless ist über OpenID Connect an Keycloak gekoppelt, Zugang besteht nur für Mitglieder der Gruppen Vorstand und Mitgliederverwaltung.

Paperless Übersicht

Dokumente sind die primären Ressourcen in Paperless. Ein Dokument kann über mehrere Wege in Paperless aufgenommen werden (der Prozess wird Ingestion genannt):

Per E-Mail: es sind zwei Mail-Adressen eingerichtet, eingehende Anhänge werden automatisch von Paperless verarbeitet. Die QR Code Verarbeitung (siehe unten) findet hier ebenfalls Anwendung.
- Die Mitgliederverwaltung: mitglieder-dokumente@makerspace-darmstadt.de
- Den Vorstand: vorstand-dokumente@makerspace-darmstadt.de
Per Ordner: Auf unserem NAS gibt es einen speziellen Ordner, der in Paperless eingebunden ist. Alle Dokumente, die in diesen Ordner gelegt werden, werden automatisch von Paperless verarbeitet. Dieser Ordner wird hauptsächlich vom Dokumentenscanner verwendet, der die gescannten Dokumente ablegt. Dies ermöglicht einen einfachen Scan mit einem einfachen Button, die Dokumente werden dann automatisch in Paperless erkannt
Per Weboberfläche: Es ist ebenfalls möglich, Dokumente manuell über die Weboberfläche hinzuzufügen.

Die folgenden Grafik gibt eine Übersicht:

Diagram

Der Scanner ist so eingerichtet, dass nur zwei Buttons auf dem Display sichtbar sind:

SCAN Vorstand - Platziert das Dokument in dem Consumption Ordner für den Vorstand, Rechte und Tags werden dann automatisch gesetzt
SCAN MV - Platziert das Dokument in dem Consumption Ordner für die Mitgliederverwaltung, Rechte und Tags werden dann automatisch gesetzt

Metadaten

Jedem Dokument werden dann Meta-Daten zugeordnet, die eine spätere Suche und Zuordnung erleichtern. Diese Meta-Daten sind:

Korrespondent: Im Prinzip der "Gesprächspartner", beispielsweise der Absender eines Briefs. Im Falle der Mitgliederverwaltung wird für jedes Mitglied und jeden registrierten Gast automatisch im Hintergrund ein Korrespondent angelegt. Die Korrespondenten heißen:
- Für Mitglieder: Vorname Nachname (#Mitgliedsnummer), also beispielsweise "Daniel Herrmann (#250)"
- Für Gäste: Vorname Nachname (GEindeutigeNummer), also beispielsweise "Max Mustermann (G1244)"
- Bei Vereinseintritt und Vereinsaustritt werden die Korrespondenten automatisch umbenannt, auch Namensänderungen werden automatisch verarbeitet.
Tags: Einem Dokument können beliebig viele Tags zugewiesen werden. Tags dienen der einfacheren Zuordnung und dem Wiederfinden von Dokumenten. Es gibt allerdings auch spezielle Tags für Dokumente die eingelesen aber noch nicht bearbeitet wurden, so genannte "Inbox Tags":
- Inbox Mitgliederverwaltung - Alle Dokumente die per Mail oder per Ordner für die Gruppe Mitgliederverwaltung aufgenommen wurden und nicht automatisch zugeordnet werden konnten.
- Inbox Vorstand - Alle Dokumente die per Mail oder per Ordner für die Gruppe Vorstand aufgenommen wurden und nicht automatisch zugeordnet werden konnten.
Dokumenten-Typen: Einem Dokument wird exakt ein Typ zugewiesen. Dokumenten Typen sind im Prinzip einfache Gruppen. Für die Mitgliederverwaltung sind die Gruppen gemäß der folgenden Liste festgelegt, können aber natürlich bei Bedarf erweitert werden.
- Mitgliedsantrag
- SEPA Lastschriftmandat
- Studienbescheinigung
- Bestätigung Schlüsselausgabe
- Verpflichtungserklärung Datenschutz
- Übungsleitervertrag
- Nutzungsvereinbarung Schulungsinhalte
- Bestellung als Einweiser:in
- Haftungsausschluss
- Einweisungszettel
- Lagervertrag Kistenlager
- Lagervertrag Projektlager
Storage Path: Speicherpfade sind ein fortgeschrittenes Feature, welches kontrolliert, wie die Dateien im unterliegenden Dateisystem gespeichert werden. In der Regel arbeitet man nicht direkt mit den Dateien, aber wenn man aus lange Sicht mal aus Paperless NGX weg ziehen möchte kann es sinnvoll sein, die Dokumente in einer Struktur zu speichern, die man theoretisch auch manuell durchsuchen könnte. Details finden sich in der Dokumentation von Paperless zu File Name Handling.

Paperless checks the filename of a document whenever it is saved. Changing (or deleting) a storage path will automatically be reflected in the file system. However, when changing PAPERLESS_FILENAME_FORMAT you will need to manually run the document renamer to move any existing documents.

In unserem Fall kommen die folgenden Speicherpfade zum Einsatz:

Name	Definition	Sichtbar für	Anwendung
Mitglieder Einweisungszettel	{{ correspondent }}/Einweisungen/{{ document_type }}-{{ tag_list }}-{{ created }}-{{ doc_pk }}	Mitgliederverwaltung	Einweisungszettel
Mitglieder Unterlagen	{{ correspondent }}/{{ document_type }}-{{ created }}-{{ doc_pk }}	Mitgliederverwaltung	Alle anderen Mitgliederdokumente
Vorstand Dokumente	{{ created_year }}/{{ correspondent }}/{{ title }}	Vorstand	Alle Vorstandsdokumente

Automatische Zuordnung von Metadaten

Paperless unterstützt die automatische Zuordnung von Metadaten basierend auf festen Strings. So kann man beispielsweise angeben, dass ein Dokumententyp "Haftungsausschluss" zugewiesen werden soll, wenn der String "Haftungsausschluss" irgendwo im Dokument vorkommt. Dies ist allerdings auf eine korrekte Funktion der Texterkennung angewiesen und funktioniert erfahrungsgemäß nur in manchen Fällen, sodass mindestens eine manuelle Überprüfung trotzdem notwendig kommt. Wenn beispielsweise ein Brief mit dem Satz "ich dachte, ich hätte den Haftungsausschluss bereits abgegeben, könntet ihr dies bitte prüfen" erfasst wird, würde der basierend auf der Regel ebenfalls kategorisiert werden.

Aus diesem Grund wird auf jedes Dokument einen spezieller QR Code aufgedruckt. Der QR code wird vom Post-Consume Script verwendet um die Metadaten in Paperless zuzuordnen. Weiterhin können Daten übermittelt werden, die dann mittels Webhook an N8n übermittelt werden und dort im Workflow verwendet werden können. Der Aufbau orientiert sich an dem Aufbau eines JSON Web Tokens (JWT).

Barcode erzeugen

Der Prozess zur Erzeugung eines QR Codes ist wie folgt:

Payload (Daten) festlegen. Einige Werte sind verpflichtend, andere können nach Bedarf optional hinzugefügt werden.
JWT erzeugen und signieren. der JWT besteht aus drei Teilen:
- Header: alg (Algorithmus) und typ (JWT) sind verpflichtend. Zusätzlich fügen wir einen Timestamp, eine eindeutige ID und eine Gültigkeitsdauer hinzu.
- Body: beinhaltet die eigentlichen Daten.
- Signature: Mit Hilfe eines Secrets und wird die Signatur erzeugt und automatisch angehängt.
PDF417 code erzeugen: ein JWT ist per Definition URL safe und kann daher einfach in ein QR code umgewandelt werden.

Header

Der Header enthält wichtige Meta-Daten, diese werden von der JWT Library automatisch erzeugt und beschreiben in der Regel den verwendeten Key-Typ.

Body

Die folgenden Claims sind im Body verfügbar.

Claim	Type	Pflicht	Beschreibung
id	UUID4	✅️	Eindeutige ID dieses Dokuments
time	Zahl	✅️	UTC Linux-Timestamp an dem das Dokument und der QR Code erzeugt wurden
exp	Zahl	✅️	UTC Linux-Timestamp der angibt, bis wann das Dokument gültig ist.
typ	String	✅️	Typ des Dokuments basierend auf der unten definierten Liste.
mode	String	✅️	Kann entweder "digital" oder "manual" sein und bestimmt, ob N8n den unterschriebenen Vertrag ans Backend meldet.
cor	String	❌️	Optional: Name des Korrespondenten, dem das Dokument zugeordnet werden soll
tags	List[String]	❌️	Liste an Tags, die dem Dokument zugeordnet werden soll
spth	String	❌️	Storage Path, das dem Dokument zugeordnet werden soll
opt	dict	❌️	Optionale Attribute, die mit eincodiert werden und dem N8n Workflow übergeben werden.

Footer

Der Footer wird automatisch erzeugt und erhält eine Signatur über den Header und den Body, basierend auf einem Algorithmus und einer Signatur.

Algorithmus

Von den meisten Libraries werden symmetrische und asymmetrische Signaturen unterstützt. Die Verwendung eines symmetrischen Algorithmus ist für uns einfacher.

Für diesen Anwendungsfall nutzen wir HS256 (HMAC mit SHA-256 Algorithmus).

Auswahl der Library

Die Implementierung für die Erzeugung und das Validieren erfolgt in Python. Dies hat den Hintergrund, dass sowohl unser Backend als auch Paperless NGX (und damit das Post-Consumption Script) in Python implementiert ist. Es gibt verschiedene Libraries, die betrachtet wurden:

Name	CVE	Github	GH⭐	Letztes Release	Offene Issues	Dokumentation	Qualität Dokumentation	In Backend vorhanden?	In Paperless vorhanden?
python-jose	3/0	https://github.com/mpdavis/python-jose	1.7k	28.05.2025	83	https://python-jose.readthedocs.io/en/latest/	⛔ Wenige Bespiele, API Dokumentation fehlt komplett	❌️	❌️
pyJWT	4/0	https://github.com/jpadilla/pyjwt	5.4k	28.11.2024	30	https://pyjwt.readthedocs.io	➕️ Gute Dokumentation, API, Beispiele, Changelog	✅️ 2.10.1 Dep von firebase	✅️ 2.10.1
JWCrypto	5/0	https://github.com/latchset/jwcrypto	465	06.03.2024	8	https://jwcrypto.readthedocs.io	➕️ API Doc, einige Beispiele	✅️ 1.5.6 Dep von python-keycloak	❌️

Unsere bevorzugte Library ist pyjwt. Diese ist auch in paperless nativ vorhanden, sodass wir uns für die Implementierung mittels pyjwt entschieden haben.

PDF417 Code

Als Format für den Code wurde PDF417 ausgewählt, da dieser mehr Platz und Fehlerkorrektur bietet. Weiterhin gibt es eine einfach zu nutzende Library für Python (Erzeugung) und PDF417 wird von ZXING unterstützt, welches in Paperless eingebettet ist. Ein solcher Barcode sieht beispielsweise so aus:

Daraus kann dann eine Base64 basierte Repräsentation berechnet werden, die einfach in Docuseal hochgeladen werden kann.

Referenz-Implementierung

Eine Referenz-Implementierung befindet sich im Makerspace Gitlab: https://git.makerspace-darmstadt.de/makerspace-it-infrastructure/mitgliederverwaltung/paperless-pdf417-reference

Post Consumption Script

Die eigentliche Zuordnung der Meta-Daten erfolgt über ein so genanntes Post Consumption Script. Dieses befindet sich ebenfalls im Makerspace Gitlab: https://git.makerspace-darmstadt.de/makerspace-it-infrastructure/mitgliederverwaltung/paperless-post-consumption-script#