Genauer: Welche Informationen und Materialien benötigt man zur erfolgreichen Entwicklung einer Projektvorlage?
Zusammenfassung:
- Stapelstruktur: Entweder ein repräsentativer Beispiel-Stapel (Papier oder als 300dpi TIF/JPG) und/oder eine präzise Beschreibung der Stapelstruktur und der zur Abgrenzung seiner Bestandteile eingesetzten Barcodes, Patchcodes etc..
Bei Barcodes ist Information zu deren Format, Positionierung und Orientierung wichtig, des Weiteren genaue Angaben zum Barcode-Inhalt (um den gesuchten Barcode von anderen oder fremden Barcodes unterscheiden zu können). - Indexdaten: Welche inhaltlich relevanten Metadaten (Indexdaten) sollen im Rahmen der Stapelverarbeitung automatisch und/oder manuell erfasst werden? Müssen automatisch erfasste Werte in Bestandteile zerlegt werden? Müssen manuell erfasste Werte überprüft (validiert) werden, sollen Pflichtfelder festgelegt werden? Sollen Eingaben anhand von Vorschlagslisten erfolgen und wie lauten diese? Soll eine externe Datenquelle für die Validierung oder für die Erstellung von Vorschlagslisten verwendet werden (in diesem Fall wären Beispiel-Datensätze hilfreich)?
- Scanprodukte: In welchem Format sollen Bilddaten ausgegeben werden? Sollen (im Fall von TIF und PDF) mehrere Seiten pro Exportdatei ausgegeben werden oder nur Einzelseiten? Soll (im Fall von PDF) eine Volltexterkennung durchgeführt werden? Wie sollen die Dateinamen für Bild- und Indexdateien lauten, sollen Dateien dynamisch in unterschiedliche Verzeichnispfade oder in gleich bleibende Ausgabeverzeichnisse exportiert werden? Sollen Indexdaten als separate Indexdatei zur Verfügung gestellt werden oder werden sie nur für Datei- / Pfadnamen verwendet? Falls Indexdateien gewünscht werden, sind weitere Angaben zur internen Struktur nötig. Hilfreich sind in diesem Fall Beispieldateien aus der bisherigen Praxis, so vorhanden.
- Folgesysteme: Werden für die Übergabe der Scanprodukte vom Folgesystem Signaldateien oder Programmaufrufe benötigt? Soll bei der Übergabe der Scanprodukte eine Kunden-spezifische Software-Schnittstelle bedient werden, dann wird für die Code-Entwicklung deren genaue Spezifikation und eine Test-Umgebung benötigt. Soll die Übergabe der Scanprodukte durch ein vorgefertigtes CROSSCAP Programm-Modul erfolgen, wird Information zu den dabei verwendeten Anmelde- und Übergabedaten benötigt.
Die Details:
Scan-Prozesse - und deren Modellierung in Form von Projektvorlagen - basieren auf dem folgenden, typischen Ablauf:
Schritt 0: Die zu scannenden Dokumente werden vorbereitet und zu einem Dokumentenstapel zusammenfasst.
Schritt 1: Der Dokumentenstapel wird gescannt, auf Merkmale hin untersucht und automatisch bearbeitet.
Schritt 2: Der digitalisierte Stapel wird manuell nachbearbeitet, Indexwerte werden korrigiert oder hinzugefügt.
Schritt 3: Der digitalisierte Stapel wird in den gewünschten Formaten ausgegeben, als Bild- und Indexdateien.
Schritt 4: Automatisierte Übergabe der exportierten Bild- und Indexdateien an ein Folgesystem (z.B. ein DMS)
Die sogenannte Dokumentvorbereitung (hier Schritt 0) erfolgt abseits des technischen Scan-Systems. Erst mit dem Starten des Scanners wird das Scan-System aktiv (hier Schritt 1-4). Eine sog. Projektvorlage legt dabei u.a. fest, wie genau das technische Scan-System den Papierstapel interpretiert: Wo befinden sich z.B. Dokumentgrenzen, welche Metadaten müssen (in Form von Barcode-Erkennung oder zonaler OCR) automatisch erfasst werden?
Insofern ist die (geplante) Beschaffenheit der Papier-Dokumentenstapel ein wichtiges Kriterium bei der Entwicklung von Projektvorlagen - genau wie die Kenntnisse darüber, was nach der Ausgabe der Scanprodukte mit diesen passieren wird ...
Die für das Scan-System relevanten Prozessschritte 1-4 finden ihre Entsprechung in den folgenden vier Themenbereichen, welche für die Projektvorlagenerstellung von zentraler Bedeutung sind:
Information zur abzubildenden Stapelstruktur
Information zur Hierarchie bzw. den Bestandteilen der zu scannenden Dokumentenstapel. Hier ein paar Beispiele:
- Stapel > Dokumente > immer gleiche Anzahl von Seiten (3 Ebenen, z.B. mehrere einblättrige Rechnungen)
- Stapel > Dokumente > variable Anzahl von Seiten (3 Ebenen, z.B. mehrere mehrseitige Schriftstücke)
- Stapel > Vorgänge > Dokumente > Seiten (4 Ebenen, z.B. mehrere Ordner mit mehrseitigen Schriftstücken)
Wie sollen/können die Bestandteile der Stapel im Rahmen der Dokumentvorbereitung kenntlich gemacht werden?
- In Beispiel 1 würde wiederholtes, blosses Abzählen genügen, um die Schriftstücke voneinander abzugrenzen - in der Dokumentvorbereitung müsste hierfür nichts weiter getan werden.
- In Beispiel 2 müssten in der Dokumentvorbereitung zum Zweck der Dokumenttrennung entweder zusätzliche Trennblätter eingefügt werden (z.B. Patch-Code Blätter oder Trennblätter mit eigenen Barcodes darauf) oder auf der jeweils ersten Dokumentseite müsste ein Barcode aufgeklebt und u.a. zur Dokumenttrennung verwendet werden.
- Im Beispiel 3 müssten in der Dokumentvorbereitung sowohl zum Zweck der der Vorgangs-, als auch zum Zweck der Dokumenttrennung entweder zusätzliche Trennblätter eingefügt werden (z.B. Patch-Code Blätter, Trennblätter mit eigenen Barcodes darauf) oder jeweils auf der ersten Seite aufgeklebte Barcodes würden zur Trennung verwendet.
Die jeweils verwendeten Patch-Code Blätter, Trennblätter oder verklebten Barcodes müssten sich allerdings unterscheiden, je nachdem, ob damit eine Dokumenttrennung oder eine Vorgangstrennung erzielt werden soll.
Um diese Dinge im Rahmen einer Projektvorlagen-Entwicklung berücksichtigen zu können, wird entweder ein repräsentativer Beispiel-Stapel (Papier oder in 300dpi gescannt) und/oder eine präzise Beschreibung der Stapelstruktur und der zur Trennung eingesetzten Barcodes, Patchcodes etc. benötigt.
Sollten diese Beispiele auf vertraulichen Dokumenten beruhen, dann können diese entweder anonymisiert (geschwärzt) oder gegen weniger brisante Stellvertreter-Dokumente ausgetauscht werden - die genauen Inhalte der Dokumente sind für die Projektvorlagen-Erstellung unerheblich, ebenso der Umfang der einzelnen Dokumente - üblicherweise genügen schon wenige Beispiel-/Dummy-Seiten, pro Dokument.
Im Falle von Patchcode-Blättern würde die zusätzliche Information benötigt, welcher der gängigen Patchcodes verwendet (d.h. in den Stapel eingelegt) werden soll (Patch 1, Patch 2 ... Patch T) oder ob ein beliebiger Patchcode akzeptiert werden soll.
Im Falle von Trenn-Barcodes sind Angaben zum verwendeten Barcode-Format (z.B. Code 128 oder QR), dessen voraussichtlicher Positionierung und - im Fall von 1D Barcodes - der Orientierung (vertikal, horizontal) vonnöten. Folgt der Inhalt der verwendeten Barcodes einem festen Muster, dann kann man auch diese Information verwerten, um den gesuchten Barcode von anderen oder fremden Barcodes zu unterscheiden.
Information zu den benötigten Indexdaten
Welche inhaltlich relevanten Metadaten (= Indexdaten) sollen im Rahmen der Stapelverarbeitung automatisch oder manuell erfasst werden? Müssen automatisch erfasste Werte in Bestandteile zerlegt werden? Müssen manuell erfasste Werte überprüft (validiert) werden, sollen Pflichtfelder festgelegt werden? Sollen Eingaben anhand von Vorschlagslisten erfolgen und wie lauten diese? Sollen externe Datenquellen (z.B. DBMSe) für die Validierung oder für die Erstellung von Vorschlagslisten verwendet werden (in diesem Fall wären Beispiel-Datensätze hilfreich)?
Im Zusammenhang mit der weiter oben diskutierten Stapelstruktur ist es ebenfalls wichtig zu wissen, auf welcher Ebene bzw. auf welchen Ebenen dieser Struktur indexiert werden muss (d.h. auf welchen Ebenen inhaltliche Metadaten erzeugt werden).
Bei einer Stapelstruktur mit höchstens 3 Hierarchie-Ebenen ist eine Indexierung grundsätzlich auf allen Ebenen möglich, also auf Stapel-, Dokument- und Seitenebene gleichzeitig.
Bei einer Stapelstruktur mit 4 Hierarchie-Ebenen ist eine Indexierung zwar ebenfalls auf Stapel- und Seitenebene gleichzeitig möglich, aber zusätzlich dazu kann sie entweder nur auf der Ebene der Vorgänge oder nur auf der Ebene der darin enthaltenen Dokumente erfolgen.
Information zur Beschaffenheit der Scanprodukte
In welchem Format sollen Bilddaten ausgegeben werden? Sollen (im Fall von TIF und PDF) mehrere Seiten pro Exportdatei ausgegeben werden oder nur Einzelseiten? Soll (im Fall von PDF) eine Volltexterkennung durchgeführt werden?
Wie sollen die Dateinamen für Bild- und Indexdateien lauten, sollen Dateien dynamisch in unterschiedliche Verzeichnispfade oder in gleich bleibende Ausgabeverzeichnisse exportiert werden? Sollen Indexdaten als separate Indexdatei zur Verfügung gestellt werden oder werden sie nur für Datei- / Pfadnamen verwendet?
Falls Indexdateien gewünscht werden (z.B. XML-Dateien), sind weitere Angaben zu deren interner Struktur nötig. Hilfreich sind in diesem Fall Beispieldateien aus der bisherigen Praxis, so vorhanden.
Information zur Übergabe der Scanprodukte an Folgesysteme
Sollen die exportierten Bild- und Indexdateien an ein Folgesystem übergeben werden, wird Information zum dabei verwendeten Mechanismus benötigt. Die grundsätzlich möglichen Übergabetechniken sind wie folgt:
- CROSSCAP Export der Scanprodukte ins Dateisystem + automatischer Import durch das DMS.
- CROSSCAP Export der Scanprodukte ins Dateisystem + durch CROSSCAP ausgelöster Import ins DMS.
- CROSSCAP Export an andere DMS-Systeme bzw. Export-Ziele durch den CROSSCAP PowerShell Export.
- CROSSCAP Module für einen direkten Export in ausgewählte DMS-Systeme (Saperion, Ceyoniq nscale).
Soll die Übergabe der Scanprodukte durch einen Import ins Folgesystem bewerkstelligt werden (1+2), wird Information zu den dabei verwendeten Signaldateien oder Programmaufrufen benötigt. Mehr Information zu diesem Thema finden Sie in einem anderen Beitrag in diesem Portal beschrieben: Übergabe von Scanprodukten an Fremdsysteme
Soll die Übergabe der Scanprodukte durch speziell dafür entwickelten PowerShell-Code erfolgen (3), dann wird eine detaillierte Dokumentation der zu bedienenden Software-Schnittstelle und der zu verwendenden Anmelde- und Übergabedaten benötigt. Im Rahmen der Entwicklung von Kunden-spezifischem PowerShell-Code wird üblicherweise auch ein Testsystem benötigt, an dem der Code im Verlauf seiner Entwicklung immer wieder ausgetestet werden kann.
Soll die Übergabe der Scanprodukte durch ein vorgefertigtes CROSSCAP Programm-Modul erfolgen (4), dann wird Information zu den dabei verwendeten Anmelde- und Übergabedaten benötigt.
War dieser Artikel hilfreich?
Das ist großartig!
Vielen Dank für das Feedback
Leider konnten wir nicht helfen
Vielen Dank für das Feedback
Feedback gesendet
Wir wissen Ihre Bemühungen zu schätzen und werden versuchen, den Artikel zu korrigieren