Ggf. anpassen der Bildschirmauflösung in der Virtuellen Maschine
xrandr --output VGA-1 --mode 1280x800
(1280x800 durch gewünschte Bildschirmauflösung ersetzen)
Installation des Texteditors sublime
sudo apt install sublime-text
(Bestätigen mit Passwort "ocr")
Anlegen und Initialisieren eines Workspace
mkdir /home/ocr/temp/test_workspace
cd /home/ocr/temp/test_workspace
ocrd workspace init
ocrd workspace set-id "casdmit"
Anlegen eines Verzeichnis für Bilddateien innerhalb des Workspace
mkdir OCR-D-IMG
cd OCR-D-IMG
Herunterladen der Testdateien von http://www.deutschestextarchiv.de/book/show/kant_aufklaerung_1784
wget https://github.com/OCR-D/assets/raw/master/data/kant_aufklaerung_1784/data/OCR-D-IMG/INPUT_0017.tif -O IMG_00001.tif
wget https://github.com/OCR-D/assets/raw/master/data/kant_aufklaerung_1784/data/OCR-D-IMG/INPUT_0020.tif -O IMG_00002.tif
Hinzufügen der heruntergeladenen Bilder zum Workspace
cd /home/ocr/temp/test_workspace/
ocrd workspace add -g P_00001 -G OCR-D-IMG -i OCR-D-IMG_00001 -m image/tif OCR-D-IMG/IMG_00001.tif
ocrd workspace add -g P_00002 -G OCR-D-IMG -i OCR-D-IMG_00002 -m image/tif OCR-D-IMG/IMG_00002.tif
Bilder betrachten
feh OCR-D-IMG/IMG_00001.tif
feh OCR-D-IMG/IMG_00002.tif
(Fenster wieder schließen: Windows/Apple+Shift+Q)
Betrachten der erzeugten METS-Datei
subl mets.xml
Segmentierung (Layouterkennung) für die Bilder im Workspace durchführen
ocrd-tesserocr-segment -I OCR-D-IMG -O OCR-D-SEG-RAW
Texterkennung (OCR) für die Bilder im Workspace durchführen
ocrd-tesserocr-recognize -I OCR-D-SEG-RAW -O OCR-D-OCR-TESS-RAW -P model deu
Betrachten der erzeugten OCR Ergebnisse
subl OCR-D-OCR-TESS-RAW/OCR-D-OCR-TESS-RAW_00001.xml
subl OCR-D-OCR-TESS-RAW/OCR-D-OCR-TESS-RAW_00002.xml
Bildvorverarbeitung
Binarisierung
ocrd-cis-ocropy-binarize -I OCR-D-CROP -O OCR-D-BIN -P threshold 0.3
Betrachten der Ergebnisse der Binarisierung
feh OCR-D-BIN/OCR-D-BIN_00001.IMG-BIN.png
feh OCR-D-BIN/OCR-D-BIN_00001.IMG-BIN.png
(Fenster wieder schließen: Windows/Apple+Shift+Q)
Cropping
ocrd-tesserocr-crop -I OCR-D-IMG -O OCR-D-CROP
Betrachten der Ergebnisse des Cropping
feh OCR-D-CROP/OCR-D-CROP_00001.IMG-CROP.png
feh OCR-D-CROP/OCR-D-CROP_00002.IMG-CROP.png
Erneute Segmentierung (Layouterkennung) für die vorverarbeiteten Bilder im Workspace durchführen
ocrd-tesserocr-segment -I OCR-D-BIN -O OCR-D-SEG-BIN
Erneute Texterkennung (OCR) für die vorverarbeiteten Bilder im Workspace durchführen
ocrd-tesserocr-recognize -I OCR-D-SEG-BIN -O OCR-D-OCR-TESS-BIN -P model deu
Betrachten der neu erzeugten OCR Ergebnisse inklusive Vorverarbeitung
subl OCR-D-OCR-TESS-BIN/OCR-D-OCR-TESS-BIN_00001.xml
subl OCR-D-OCR-TESS-BIN/OCR-D-OCR-TESS-BIN_00002.xml
Angepasste Segmentierung mit Tesseract
ocrd-tesserocr-segment -I OCR-D-IMG -O OCR-D-SEG-TESS -P find_tables false -P shrink_polygons false
Betrachten der Ergebnisse der Segmentierung
pgv OCR-D-SEG-TESS/OCR-D-SEG-TESS_00001.xml OCR-D-IMG/IMG_00001.tif
pgv OCR-D-SEG-TESS/OCR-D-SEG-TESS_00002.xml OCR-D-IMG/IMG_00002.tif
(Fenster wieder schließen: Alt+f+e)
Texterkennung mit Sprachmodell "deu"
ocrd-tesserocr-recognize -I OCR-D-SEG-TESS -O OCR-D-OCR-TESS-DEU -P model deu
Texterkennung mit speziellem Frakturmodell "GT4HistOCR"
ocrd-tesserocr-recognize -I OCR-D-SEG-TESS -O OCR-D-OCR-TESS-GT4 -P model Fraktur_GT4HistOCR
Zusammenfügen der optimalen Einzelschritte zu einem Gesamtprozess (Workflow)
ocrd process
"ocrd-cis-ocropy-binarize -I OCR-D-IMG -O OCR-D-BIN -P threshold 0.3"
"ocrd-tesserocr-crop -I OCR-D-BIN -O OCR-D-CROP"
"ocrd-tesserocr-segment -I OCR-D-CROP -O OCR-D-SEG"
"ocrd-tesserocr-recognize -I OCR-D-SEG -O OCR-D-OCR-TESS -P model Fraktur_GT4HistOCR"
Beenden von OCR-D
deactivate
Herunterfahren der Virtuellen Maschine
sudo shutdown now