cneud/casdmit_ocr_cli.md

## casdmit_ocr_cli.md

      
    Raw
  

              casdmit_ocr_cli.md
            
          
    Kommandozeilenaufrufe für CASDMIT 2022 Modul OCR

Ggf. anpassen der Bildschirmauflösung in der Virtuellen Maschine

xrandr --output VGA-1 --mode 1280x800

(1280x800 durch gewünschte Bildschirmauflösung ersetzen)
Installation des Texteditors sublime

sudo apt install sublime-text

(Bestätigen mit Passwort "ocr")
Anlegen und Initialisieren eines Workspace

mkdir /home/ocr/temp/test_workspace


cd /home/ocr/temp/test_workspace


ocrd workspace init


ocrd workspace set-id "casdmit"

Anlegen eines Verzeichnis für Bilddateien innerhalb des Workspace

mkdir OCR-D-IMG


cd OCR-D-IMG

Herunterladen der Testdateien von http://www.deutschestextarchiv.de/book/show/kant_aufklaerung_1784

wget https://github.com/OCR-D/assets/raw/master/data/kant_aufklaerung_1784/data/OCR-D-IMG/INPUT_0017.tif -O IMG_00001.tif


wget https://github.com/OCR-D/assets/raw/master/data/kant_aufklaerung_1784/data/OCR-D-IMG/INPUT_0020.tif -O IMG_00002.tif

Hinzufügen der heruntergeladenen Bilder zum Workspace

cd /home/ocr/temp/test_workspace/


ocrd workspace add -g P_00001 -G OCR-D-IMG -i OCR-D-IMG_00001 -m image/tif OCR-D-IMG/IMG_00001.tif


ocrd workspace add -g P_00002 -G OCR-D-IMG -i OCR-D-IMG_00002 -m image/tif OCR-D-IMG/IMG_00002.tif

Bilder betrachten

feh OCR-D-IMG/IMG_00001.tif


feh OCR-D-IMG/IMG_00002.tif

(Fenster wieder schließen: Windows/Apple+Shift+Q)
Betrachten der erzeugten METS-Datei

subl mets.xml

Segmentierung (Layouterkennung) für die Bilder im Workspace durchführen

ocrd-tesserocr-segment -I OCR-D-IMG -O OCR-D-SEG-RAW

Texterkennung (OCR) für die Bilder im Workspace durchführen

ocrd-tesserocr-recognize -I OCR-D-SEG-RAW -O OCR-D-OCR-TESS-RAW -P model deu

Betrachten der erzeugten OCR Ergebnisse

subl OCR-D-OCR-TESS-RAW/OCR-D-OCR-TESS-RAW_00001.xml


subl OCR-D-OCR-TESS-RAW/OCR-D-OCR-TESS-RAW_00002.xml

Bildvorverarbeitung
Binarisierung

ocrd-cis-ocropy-binarize -I OCR-D-CROP -O OCR-D-BIN -P threshold 0.3

Betrachten der Ergebnisse der Binarisierung

feh OCR-D-BIN/OCR-D-BIN_00001.IMG-BIN.png


feh OCR-D-BIN/OCR-D-BIN_00001.IMG-BIN.png

(Fenster wieder schließen: Windows/Apple+Shift+Q)
Cropping

ocrd-tesserocr-crop -I OCR-D-IMG -O OCR-D-CROP

Betrachten der Ergebnisse des Cropping

feh OCR-D-CROP/OCR-D-CROP_00001.IMG-CROP.png


feh OCR-D-CROP/OCR-D-CROP_00002.IMG-CROP.png

Erneute Segmentierung (Layouterkennung) für die vorverarbeiteten Bilder im Workspace durchführen

ocrd-tesserocr-segment -I OCR-D-BIN -O OCR-D-SEG-BIN

Erneute Texterkennung (OCR) für die vorverarbeiteten Bilder im Workspace durchführen

ocrd-tesserocr-recognize -I OCR-D-SEG-BIN -O OCR-D-OCR-TESS-BIN -P model deu

Betrachten der neu erzeugten OCR Ergebnisse inklusive Vorverarbeitung

subl OCR-D-OCR-TESS-BIN/OCR-D-OCR-TESS-BIN_00001.xml


subl OCR-D-OCR-TESS-BIN/OCR-D-OCR-TESS-BIN_00002.xml

Angepasste Segmentierung mit Tesseract

ocrd-tesserocr-segment -I OCR-D-IMG -O OCR-D-SEG-TESS -P find_tables false -P shrink_polygons false

Betrachten der Ergebnisse der Segmentierung

pgv OCR-D-SEG-TESS/OCR-D-SEG-TESS_00001.xml OCR-D-IMG/IMG_00001.tif


pgv OCR-D-SEG-TESS/OCR-D-SEG-TESS_00002.xml OCR-D-IMG/IMG_00002.tif

(Fenster wieder schließen: Alt+f+e)
Texterkennung mit Sprachmodell "deu"

ocrd-tesserocr-recognize -I OCR-D-SEG-TESS -O OCR-D-OCR-TESS-DEU -P model deu

Texterkennung mit speziellem Frakturmodell "GT4HistOCR"

ocrd-tesserocr-recognize -I OCR-D-SEG-TESS -O OCR-D-OCR-TESS-GT4 -P model Fraktur_GT4HistOCR

Zusammenfügen der optimalen Einzelschritte zu einem Gesamtprozess (Workflow)

ocrd process 

"ocrd-cis-ocropy-binarize -I OCR-D-IMG -O OCR-D-BIN -P threshold 0.3" 

"ocrd-tesserocr-crop -I OCR-D-BIN -O OCR-D-CROP" 

"ocrd-tesserocr-segment -I OCR-D-CROP -O OCR-D-SEG" 

"ocrd-tesserocr-recognize -I OCR-D-SEG -O OCR-D-OCR-TESS -P model Fraktur_GT4HistOCR"

Beenden von OCR-D

deactivate

Herunterfahren der Virtuellen Maschine

sudo shutdown now