Projektbeschreibung

Integration multipler OCR-Engines für optimierte Texterkennung

Branche FinTech

von 08/2025
bis 09/2025

Entwicklung eines Multi-OCR-Systems zur parallelen Verarbeitung von Dokumenten mit verschiedenen OCR-Engines (Tesseract, AWS Textract, GCP Cloud Vision). Container-basierte Ausführung über Podman mit automatischem Ressourcen-Management. Konfigurierbare Engine-Auswahl pro Kunde. Robuste Stream-Behandlung zur Vermeidung von Wildfly-Hängern.

Technologien

  • Java 8
  • Scala
  • ZIO 2
  • Podman
  • Docker
  • Tesseract OCR
  • AWS Textract
  • GCP Cloud Vision API
  • AWS Secrets Manager
  • Apache Commons Exec
  • Vavr
  • Wildfly Application Server