Question 1

Wie behandelt die OCR-Schicht Schweizerdeutsch?

Accepted Answer

Schweizerdeutsch wird auf OCR-Ebene als DE behandelt. Die Schicht braucht kein separates Mundartmodell. In Produktion sind die ankommenden Dokumente meist in Standarddeutsch verfasst, mit vereinzelten Schweizerdeutsch-Anteilen — Lieferantennamen, Ortsbezeichnungen, handschriftliche Belege. Das Zwei-Pass-Muster behaelt Rohtext und strukturierte Zonen bei, sodass der nachgelagerte Extraktor Mehrdeutigkeiten ohne CH-spezifisches Modell aufloesen kann.

Question 2

Ist die OCR-Genauigkeit auf Scans und digitalen PDFs gleich?

Accepted Answer

Nein, und wir tun nicht so. Digitale PDFs sind einfacher — der Text ist bereits codiert, der strukturierte Pass bestaetigt nur das Layout. Bei Scans, Fotos und gemischten PDFs zeigt das Zwei-Pass-Muster seinen Wert: Rohtext und strukturierte Zonen weichen oefter voneinander ab, und der nachgelagerte Extraktor entscheidet pro Feld. Eine einzelne Genauigkeitszahl veroeffentlichen wir nicht — sie waere ueber Eingabeformen hinweg nicht aussagekraeftig.

Question 3

Wie speist die OCR-Schicht die nachgelagerte Extraktion?

Accepted Answer

Der OCR-Pass liefert Rohtext plus strukturierte Zonen. Beides geht in den naechsten Queue-Schritt: Klassifikation, dann Feldextraktion im OpenAI-JSON-Modus. Der Kontrakt ist explizit — der Extraktor sieht Text und Zonen, entscheidet pro Feld, welche Eingabe er nutzt, und schreibt eine typisierte JSON-Nutzlast. Die OCR-Schicht trifft keine Geschaeftsentscheidungen, sie liefert die Eingaben dafuer.

Question 4

Laeuft die OCR in Echtzeit oder nur im Stapel?

Accepted Answer

Beides. Der OCR-Schritt sitzt in einer mehrstufigen Laravel-Job-Queue. Fuer naechtliche Stapellaeufe — Lieferantendatenblatt-Importe, Archiv-Ingest — skalieren Worker horizontal auf Docker. Bei Portal-Uploads, bei denen ein Nutzer wartet, laeuft derselbe Schritt mit hoeherer Prioritaet und liefert fuer typische Schweizer Dokumente binnen Sekunden zurueck. Gleicher Codepfad, andere Prioritaet.

Question 5

Wie sieht das Kostenmodell fuer OCR aus?

Accepted Answer

Wir verkaufen OCR nicht pro Seite. Wir verrechnen die Leistung — Discovery, Integration, Betriebsunterstuetzung — und reichen die zugrundeliegende Mistral-OCR-Nutzung zu Selbstkosten weiter. Wer bereits einen Extraktor hat und nur die OCR-Schicht angebunden braucht, hat eine kurze Engagement. Bei vollstaendigen IDP-Rollouts faellt die OCR-Komponente unter das S001-Gesamtangebot und ist selten der groesste Posten.

Question 6

Koennen wir die OCR-Schicht behalten und den Extraktor spaeter tauschen?

Accepted Answer

Ja. Der OCR-Kontrakt — Rohtext plus strukturierte Zonen — ist stabil und anbieterneutral. Kunden, die mit unserem S001.1- oder S001.2-Extraktor starten, koennen das Extraktionsmodell hinter derselben OCR-Schicht spaeter tauschen, oder umgekehrt. Die zwei Durchlaufe sind so ausgelegt, dass sie die Wahl des nachgelagerten Modells ueberdauern.

Question 7

Erkennt die OCR-Schicht auch Handschrift?

Accepted Answer

Innerhalb der von Mistral OCR ausgewiesenen Handschriftgrenzen ja — handschriftliche Randnotizen auf Lieferantendatenblaettern, unterschriebene Lieferscheine, handschriftliche Belege. Wir stellen Handschrifterkennung nicht als Headline-Feature heraus. In Produktion gehen handschriftliche Felder fast immer in eine nachgelagerte HITL-Pruefung; der OCR-Pass liefert dem Pruefer einen sauberen Vorschlag zum Bestaetigen oder Korrigieren.

Question 8

Wo liegen die OCR-Daten und wird Schweizer Datenresidenz unterstuetzt?

Accepted Answer

Standard-Deployment ist EU-Hosting. Fuer Workloads mit Schweizer Datenresidenz laeuft der OCR-Schritt auf Schweizer Servern oder on-prem beim Kunden. Wo kein oeffentlicher Modell-Endpunkt erreichbar sein darf, binden wir den Apertus-Pfad fuer den Extraktor an und behalten Mistral OCR auf einem Schweizer Gateway. Jeder OCR-Pass wird mit Modell-ID und Version protokolliert.

OCR Software fur Schweizer Dokumente

OCR Software, produktisiert

Unser Vorgehen

Stichprobe und Eingabe-Audit

Zwei-Pass-OCR auf Ihren Daten

Kontrakt zum Extraktor festlegen

Queue, Skalierung und Uebergabe

Ausgewählte Projekte

Warum Zwei-Pass-OCR und kein einzelner Modellaufruf

Zwei Durchlaufe geben dem Extraktor eine Wahl

OCR ist eine Schicht, kein Produkt

Gegen echte Schweizer Dokumente gehaertet

Haeufig gestellte Fragen