Migration von OpenAI zu Apertus
Was die Migration zu Apertus liefert
Audit des bestehenden Stacks
Wir gehen die produktive OpenAI- oder Anthropic-Integration durch — Prompts, System-Messages, Tool-Use-Schemas, Retry-Verhalten, Rate-Limit-Behandlung, Eval-Sets, den Aufruf-Pfad im Code und die Kostenlinie. Das Audit liefert eine Portierbarkeitskarte je Prompt und eine dokumentierte Basislinie, an der die Migration gemessen wird.
Eval-Set als Migrationsvertrag
Bevor ein Modell gewechselt wird, wird das Eval-Set neu aufgebaut und eingefroren. Reale Produktionseingaben, Soll-Ausgaben, Edge Cases und Regressionsfälle werden zum Vertrag. Zwei Drittel der Arbeit sind Engineering, ein Drittel Evaluation — und die Evaluation entscheidet, wann der Wechsel freigegeben wird.
Prompts für Apertus umschreiben
Prompts, die auf ein bestimmtes Frontier-Modell hin geschrieben wurden, überstehen einen Wechsel nicht immer. Wir schreiben System-Messages, Few-Shot-Beispiele und Tool-Schemas Prompt für Prompt gegen das eingefrorene Eval-Set um. Erreicht ein Prompt die Latte nicht, wird er für einen Fine-Tune markiert.
Side-by-Side-Qualitätsbenchmark
Apertus und der bisherige Anbieter laufen parallel auf denselben Eingaben. Bewertet werden Aufgabenqualität gegen die eingefrorene Rubrik, p50- und p95-Latenz sowie Kosten pro Aufgabe auf Schweizer Hosting. Das Ergebnis ist eine Kosten-pro-Aufgabe-Tabelle, auf der Ihr Team auf realen Zahlen entscheidet.
Shadow-Traffic vor dem Go-Live
Halten die Benchmarks, läuft Apertus parallel zum bisherigen Anbieter auf realen Anfragen, Antworten werden gescort, aber nicht ausgeliefert. Die Shadow-Phase deckt Drift auf, die das Eval-Set nicht fand, und lässt uns Routing, Caching und Tool-Fallbacks gegen Live-Last tunen, bevor ein Nutzer das Modell sieht.
Kontrollierter Cutover mit Rollback
Der Wechsel ist ein definiertes Ereignis, kein Flag-Schalter. Ein Canary-Anteil übernimmt den ersten Live-Traffic, das Eval-Tor greift bei jeder Antwort. Der Vollwechsel folgt erst, wenn der Canary grün bleibt, und ein Rollback auf den bisherigen Anbieter bleibt die ganze Zeit ein Schritt entfernt.
Unser Migrationsweg
Integrations-Audit
Wir kartieren die produktive OpenAI- oder Anthropic-Integration — Prompts, Tool-Schemas, Retries, Eval-Sets, Regressionstests und Kostenlinie — und liefern eine Portierbarkeits-Klassifizierung je Prompt vor jedem Modellwechsel.
Eval-Set einfrieren
Das Eval-Set wird als Migrationsvertrag neu aufgebaut: reale Produktionseingaben, Soll-Ausgaben, Edge Cases, Regressionsfälle. Es wird vor jedem Prompt-Eingriff eingefroren und entscheidet, wann der Wechsel erlaubt ist.
Prompts umschreiben
System-Messages, Few-Shot-Beispiele und Tool-Schemas werden Prompt für Prompt gegen das eingefrorene Eval-Set umgeschrieben. Prompts, die die Latte allein durch Umschrift nicht erreichen, werden für einen Fine-Tune markiert.
Benchmark fahren
Apertus und der bisherige Anbieter bewerten dieselben Eingaben Side-by-Side auf Qualität, p50- und p95-Latenz und Kosten pro Aufgabe. Die veröffentlichte Tabelle ist die Lieferung — Ihr CTO und CFO entscheiden auf realen Zahlen.
Shadow-Traffic live
Apertus läuft parallel zum bisherigen Anbieter auf echten Anfragen, gescort, aber nicht ausgeliefert. Die Phase fängt Drift ab, die das Eval-Set verfehlte, und tunt Routing und Tool-Fallbacks vor jeder Nutzerwirkung.
Canary und Rollback
Ein Canary-Anteil übernimmt den ersten Live-Traffic, das Eval-Tor greift bei jeder Antwort. Der Vollwechsel folgt erst, wenn der Canary grün bleibt; ein Rollback bleibt im gesamten Freeze-Fenster nur einen Schritt entfernt.
Wir kartieren die produktive OpenAI- oder Anthropic-Integration — Prompts, Tool-Schemas, Retries, Eval-Sets, Regressionstests und Kostenlinie — und liefern eine Portierbarkeits-Klassifizierung je Prompt vor jedem Modellwechsel.
Das Eval-Set wird als Migrationsvertrag neu aufgebaut: reale Produktionseingaben, Soll-Ausgaben, Edge Cases, Regressionsfälle. Es wird vor jedem Prompt-Eingriff eingefroren und entscheidet, wann der Wechsel erlaubt ist.
System-Messages, Few-Shot-Beispiele und Tool-Schemas werden Prompt für Prompt gegen das eingefrorene Eval-Set umgeschrieben. Prompts, die die Latte allein durch Umschrift nicht erreichen, werden für einen Fine-Tune markiert.
Apertus und der bisherige Anbieter bewerten dieselben Eingaben Side-by-Side auf Qualität, p50- und p95-Latenz und Kosten pro Aufgabe. Die veröffentlichte Tabelle ist die Lieferung — Ihr CTO und CFO entscheiden auf realen Zahlen.
Apertus läuft parallel zum bisherigen Anbieter auf echten Anfragen, gescort, aber nicht ausgeliefert. Die Phase fängt Drift ab, die das Eval-Set verfehlte, und tunt Routing und Tool-Fallbacks vor jeder Nutzerwirkung.
Ein Canary-Anteil übernimmt den ersten Live-Traffic, das Eval-Tor greift bei jeder Antwort. Der Vollwechsel folgt erst, wenn der Canary grün bleibt; ein Rollback bleibt im gesamten Freeze-Fenster nur einen Schritt entfernt.
Warum das Eval-Set der Vertrag ist
Das Eval-Set ist der Vertrag, nicht das Modell
Viele Migrationen scheitern, weil das Team den Modellwechsel als Lieferung und die Evaluation als Formsache behandelt. Wir drehen das um. Das eingefrorene Eval-Set — reale Produktionseingaben, Soll-Ausgaben, Edge Cases, Regressionsfälle — entscheidet als einziges, wann der Wechsel freigegeben ist. Apertus, der bisherige Anbieter und jedes künftige Modell werden gegen dieselbe Rubrik gemessen. Wer den Vertrag vor der Migration bauen will, findet ihn im bezahlten Apertus-Evaluations-POC.
Zwei Drittel Engineering, ein Drittel Evaluation
A model migration is two-thirds engineering and one-third evaluation. We rebuild the eval set first, freeze it as the contract, and only swap models once the regression suite says the new system meets the old one's quality bar. Diese Aufteilung schützt beide Seiten — Engineering hat ein echtes Ziel, die Evaluation das Budget, um Regression wirklich zu fangen.
Shadow, Canary und Vollwechsel
Der Wechsel ist gestaffelt, nicht geschaltet. Shadow-Traffic lässt Apertus auf echten Anfragen laufen, Antworten werden gescort, aber nicht ausgeliefert — so fangen wir Drift unter Live-Last ab. Ein Canary-Anteil übernimmt anschliessend einen Prozentsatz, das Eval-Tor greift bei jeder Antwort. Der Vollwechsel folgt erst bei grünem Canary.
Wo das im Apertus-Track ansetzt
Die Ziel-Inferenz übernimmt das On-Prem-Apertus-Deployment oder das souveräne Schweizer Hosting. Wo ein Prompt die Latte durch Umschrift nicht erreicht, ergänzen wir ein Fine-Tune hinter dem neuen Prompt. Discovery führt über den Apertus-Hub oder unsere KI-Beratung.
Häufig gestellte Fragen
Treiber sind Souveränität, Lieferantenrisiko und Kosten — kein Qualitätsneid. Apertus läuft als Open Weights unter Apache 2.0 auf Schweizer Infrastruktur, sodass Inferenz, Prompts und Logs im Land bleiben. Das beantwortet ein Mandat, das eine US-API nicht erfüllen kann.
Das Audit geht die Integration durch: Prompts, System-Messages, Tool-Use-Schemas, Retry-Verhalten, Eval-Sets, Regressionstests und den Aufruf-Pfad im Code. Wir bauen das Eval-Set als Migrationsvertrag neu auf, bevor ein Modellwechsel angesetzt wird.
Nicht jeder Prompt migriert sauber. Kurze, strukturierte Prompts mit Tool-Aufrufen lassen sich mit leichtem Tuning portieren. Lange Chain-of-Thought-Prompts für ein bestimmtes Frontier-Modell brauchen oft eine Umschrift, fachlastige Aufgaben zusätzlich ein Fine-Tune.
Wir frieren das Eval-Set als Vertrag ein, bevor ein Modell gewechselt wird. Side-by-Side-Läufe vergleichen Apertus und den bisherigen Anbieter auf denselben Eingaben, bewertet nach Qualität, Latenz und Kosten. Die Suite muss die Qualität des Altsystems erreichen.
Wir nennen keine Pauschalzahl — der Unterschied hängt von Promptlänge, Tool-Use-Tiefe, Durchsatzmuster und Hosting ab. Das Audit liefert am Ende eine Kosten-pro-Aufgabe-Tabelle, die die bisherige API-Linie gegen Apertus auf Schweizer Hosting bei Ihrem Lastprofil stellt.
Standardweg ist zuerst Shadow-Traffic: Apertus läuft parallel zum bestehenden Anbieter auf echten Anfragen, Antworten werden gescort, aber nicht ausgeliefert. Hält die Regressionssuite, übernimmt ein Canary-Anteil Live-Traffic. Der Vollwechsel folgt erst danach.
Über SAPIENTROQ
Sind Sie an einer Lösung interessiert?
Wir freuen uns, Ihnen die Möglichkeiten unverbindlich aufzuzeigen.

Roland Kurmann
CEO, SAPIENTROQ