Schweizer souveränes LLM-Hosting
Was souveränes Hosting in CH liefert
Apertus im CH-Datacenter
Apertus 8B oder 70B läuft auf einem Schweizer GPU-Cluster bei Exoscale, Infomaniak oder AWS Zürich, über den offenen Stack — vLLM oder Text-Generation-Inference hinter einem privaten Endpoint. Kein Prompt, keine Antwort und kein Embedding verlässt Schweizer Boden. Genau das trennt echtes schweizer llm-hosting von einer CH-Fassade über US-Backend.
Datenresidenz-Vertragsklauseln
Wir entwerfen Datenresidenz-Zusätze, die die primäre Inferenz-Region, die Backup-Region, die Log-Ziele und die berechtigten Personen benennen. Die Klauseln liegen neben dem Vertrag als faktische Deployment-Zusagen, nicht als Rechtsberatung. Ihre Rechtsabteilung behält das letzte Wort, der Text spiegelt die Realität.
FINMA-, Kantons-, Health-Posture
Für FINMA-Banken, kantonale Verwaltungen und MDR- oder IVDR-Lasten implementieren wir Apertus unter den Kontrollen, die diese Regime fordern: dokumentierte Datenflüsse, benannte Verarbeiter, Aufbewahrungsfristen, Zugriffslogs. SAPIENTROQ hält keine FINMA-, MDR- oder IVDR-Zertifizierung — wir bauen unter dem Regime, wenn der Kunde es trägt.
Monitoring und Observability CH
Metriken, Traces und Request-Logs landen auf Schweizer Speicher; Dashboards und Alerting laufen auf derselben CH-Plattform wie das Modell. Incident-Zeitleisten, Prompt-Audits und Observability-Daten bleiben im gleichen Residenz-Umschlag wie die Inferenz, sodass eine forensische Prüfung nie einer Anfrage ins Ausland folgen muss.
Datenresidenz der Backups
Backups von Modellgewichten, Vektor-Indizes und Request-Speichern replizieren ausschliesslich in der Schweiz — primär in einer CH-Region, sekundär in einer zweiten. Der Vertrag nennt beide. Disaster Recovery überschreitet keine Grenze, sodass die ch datenresidenz llm-Haltung auch eine Störung übersteht, nicht nur einen ruhigen Tag.
Audit der souveränen Routen
Wir prüfen den gesamten Request-Pfad — Load Balancer, API-Gateway, Modell-Proxy, Telemetrie — auf Hops, die in US-geroutete Endpoints auflösen. Ergebnis: eine Routing-Karte als Nachweis, dass kein US-Gateway zwischen Browser und Apertus sitzt. Evaluation und POC nutzt dieselbe Karte.
Souveräner Hosting-Weg
Residenz-Scoping
Wir kartieren die einschlägigen Regime — FINMA, kantonaler Datenschutz, MDR oder IVDR — und die Datenklassen im Scope. Ergebnis: ein Residenz-Scope, der festhält, was in der CH bleiben muss und was der Vertrag zusagt.
Wahl des CH-Hosts
Wir vergleichen Exoscale, Infomaniak und AWS Zürich gegen den Scope — GPU-Verfügbarkeit für Apertus 8B oder 70B, Netztopologie, Backup-Region und Operator-Standort. Wir wählen den Host nach Last, nicht nach Marke.
Vertragsklauseln
Wir entwerfen den Datenresidenz-Zusatz: primäre Region, Backup-Region, Telemetrie-Ziel, benannte Operatoren, Aufbewahrungsfristen. Faktische Deployment-Sprache, die den Bau beschreibt, an Ihre Rechtsabteilung übergeben.
Infrastruktur-Aufbau
Wir bauen den GPU-Cluster, den Serving-Stack, den privaten Endpoint und die Netzkontrollen. Apertus läuft auf vLLM oder TGI; die Anwendungsschicht — Laravel, Next.js, PostgreSQL mit pgvector — sitzt in derselben CH-Region.
Monitoring verdrahten
Metriken, Traces und Prompt-Audit-Logs gehen in Schweizer Sinks. Alerting erreicht Ihren Pikettdienst über CH-Kanäle. Jede Anfrage trägt eine Trace-ID, die sie an Deployment, Modellversion und Residenz-Klausel bindet.
Compliance-Übergabe
Wir übergeben das Deployment an Compliance und Audit mit Residenz-Karte, Routing-Audit, Vertragsklauseln, Operator-Liste und Log-Retention. Eine FINMA- oder Kantons-Prüfung startet von Evidenz, nicht vom Workshop.
Wir kartieren die einschlägigen Regime — FINMA, kantonaler Datenschutz, MDR oder IVDR — und die Datenklassen im Scope. Ergebnis: ein Residenz-Scope, der festhält, was in der CH bleiben muss und was der Vertrag zusagt.
Wir vergleichen Exoscale, Infomaniak und AWS Zürich gegen den Scope — GPU-Verfügbarkeit für Apertus 8B oder 70B, Netztopologie, Backup-Region und Operator-Standort. Wir wählen den Host nach Last, nicht nach Marke.
Wir entwerfen den Datenresidenz-Zusatz: primäre Region, Backup-Region, Telemetrie-Ziel, benannte Operatoren, Aufbewahrungsfristen. Faktische Deployment-Sprache, die den Bau beschreibt, an Ihre Rechtsabteilung übergeben.
Wir bauen den GPU-Cluster, den Serving-Stack, den privaten Endpoint und die Netzkontrollen. Apertus läuft auf vLLM oder TGI; die Anwendungsschicht — Laravel, Next.js, PostgreSQL mit pgvector — sitzt in derselben CH-Region.
Metriken, Traces und Prompt-Audit-Logs gehen in Schweizer Sinks. Alerting erreicht Ihren Pikettdienst über CH-Kanäle. Jede Anfrage trägt eine Trace-ID, die sie an Deployment, Modellversion und Residenz-Klausel bindet.
Wir übergeben das Deployment an Compliance und Audit mit Residenz-Karte, Routing-Audit, Vertragsklauseln, Operator-Liste und Log-Retention. Eine FINMA- oder Kantons-Prüfung startet von Evidenz, nicht vom Workshop.
Vertrag schlägt Regions-Label
Souveränität ist ein Vertrag, keine Hosting-Region
Eine Schweizer IP auf der Marketingseite macht ein Deployment nicht souverän. Roland Kurmann formuliert es so: "Sovereignty isn't a hosting region. It's a contract that names the disks, names the backups, names the people who can touch them — and a deployment that doesn't leak a single request through a US-routed API gateway on the way to inference." Das ist die Definition, gegen die wir bauen, und die Linie, die entscheidet, welche Schweizer Hosting-Angebote real sind und welche nur eine CH-Fassade über fremdem Backend bilden.
Kein US-Gateway im Request-Pfad
Viele "Schweizer" LLM-Angebote stellen ein CH-Frontend vor ein US-geroutetes API-Gateway. Der erste Hop verlässt das Land, bevor die Inferenz beginnt, und die Residenz-Haltung ist weg. Wir prüfen die volle Routing-Karte Ende-zu-Ende, damit finma konformes llm-hosting wirklich heisst, dass Anfrage, Antwort und Logs in der Schweiz blieben — nachweisbar in den Trace-Daten, nicht behauptet.
Der Unterschied zu On-Prem
Wer ein eigenes Rechenzentrum betreibt und jedes Byte unter eigenem Dach will, ist beim On-Prem-Apertus-Deployment richtig. Souveränes Hosting ist die Option für Kunden, die in der Schweiz bleiben müssen, aber keine eigene GPU-Flotte fahren — Schweizer Rechenzentrum plus schriftlicher Vertrag tragen die Residenz-Haltung statt eigenem Blech.
Was gehostet wird und wo der Start liegt
Die meisten Lasten unter schweizer souveränes llm-hosting fallen in zwei Formen: Apertus-RAG über Ihr internes Korpus und einen Dokument-QA-Copilot. Wer noch entscheidet, ob Apertus passt, beginnt mit der Evaluation und einem POC oder einem Beratungs-Discovery. Der Apertus-Hub deckt die volle Strecke ab.
Häufig gestellte Fragen
Jedes Byte Inferenz, jedes Backup und jedes Log liegt auf Schweizer Infrastruktur unter Vertrag. Der Vertrag nennt primäre Region, Backup-Region, Operatoren und Fristen. Der Request-Pfad wird geprüft, sodass kein US-Gateway zwischen Kunde und Modell steht.
Wir deployen auf Exoscale (CH), Infomaniak (CH) oder AWS Zürich (regional). Die Wahl hängt an GPU-Verfügbarkeit für 8B oder 70B, Netztopologie und der Strenge beim Operator-Standort. Exoscale und Infomaniak sind Schweizer Anbieter; AWS Zürich ist eine regionale Landing Zone.
Die Klausel nennt die primäre Inferenz-Region, Backup- und DR-Region, Telemetrie- und Log-Ziele sowie die berechtigten Personen. Trainingsdaten nur bei Fine-Tuning; bei reiner Inferenz und RAG decken wir Korpus-Residenz und Vektor-Store im selben Zusatz ab.
Wir implementieren die geforderten Kontrollen — dokumentierter Datenfluss, benannte Verarbeiter, Aufbewahrungsfristen, Zugriffslogs, Meldewege. SAPIENTROQ hält keine FINMA-, MDR- oder IVDR-Zertifizierung; wir bauen unter dem Regime des Kunden, mit Evidenz-Übergabe.
On-Prem fährt Apertus im eigenen RZ — jedes Byte unter eigenem Dach, eigene Operatoren. Souveränes Hosting fährt es in der Schweiz auf einem Drittanbieter-RZ mit schriftlichem Vertrag. Gleiche Haltung, anderer Betreiber. On-Prem mit GPU-Flotte, Hosting ohne.
Metriken, Traces, Prompt-Audit-Logs und Incident-Zeitleisten landen auf Schweizer Speicher; Dashboards und Alerting laufen auf derselben CH-Plattform. Eine forensische Prüfung folgt keiner Anfrage ins Ausland — Observability liegt im selben Umschlag wie die Inferenz.
Über SAPIENTROQ
Sind Sie an einer Lösung interessiert?
Wir freuen uns, Ihnen die Möglichkeiten unverbindlich aufzuzeigen.

Roland Kurmann
CEO, SAPIENTROQ