Was umfasst ein Apertus-On-Prem-Deployment konkret?

Das Engagement deckt Installation, GPU-Sizing gegen Ihren echten Prompt-Mix, Inferenz-Server-Setup mit vLLM oder TGI, Monitoring im Observability-Stack, Lasttests gegen Ihre Abnahmemenge und eine produktive SLA ab. Discovery und ein Apertus-POC laufen im Vorlauf.

Welche GPU-Konfiguration braucht Apertus produktiv?

Das Sizing wird in der Discovery gegen Prompt-Mix, Konkurrenzlast und Latenzziele entschieden. Apertus-On-Prem-Cluster nutzen typischerweise H100-, A100- oder L40S-Klasse; die 8B-Variante toleriert kleinere und quantisierte Footprints, die 70B schwerere Hardware.

vLLM, Text-Generation-Inference oder llama.cpp — was wann?

vLLM ist der Standard für durchsatzstarke Serverseiten-Inferenz. TGI passt dort, wo die Hugging-Face-Operator-Oberfläche bereits im Einsatz ist. llama.cpp bleibt für Edge oder Entwickler-Laptops, nicht für Produktion. Die Wahl hängt am Konkurrenzprofil und am Betriebsteam.

Wie wird der Apertus-Cluster on-prem überwacht?

Apertus wird an Ihr bestehendes Prometheus und Grafana angebunden, mit Alerting an Ihr On-Call-System. Metriken decken GPU-Auslastung, Queue-Tiefe, Prompt- und Completion-Längen, Latenz und Fehlerklassen ab. Ihr Plattform-Team sieht die Inferenz wie jeden anderen Produktivdienst.

Wie lange dauert es von Auftrag zu produktiver Apertus-Inferenz?

Ein typisches Apertus-Produktiv-Deployment läuft sechs bis zehn Wochen von der Beauftragung bis zur Live-Inferenz, sofern GPUs verfügbar sind. Discovery und POC liegen davor; Fine-Tuning und RAG dahinter.

Home

Apertus Schweizer LLM — Implementierung und Integration

Apertus On-Prem Deployment

Apertus Schweizer LLM — Implementierung und Integration

Apertus On-Prem Deployment

Betreiben Sie Apertus, das Schweizer Open-Source-LLM, im eigenen Rechenzentrum oder in einer souveränen Swiss-Cloud. Wir dimensionieren GPUs zum Prompt-Mix, installieren vLLM oder TGI und bleiben bis zum Produktiv-Peak im Einsatz.

Was Apertus-On-Prem-Deployment umfasst

Discovery und Inferenz-Installation

Wir starten mit einer belastbaren Discovery — Workload-Klasse, Konkurrenzprofil, Latenz-Budget, regulatorischer Rahmen — und installieren den Inferenz-Server in Ihrem Estate. vLLM ist Standard für Apertus-On-Prem-Deployment; TGI passt für Teams auf der Hugging-Face-Oberfläche. Die Installation landet in Ihrer CI und Image-Registry.

GPU-Sizing auf Ihren Prompt-Mix

Produktives Sizing wird nicht aus dem Model-Card geraten. Wir benchmarken Apertus 8B und, wo nötig, die 70B-Variante gegen Ihre echte Prompt-Verteilung und Konkurrenz. Cluster landen auf H100-, A100- oder L40S-Klasse-Silizium; quantisierte Varianten erweitern die 8B-Klasse auf leichtere Hardware. Hardware kaufen Sie selbst oder aus der Cloud.

Monitoring in Ihren Stack

Apertus wird an Ihr bestehendes Prometheus und Grafana angebunden, mit Alerting an Ihr On-Call-System. Wir exponieren GPU-Auslastung, Queue-Tiefe, Prompt- und Completion-Längen, Latenz-Verteilung und Fehlerklassen — die Metriken, die Ihr Plattform-Team ohnehin liest. Kein paralleles Observability-Silo für die Inferenz.

Lasttests gegen Abnahmemenge

Vor dem Go-Live wird der Cluster gegen einen repräsentativen Request-Mix und eine Abnahmemenge aus Ihren echten Prompts geprüft. Nachhaltiger Durchsatz, p95 und p99 Latenz, Queue-Sättigung und Fehlerverhalten werden unter erwarteter und gestresster Konkurrenz gemessen und gemeinsam abgenommen. Produktion startet auf einer Messung.

Produktive SLA und On-Call

Die SLA ist auf die Workload-Klasse zugeschnitten — interaktiver Chat, Batch-Anreicherung oder Background-RAG — und deckt Reaktionsziele, On-Call-Fenster, Vorfallklassifikation und Eskalation ab. Ziele liegen auf dem Latenz-Budget, das die Anwendung tragen kann, vereinbart in der Discovery statt aus einem Standardtext kopiert.

Übergabe an Ihr Plattform-Team

Wissenstransfer ist Teil des Engagements, kein Folgeangebot. Runbooks, Skalierungs-Playbook, Kapazitätsmodell, Image-Rebuild-Pipeline und Vorfall-Prozeduren werden für Ihr Team geschrieben und geübt. Für die Hosting-Alternative siehe Swiss-Datensouveränität-Hosting.

Unser On-Prem-Vorgehen

Discovery und Rahmen
Workload-Klasse, Konkurrenz, Latenz-Budget und regulatorischer Rahmen — FINMA, kantonale Datenresidenz, Gesundheitsregulierung — werden in zwei bis vier Wochen erfasst. Das Ergebnis ist das Sizing-Briefing.
GPU-Sizing und Plan
Wir dimensionieren gegen Ihren echten Prompt-Mix und Ihre Konkurrenz, nicht gegen ein Standardrezept. Der Plan benennt GPU-Klasse (H100, A100 oder L40S), Node-Topologie, Netz- und Storage-Budget sowie 8B oder 70B.
Installation und Wahl
vLLM ist Standard; TGI wird gewählt, wo die Hugging-Face-Operator-Oberfläche bereits läuft; llama.cpp bleibt für Edge. Die Installation läuft durch Ihre Image-Pipeline, Ihren Secrets-Store und Ihre CI.
Monitoring und Alerting
Apertus liefert die Metriken, die Ihr Stack ohnehin spricht. Wir binden Prometheus-Scraping, Grafana-Dashboards und Alert-Regeln in Ihre bestehende Observability ein, mit On-Call-Routing über Ihr Paging-System.
Lasttest und Abnahme
Wir fahren einen repräsentativen Lasttest gegen Ihre Abnahmemenge unter erwarteter und gestresster Konkurrenz, erfassen p95- und p99-Latenz, Durchsatz und Fehlerverhalten und nehmen gemeinsam ab.
Go-Live und On-Call
Cutover läuft in einem definierten Fenster mit dokumentiertem Rollback. Wir bleiben durch den ersten Produktiv-Peak engagiert, übergeben Runbooks und Kapazitätsmodell und stehen unter SLA auf Abruf.

Workload-Klasse, Konkurrenz, Latenz-Budget und regulatorischer Rahmen — FINMA, kantonale Datenresidenz, Gesundheitsregulierung — werden in zwei bis vier Wochen erfasst. Das Ergebnis ist das Sizing-Briefing.

Wir dimensionieren gegen Ihren echten Prompt-Mix und Ihre Konkurrenz, nicht gegen ein Standardrezept. Der Plan benennt GPU-Klasse (H100, A100 oder L40S), Node-Topologie, Netz- und Storage-Budget sowie 8B oder 70B.

vLLM ist Standard; TGI wird gewählt, wo die Hugging-Face-Operator-Oberfläche bereits läuft; llama.cpp bleibt für Edge. Die Installation läuft durch Ihre Image-Pipeline, Ihren Secrets-Store und Ihre CI.

Apertus liefert die Metriken, die Ihr Stack ohnehin spricht. Wir binden Prometheus-Scraping, Grafana-Dashboards und Alert-Regeln in Ihre bestehende Observability ein, mit On-Call-Routing über Ihr Paging-System.

Wir fahren einen repräsentativen Lasttest gegen Ihre Abnahmemenge unter erwarteter und gestresster Konkurrenz, erfassen p95- und p99-Latenz, Durchsatz und Fehlerverhalten und nehmen gemeinsam ab.

Cutover läuft in einem definierten Fenster mit dokumentiertem Rollback. Wir bleiben durch den ersten Produktiv-Peak engagiert, übergeben Runbooks und Kapazitätsmodell und stehen unter SLA auf Abruf.

Warum Apertus on-prem mit uns

On-Prem ist die Arbeit — das Modell ist der einfache Teil

Wir installieren den Inferenz-Server, dimensionieren die GPUs gegen Ihren echten Prompt-Mix, binden Monitoring an Ihr bestehendes Prometheus und bleiben durch den ersten Produktiv-Peak auf Abruf. On-Prem ist die Arbeit — das Modell ist der einfache Teil.

Schweizer Lieferung für regulierte Workloads

Das Engineering-Team sitzt in der Schweiz und der EU; das Deployment landet in Ihrem Rechenzentrum oder in einer souveränen Swiss-Cloud. Der Rahmen passt zu FINMA, kantonaler Datenresidenz und Gesundheitsregulierung — wir implementieren unter diesen Regimes, wir verkaufen keine Zertifizierung. Für die Hosting-Alternative siehe Swiss-Datensouveränität-Hosting.

Sizing auf Ihrem Prompt-Mix, nicht auf einem Model-Card

GPU-Sizing wird in der Discovery gegen die Prompts entschieden, die Ihre Nutzer wirklich schicken, und gegen die Konkurrenz, die Sie wirklich sehen. Apertus-On-Prem-Cluster leben auf H100-, A100- oder L40S-Klasse-Hardware; 8B oder 70B werden nach Workload gewählt, nicht aus Begeisterung. Hardware bleibt kundenseitig beschafft.

Eine Plattform von POC über RAG bis Fine-Tuning

Dasselbe Engagement-Team, das den Produktiv-Rollout fährt, leitet auch den vorgelagerten Apertus-Evaluation-POC und die nachgelagerten Phasen Fine-Tuning und RAG-Integration. Das Plattform-Rückgrat — Laravel, Next.js, PostgreSQL mit pgvector, Redis, Mastra — liegt unter unseren Apertus-Swiss-LLM-Engagements und der AI-Consulting-Praxis.

Häufig gestellte Fragen

Das Engagement deckt Installation, GPU-Sizing gegen Ihren echten Prompt-Mix, Inferenz-Server-Setup mit vLLM oder TGI, Monitoring im Observability-Stack, Lasttests gegen Ihre Abnahmemenge und eine produktive SLA ab. Discovery und ein Apertus-POC laufen im Vorlauf.

Über SAPIENTROQ

Hallo! Ich bin dein KI-Assistent, entwickelt von SAPIENTROQ. Ich bin ein Sprachmodell, das mit einer RAG-Datenbank verbunden ist, die Informationen über unser Unternehmen enthält. Wenn du mehr über KI-Lösungen, reale Anwendungsfälle oder darüber erfahren möchtest, wie KI deinem Unternehmen helfen kann, stelle deine Fragen gerne in der Sprache deiner Wahl.

Wähle eine Option

Hallo! Ich bin ein KI-Agent, entwickelt von SAPIENTROQ 🤖

Sind Sie an einer Lösung interessiert?

Wir freuen uns, Ihnen die Möglichkeiten unverbindlich aufzuzeigen.

Roland Kurmann

CEO, SAPIENTROQ

Termin buchen

Apertus On-Prem Deployment

Was Apertus-On-Prem-Deployment umfasst

Unser On-Prem-Vorgehen

Discovery und Rahmen

GPU-Sizing und Plan

Installation und Wahl

Monitoring und Alerting

Lasttest und Abnahme

Go-Live und On-Call