Weder Big Tech noch gigantische Rechenzentren sind nötig, um auf LLMs und agentische Workflows zuzugreifen», sagt Tino Bächtold, CEO und Mitgründer von
Onprem.ai. Das Schaffhauser Start-up stellt sich damit klar gegen das gängige Narrativ, dass man auf die grossen, meist amerikanischen Anbieter setzen muss, um in der neuen AI-Welt zu bestehen. Stattdessen bietet das Unternehmen Boxen an, auf denen LLMs lokal, On-Prem betrieben werden können. «Gerade wenn es um vertrauliche Daten geht, können wir eine datenschutzkonforme Alternative bieten», erklärt Bächtold. Benutzt ein Anwaltsbüro zum Beispiel eine Cloud-Lösung, um vertrauliche Dokumente zu digitalisieren, archivieren oder auch um mit dem Archiv «zu reden», hat diese Lösung im Allgemeinen eine Schnittstelle zu gängigen Anbietern wie OpenAI oder Anthrophic. «Die so angesprochene AI-Funktionalität setzt aber voraus, dass die Daten unverschlüsselt im RAM des Anbieters liegen. Das ist problematisch.»
Onprem.ai löst dies einfach über die Anpassung der anwendungsinternen Schnittstelle. «Wir passen die SaaS-Lösung des Anwalts so an, dass sie neu auf die lokale IP der eigenen Box zeigt, statt auf die Big-Tech-API. Die Funktionalität bleibt gleich.» Dass moderne Funktionalitäten dutzende GPUs benötigen, ist in Bächtolds Augen ein weiterer Mythos des LLM-Booms.
Datenschutzkonforme und preiswerte AI
Onprem.ai zielt mit seinem Angebot klar auf den Schweizer KMU-Markt, um agentische Lösungen datenschutzkonform und zu einem kompetitiven Preis anzubieten. «Unsere Preise reflektieren bereits die realen Kosten. Dies im Gegensatz zu LLMs aus dem Netz. Denn obwohl auch hier mittlerweile die Preise steigen, sind gängige Modelle nach wie vor stark subventioniert.»
Die Idee zu ihrer Lösung kam den Gründern vor drei Jahren während eines Webinars: «Gezeigt wurde eine Legal-Tech-KI-Lösung für Anwälte. Kundenbedenken, dass Daten dabei in die Big-Tech-Cloud fliessen, hat der Anbieter im Wesentlichen kleingeredet. Er hat die Kundenbedürfnisse praktisch ignoriert. Wir sahen das sofort als Marktlücke.» Bächtold und sein Mitgründer Thomas Polach schrieben sich während des Seminars die ganze Zeit Nachrichten und kauften die Onprem.ai-Domäne just in diesem Moment.
Onprem.ai zielt aber nicht nur auf Anwälte. «Überall, wo agentische Workflows und LLMs in Prozesse integriert werden, sind wir eine einfache Alternative.»
Dabei ist das Onboarding relativ einfach, denn das Start-up hat einen eigenen Server-Cluster im Luftschutzbunker (bunker.onprem.ai) aufgebaut. Neue Server oder Nodes können per Plug and Play eingesteckt werden und Kunden können die für sie relevante Funktionalität via Internet testen. Zum Beispiel für OCR-relevante Workflows oder Prozesse, die auf Bilderkennung basieren. Der neue Server wird bei
Onprem.ai hochgefahren, die SaaS-API des Kunden auf den Standort in Schaffhausen umgelegt. Es folgt etwas customizing – und fertig.
Plug and Play AI Server
Ist der Kunde zufrieden, wird der Server ausgesteckt, verpackt und vor Ort geliefert. Das funktioniert unter anderem gut, da auf dem Gerät keine Daten liegen. «Wir liefern AI Compute Out of the Box.»
Das Herzstück ist die hauseigene Orchestrierungs-Software, die das Load-Balancing übernimmt. Das funktioniert im On-Premises-Rechenzentrum genauso wie beim Kunden. «Die Lösung ist Kubernetes-basiert. Die Funktionalität haben wir uns von den grossen Rechenzentren abgeschaut und für unsere Bedürfnisse neu entwickelt.» Je nach Grösse des Kunden reicht die kleinste Box, um Compute für zehn bis 30 Mitarbeiter zu liefern. Wird mehr nötig, bestellt der Kunde einfach eine zweite Box. «Die muss man nur anschliessen. Die Skalierung ist automatisch», so Bächtold. Theoretisch liessen sich Nodes auch via Internet zusammenschliessen: Zum Beispiel wenn zwei Schulen ihr Compute verbinden wollen, physisch aber in zwei verschiedenen Gemeinden stehen.
Das Unternehmen ist seit 2023 am Markt und hat schon zahlreiche Kunden gewonnen. Neben der Hardware liefert
Onprem.ai auch massgeschneiderte Software, die auf spezifische Geschäftsprozesse zugeschnitten ist.
Gerade im produzierenden Gewerbe sieht Bächtold eine grosse Nachfrage: «Überall dort, wo repetitive Aufgaben anfallen – etwa Maschinenkonfigurationen anhand einer Teilbeschreibung oder die Erstellung von Dokumenten aus verschiedenen Quellen – setzen unsere Lösungen an.» Gerade hier stehen viele Hersteller Uploads ins Netz kritisch gegenüber. «Sie befürchten, dass das Know-how abfliesst.» Und bei Onprem.ai sind die Nodes häufig nicht einmal ans Internet angeschlossen.
Gleichzeitig ist die Lösung resilient: «Fällt eine Node aus, übernehmen die anderen. Wegen des guten Load-Balancings ist das unproblematisch.» Und selbst bei einem Verlust der Node – zum Beispiel durch verschütteten Kaffee – ist der Schaden gering. «Es sind im Allgemeinen keine Daten auf der Node. Deswegen sind keine Backups nötig.»
Kleiner, nicht unbedingt klüger
Je nach Anwendung empfiehlt
Onprem.ai verschiedene Open-Weight-Modelle. «Wir beobachten ständig den Markt und es gibt mittlerweile viele gute Alternativen, nicht nur aus den USA.» Der Kunde kann sich eine Übersicht auf der Homepage des Unternehmens anschauen. Bächtold ist AI-Fan, sieht aber auch die Grenzen der Technologie: Ob die LLMs klüger werden, ist für ihn unklar. «Sie werden aber sicher kleiner. Das ist gut für uns», freut sich Bächtold.
Um seine Lösungen in einen breiteren Markt zu tragen, arbeitet das Start-up auch mit Software-Providern wie Agorum, Gieni AG, RedInk oder Lunoaautomate zusammen.
Schliesslich kann Onprem.AI mit Preistransparenz punkten, denn die Anzahl verwendeter Tokens ist preisunabhängig. Die Box gehört dem Kunden und er zahlt den Stromverbrauch. Bächtold sieht das aktuelle Pricing bei Big Tech, dass immer anhand der verbrauchten Tokens ausgerichtet ist, kritisch. Die Finanzplanung ist damit schwierig, weil am Anfang nicht immer klar ist, wie viele Tokens nötig sind, um zum Ziel zu kommen. «Intelligenz sollte eine Flatrate sein!»