Red Hat AI 3 führt verteilte KI-Inferenz für KI-Workloads im produktiven Einsatz ein

14. Okt. 2025

Red Hat AI 3 führt verteilte KI-Inferenz für KI-Workloads im produktiven Einsatz ein

Die hybride, Cloud-native KI-Plattform von Red Hat vereinfacht KI-Workflows und bietet leistungsstarke neue Inferenz-Funktionen. Damit schafft sie die Grundlage für den breiten Einsatz von Agentic AI und befähigt IT-Teams und KI-Entwickler, Innovationen schneller und effizienter voranzutreiben.

München, 14. Oktober 2025 – Red Hat, der weltweit führende Anbieter von Open-Source-Lösungen, hat heute mit Red Hat AI 3eine umfangreiche Weiterentwicklung seiner Enterprise-AI-Plattform angekündigt. Die Kombination der neuesten Funktionen von Red Hat AI Inference Server, Red Hat Enterprise Linux AI (RHEL AI) und Red Hat OpenShift AI hilft dabei, die Komplexität von hochperformanter KI-Inferenz deutlich zu reduzieren. Unternehmen können ihre Workloads damit sehr viel schneller von einem Proof-of-Concept in die Produktionsphase überführen und die Zusammenarbeit rund um KI-gestützte Anwendungen verbessern.

Immer mehr Unternehmen haben die experimentelle Phase ihrer KI-Projekte abgeschlossen und stehen jetzt vor erheblichen Herausforderungen – darunter Datenschutz, Kostenkontrolle und dem Management einer Vielzahl von Modellen. Der Report The GenAI Divide: State of AI in Business des Massachusetts Institute of Technology NANDA Project zeigt die Realität von KI im Betrieb: Rund 95 Prozent der Unternehmen erzielen keine messbaren finanziellen Erträge aus Investitionen in Höhe von rund 40 Milliarden US-Dollar.

Red Hat AI 3 zielt darauf ab, Lösungen für diese Herausforderungen zu liefern. Die Plattform bietet CIOs und IT-Führungskräften eine einheitliche und konsistente Umgebung, mit der sie ihre Investitionen in leistungsstarke Computing-Technologien maximieren können. Damit ist es ebenfalls möglich, KI-Workloads schneller zu skalieren sowie über hybride Multi-Vendoren-Umgebungen zu verteilen – und gleichzeitig die teamübergreifende Zusammenarbeit an modernen KI-Workloads wie Agenten zu verbessern. Aufbauend auf offenen Standards unterstützt Red Hat AI 3 Unternehmen genau dort, wo sie sich aktuell auf ihrer KI-Reise befinden. Die Plattform unterstützt jedes Modell auf jedem KI-Beschleuniger, von Rechenzentren über Public-Cloud- und souveräne KI-Umgebungen bis hin zum Edge.

Vom Training in die Praxis: Der Wandel hin zu Enterprise-KI-Inferenz

Wenn Unternehmen KI-Projekte in die Produktion überführen, verschiebt sich der Fokus von Training und Feinabstimmung der Modelle hin zur Inferenz – also der Produktionsphase. Red Hat AI 3 legt den Schwerpunkt auf skalierbare und kosteneffiziente Inferenz, die auf den erfolgreichen Community-Projekten vLLM und llm-d sowie der Expertise zur Modelloptimierung von Red Hat basiert, um die produktionsreife und zuverlässige Bereitstellung großer Sprachmodelle (LLMs) zu ermöglichen.

Um CIOs dabei zu unterstützen, das Maximum aus ihren hochwertigen Hardwarebeschleunigern herauszuholen, führt Red Hat OpenShift AI 3 die allgemeine Verfügbarkeit von llm-d ein, die eine native Ausführung von LLMs auf Kubernetes völlig neu denkt. llm-d ermöglicht eine intelligente, verteilte Inferenz, nutzt den bewährten Ansatz der Kubernetes-Orchestrierung und die Performance von vLLM in Kombination mit zentralen Open-Source-Technologien wie der Kubernetes Gateway API Inference Extension, der NVIDIA Dynamo Low Latency Data Transfer Library (NIXL) sowie der DeepEP Mixture of Experts (MoE) Communication Library. Daraus ergibt sich eine Reihe an Vorteilen für Unternehmen:

Sinkende Kosten und steigende Effizienz durch disaggregiertes Serving, was zu einer besseren Performance pro investiertem Euro führt.
Einfache Bedienung und maximale Zuverlässigkeit dank vordefinierter „Well-lit Paths“, die die Bereitstellung von Modellen auch im großen Maßstab auf Kubernetes optimieren.
Maximale Flexibilität durch eine plattformübergreifende Unterstützung der Bereitstellung von LLM-Inferenz auf verschiedenen Hardware-Beschleunigern, darunter NVIDIA und AMD.

llm-d baut auf vLLM auf und entwickelt die Single-Node-Hochleistungs-Inferenz-Engine zu einem verteilten, konsistenten und skalierbaren Serving-System weiter. Ziel ist eine vorhersehbare Performance, messbarer ROI und effektive Infrastrukturplanung. Alle Verbesserungen adressieren direkt die Herausforderungen, die mit der Verarbeitung hochvariabler LLM-Workloads und der Bereitstellung umfangreicher Modelle wie Mixture-of-Experts-Modellen (MoE) verbunden sind.

Eine einheitliche Plattform für kollaborative KI

Mit Red Hat AI 3 bietet Red Hat jetzt eine einheitliche, flexible Plattform an, die ganz konkret auf die kollaborativen Anforderungen bei der Entwicklung produktionsreifer generativer KI-Lösungen zugeschnitten ist. Sie wurde entwickelt, um die Arbeit mit KI stark zu vereinfachen und durch die Förderung der teamübergreifenden Zusammenarbeit und einheitlichen Workflows spürbaren Mehrwert zu schaffen. Die Plattform bietet damit sowohl Plattform- als auch KI-Ingenieuren eine gemeinsame Umgebung, um ihre KI-Strategie gemeinsam umzusetzen. Zu den neuen Funktionen, die darauf ausgerichtet sind, die für die Skalierung vom Proof-of-Concept bis zur Produktion erforderliche Produktivität und Effizienz zu gewährleisten, gehören:

Model-as-a-Service-Funktionen (MaaS) basieren auf verteilter Inferenz und ermöglichen es IT-Teams, als eigene MaaS-Anbieter zu agieren, gängige Modelle zentral bereitzustellen und sowohl KI-Entwicklern als auch KI-Anwendungen On-Demand-Zugriff zu gewähren. Dies ermöglicht ein besseres Kostenmanagement und unterstützt Anwendungsfälle, die aufgrund von Datenschutz- oder Privacy-Bedenken nicht auf öffentlichen KI-Diensten ausgeführt werden können.
Der KI-Hub ermöglicht es Plattformingenieuren, grundlegende KI-Assets zu suchen, bereitzustellen und zu verwalten. Der zentrale Hub enthält einen kuratierten Katalog von Modellen, einschließlich validierter und optimierter Gen-AI-Modelle, einem Register zur Verwaltung des Lebenszyklus von Modellen und einer Produktivumgebung zur Konfiguration und Überwachung aller auf OpenShift AI laufenden KI-Assets.
Gen AI Studio bietet KI-Ingenieuren eine praktische Umgebung, in der sie mit Modellen interagieren und Prototypen für KI-Anwendungen der neuen Generation noch schneller erstellen können. Mit der KI-Assets-Endpunktfunktion können Ingenieure verfügbare Modelle und MCP-Server (Model Context Protocol), die die Interaktion von Modellen mit externen Tools optimieren sollen, leichter finden und nutzen. Der integrierte Playground bietet dabei eine interaktive, zustandslose Umgebung, um mit Modellen zu experimentieren, Eingabeaufforderungen zu testen und Parameter für Anwendungsfälle wie Chat und Retrieval-Augmented Generation (RAG) anzupassen.
Neue von Red Hat validierte und optimierte Modelle sind enthalten, um die Entwicklung zu vereinfachen. Die kuratierte Auswahl umfasst beliebte Open-Source-Modelle wie gpt-oss von OpenAI, DeepSeek-R1 und spezialisierte Modelle wie Whisper für die Sprache-zu-Text-Umwandlung und Voxtral Mini für sprachgesteuerte Agenten.

Das Fundament für die nächste Generation von KI-Agenten

KI-Agenten sind dabei, die Art und Weise, wie Anwendungen entwickelt werden, grundlegend zu verändern. Dabei stellen ihre komplexen autonomen Workflows allerdings hohe Anforderungen an die Inferenz-Fähigkeiten. Mit der Version Red Hat OpenShift AI 3 legt Red Hat das Fundament für skalierbare agentenbasierte KI-Systeme – nicht nur durch erweiterte Inferenz-Funktionen, sondern auch durch neue Features und Verbesserungen, die sich speziell an das Management von Agenten richten.

Um die Erstellung und Bereitstellung von Agenten zu beschleunigen, hat Red Hat einen Unified API Layer auf Basis des Llama Stack eingeführt, um die Entwicklung konkret an Branchenstandards wie OpenAI auszurichten. Darüber hinaus setzt sich Red Hat für ein offeneres und interoperableres Ökosystem ein und gehört zu den frühen Anwendern des Model Context Protocol. Der aufstrebende leistungsstarke Standard soll die Interaktion von KI-Modellen mit externen Tools vereinfachen, eine zentrale Funktion moderner KI-Agenten.

Red Hat AI 3 führt darüber hinaus ein neues modulares und erweiterbares Toolkit zur Modellanpassung ein, das auf der bestehenden InstructLab-Funktionalität aufbaut. Es umfasst spezialisierte Python-Bibliotheken, die Entwicklern mehr Flexibilität und Kontrolle bieten. Grundlage des Toolkit sind Open-Source-Projekte wie Docling für die Datenverarbeitung, das die Aufnahme unstrukturierter Dokumente in ein KI-lesbares Format deutlich vereinfacht. Außerdem enthält das Toolkit ein flexibles Framework zur Erzeugung synthetischer Daten sowie einen Trainings-Hub für das Finetuning von LLMs. Ein integrierter Evaluations-Hub unterstützt KI-Ingenieure bei der Überwachung und Validierung ihrer Ergebnisse – und ermöglicht es ihnen, ihre eigenen Daten gezielt zu nutzen, um noch genauere und relevantere KI-Modelle zu entwickeln.

Zitate

Joe Fernandes, Vice President und General Manager, AI Business Unit, Red Hat
„Wenn Unternehmen ihre KI-Projekte von der Experimentierphase in den produktiven Einsatz überführen, sehen sie sich neuen Herausforderungen gegenüber – vor allem bei Komplexität, Kosten und Kontrolle. Mit Red Hat AI 3 stellen wir eine Open-Source-Plattform auf Enterprise-Niveau bereit, die genau diese Hürden abbaut. Dank neuer Funktionen wie verteilter Inferenz mit llm-d und einer soliden Basis für agentenbasierte KI unterstützen wir IT-Teams dabei, die nächste Generation von KI-Lösungen souverän, flexibel und auf jeder Infrastruktur zu betreiben.“

Dan McNamara, Senior Vice President und General Manager, Server and Enterprise AI, AMD
„Red Hat bringt die verteilte KI-Inferenz in die Produktion – und AMD ist stolz darauf, die leistungsstarke Grundlage dafür bereitzustellen. Gemeinsam haben wir die Effizienz der AMD EPYC-Prozessoren, die Skalierbarkeit der AMD Instinct-GPUs und die Offenheit des AMD ROCm-Software-Stacks integriert, um Unternehmen dabei zu unterstützen, den Schritt von der Experimentierphase zur operativen Umsetzung der nächsten KI-Generation zu meistern – und Leistung sowie Skalierbarkeit in echten geschäftlichen Mehrwert zu verwandeln, über On-Premises-, Cloud- und Edge-Umgebungen hinweg.“

Mariano Greco, Chief Executive Officer, ARSAT
„Als Anbieter von Konnektivitätsinfrastruktur für Argentinien verarbeitet ARSAT enorme Mengen an Kundeninteraktionen und sensiblen Daten. Wir brauchten eine Lösung, die über einfache Automatisierung hinausgeht – hin zu Augmented Intelligence – und zugleich volle Datensouveränität für unserer Kunden gewährleistet. Durch den Aufbau unserer agentischen KI-Plattform auf Basis von Red Hat OpenShift AI sind wir innerhalb von nur 45 Tagen vom identifizierten Bedarf zur Live-Produktion gelangt. Red Hat OpenShift AI hat uns nicht nur geholfen, unseren Service zu verbessern und den Aufwand unserer Ingenieure für Supportanfragen zu reduzieren, sondern auch Freiräume geschaffen, damit sie sich auf Innovation und neue Entwicklungen konzentrieren können.“

Rick Villars, Group Vice President, Worldwide Research, IDC
„Das Jahr 2026 wird einen Wendepunkt markieren. Unternehmen werden dann von der reinen Einführung von KI hin zu klar messbaren und wiederholbaren Geschäftsergebnissen aus ihren Investitionen übergehen. Während sich die ersten Projekte auf das Trainieren und Testen von Modellen konzentrierten, liegt der eigentliche Wert – und die eigentliche Herausforderung – darin, modellbasierte Erkenntnisse effizient, sicher und kosteneffizient in den operativen Betrieb zu überführen. Diese Entwicklung erfordert moderne Infrastrukturen sowie Daten- und Anwendungsumgebungen mit sofort einsatzfähigen, produktionsreifen Inferenzfunktionen, die reale Skalierung und Komplexität bewältigen können. Insbesondere auch deswegen, weil Agentic AI die Inferenzlasten massiv erhöht. Erfolgreiche Unternehmen werden diejenigen sein, die eine einheitliche Plattform schaffen, um diese zunehmend anspruchsvollen Workloads in hybriden Cloud-Umgebungen zu orchestrieren – und nicht isoliert in einzelnen Silos.“

Ujval Kapasi, Vice President, Engineering AI Frameworks, NVIDIA
„Eine skalierbare, leistungsstarke Inferenz ist der Schlüssel zur nächsten Generation generativer und agentenbasierter KI. Mit der integrierten Unterstützung für eine beschleunigte Inferenz mit den Open-Source-Technologien NVIDIA Dynamo und NIXL bietet Red Hat AI 3 eine einheitliche Plattform, die Teams in die Lage versetzt, schnell von der Experimentierphase zur Ausführung anspruchsvoller KI-Workloads und -Agenten auch im großen Maßstab überzugehen.“

Zusätzliche Ressourcen

Erfahren sie mehr über Red Hat AI 3
Direkt zum Blog über Red Hat AI 3
Zum gesamten Webinar über die Neuheiten und Zukunftspläne von Red Hat AI
Erfahren Sie mehr über das Ökosystem aus KI-Partnern von Red Hat

Weitere Informationen zu Red Hat

Erfahren Sie mehr über Red Hat
Lesen Sie Neuigkeiten und Presseinformationen im Red Hat Newsroom oder im Red Hat Blog
Folgen Sie Red Hat auf X, Facebook, YouTube und LinkedIn

Über Red Hat, Inc.

Red Hat ist der führende Anbieter von Open-Hybrid-Cloud-Technologien und bietet damit eine vertrauenswürdige, konsistente und umfassende Grundlage für transformative IT-Innovationen und KI-Anwendungen. Das Portfolio an Cloud-, Entwickler-, KI-, Linux-, Automatisierungs- und Applikationsplattform-Technologien ermöglicht den Einsatz jeder Anwendung an jedem Ort – vom Rechenzentrum bis zum Edge. Als weltweit führender Anbieter von Enterprise-Open-Source-Softwarelösungen investiert Red Hat in offene Ökosysteme und Communities, um die IT-Herausforderungen von morgen zu bewältigen. In Zusammenarbeit mit Partnern und Kunden unterstützt Red Hat beim Aufbau, der Vernetzung, der Automatisierung, der Sicherung und der Verwaltung von IT-Umgebungen, unterstützt durch Consulting-Services und preisgekrönte Trainings- und Zertifizierungsangebote.

Forward-Looking Statements

Except for the historical information and discussions contained herein, statements contained in this press release may constitute forward-looking statements within the meaning of the Private Securities Litigation Reform Act of 1995. Forward-looking statements are based on the company’s current assumptions regarding future business and financial performance. These statements involve a number of risks, uncertainties and other factors that could cause actual results to differ materially. Any forward-looking statement in this press release speaks only as of the date on which it is made. Except as required by law, the company assumes no obligation to update or revise any forward-looking statements.

###

Red Hat, Red Hat Enterprise Linux, the Red Hat logo and OpenShift are trademarks or registered trademarks of Red Hat, Inc. or its subsidiaries in the U.S. and other countries. Linux® is the registered trademark of Linus Torvalds in the U.S. and other countries.

Pressekontakt

PR-COM GmbH
Kathleen Hahn
Account Director
Sendlinger-Tor-Platz 6
D-80336 München
Tel. 089-59997-763
kathleen.hahn@pr-com.de