Red Hat AI Inference Server beschleunigt GenAI in der Hybrid Cloud mit jedem KI-Modell und auf jedem KI-Beschleuniger

20. Mai 2025

Red Hat AI Inference Server beschleunigt GenAI in der Hybrid Cloud mit jedem KI-Modell und auf jedem KI-Beschleuniger

Red Hat AI Inference Server basiert auf dem vLLM-Projekt und integriert Technologien von Neural Magic. Er ermöglicht ein schnelleres, leistungsfähigeres und kosteneffizienteres KI-Inferencing über die gesamte Hybrid Cloud hinweg.

BOSTON – RED HAT SUMMIT, 20. Mai 2025 – Red Hat, der weltweit führende Anbieter von Open-Source-Lösungen, hat heute Red Hat AI Inference Server angekündigt, der einen bedeutenden Schritt bei der Demokratisierung von generativer KI (GenAI) in der Hybrid Cloud darstellt. Er ist Teil von Red Hat AI und basiert auf dem starken Community-Projekt vLLM, das durch die Integration der Technologien von Neural Magic weiter verbessert wurde. Damit bietet Red Hat AI Inference Server mehr Geschwindigkeit, eine höhere Beschleunigereffizienz und eine größere Kosteneffektivität – und hilft, die Vision von Red Hat zu verwirklichen, dass jedes GenAI-Modell auf jedem KI-Beschleuniger in jeder Cloud-Umgebung laufen kann. Unabhängig davon, ob er eigenständig oder als integrierte Komponente von Red Hat Enterprise Linux AI (RHEL AI) und Red Hat OpenShift AI eingesetzt wird, handelt es sich um eine wegweisende Plattform, die Unternehmen in die Lage versetzt, GenAI risikofrei bereitzustellen und zu skalieren.

Inferencing ist das Ausführen von KI, bei dem vortrainierte Modelle aus Daten nutzbare Ergebnisse generieren. Es ist die entscheidende Phase bei der Interaktion von Nutzern mit KI und verlangt nach schnellen und genauen Antworten. Da GenAI-Modelle immer komplexer und in immer größerem Umfang produktiv eingesetzt werden, kann das Inferencing zum Flaschenhals werden. Es verschlingt viele Hardware-Ressourcen, beeinträchtigt die Reaktionsfähigkeit und treibt die Kosten in die Höhe. Unternehmen sind daher auf robuste Inference-Server angewiesen, wenn sie das Potenzial von KI ausschöpfen und die damit verbundenen Herausforderungen besser bewältigen wollen.

Red Hat unterstützt Unternehmen bei der Bewältigung dieser Herausforderungen mit Red Hat AI Inference Server – einer offenen Inference-Lösung, die mit Blick auf hohe Leistung entwickelt wurde und branchenführende Tools für die Komprimierung und Optimierung von Modellen mitbringt. Dieser innovative Ansatz ermöglicht es Unternehmen, das transformative Potenzial von GenAI vollständig zu erschließen und mit kurzen Reaktionszeiten optimale Nutzererfahrungen zu bieten. Gleichzeitig profitieren sie von einer beispiellosen Freiheit bei der Auswahl von KI-Beschleunigern, Modellen und IT-Umgebungen.

Inferencing-Innovationen dank vLLM

Red Hat AI Inference Server basiert auf dem branchenführenden vLLM-Projekt, das Mitte 2023 von der University of California in Berkeley ins Leben gerufen wurde. Das Community-Projekt hat eine Inference-Engine für LLMs entwickelt, die sich durch einen hohen Durchsatz auszeichnet und Eingaben mit langem Kontext, Multi-GPU-Modellbeschleunigung, Continuous Batching und mehr unterstützt.

Die breite Unterstützung von öffentlich verfügbaren Modellen in Verbindung mit der Tag-0-Integration von Modellen des Frontier Model Forum – darunter DeepSeek, Gemma, Llama, Mistral und Phi – sowie von offenen Reasoning-Modellen für Unternehmen wie Llama Nemotron macht vLLM zum De-facto-Standard für zukünftige Innovationen beim KI-Inferencing. Die führenden Anbieter von Frontier-Modellen setzen zunehmend auf vLLM und festigen damit dessen entscheidende Rolle bei der Gestaltung der GenAI-Zukunft.

Inference-Server mit Enterprise-Funktionalitäten

Red Hat AI Inference Server kombiniert die Innovationen von vLLM mit den Enterprise-Fähigkeiten von Red Hat. Er ist sowohl als containerisierte Stand-alone-Lösung als auch als Teil von RHEL AI und Red Hat OpenShift AI verfügbar.

In jeder Bereitstellungsumgebung liefert Red Hat Inference Server den Nutzern eine gehärtete und unterstützte Distribution von vLLM mit:

intelligenten Komprimierungstools zur deutlichen Reduzierung der Größe von Basismodellen und feingetunten Modellen. Dadurch wird der Verbrauch von Rechenressourcen minimiert, während die Modellgenauigkeit beibehalten und möglicherweise auch verbessert wird.
einem optimierten Modell-Repository, gehostet im Bereich von Red Hat AI bei Hugging Face. Dort besteht direkter Zugriff auf eine validierte und optimierte Sammlung von führenden KI-Modellen, die sofort einsatzbereit sind. Auf diese Weise wird die Bereitstellung von KI um das Zwei- bis Vierfache beschleunigt, ohne die Modellgenauigkeit zu beeinträchtigen.
Enterprise-Support von Red Hat und jahrzehntelanger Erfahrung beim Einsatz von Community-Projekten in Produktivumgebungen.
Third-Party-Support für eine noch flexiblere Bereitstellung. Gemäß den Third-Party-Support-Richtlinien von Red Hat kann Red Hat AI Inference Server auf Linux- und Kubernetes-Plattformen eingesetzt werden, die nicht von Red Hat stammen.

Die Vision von Red Hat: Jedes Modell auf jedem Beschleuniger in jeder Cloud

KI bietet grenzenlose Möglichkeiten – allerdings nur, wenn sie nicht durch Infrastruktursilos eingeschränkt wird. Red Hat setzt sich daher für eine KI-Zukunft ein, in der Unternehmen beliebige KI-Modelle auf beliebigen KI-Beschleunigern in beliebigen Clouds nutzen können. Auf diese Weise entstehen außergewöhnliche und konsistente Nutzererfahrungen ohne exorbitante Kosten. Um das wahre Potenzial ihrer KI-Investitionen zu erschließen, sind Unternehmen jedoch auf eine universelle Inference-Plattform angewiesen, die einen Standard für nahtlose und leistungsfähige KI-Erfahrungen setzt, sowohl heute als auch in den nächsten Jahren.

So wie Red Hat mit der Transformation von Linux zum Grundpfeiler einer modernen IT bereits die Basis für ein „Open Enterprise“ geschaffen hat, ist das Unternehmen nun bereit, die Zukunft des KI-Inferencing zu gestalten. Dabei setzt Red Hat auf vLLM, das das Potenzial hat, zum Dreh- und Angelpunkt für standardisiertes GenAI-Inferencing zu werden. Das Ziel von Red Hat ist es, ein florierendes Ökosystem nicht nur rund um die vLLM-Community, sondern auch um llm-d für verteiltes Inferencing zu schaffen.

Red Hat Summit

Weitere Informationen zum Red Hat AI Inference Server gibt es auch auf dem Red Hat Summit. In den Keynotes geben Führungskräfte, Kunden und Partner einen Überblick über wichtige Neuigkeiten und Entwicklungen:

Modernized infrastructure meets enterprise-ready AI – Dienstag, 20. Mai, 14:00 bis 16:00 Uhr MESZ (YouTube)
Hybrid cloud evolves to deliver enterprise innovation – Mittwoch, 21. Mai, 14:00 bis 15:30 Uhr MESZ (YouTube)

Zitate

Joe Fernandes, Vice President und General Manager, AI Business Unit, Red Hat
„Inferencing ist der Bereich, in dem das Versprechen von GenAI eingelöst wird. Wenn Nutzer mit einem KI-Modell interagieren, erwarten sie schnelle und korrekte Antworten – und das Modell muss diese Antworten effektiv und kosteneffizient liefern. Red Hat AI Inference Server wurde entwickelt, um dem Bedarf an hochperformantem, responsivem Inferencing in großem Maßstab gerecht zu werden und dabei die Ressourcenanforderungen gering zu halten. Er stellt einen gemeinsamen Inference-Layer für beliebige Modelle bereit, die auf beliebigen Beschleunigern in beliebigen Umgebungen laufen können.“

Ramine Roane, Corporate Vice President, AI Product Management, AMD
„In Zusammenarbeit mit Red Hat liefert AMD sofort einsatzbereite Lösungen, um den Einsatz generativer KI in Unternehmen voranzutreiben. Red Hat AI Inference Server auf AMDs Instinct-GPUs stattet Unternehmen mit KI-Inferencing-Funktionen der Enterprise-Klasse aus, die von einer regen Community entwickelt wurden und von vollständig validierten Hardware-Beschleunigern unterstützt werden.“

Jeremy Foster, Senior Vice President and General Manager, Cisco
„KI-Workloads erfordern Geschwindigkeit, Konsistenz und Flexibilität, und genau das bietet Red Hat AI Inference Server. Die innovative Lösung bietet Cisco und Red Hat die Möglichkeit, weiterhin an neuen Wegen zu arbeiten, die KI-Implementierungen zugänglicher, effizienter und skalierbarer machen – und Unternehmen dabei helfen, sich auf die Zukunft vorzubereiten.“

Bill Pearson, Vice President, Data Center & AI Software Solutions and Ecosystem, Intel
„Intel freut sich, mit Red Hat zusammenzuarbeiten, um Red Hat AI Inference Server auf Intels Gaudi-Beschleunigern einsatzbereit zu machen. Diese Integration versorgt Unternehmen mit einer optimierten Lösung zur Rationalisierung und Skalierung von KI-Inferencing und liefert ihnen hohe Leistung und Effizienz für eine Vielzahl von Enterprise-KI-Anwendungen.“

John Fanelli, Vice President, Enterprise Software, NVIDIA
„Dank leistungsstarkem KI-Inferencing können Modelle und KI-Agenten nicht nur Antworten geben, sondern auch in Echtzeit schlussfolgern und sich anpassen. Mit den offenen und umfangreichen Computing-Fähigkeiten von NVIDIA und Red Hat AI Inference Server sind Entwickler in der Lage, Reasoning in großen Umgebungen in hybriden Clouds auszuführen – inklusive einer sicheren Bereitstellung mit Red Hat AI Inference Server auf dem neuen NVIDIA Enterprise AI Validated Design.“

Zusätzliche Informationen

Technischer Deep Dive in Red Hat AI Inference Server
Das sagen Führungskräfte von Red Hat zum Red Hat AI Inference Server
Mehr über Red Hat AI
Mehr über Red Hat OpenShift AI
Mehr über Red Hat Enterprise Linux AI
Mehr über das llm-d-Projekt
Aktuelle Updates zu Red Hat AI
Veranstaltungsseite zum Red Hat Summit
Red Hat Summit Newsroom mit allen Ankündigungen
Updates vom Event unter @RedHatSummit und #RHSummit auf X

Weitere Informationen zu Red Hat

Erfahren Sie mehr über Red Hat
Lesen Sie Neuigkeiten und Presseinformationen im Red Hat Newsroom oder im Red Hat Blog
Folgen Sie Red Hat auf X, Facebook, YouTube und LinkedIn

Über Red Hat, Inc.

Red Hat ist der führende Anbieter von Open-Hybrid-Cloud-Technologien und bietet damit eine vertrauenswürdige, konsistente und umfassende Grundlage für transformative IT-Innovationen und KI-Anwendungen. Das Portfolio an Cloud-, Entwickler-, KI-, Linux-, Automatisierungs- und Applikationsplattform-Technologien ermöglicht den Einsatz jeder Anwendung an jedem Ort – vom Rechenzentrum bis zum Edge. Als weltweit führender Anbieter von Enterprise-Open-Source-Softwarelösungen investiert Red Hat in offene Ökosysteme und Communities, um die IT-Herausforderungen von morgen zu bewältigen. In Zusammenarbeit mit Partnern und Kunden unterstützt Red Hat beim Aufbau, der Vernetzung, der Automatisierung, der Sicherung und der Verwaltung von IT-Umgebungen, unterstützt durch Consulting-Services und preisgekrönte Trainings- und Zertifizierungsangebote.

Forward-Looking Statements

Except for the historical information and discussions contained herein, statements contained in this press release may constitute forward-looking statements within the meaning of the Private Securities Litigation Reform Act of 1995. Forward-looking statements are based on the company’s current assumptions regarding future business and financial performance. These statements involve a number of risks, uncertainties and other factors that could cause actual results to differ materially. Any forward-looking statement in this press release speaks only as of the date on which it is made. Except as required by law, the company assumes no obligation to update or revise any forward-looking statements.

###

Red Hat, Red Hat Enterprise Linux, the Red Hat logo and OpenShift are trademarks or registered trademarks of Red Hat, Inc. or its subsidiaries in the U.S. and other countries. Linux® is the registered trademark of Linus Torvalds in the U.S. and other countries.

Pressekontakt

PR-COM GmbH
Melissa Gemmrich
Senior Account Manager
Sendlinger-Tor-Platz 6
D-80336 München
Tel. 089-59997-759
melissa.gemmrich@pr-com.de