Wie Isambard-AI 5.448 Grafikprozessoren in 4 Monaten einsetzte: Die neue Blaupause für KI-Infrastruktur
Wenn man ein umgebautes Lagerhaus im National Composites Centre in Bristol betritt, findet man dort 150 Tonnen modernster Computerhardware, die hinter flüssigkeitsgekühlten Schränken brummt: Isambard-AI, der leistungsstärkste Supercomputer für künstliche Intelligenz im Vereinigten Königreich. In den Schlagzeilen wird zwar die KI-Leistung von 21 Exaflops gefeiert, aber dabei wird übersehen, welche außergewöhnlichen infrastrukturellen Herausforderungen das Team bewältigt hat, um dieses 225 Millionen Pfund teure Projekt in nur 24 Monaten online zu stellen. Vor fünf Jahren? Unmöglicher Zeitrahmen.
Der Einsatz der 5.448 NVIDIA Grace Hopper Superchips von Isambard-AI zeigt eine bedeutende Entwicklung. Der Erfolg im Bereich KI-Computing hängt jetzt von mehr als nur dem Kauf von Grafikprozessoren ab. Sie müssen das komplexe Ökosystem aus Stromversorgung, Kühlung, Netzwerken und Logistik beherrschen, das eine moderne KI-Infrastruktur erfordert. Unternehmen, die groß angelegte GPU-Einsätze planen, sollten diese Herausforderungen und die zu ihrer Bewältigung erforderliche Fachkompetenz besser verstehen.
Wenn 5 Megawatt auf 150 Tonnen Silizium treffen
Die Größe von Isambard-AI bricht mit dem traditionellen Denken in Rechenzentren. Jeder der 12 HPE Cray EX4000-Schränke beherbergt 440 GPUs und erzeugt eine Wärmedichte, die herkömmliche Systeme zum Schmelzen bringen würde. Herkömmliche Luftkühlung hat mit mehr als 20 kW pro Rack zu kämpfen. Isambard-AI? Über 400 kW pro Schrank. Die Lösung war eine 100 %ige direkte Flüssigkeitskühlung, deren Implementierung jedoch völlig neue Fähigkeiten erforderte.
"Was wir mit Implementierungen wie Isambard-AI sehen, ist eine grundlegende Veränderung in Bezug darauf, was Rechenzentrumsexpertise ausmacht", zeigt die Landschaft der Infrastrukturbereitstellung. Unternehmen, die sich früher auf den traditionellen Rack-and-Stack-Betrieb konzentrierten, benötigen jetzt Ingenieure, die sich mit der Dynamik der Flüssigkeitskühlung, dem Management von Kabeln mit hoher Dichte und der gleichzeitigen Inbetriebnahme von Tausenden von GPUs auskennen. Das Team der University of Bristol arbeitete mit spezialisierten Implementierungspartnern zusammen, um über 40.000 Glasfaserverbindungen zu installieren. Das ist genug Verkabelung, um eine kleine Stadt einzukreisen. Und sie mussten die Präzision aufrechterhalten, die für die NVLink-Verbindungen der 5. Generation des Systems erforderlich ist, die mit 1,8 TB/s arbeiten.
Und jetzt kommt der Clou: Das Projekt wurde in weniger als vier Monaten von der Vertragsunterzeichnung bis zur Inbetriebnahme abgeschlossen. Wie das? Spezialisierte Unternehmen für die Bereitstellung von GPU-Infrastrukturen können jetzt Hunderte von qualifizierten Technikern innerhalb von 72 Stunden mobilisieren. Dabei handelt es sich nicht um herkömmliche IT-Firmen. Es handelt sich um spezialisierte Teams, die die spezifischen Drehmomentspezifikationen für Flüssigkühlungsanschlüsse und die optimale Reihenfolge kennen, in der Tausende von Grafikprozessoren in Betrieb genommen werden können, ohne dass die Stromversorgungssysteme überlastet werden.
Die verborgene Komplexität der KI-gestützten Infrastruktur
Herkömmliche Supercomputer werden für KI-Arbeitslasten umgerüstet. Isambard-AI wurde von Grund auf für Anwendungen der künstlichen Intelligenz entwickelt. Ihr KI-first-Ansatz beeinflusste jede Infrastrukturentscheidung. Das Team entschied sich für das modulare Rechenzentrumsdesign von HPE und baute es vor Ort in nur 48 Stunden auf. Das Team entschied sich für eine kohlenstofffreie Stromversorgung, die das System auf Platz 4 der weltweiten Rangliste für Energieeffizienz bringt.
Allein die Netzwerkinfrastruktur stellt eine gewaltige technische Koordinationsleistung dar. Das HPE Slingshot 11-Netzwerk des Systems bietet eine bidirektionale Bandbreite von 25,6 Tb/s über 64 Ports, wobei jeder Knoten 800 Gbit/s an Netzwerkinjektionsbandbreite erhält. Die Installation und Validierung dieses komplexen Netzes von Verbindungen erforderte spezielles Fachwissen im Bereich Hochleistungsnetzwerke, das weit über typische Unternehmensimplementierungen hinausgeht. Moderne GPU-Infrastrukturspezialisten müssen die physikalische Ebene verstehen UND wissen, wie sich verschiedene Verbindungstopologien auf die Leistung von KI-Workloads auswirken.
Die Stromversorgung stellte eine besondere Herausforderung dar. Die Gesamtleistung der Isambard-AI-Anlage von 5 MW mag zwar im Vergleich zu Hyperscale-Rechenzentren bescheiden erscheinen, doch die Dichte und Kritikalität dieser Stromversorgung stellen besondere Anforderungen. Jeder Grace Hopper Superchip erfordert eine präzise Stromversorgung. Bei 5.448 Chips, die gemeinsam betrieben werden, können schon geringe Schwankungen zu einer Instabilität des Systems führen. Das Entwicklungsteam implementierte hochentwickelte Energieverwaltungssysteme mit Echtzeit-Überwachungsfunktionen, die Anomalien innerhalb von Millisekunden erkennen und darauf reagieren können.
Von Europas Wettlauf um die KI-Infrastruktur lernen
Der Einsatz von Isambard-AI erfolgte in einer Zeit, in der die europäischen Länder intensiv um die Vorherrschaft der KI konkurrierten. Das finnische LUMI-System bietet 380 Petaflops an herkömmlicher Rechenleistung. Deutschlands kommender Supercomputer Jupiter verspricht, Europas erstes Exascale-System zu werden. Doch Isambard-AI erreichte den Betriebsstatus schneller als alle anderen europäischen Systeme. In weniger als zwei Jahren wurde das System vom ersten Vorschlag bis zum vollständigen Betrieb gebracht. Vergleichen Sie das mit der typischen Zeitspanne von 4-5 Jahren für vergleichbare Systeme.
Dieser Geschwindigkeitsvorteil ist zum Teil auf die gestrafften Beschaffungsprozesse im Vereinigten Königreich nach dem Brexit zurückzuführen. Noch wichtiger ist jedoch, dass er aus der Entwicklung der GPU-Bereitstellungsmethodik resultiert. Traditionelle Supercomputer-Installationen erfolgten in aufeinanderfolgenden Phasen: Infrastruktur, dann Hardware, dann Netzwerke, dann Software. Moderne GPU-Installationen nutzen parallele Arbeitsabläufe. Spezialisierte Teams arbeiten gleichzeitig an der Installation der Flüssigkeitskühlung, der Inbetriebnahme der Grafikprozessoren und der Netzwerkkonfiguration, wodurch sich die Zeitspanne drastisch verkürzt.
Der Kontrast zu anderen europäischen Einsätzen lehrt wertvolle Lehren. Das spanische MareNostrum 5 erforderte trotz seiner beeindruckenden Spezifikationen eine umfangreiche Nachrüstung bestehender Anlagen. Beim italienischen Leonardo-System kam es zu Verzögerungen bei der Integration der KI-Beschleunigungsfunktionen. Der Erfolg von Isambard-AI zeigt, dass eine speziell entwickelte KI-Infrastruktur, die von Teams mit spezifischem GPU-Fachwissen eingesetzt wird, schnellere Ergebnisse liefern kann als nachgerüstete HPC-Systeme.
Die Wissenslücke bedroht KI-Ambitionen
Unternehmen auf der ganzen Welt stürzen sich auf die Bereitstellung von KI-Infrastrukturen, doch es ist eine kritische Qualifikationslücke entstanden. Herkömmlichen Technikern in Rechenzentren, auch wenn sie noch so erfahren sind, fehlt es oft an den speziellen Kenntnissen, die für moderne GPU-Einsätze erforderlich sind. Flüssigkeitskühlungssysteme erfordern ein Verständnis der Fluiddynamik und des Wärmemanagements. GPU-Konfigurationen mit hoher Dichte erfordern Fachkenntnisse in Bezug auf die Stromversorgung und die Optimierung der Luftströme, die über die herkömmliche Serverbereitstellung hinausgehen.
Diese Wissenslücke ist in mehreren Bereichen am stärksten ausgeprägt. Das Kabelmanagement für GPU-Cluster hat sich zu einer Spezialdisziplin entwickelt. Die Tausenden von Hochgeschwindigkeitsverbindungen von Isambard-AI erfordern eine präzise Verlegung, um die Signalintegrität aufrechtzuerhalten und gleichzeitig einen Wartungszugang zu ermöglichen. Stromversorgungs- und Kühlungstechniker müssen nicht nur die stationären Anforderungen verstehen, sondern auch das dynamische Verhalten von KI-Workloads, die innerhalb von Millisekunden von Leerlauf auf volle Leistung umschalten können.
Unternehmen wie introl.com sind entstanden, um diese Lücke zu füllen, indem sie spezialisierte Teams entwickelt haben, die traditionelle Rechenzentrumsfähigkeiten mit GPU-spezifischem Fachwissen kombinieren. Die Bereitstellung von Systemen mit mehr als 1.000 GPU-Knoten zeigt, in welchem Maßstab diese neue Art von Infrastrukturspezialisten arbeitet. Die Fähigkeit, 40 Techniker innerhalb einer Woche zu mobilisieren, wie dies bei den jüngsten großen GPU-Cloud-Anbietern der Fall war, stellt eine neue betriebliche Fähigkeit dar, die es in der traditionellen Rechenzentrumsbranche nicht gab.
Über die Bereitstellung hinaus: Nachhaltige KI-Infrastruktur-Exzellenz
Die Herausforderungen enden nicht, wenn die letzte GPU eingeschaltet wird. Die Aufrechterhaltung eines Systems wie Isambard-AI erfordert eine kontinuierliche Optimierung und ein proaktives Management. Das Team der University of Bristol hat ausgeklügelte Überwachungssysteme implementiert, die alles von den GPU-Nutzungsmustern bis hin zu den Kühlmittelflussraten verfolgen. Mit dem 850 GB großen einheitlichen Speicheradressraum des Systems pro Knoten können selbst kleine Ineffizienzen die Forschungsproduktivität erheblich beeinträchtigen.
Die moderne GPU-Infrastruktur erfordert einen DevOps-Ansatz für physische Systeme. Firmware-Updates müssen von Entwicklungsteams sorgfältig für Tausende von Geräten orchestriert werden. Kühlsysteme erfordern eine vorausschauende Wartung auf der Grundlage von Nutzungsmustern und Umgebungsbedingungen. Netzwerkkonfigurationen müssen kontinuierlich angepasst werden, um die sich entwickelnden Arbeitslastmuster zu optimieren. Diese betriebliche Komplexität treibt die Entwicklung spezialisierter Servicemodelle voran, bei denen Infrastrukturpartner eine kontinuierliche Optimierung statt einer einmaligen Bereitstellung bieten.
Die wirtschaftlichen Auswirkungen sind gravierend. Jeder Grace Hopper Superchip stellt eine beträchtliche Kapitalinvestition dar. Die Leerlaufzeit wirkt sich direkt auf die Investitionsrendite aus. Unternehmen, die große GPU-Cluster einsetzen, verlassen sich zunehmend auf Partner, die nicht nur die Installation, sondern auch laufende Optimierungsdienste anbieten können. Um die von führenden KI-Infrastrukturen angestrebten Auslastungsraten von über 95 % aufrechtzuerhalten, ist eine ständige Überwachung der Arbeitslastplanung, der Ressourcenzuweisung und des Systemzustands erforderlich.
Die Zukunft der KI-Infrastruktur gestalten
Der erfolgreiche Einsatz von Isambard-AI bietet entscheidende Lehren für Unternehmen, die ihre eigenen KI-Infrastrukturinitiativen planen. Erstens: Die Zeit, in der GPUs als einfache Serverkomponenten behandelt wurden, ist vorbei. Moderne KI-Systeme erfordern ein ganzheitliches Denken in Bezug auf Stromversorgung, Kühlung, Vernetzung und Betrieb bereits in den frühesten Planungsphasen. Zweitens werden die von Isambard-AI erreichten kurzen Zeiträume (vom Konzept bis zum Betrieb in weniger als zwei Jahren) zum neuen Standard, allerdings nur für Unternehmen, die mit spezialisierten Implementierungsteams zusammenarbeiten.
In Zukunft werden die Herausforderungen an die Infrastruktur noch zunehmen. Die Blackwell-Architektur von NVIDIA verspricht noch höhere Leistungsdichten, wobei einige Konfigurationen 1.000 W pro GPU überschreiten. Die Flüssigkeitskühlung wird sich von einer fortschrittlichen Option zu einer absoluten Notwendigkeit entwickeln. Die Anforderungen an die Netzwerkbandbreite werden weiter exponentiell ansteigen, da die Modellgrößen in Richtung 10 Billionen Parameter gehen. Unternehmen, die keinen Zugang zu spezialisiertem GPU-Infrastruktur-Know-how haben, werden in der KI-Revolution immer weniger konkurrenzfähig sein.
Die Investition des Vereinigten Königreichs in Isambard-AI ist mehr als nur eine technische Leistung. Sie ist eine Blaupause dafür, wie Nationen und Organisationen schnell eine KI-Infrastruktur von Weltklasse aufbauen können. Durch die Kombination von speziell angefertigten Einrichtungen, optimierten Beschaffungsprozessen und Partnerschaften mit spezialisierten Einsatzteams zeigt das Projekt, dass die Infrastrukturherausforderungen des KI-Zeitalters zwar gewaltig, aber keineswegs unüberwindbar sind. Für diejenigen, die bereit sind, in das richtige Fachwissen und die richtigen Partnerschaften zu investieren, war der Weg vom ehrgeizigen Ziel zum einsatzbereiten KI-Supercomputer noch nie so einfach wie heute.
Universitäten, Unternehmen und Regierungen auf der ganzen Welt erwägen ihre eigenen KI-Infrastrukturinvestitionen. Isambard-AI ist der Beweis dafür, dass mit dem richtigen Ansatz und den richtigen Partnern selbst die ehrgeizigsten GPU-Implementierungen mit Innovationsgeschwindigkeit vom Vorschlag zur Produktion übergehen können. Die Frage ist nicht mehr, ob man eine KI-Infrastruktur aufbauen soll, sondern ob man Zugang zu dem spezialisierten Fachwissen hat, das erforderlich ist, um es richtig zu machen.
Referenzen
Allianz Chemical. "AI GPU-Kühlungsrevolution: Deionisiertes Wasser, Ethylenglykol und Propylen." Alliance Chemical. Zugriff am 1. August 2025. https://alliancechemical.com/blogs/articles/ai-gpu-cooling-revolution-deionized-water-ethylene-glycol-propylene-glycol-the-ultimate-liquid-cooling-guide.
Computer Weekly. "Bristol geht mit britischem KI-Supercomputer in Betrieb". Computer Weekly, 2025. https://www.computerweekly.com/news/366584173/Bristol-goes-live-with-UK-AI-supercomputer.
Computer Weekly. "Die britische Regierung sagt 225 Millionen Pfund für den Bau eines KI-Supercomputers an der Universität Bristol mit HPE zu". Computer Weekly, November 2023. https://www.computerweekly.com/news/366558036/UK-government-pledges-225m-to-fund-University-of-Bristol-AI-supercomputer-build-with-HPE.
Rechenzentrum Wissen. "Direct-to-Chip-Flüssigkeitskühlung: Optimierung der Effizienz von Rechenzentren." Data Center Knowledge. Abgerufen am 1. August 2025. https://www.datacenterknowledge.com/cooling/direct-to-chip-liquid-cooling-optimizing-data-center-efficiency.
Gemeinsames Unternehmen EuroHPC. "Einweihung von MareNostrum 5: Europa begrüßt einen neuen Supercomputer von Weltrang". December 21, 2023. https://www.eurohpc-ju.europa.eu/inauguration-marenostrum-5-europe-welcomes-new-world-class-supercomputer-2023-12-21_en.
Gemeinsames Unternehmen EuroHPC. "MareNostrum5: ein neuer EuroHPC-Supercomputer der Weltklasse in Spanien". June 16, 2022. https://eurohpc-ju.europa.eu/marenostrum5-new-eurohpc-world-class-supercomputer-spain-2022-06-16_en ..
Forschungszentrum Jülich. "JUPITER Technical Overview". Zugriff am 1. August 2025. https://www.fz-juelich.de/en/ias/jsc/jupiter/tech.
GOV.UK. "Sovereign AI AIRR launch opportunity: call for researchers". Accessed August 1, 2025. https://www.gov.uk/government/publications/sovereign-ai-airr-launch-opportunity-call-for-researchers/sovereign-ai-airr-launch-opportunity-call-for-researchers..
Hewlett-Packard Enterprise. "Die britische Regierung investiert 225 Millionen Pfund, um gemeinsam mit der Universität Bristol und Hewlett Packard Enterprise den leistungsstärksten KI-Supercomputer Großbritanniens zu entwickeln." Pressemitteilung, November 2023. https://www.hpe.com/us/en/newsroom/press-release/2023/11/uk-government-invests-225m-to-create-uks-most-powerful-ai-supercomputer-with-university-of-bristol-and-hewlett-packard-enterprise.html..
HPCwire. "University of Bristol to Host Isambard-AI Supercomputer, Marking a New Era in AI and HPC." HPCwire. Zugriff am 1. August 2025. https://www.hpcwire.com/off-the-wire/university-of-bristol-to-host-isambard-ai-supercomputer-marking-a-new-era-in-ai-and-hpc/.
Hyperstack. "Alles über die NVIDIA Blackwell GPUs: Architektur, Funktionen, Chip-Specs." Zugriff am 1. August 2025. https://www.hyperstack.cloud/blog/thought-leadership/everything-you-need-to-know-about-the-nvidia-blackwell-gpus.
IBM. "Introl Solutions, LLC." IBM PartnerPlus Verzeichnis. Zugriff am 1. August 2025. https://www.ibm.com/partnerplus/directory/company/9695.
Einführung. "GPU Infrastructure Deployments | Optimize Your GPU Deployments". Accessed August 1, 2025. https://introl.com/gpu-infrastructure-deployments..
Introl. "Introl - GPU Infrastructure & Data Center Deployment Experts." Accessed August 1, 2025. https://introl.com ..
Introl. "Introl | GPU Infrastructure, Data Center Solutions & HPC Deployment". Accessed August 1, 2025. https://introl.com/blog.
IT Pro. "Isambard-AI: Der leistungsstärkste Supercomputer Großbritanniens". IT Pro. Accessed August 1, 2025. https://www.itpro.com/infrastructure/inside-isambard-ai-the-uks-most-powerful-supercomputer.
IT4Innovationen. "LUMI". Zugriff am 1. August 2025. https://www.it4i.cz/en/infrastructure/lumi.
Jetcool. "Was ist direkte Flüssigkeitskühlung für KI-Rechenzentren?" Abgerufen am 1. August 2025. https://jetcool.com/post/what-is-direct-liquid-cooling-for-ai-data-centers/.
NVIDIA. "NVLink & NVSwitch für erweiterte Multi-GPU-Kommunikation". Zugriff am 1. August 2025. https://www.nvidia.com/en-us/data-center/nvlink/.
NVIDIA. "The Engine Behind AI Factories | NVIDIA Blackwell Architecture". Accessed August 1, 2025. https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/ ..
NVIDIA Blog. "NVIDIA Blackwell Plattform steigert die Wassereffizienz um das 300-fache". Accessed August 1, 2025. https://blogs.nvidia.com/blog/blackwell-platform-water-efficiency-liquid-cooling-data-centers-ai-factories/ ..
ResearchGate. "Isambard-AI: ein Supercomputer der Spitzenklasse, der speziell für künstliche Intelligenz optimiert ist". Oktober 2024. https://www.researchgate.net/publication/384938455_Isambard-AI_a_leadership_class_supercomputer_optimised_specifically_for_Artificial_Intelligence..
SDxCentral. "Großbritanniens 300-Millionen-Dollar-Supercomputer Isambard-AI geht offiziell an den Start". SDxCentral. Zugriff am 1. August 2025. https://www.sdxcentral.com/news/uks-300m-isambard-ai-supercomputer-officially-launches/.
TechTarget. "Der Moment der Flüssigkeitskühlung kommt dank der KI". TechTarget. Zugriff am 1. August 2025. https://www.techtarget.com/searchdatacenter/feature/Liquid-coolings-moment-comes-courtesy-of-AI.
Der Ingenieur. "Isambard AI Supercomputer startet in Bristol". The Engineer. Zugriff am 1. August 2025. https://www.theengineer.co.uk/content/news/isambard-ai-supercomputer-launches-in-bristol/.
UK Forschung und Innovation. "300 Millionen Pfund für die erste Phase der neuen KI-Forschungsressource". Abgerufen am 1. August 2025. https://www.ukri.org/news/300-million-to-launch-first-phase-of-new-ai-research-resource/.
Universität von Bristol. "2023: Isambard AI Bristol." Cabot Institute for the Environment. Zugriff am 1. August 2025. https://www.bristol.ac.uk/cabot/news/2023/isambard-ai-bristol.html.
Universität von Bristol. "Juli: Der leistungsstärkste Supercomputer Großbritanniens geht in Bristol an den Start". Nachrichten und Features, Juli 2025. https://www.bristol.ac.uk/news/2025/july/isambard-launch.html.
Universität von Bristol. "November: Beispiellose 225-Millionen-Pfund-Investition zur Schaffung des leistungsstärksten Supercomputers Großbritanniens". Nachrichten und Beiträge, November 2023. https://www.bristol.ac.uk/news/2023/november/supercomputer-announcement.html.
Wikipedia. "Blackwell (Microarchitecture)". Accessed August 1, 2025. https://en.wikipedia.org/wiki/Blackwell_(microarchitecture).
Wikipedia. "LUMI". Zugriff am 1. August 2025. https://en.wikipedia.org/wiki/LUMI.
"Isambard-AI: ein Supercomputer der Spitzenklasse, der speziell für künstliche Intelligenz optimiert ist". arXiv preprint arXiv:2410.11199 (2024). http://arxiv.org/pdf/2410.11199.