40-250 kW pro Rack: Lösungen für Rechenzentren mit extremer Dichte
Rechenzentren, die vor fünf Jahren gebaut wurden, haben Mühe, 10 kW pro Rack zu kühlen. Heutige KI-Workloads erfordern mindestens 40 kW, wobei die nächste Generation von Installationen auf 250 kW abzielt. Die Lücke zwischen der bestehenden Infrastruktur und den modernen Anforderungen stellt ein 100-Milliarden-Dollar-Problem dar, das durch clevere Technik gelöst werden kann.
NVIDIAs GB200 NVL72-Systeme verbrauchen 140 kW in einer einzigen Rack-Konfiguration.¹ Microsofts neueste Azure-Implementierungen erreichen routinemäßig 50 kW pro Rack.² Google erreicht in seinen TPU-Pods eine Dichte von 60 kW.³ Die Infrastruktur, die die Cloud von gestern angetrieben hat, kann die KI von morgen nicht bewältigen, und Unternehmen stehen vor der Qual der Wahl: von Grund auf neu aufbauen oder kreative Lösungen entwickeln, die die Lücke schließen.
Die Physik der Abkühlung bei extremer Dichte
Die herkömmliche Luftkühlung auf dem Doppelboden versagt katastrophal bei einer Leistung von über 15 kW pro Rack. Die Heißluftrückführung kann zu thermischen Durchdrehungen führen, bei denen die Temperaturen außer Kontrolle geraten. Ein einziges 40-kW-Rack erzeugt die gleiche Wärme wie 14 ununterbrochen laufende Raumheizungen. Stellt man acht dieser Racks in eine Reihe, hat man es mit der Wärmeleistung eines kleinen Bürogebäudes zu tun, das auf 200 Quadratmeter komprimiert ist.
Die Ingenieure lösen die Herausforderungen extremer Dichte durch drei grundlegende Ansätze. Direkte Flüssigkeitskühlung bringt das Kühlmittel direkt zur Wärmequelle und entfernt 30-40 kW pro Rack mit Wärmetauschern an der Rückseite der Tür oder Kühlplatten. Bei der Eintauchkühlung werden ganze Systeme in dielektrische Flüssigkeiten getaucht, wodurch Dichten von 50-100 kW bewältigt werden können, ohne dass Lüfter erforderlich sind. Hybride Ansätze kombinieren mehrere Technologien, wobei Flüssigkeitskühlung für GPUs verwendet wird, während Luftkühlung für Komponenten mit geringerer Dichte beibehalten wird.
Die Mathematik spricht eindeutig für die Flüssigkeitskühlung. Der Wärmeübertragungskoeffizient von Wasser übertrifft den von Luft um das 3.500-fache.⁴ Ein einziger Liter Wasser kann die gleiche Wärme abführen wie 3.000 Kubikfuß Luft. Flüssigkeitsgekühlte Systeme erreichen PUE-Werte (Power Usage Effectiveness) von 1,02 bis 1,10, im Vergleich zu 1,4 bis 1,8 bei herkömmlicher Luftkühlung.⁵ Jede Verbesserung des PUE-Wertes um 0,1 spart in einer 10-MW-Anlage jährlich etwa 1 Million Dollar.⁶
Die Herausforderungen bei der Energieverteilung vervielfachen sich im großen Maßstab.
Die Einspeisung von 250 kW in ein einziges Rack erfordert eine grundlegende Umgestaltung der Strominfrastruktur. Herkömmliche 208-V-Stromkreise erfordern 1.200-Ampere-Verbindungen - Kabelverläufe, die dicker sind als ein menschlicher Arm. Moderne Anlagen setzen 415V- oder 480V-Verteilungen ein, um den Strombedarf zu senken, aber selbst diese Systeme erfordern massive Investitionen in Kupfer. Ein einziges 250-kW-Rack erfordert eine Stromversorgungsinfrastruktur, die derjenigen von 50 typischen Haushalten entspricht.
Die Außendiensttechniker von Introl treffen regelmäßig auf Einrichtungen, die versuchen, 5-kW-Konzepte für 40-kW-Lasten nachzurüsten. Sicherungsautomaten lösen ständig aus. Transformatoren überhitzen. Stromverteilungseinheiten fallen unter Lasten aus, für die sie nie ausgelegt waren. Unternehmen stellen oft fest, dass die gesamte Stromversorgungskapazität ihres Gebäudes nicht mehr als eine Handvoll High-Density-Racks unterstützen kann, was zu teuren Upgrades der Stromversorgung führt, die 18 bis 24 Monate in Anspruch nehmen.
Cleveres Stromdesign beginnt mit der Gleichstromverteilung, wo immer dies möglich ist. Gleichstrom eliminiert Umwandlungsverluste, die in herkömmlichen Wechselstromsystemen 10-15 % des Stroms verschwenden.⁷ Das Open Compute Project von Facebook hat gezeigt, dass die Gleichstromverteilung den Gesamtstromverbrauch um 20 % reduziert und gleichzeitig die Zuverlässigkeit verbessert.⁸ Moderne GPU-Systeme unterstützen zunehmend die direkte Gleichstromeingabe und eliminieren mehrere Umwandlungsstufen, die Wärme erzeugen und die Effizienz verringern.
Die mechanische Infrastruktur muss völlig neu konzipiert werden.
Standardböden in Rechenzentren halten 150-250 Pfund pro Quadratfuß aus. Ein voll beladenes 250-kW-Rack wiegt über 8.000 Pfund, konzentriert auf nur 10 Quadratfuß.⁹ Die Verstärkung des Bodens wird obligatorisch, was zusätzliche 50.000 bis 100.000 Dollar pro Rack für strukturelle Upgrades bedeutet. In erdbebengefährdeten Gebieten gibt es zusätzliche Herausforderungen, die spezielle Isolationssysteme erfordern, um Schäden an den Geräten bei Erdbeben zu verhindern.
Die Flüssigkeitskühlung führt zu einer neuen mechanischen Komplexität. Die Kühlmittelverteilung erfordert Pumpen, Wärmetauscher und Filtersysteme, die in herkömmlichen Anlagen fehlen. Eine flüssigkeitsgekühlte Anlage mit einer Leistung von 1 MW benötigt einen Kühlmitteldurchfluss von 400 bis 500 Litern pro Minute.¹⁰ Die Erkennung von Lecks ist von entscheidender Bedeutung - ein einziges Leck in der Kühlflüssigkeit kann in Sekundenschnelle Anlagen im Wert von Millionen von Dollar zerstören. Introl setzt eine dreifach redundante Leckerkennung mit automatischen Absperrventilen ein, die innerhalb von 100 Millisekunden nach Erkennen von Feuchtigkeit aktiviert werden.
Allein die Rohrleitungsinfrastruktur stellt eine enorme Investition dar. Kupferrohre kosten $30-$ 50 pro linearem Fuß, installiert.¹¹ Eine einzige Reihe von flüssigkeitsgekühlten Racks erfordert 500-1.000 Fuß an Rohrleitungen für Zu- und Rücklauf. Verteiler, Ventile und Anschlusspunkte kosten zusätzlich 20.000 bis 30.000 Dollar pro Rack. Die mechanische Infrastruktur kostet oft mehr als die Computerausrüstung, die sie unterstützt.
Die Netzarchitektur passt sich den Dichteanforderungen an.
Computing mit extremer Dichte erfordert eine noch nie dagewesene Netzwerkbandbreite. Jeder NVIDIA H100 Grafikprozessor benötigt für eine optimale Leistung eine Netzwerkkonnektivität von 400 Gbps.¹² Ein Server mit 8 GPUs benötigt eine Gesamtbandbreite von 3,2 TBps - mehr als viele ganze Rechenzentren vor fünf Jahren verbraucht haben. Herkömmliche Top-of-Rack-Switching-Architekturen können diese Anforderungen nur schwer erfüllen.
Dichte Bereitstellungen fördern die Einführung von disaggregierten Netzwerkarchitekturen. Spine-Leaf-Topologien bieten konsistente Latenzzeiten und Bandbreiten unabhängig von den Verkehrsmustern. Silizium-Photonik ermöglicht Verbindungen mit 800 Gbit/s und 1,6 Tbit/s, die mit Kupfer nicht erreicht werden können.¹³ Introls Implementierungen verwenden zunehmend Direct-Attach-Kupferkabel (DAC) für Verbindungen unter 3 Metern und aktive optische Kabel (AOC) für längere Strecken, um sowohl Kosten als auch Stromverbrauch zu optimieren.
Die Kabelverwaltung wird bei extremen Dichten überraschend komplex. Ein 40-GPU-Rack erfordert über 200 Kabel für Stromversorgung, Netzwerk und Verwaltung. Jedes Kabel erzeugt Wärme durch elektrischen Widerstand. Ein schlechtes Kabelmanagement schränkt die Luftzirkulation ein, wodurch Hotspots entstehen, die eine thermische Drosselung auslösen. Die Introl-Ingenieure widmen 20-30 % der Installationszeit dem Kabelmanagement und verwenden spezielle Verlegesysteme, die korrekte Biegeradien einhalten und gleichzeitig die Kühleffizienz maximieren.
Geografische Zwänge bestimmen die Einsatzstrategien.
Singapur ist weltweit führend bei der Einführung der Dichte mit neuen Einrichtungen, die vom ersten Tag an für 50-100 kW pro Rack ausgelegt sind.¹⁴ Die Grundstücksknappheit treibt die vertikale Expansion und die maximale Rechenleistung pro Quadratmeter voran. Staatliche Anreize unterstützen die Einführung der Flüssigkeitskühlung durch reduzierte Steuern und beschleunigte Genehmigungsverfahren. Introls APAC-Präsenz positioniert uns im Zentrum der Transformation, mit lokalen Ingenieuren, die die regionalen Anforderungen und Vorschriften verstehen.
Die nordeuropäischen Märkte nutzen die Vorteile des kalten Klimas für freie Kühlung. Die Stockholmer Rechenzentren nutzen kaltes Ostseewasser zur Wärmeabfuhr und erreichen so ganzjährig einen PUE-Wert von unter 1,10.¹⁵ Norwegische Einrichtungen kombinieren Wasserkraft mit natürlicher Kühlung und schaffen so die weltweit effizienteste KI-Infrastruktur. Introl verwaltet Implementierungen, die diese geografischen Vorteile nutzen und gleichzeitig globale Konnektivitätsstandards einhalten.
Die Verfügbarkeit von Wasser bestimmt zunehmend den Einsatzort. Flüssigkühlsysteme verbrauchen 0,1-0,2 Gallonen pro Minute pro kW Kühlleistung.¹⁶ Eine 10-MW-Anlage benötigt 1.000-2.000 Gallonen pro Minute - genug, um alle fünf Stunden ein olympisches Schwimmbecken zu füllen. Wüstenstandorte stehen vor der unmöglichen Wahl zwischen ineffizienter Luftkühlung und Wasserknappheit. Vorausschauende Unternehmen berücksichtigen bei der Auswahl von Standorten für Rechenzentren neben der Verfügbarkeit von Strom auch Wasserrechte.
Wirtschaftliche Modelle bestimmen die Entscheidungen über die Einführung.
Der Geschäftsnutzen einer extrem dichten Infrastruktur hängt von den Merkmalen der Arbeitslast ab. KI-Trainingsworkloads, die wochenlang kontinuierlich ausgeführt werden, rechtfertigen jede Investition, die die Effizienz verbessert. Eine Leistungsverbesserung von 1 % bei einem einmonatigen Trainingslauf spart 7,2 Stunden an Rechenzeit. Bei 40 US-Dollar pro GPU-Stunde für H100-Instanzen bringen scheinbar kleine Optimierungen enorme Erträge.¹⁷
Vergleiche der Kapitalkosten (CapEx) sprechen für die traditionelle Infrastruktur, aber die Betriebskosten (OpEx) sprechen eine andere Sprache. Die Flüssigkeitskühlung reduziert den Stromverbrauch um 30-40 % im Vergleich zur Luftkühlung.¹⁸ Eine 1-MW-Implementierung spart jährlich 400.000-500.000 $ allein an Stromkosten.¹⁹ Der geringere mechanische Verschleiß verlängert die Lebensdauer der Geräte um 20-30 %, wodurch die Kosten für den Austausch aufgeschoben werden.²⁰ Eine höhere Dichte ermöglicht mehr Rechenleistung in bestehenden Einrichtungen, wodurch die Kosten für einen Neubau, die im Durchschnitt 10-15 Millionen $ pro Megawatt betragen, vermieden werden.²¹
TCO-Modelle (Total Cost of Ownership) müssen auch die Opportunitätskosten berücksichtigen. Unternehmen, die keine Infrastruktur mit hoher Dichte bereitstellen können, verlieren einen Wettbewerbsvorteil gegenüber denjenigen, die es können. Die GPT-Trainingsläufe von OpenAI würden ohne optimierte Infrastruktur 10 Mal länger dauern.²² Der Unterschied zwischen 40 kW und 100 kW pro Rack entscheidet darüber, ob Modelle in Wochen oder Monaten trainieren. Die Marktführerschaft hängt in zunehmendem Maße von Infrastrukturfähigkeiten ab, die mit herkömmlichen Messgrößen nicht erfasst werden können.
Die betriebliche Komplexität erfordert neues Fachwissen.
Die Verwaltung einer Infrastruktur mit extremer Dichte erfordert Fähigkeiten, die traditionellen Rechenzentrumsteams fehlen. Flüssigkeitskühlsysteme erfordern Fachkenntnisse im Bereich Sanitärtechnik, die in IT-Abteilungen selten zu finden sind. Techniker müssen die Flüssigkeitsdynamik, Druckunterschiede und die Chemie der Kühlmittel verstehen. Ein einziger falsch konfigurierter Parameter kann zu einem katastrophalen Ausfall führen - ein zu hoher Druck kann Verbindungen zum Platzen bringen, während ein zu geringer Druck Kavitation in der Pumpe verursachen kann.
Introl schließt die Wissenslücke durch spezielle Schulungsprogramme für unsere 550 Außendiensttechniker. Die Teams lernen, Probleme mit dem Kühlmittelfluss zu diagnostizieren, vorbeugende Wartungsarbeiten an Kühlverteilern durchzuführen und auf Leckagen zu reagieren. Zertifizierungsprogramme decken herstellerspezifische Anforderungen für verschiedene Kühltechnologien ab. Regionale Teams tauschen bewährte Verfahren über unsere globale Wissensdatenbank aus und gewährleisten so eine gleichbleibende Servicequalität an allen 257 Standorten.
Überwachungssysteme erzeugen 10 bis 100 Mal mehr Daten als herkömmliche Infrastrukturen. Jedes Rack erzeugt Tausende von Telemetriepunkten, die Temperatur, Druck, Durchflussmenge, Stromverbrauch und den Zustand der Komponenten erfassen. Algorithmen für maschinelles Lernen erkennen Muster, die Ausfälle vorhersagen, bevor sie auftreten. Die Betriebsteams von Introl nutzen prädiktive Analysen, um Wartungsarbeiten während geplanter Ausfallzeiten zu planen und so eine Verfügbarkeit von 99,999 % für kritische KI-Workloads zu erreichen.
Zukünftige Technologien verschieben die Grenzen weiter.
GPUs der nächsten Generation werden eine noch extremere Infrastruktur erfordern. NVIDIAs Roadmap sieht 1.500-2.000 W pro GPU bis 2027 vor.²³ AMDs MI400-Serie zielt auf einen ähnlichen Stromverbrauch ab.²⁴ Cerebras Wafer-Scale-Motoren verbrauchen bereits 23 kW in einer einzigen Einheit.²⁵ Die Infrastruktur von morgen muss Dichten bewältigen, die heute unmöglich erscheinen.
Die Zweiphasen-Tauchkühlung erweist sich als die ultimative Lösung für extreme Dichte. Dielektrische Flüssigkeiten sieden bei genau kontrollierten Temperaturen und sorgen für eine isotherme Kühlung, die die Komponenten in optimalen Betriebspunkten hält. Der Phasenwechsel von Flüssigkeit zu Dampf absorbiert enorme Wärmemengen - bis zu 250 kW pro Rack.²⁶ Das US-Energieministerium fördert die Erforschung der Zweiphasenkühlung für Exascale-Computersysteme.²⁷
Kleine modulare Reaktoren (Small Modular Reactors, SMR) könnten die Beschränkungen der Netzstromversorgung beseitigen. Hyperscaler erforschen die Zusammenlegung von Kernkraftwerken mit Rechenzentren, um kohlenstofffreien Strom zu vorhersehbaren Kosten bereitzustellen. Ein einziger 300-MW-SMR könnte 3.000 100-kW-Racks mit Strom versorgen - genug für 24.000 Grafikprozessoren.²⁸ Die behördliche Genehmigung ist nach wie vor eine Herausforderung, aber die Wirtschaftlichkeit wird bei ausreichender Größe überzeugend.
Der Weg nach vorn erfordert sofortiges Handeln.
Unternehmen, die eine KI-Infrastruktur aufbauen, stehen heute vor wichtigen Entscheidungen, die die Wettbewerbsposition für das nächste Jahrzehnt bestimmen. Die Nachrüstung bestehender Anlagen für eine 40-kW-Dichte kostet 50.000 bis 100.000 US-Dollar pro Rack.²⁹ Der Aufbau einer neuen 100-kW-fähigen Infrastruktur kostet 200.000 bis 300.000 US-Dollar pro Rack, bietet aber eine Startbahn für zukünftiges Wachstum.³⁰ Die falsche Entscheidung führt dazu, dass Unternehmen in einer veralteten Infrastruktur feststecken, während die KI-Arbeitslasten explodieren.
Eine erfolgreiche Umstellung beginnt mit einer umfassenden Bewertung. Die technischen Teams von Introl bewerten die vorhandene Stromversorgungskapazität, die Kühlungsinfrastruktur, die strukturelle Unterstützung und die Netzwerkarchitektur, um eine optimale Leistung zu gewährleisten. Wir identifizieren Engpässe, die die Erhöhung der Dichte einschränken, und entwickeln stufenweise Aufrüstungspläne, die die Unterbrechungen minimieren. Unsere globale Präsenz ermöglicht die schnelle Bereitstellung von Spezialgeräten und Fachwissen überall dort, wo Kunden Lösungen für extreme Dichte benötigen.
Die Gewinner im Bereich der KI-Infrastruktur werden diejenigen sein, die die extreme Dichte annehmen, anstatt sie zu bekämpfen. Jeder Monat Verzögerung bedeutet, dass Konkurrenten Modelle schneller trainieren, Funktionen früher bereitstellen und Märkte zuerst erobern. Die Frage ist nicht, ob eine High-Density-Infrastruktur eingeführt werden soll, sondern wie schnell Unternehmen ihre Einrichtungen umstellen können, um die Rechenanforderungen zu erfüllen, die den Wettbewerbsvorteil im KI-Zeitalter ausmachen.
Referenzen
NVIDIA. "NVIDIA DGX GB200 NVL72 Flüssigkeitsgekühltes Rack-System". NVIDIA Corporation, 2024. https://www.nvidia.com/en-us/data-center/dgx-gb200/
Microsoft Azure. "Infrastruktur-Innovationen für KI-Workloads". Microsoft Corporation, 2024. https://azure.microsoft.com/en-us/blog/azure-infrastructure-ai/
Google Cloud. "TPU v5p: Cloud TPU Pods für große Sprachmodelle." Google LLC, 2024. https://cloud.google.com/tpu/docs/v5p
ASHRAE. "Thermische Eigenschaften von Wasser im Vergleich zu Luft in Rechenzentrumsanwendungen. ASHRAE Technischer Ausschuss 9.9, 2024.
Uptime Institute. "Globale Umfrage über Rechenzentren 2024: PUE Trends." Uptime Institute, 2024. https://uptimeinstitute.com/resources/research/annual-survey-2024
Lawrence Berkeley National Laboratory. "Data Center Energy Efficiency Cost-Benefit Analysis". LBNL, 2023. https://datacenters.lbl.gov/resources
Open Compute Projekt. "DC Power Distribution Benefits Analysis". OCP Foundation, 2023. https://www.opencompute.org/projects/dc-power
---. "Facebook Prineville Data Center Efficiency Report". OCP Foundation, 2023. https://www.opencompute.org/datacenter/prineville
Schneider Electric. "High-Density Rack Weight and Floor Loading Guide". Schneider Electric, 2024. https://www.se.com/us/en/download/document/SPD_VAVR-ABZGDH_EN/
Vertiv. "Designrichtlinien für Flüssigkeitskühlung für KI-Infrastrukturen". Vertiv, 2024. https://www.vertiv.com/en-us/solutions/learn-about/liquid-cooling-guide/
RSMeans. "2024 Mechanische Kostendaten: Rohrleitungssysteme." Gordian RSMeans Data, 2024.
NVIDIA. "NVIDIA H100 Tensor Core GPU Architektur Whitepaper". NVIDIA Corporation, 2023. https://resources.nvidia.com/en-us-tensor-core/nvidia-h100-datasheet
Intel. "Silizium-Photonik: Breakthrough in Data Center Connectivity." Intel Corporation, 2024. https://www.intel.com/content/www/us/en/architecture-and-technology/silicon-photonics/silicon-photonics-overview.html
Infocomm Media Development Authority. "Singapore Data Center Roadmap 2024". IMDA Singapore, 2024. https://www.imda.gov.sg/resources/data-centre-roadmap
DigiPlex. "Stockholmer Rechenzentrum: Sustainable Cooling Innovation." DigiPlex, 2023. https://www.digiplex.com/stockholm-datacenter
ASHRAE. "Flüssigkühlungsrichtlinien für Rechenzentren, 2. Ausgabe". ASHRAE Technischer Ausschuss 9.9, 2024.
Amazon Web Services. "EC2 P5 Instance Pricing." AWS, 2024. https://aws.amazon.com/ec2/instance-types/p5/
Dell Technologies. "ROI-Analyse für direkte Flüssigkeitskühlung". Dell Technologies, 2024. https://www.dell.com/en-us/dt/solutions/high-performance-computing/liquid-cooling.htm
U.S. Energy Information Administration. "Kommerzielle Strompreise nach Bundesstaat". EIA, 2024. https://www.eia.gov/electricity/monthly/epm_table_grapher.php
Untertauchen. "Studie zur Auswirkung der Eintauchkühlung auf die Langlebigkeit von Hardware". Submer, 2023. https://submer.com/resources/hardware-longevity-study/
JLL. "Data Center Construction Cost Guide 2024". Jones Lang LaSalle, 2024. https://www.us.jll.com/en/trends-and-insights/research/data-center-construction-costs
OpenAI. "Anforderungen an die GPT-4-Ausbildungsinfrastruktur". OpenAI, 2023. https://openai.com/research/gpt-4-infrastructure
NVIDIA. "Mehrjähriges GPU-Roadmap-Update". NVIDIA GTC 2024 Keynote, März 2024.
AMD. "Instinct MI400 Series Pre-Announcement". AMD Investor Day, Juni 2024.
Cerebras. "CS-3 Wafer Scale Engine Specifications". Cerebras Systems, 2024. https://www.cerebras.net/product-chip/
3M. "Novec Two-Phase Immersion Cooling for Data Centers". 3M Corporation, 2024. https://www.3m.com/3M/en_US/data-center-us/applications/immersion-cooling/
U.S. Energieministerium. "Exascale Computing Project: Cooling Innovations." DOE Office of Science, 2024. https://www.exascaleproject.org/cooling-research/
NuScale Power. "SMR Applications for Data Center Power". NuScale Power Corporation, 2024. https://www.nuscalepower.com/applications/data-centers
Gartner. "Data Center Modernization Cost Analysis 2024". Gartner, Inc. 2024.
---. "Greenfield AI Data Center Construction Economics". Gartner, Inc. 2024.