Wie sich KI, ML und Deep Learning auf die Datenspeicherung auswirken
Der derzeitige Hype um Künstliche Intelligenz (KI) lässt neue AI-Tools wie Pilze aus dem Boden sprießen. In Anbetracht dieser Entwicklung prognostiziert Ines Wolf von Quantum eine massive Zunahme der Datenmenge. Gleichzeitig präsentiert sie eine Lösung, um zukünftig Kapazität, Performance und Verwaltung von Speicher im Bereich der KI in den Griff zu bekommen. Dabei spielen Technologien wie NVMe und RDMA eine entscheidende Rolle.
Von Ines Wolf
KI und Maschinelles Lernen sind schon lange ein viel diskutiertes Thema, doch bisher waren die Auswirkungen auf unser tägliches Leben begrenzt. Seitdem jedoch OpenAI mit ChatGPT für Aufsehen sorgt, klingen die optimistischen Prognosen bezüglich KI nicht mehr wie bloße Science-Fiction. Es besteht kein Zweifel mehr daran, dass KI und andere Formen des Maschinellen Lernens unser Leben und die Wirtschaft nachhaltig verändern werden. AI-Tools ermöglichen die Automatisierung und Beschleunigung sich wiederholender Aufgaben. Dies wird durch neue Anwendungen ermöglicht, die auf umfangreichen Datensätzen basieren. Herkömmliche Speicherinfrastrukturen können mit den Anforderungen moderner Technologien nicht mithalten.
Die Entwicklung von Deep-Learning-Anwendungen erfolgt typischerweise in drei Schritten:
Datenaufbereitung: Rohdaten werden in verwertbare Daten umgewandelt.
Modelltraining: Softwareprogramme erlernen neue Fähigkeiten anhand der Daten.
Schlussfolgerung: Das Programm wendet das Gelernte auf neue Daten an.
Man muss kein Experte sein, um zu erkennen, dass Daten die Grundlage für KI bilden. Daher ist zu erwarten, dass mit zunehmender Anzahl von KI-Anwendungen ein massiver Anstieg der Datenmenge einhergeht. Branchenanalysten gehen davon aus, dass sich die Kapazität unstrukturierter Daten, wie Dateien und Objekte, in den kommenden Jahren verdoppeln oder sogar verdreifachen wird. KI, ML und Deep Learning werden einen erheblichen Anteil an diesem Wachstum haben.
Eine neue Ära für die Datenspeicherung bricht an
Die Verantwortlichen für die IT-Infrastruktur stehen vor besonderen Herausforderungen. Die Datenmengen sind umfangreicher und voluminöser als je zuvor. Unternehmen, die beispielsweise an Machine-Learning-Technologien für autonomes Fahren arbeiten, erzeugen in nur wenigen Jahren mehr als ein Exabyte an Daten. Autonomes Fahren basiert auf maschinellem Sehen, das auf Bild- und Videodaten beruht. Es wird erwartet, dass das Datenwachstum aufgrund von KI und ML in den nächsten fünf Jahren weiter beschleunigt wird.
Neben der einfachen Speicherung dieser enormen Datenmengen stellen solche Deep-Learning-Anwendungen hohe Anforderungen an die Leistung der Speicherinfrastruktur. Die Verarbeitung dieser riesigen unstrukturierten Datensätze erfordert extrem niedrige Latenzzeiten und eine konsistente Performance in großem Maßstab. Festplattenbasierte Speichersysteme mit sequenziellen Festplatten können diese Anforderungen einfach nicht erfüllen. Unternehmen setzen daher vermehrt auf neue verteilte Architekturen, die auf NVMe und RDMA basieren. Aufgrund des sinkenden Preises von Flashspeichern werden auch auf Flash basierende Speicher immer häufiger eingesetzt.
Ein weiterer Faktor, der berücksichtigt werden muss, ist der Speicherort dieser neuen Daten. Die Daten befinden sich selten bequem auf dem primären Speicher im Hauptrechenzentrum. In den meisten Fällen werden die Daten an einem anderen Ort erzeugt und zur Verarbeitung transferiert. Dies kann in der Public Cloud oder in einem Rechenzentrum geschehen, oder es findet an beiden Orten teilweise Datenverarbeitung statt. Der Transport und die Verwaltung der Daten über den gesamten Lebenszyklus sind daher entscheidend für die Verantwortlichen der IT-Infrastruktur. Insbesondere wenn die Programme neu trainiert werden müssen, werden diese Datenmengen und ihre Modelle über Jahrzehnte hinweg aufbewahrt.
All diese Faktoren setzen alte Speicherarchitekturen unter Druck. Der Großteil der unstrukturierten Daten wird auf Systemen gespeichert, die vor mehr als 20 Jahren entwickelt wurden, als man sich noch nicht vorstellen konnte, dass zukünftig Billionen von Daten und Objekten über Jahrzehnte gespeichert werden und die meisten Dateien von Maschinen und nicht von Menschen erstellt werden.
Fazit
Unternehmen, die Anwendungen auf Basis von KI, ML und Deep Learning entwickeln, können langfristig ihre Ziele nicht mit herkömmlicher Speicherinfrastruktur erreichen, da dies die Produktivität von Datenwissenschaftlern, Content-Erstellern und Analysten beeinträchtigt, die täglich auf diese Daten angewiesen sind. Daher müssen diese Unternehmen die Möglichkeiten der neuesten Speicherarchitekturen in Betracht ziehen. NVMe und RDMA werden zwangsläufig Teil der Planung sein.
Ines Wolf, Manager Pre-Sales Zentraleuropa bei Quantum