zzz

IT-Experten aus aller Welt

Die Zukunft von Big Data Storage –  ein Gastbeitrag von Eric Burgener, Research Director Storage, IDC

Der Ausbau der dritten Plattform fördert die Entstehung neuartiger Storage-Architekturen. Diese – meist bestehend aus All-Flash-Arrays (AFAs) und hyper-konvergenten Appliances (hyper converged infrastructure, HCI) – werden erforderlich, weil herkömmliche Storage-Umgebungen den Anforderungen der „Third Plattform“ oft nicht gerecht werden: Sie bieten nicht ausreichend Leistung und Skalierbarkeit, Zuverlässigkeit und Effizienz für schnell wachsende Daten-Volumina, und verbrauchen überdies oft auch zu viel Platz und Strom.

In vielen Unternehmen müssen zudem ältere Anwendungen wie relationale Datenbanken, Messaging-Software oder Kollaborations- und Filesharing-Plattformen gleichzeitig mit Next-Generation-Apps mit ein- und derselben Umgebung unterstützt werden. Das erhöht die Anforderungen an die Architekturen zusätzlich.

Die aus diesen Bedürfnissen entstehenden Märkte erreichen schon jetzt eine beachtliche Größe – und IDC erwartet, dass AFAs und HCI bis Ende 2019 Umsätze von etwa 5,5 Mrd. USD bzw. 4 Mrd. USD generieren werden.

Im kommenden Jahrzehnt wird die dritte Plattform IDC-Prognosen zufolge zudem maßgeblich für fast alle IT-Infrastruktur-Entscheidungen werden. Denn Next-Generation-Apps in den Bereichen Mobility, Social Media, Big Data und Cloud eröffnen signifikante Wachstumschancen für Zukunfts-gerichtete Unternehmen, da sie es erlauben, neue Märkte mit Leistungen zu erschließen, die noch vor kurzem gar nicht machbar gewesen wären.

Ein charakteristisches Merkmal vieler Next-Gen-Apps ist deren Größe: Viele arbeiten mit extrem umfangreichen Datensätzen und erfordern deshalb Millionen IOPS, Kapazitäten im Petabyte-Bereich und äußerst hohe Bandbreiten. Die meisten Anwendungen müssen riesige Datenmengen verarbeiten und dabei Latenzen erreichen, die weit unter dem liegen, was All-Flash-Arrays heute bereitstellen können. Diese Herausforderungen werden nochmals größer, wenn Echtzeitanalysen vorgenommen werden sollen, die diese Daten rasch in Marktinformationen umwandeln.

Doch der Mehrwert, der auf diese Weise entsteht, rechtfertigt häufig den höheren Aufwand. Big Data Analytics versprechen gänzlich neue Erkenntnisse für Innovatoren, Entwickler und Marketing-Experten – und können die Art, wie Unternehmen Produkte verkaufen, von Grund auf verändern.

Deshalb müssen Unternehmen künftig in der Lage sein, viel mehr Daten zu erfassen und zu verarbeiten als zuvor, und zwar in möglichst kurzer Zeit: Wo kurzfristig entstehende Gelegenheiten umgehend erkannt und genutzt werden sollen, ist Geschwindigkeit fast immer die alles entscheidenden Größe. Das bedeutet: Firmen, die keine Echtzeit-Auswertungen nutzen oder unflexible IT-Umgebungen betreiben, werden sich nicht schnell genug bewegen können und erhebliche Wettbewerbsnachteile in Kauf nehmen müssen.

Viele Firmen haben das bereits erkannt und damit begonnen, Überlegungen bezüglich Big-Data-Analytics in die Planung ihrer Speicher-Umgebungen einzubeziehen. Ihre IT-Organisationen testen etwa schon jetzt den Aufbau von Analytics-unterstützenden Big-Data-Archiven mit All-Flash-Arrays. Doch diese Test-Umgebungen bewältigen meist nur begrenzte Datenbestände, weshalb sie sich nicht immer für Next-Generation-Apps eignen. Zudem haben die eingesetzten All-Flash-Arrays meist Schwierigkeiten, wenn sie gleichzeitig Daten aufnehmen und Echtzeit-Analysen durchführen sollen.

Letzteres verursacht häufig viel manuellen Aufwand: Admins und Analysten müssen die entstehenden Workloads partitionieren, über mehrere Systeme verteilen und dabei meist noch mehrere Kopien ein- und desselben Datensatzes herstellen, weil Richtlinien oder SLAs dies verlangen. Das führt natürlich zu einer äußerst ineffizienten Verwendung von Speicher-Ressourcen. Auch verfügen All-Flash-Arrays oft nicht über die notwendige Bandbreite für das Konsolidieren von Datenbeständen aus mehreren Quellen („Extract, Transform, Load“). Schließlich bieten die meisten keine Features zur Entscheidungsunterstützung in „Data-at-Scale“-Szenarien. Folglich verbringen Administratoren und Analysten notgedrungen sehr viel Zeit mit der Feinabstimmung von Systemen, die im Wesentlichen nicht in der Lage sind, mit Datenmengen dieser Größenordnung umzugehen.

Künftige, für derartige Anforderungen konzipierte Storage-Architekturen werden sich deshalb in mehrfacher Hinsicht von heutigen Systemen unterscheiden müssen:

  • Erstens sollten Hostverbindungen zwischen Servern und Arrays in Zukunft Latenzzeiten von unter 100 Mikrosekunden erreichen und so eine ausreichende Systemleistung sicherstellen. Eine Möglichkeit, um dies zu realisieren, besteht in der entsprechenden Erweiterung interner Server-Busse für die Nutzung von geteiltem Speicherplatz.
  • Zweitens sollten Systeme künftig für die Nutzung von Memory-basierten Storage-Medien konzipiert werden – und zwar so, dass keine Kompatibilität mit Plattenspeichern mehr erforderlich ist. Zukunftsfähige Speichermedien erreichen schon jetzt erhebliche Verbesserungen bei Zuverlässigkeit, Speicherdichte und Stromverbrauch, werden dabei aber häufig durch Features eingeschränkt, die Kompatibilität zu anderen Technologien herstellen. Dieser Zusammenhang bringt gerade im Hinblick auf Skalierbarkeit erhebliche Nachteile.
  • Drittens müssen die Systeme für das gleichzeitige und system-interne Verarbeiten verschiedener Datentypen optimiert sein – also für strukturierte, halbstrukturierte und unstrukturierte Daten. Wenn Unternehmen wirklich jede Gelegenheit nutzen wollen, die sich in ihren Datenbeständen verbirgt, müssen sie jede Art von Daten gleich gut und schnell verarbeiten können.
  • Viertens sollten die Hersteller künftig Abstand von den heutigen, relativ sperrigen I/O-Stacks nehmen und stattdessen speziell für die künftigen Workloads konzipierte Komponenten nutzen. Viele Analyse-Anwendungen werden eigens für bestimmte Unternehmen entwickelt; der Einsatz von APIs, die schlankere Stacks (mit deutlich niedrigerer Latenz) nutzen, würde Entwicklern das Optimieren von Leistung, Effizienz und Zuverlässigkeit von Anwendungen und Storage erheblich erleichtern

IDC sieht erste Anzeichen dafür, dass derartige Next-Generation-Architekturen demnächst verfügbar werden. In Anbetracht der Größe, die die Big-Data- und Analytics-Märkte in den kommenden Jahren erreichen werden, dürften die Ausgaben für Storage-Infrastrukturen künftig weit höher ausfallen als bisher. 2016 wird also in mancherlei Hinsicht ein spannendes Jahr, weil jetzt die ersten für Big Data entwickelten Speicherlösungen auf den Markt kommen.

Über den Autor

Eric Burgener ist Research Director in IDCs Storage-Practice. Der Geschäftsbereich bietet Unternehmen Forschungs-Dienstleistungen, vierteljährliche Marktberichte, Endanwender-Befragungen und weitere Beratungsdienstleistungen rund um Storage und Storage-Märkte.