|
|
Rekord: IBM Forscher erfassen 10 Milliarden Dateien in 43 Minuten GPFS ist ein wichtiger Schritt für das weitere Wachstum von Speicherleistung und -kapazität (28.07.11) - Forscher von IBM haben einen weiteren Schritt hin zu künftigen Speichersystemen mit extrem großem Datenbestand getan. In einem Versuch konnten 10 Milliarden Dateien auf einem einzigen System in nur 43 Minuten gescannt und erfasst werden. Damit wurde der bestehende Rekord - eine Milliarde Dateien in drei Stunden - um den Faktor 37 verbessert.
Anzeige
Erstmals im Jahr 1998 haben IBM-Forscher das skalierbare geclusterte parallele Dateisystem mit dem Namen "General Parallel File System" (GPFS) vorgestellt. Dies wurde ständig weiterent-wickelt, um den jetzigen Durchbruch zu ermöglichen. GPFS ist ein wichtiger Schritt für das weitere Wachstum von Speicherleistung und -kapazität, während die Administrationskosten nicht weiter steigen sollen. Mit dieser Verbesserung können Organisationen besser mit dem explosionsartigen Datenwachstum durch eine Vielzahl von Transaktionen und digitalen Sensoren und anderen datenliefernden Geräten fertigwerden, die in heutigen intelligenten Infrastrukturen entstehen. Damit ist dieses Werkzeug besonders geeignet für Anwendungen, die sehr schnellen Zugang zu großen und größten Datenmengen benötigen, wie etwas Data Mining-Lösungen. Auch in Bereichen wie Risiko-management, Finanzanalyse, Seismik, Wettermodellierung und vielen anderen wissenschaftlichen Forschungsgebieten kann das Werkzeug zum Einsatz kommen. Mit Blick auf das extrem hohe Datenwachstum in fast allen Branchen wurden die Daten hier auf einer einzigen Speicherplattform konsolidert. Dies vermindert den hohen Verwaltungsaufwand, der bei separater Datenhaltung auf verteilten Plattformen entsteht. Damit können Datenmanagement-Aufgaben stark vereinfacht und verringert werden. Somit können mehr Informationen unter einer einheitlichen Technologie gespeichert werden, anstelle mehr und mehr zusätzlichen Speicher zu beschaffen. Speicherleistung erreicht ein neues Niveau Die jetzige Spitzenleistung wurde mit GPFS und einem Cluster von 10 Achtkern-Serversystemen mit SSD-Speicher erreicht. Der GPFS-Algorithmus ermöglicht die komplette Ausnutzung aller Prozessorkerne in allen Maschinen und allen Aufgabenphasen - Daten lesen, sortieren und Anwenden der Datenmanagement-Vorgaberegeln. GPFS konnte die eingesetzte SSD-Appliance mit nur 6,8 Terabyte an Kapazität ausnützen, um die Speicher-Metadaten abzulegen. Die Appliance konnte bei gleichmäßiger Leistung hunderte von Millionen an Daten-I/O-Operationen ausführen, während GPFS unter den 10 Milliarden Dateien auf dem System den richtigen, gewünschten Satz an Dateien identifizierte, auswählte und sortierte. "Der Nachweist der GPFS-Skalierbarkeit eröffnet den Weg für neue Produkte, die die Anforderungen einer Multi-Zettabyte-Welt adressieren", sagt Doug Balog, Vice President, IBM Speichersysteme. "Diese Innovation hat das Potential, sehr große Datenumgebungen auf einer einzigen Plattform zu vereinen, und dabei die Datenmanagementaufgaben dramatisch zu vereinfachen und zu reduzieren - wie Datenablage, Migration und Backup individueller Dateien." Die Menge digitaler Daten ist um 47 Prozent im vergangenen Jahr gewachsen. Dies heißt, dass Unternehmen unter enormem Druck sind, Daten schnell in umsetzbare Handlungsempfehlungen zu übersetzen. Allein die Speicherung von und der Umgang mit Daten stößt hier bereits an seine Grenzen. Im gleichen Zug, wie neue speicherhungrige Anwendungen in fast allen Branchen entstehen, verlieren traditionelle Datenmangementsysteme zunehmend ihre Fähigkeit, übliche, aber wichtige Speicherverwaltungsaufgaben zu leisten. Dies setzt Organisationen jeder Art der Verlustmöglichkeit wichtiger und kritischer Daten aus. Diese Entwicklungen wurden von IBM Forschern bereits vor vielen Jahren antizipiert. Aus diesem Grund hat IBM GPFS entwickelt, das Unternehmen dabei helfen kann, mit dem extrem hohen Datenwachstum besser fertig zu werden. GPFS wird bereits häufig für Aufgaben wie Backup, ILM, Disaster Recovery und Content-Verteilung eingesetzt. Durch die Kombination aus der Multi-System-Parallelisierung und schnellem Zugang zu den Metadaten des Dateisystems (auf SSD) kann diese Technologie auch die Herausforderung der Verwaltung extrem großer Datenmengen bewältigen. (IBM: ma) |
||
|