10 Milliarden Dateien in 43 Minuten: IBM Forscher erzielen neue Spitzenleistung bei Dateisystem für Big-Data-Anwendungen

  • Pressemitteilung der Firma IBM Deutschland, 25.07.2011
Pressemitteilung vom: 25.07.2011 von der Firma IBM Deutschland aus Ehningen

Kurzfassung: IBM General Parallel File System (GPFS) verbessert bestehenden Rekordwert um das 37-fache Wichtiger Schritt auf dem Weg hin zur Handhabung extrem großer Datenbestände San Jose, CA/Stuttgart-Ehningen - 25 Jul 2011: Forscher von IBM (NYSE: IBM) ...

[IBM Deutschland - 25.07.2011] 10 Milliarden Dateien in 43 Minuten: IBM Forscher erzielen neue Spitzenleistung bei Dateisystem für Big-Data-Anwendungen


IBM General Parallel File System (GPFS) verbessert bestehenden Rekordwert um das 37-fache

Wichtiger Schritt auf dem Weg hin zur Handhabung extrem großer Datenbestände San Jose, CA/Stuttgart-Ehningen - 25 Jul 2011: Forscher von IBM (NYSE: IBM) haben einen weiteren Schritt hin zu künftigen Speichersystemen mit extrem großem Datenbestand getan. In einem Versuch konnten 10 Milliarden Dateien auf einem einzigen System in nur 43 Minuten gescannt und erfasst werden. Damit wurde der bestehende Rekord - eine Milliarde Dateien in drei Stunden - um den Faktor 37 verbessert.

Erstmals im Jahr 1998 haben IBM Forscher das hochskalierbarer geclusterte parallele Dateisystem mit dem Namen General Parallel File System (GPFS) vorgestellt. Dies wurde ständig weiterentwickelt, um den jetzigen Durchbruch zu ermöglichen. GPFS ist ein wichtiger Schritt für das weitere Wachstum von Speicherleistung und -kapazität, während die Administrationskosten nicht weiter steigen sollen.

Mit dieser Verbesserung können Organisationen besser mit dem explosionsartigen Datenwachstum durch eine Vielzahl von Transaktionen und digitalen Sensoren und anderen datenliefernden Geräten fertigwerden, die in heutigen intelligenten Infrastrukturen entstehen. Damit ist dieses Werkzeug besonders geeignet für Anwendungen, die sehr schnellen Zugang zu großen und größten Datenmengen benötigen, wie etwas Data Mining-Lösungen, um etwas Kundenkaufverhalten besser erkennen zu können. Auch in Bereichen wie Risikomanagement, Finanzanalyse, Seismik, Wettermodellierung und vielen anderen wissenschaftlichen Forschungsgebieten kann das Werkzeug zum Einsatz kommen.

Mit Blick auf das extrem hohe Datenwachstum in fast allen Branchen wurden die Daten hier auf einer einzigen Speicherplattform konsolidert. Dies vermindert den hohen Verwaltungsaufwand, der bei separater Datenhaltung auf verteilten Plattformen entsteht. Damit können Datenmanagement-Aufgaben dramatisch vereinfacht und verringert werden. Somit können mehr Informationen unter einer einheitlichen Technologie gespeichert werden, anstelle mehr und mehr zusätzlichen Speicher zu beschaffen.

Speicherleistung erreicht ein neues Niveau

Die jetzige Spitzenleistung wurde mit GPFS und einem Cluster von 10 Achtkern-Serversystemen mit SSD-Speicher erreicht. Der GPFS-Algorithmus ermöglicht die komplette Ausnutzung aller Prozessorkerne in allen Maschinen und allen Aufgabenphasen - Daten lesen, sortieren und Anwenden der Datenmanagement-Vorgaberegeln. GPFS konnte die eingesetzte SSD-Appliance mit nur 6,8 Terabyte an Kapazität bei hervorragender Random-Leistung und hohen Datentransferraten ausnützen, um die Speicher-Metadaten abzulegen. Die Appliance konnte bei gleichmäßig hoher Leistung hunderte von Millionen an Daten-I/O-Operationen ausführen, während GPFS unter den 10 Milliarden Dateien auf dem System den richtigen, gewünschten Satz an Dateien identifizierte, auswählte und sortierte.

"Der Nachweist der GPFS-Skalierbarkeit eröffnet den Weg für neue Produkte, die die Anforderungen einer Multi-Zettabyte-Welt adressieren", sagt Doug Balog, Vice President, IBM Speichersysteme. "Diese Innovation hat das Potential, sehr große Datenumgebungen auf einer einzigen Plattform zu vereinen, und dabei die Datenmanagementaufgaben dramatisch zu vereinfachen und zu reduzieren - wie Datenablage, Migration und Backup individueller Dateien."

Der vorherige Rekord - eine Milliarde Dateien in drei Stunden scannen - wurde erst im Jahr 2007 von IBM Forschern bei einer Konferenz in Reno, Nevada, aufgestellt.

"Unternehmen jeder Branche sorgen sich um die Zukunft von Daten und Datenmanagement, da sie alle sich einem Kernproblem gegenübersehen - der Verwaltung riesiger Datenmengen, die täglich zusätzlich entstehen", sagt Bruce Hillsberg, Direktor Speichersysteme, IBM Research, Almaden. "Ob durch Bankensysteme, medizinische Analysegeräte oder Verkehrssensoren erzeugt - unser aller tägliches Leben wird von Daten umströmt. Aber diese sind nur sinnvoll, wenn sie effektiv gespeichert, analysiert und angewendet werden können. Unternehmen und Behörden benötigen daher intelligente Systeme als Werkzeug, um den konstanten Strom an Daten in sinnvolle Einsichten verwandeln zu können."

Die IBM Forschung entwickelt dabei fortlaufend innovative neue Speichertechnologien, die Kunden bei der Bewältigung der Datenmengen und ihrer sinnvollen Nutzung helfen. Allein im vergangenen Jahr sind bedeutende Speicherinnovationen aus der IBM Forschung in fünf wichtige Produkte eingeflossen, IBM Easy Tier, Storwize V7000, Scale-out Network Attached Storage (SONAS), IBM Information Archive und das IBM Long Term File System (LTFS).

Die Menge digitaler Daten ist um 47 Prozent im vergangenen Jahr gewachsen. Dies heißt, daß Unternehmen unter enormem Druck sind, Daten schnell in umsetzbare Handlungsempfehlungen zu übersetzen. Allein die Speicherung von und der Umgang mit Daten stößt hier bereits an seine Grenzen. Im gleichen Zug, wie neue speicherhungrige Anwendungen in fast allen Branchen entstehen, verlieren traditionelle Datenmangementsysteme zunehmend ihre Fähigkeit, übliche, aber wichtige Speicherverwaltungsaufgaben zu leisten. Dies setzt Organisationen jeder Art der Verlustmöglichkeit wichtiger und kritischer Daten aus. Diese Entwicklungen wurden von IBM Forschern bereits vor vielen Jahren antizipiert. Aus diesem Grund hat IBM GPFS entwickelt, das Unternehmen dabei helfen kann, mit dem extrem hohen Datenwachstum besser fertig zu werden. GPFS wird bereits häufig für Aufgaben wie Backup, ILM, Disaster Recovery und Content-Verteilung eingesetzt. Durch die Kombination aus der Multi-System-Parallelisierung und schnellem Zugang zu den Metadaten des Dateisystems (auf SSD) kann diese Technologie auch die Herausforderung der Verwaltung extrem großer Datenmengen bewältigen.

Zusätzliche Informationen finden Sie in der US-Presseinformation und unter diesem Link: http://www.ibm.com/systems/software/gpfs/


Kontaktinformation
Hans-Jürgen Rehm
Unternehmenskommunikation
IBM Deutschland Hardware (Systems and Technology Group), Supercomputing, Software (Anwendungsentwicklung, Systems Management, Sicherheit), Banken, Versicherungen, Region Berlin
+49-7034-151887
+49-171-5566940
hansrehm@de.ibm.com

Über IBM Deutschland:
IBM gehört mit einem Umsatz von 95,8 Milliarden US-Dollar im Jahr 2009 zu den weltweit größten Anbietern im Bereich Informationstechnologie (Hardware, Software und Services) und B2B-Lösungen. Das Unternehmen beschäftigt derzeit 399.400 Mitarbeiter und ist in über 170 Ländern aktiv.
Die IBM in Deutschland mit Hauptsitz bei Stuttgart ist die größte Ländergesellschaft in Europa.

Mehr Informationen über IBM unter: ibm.com/de/ibm/unternehmen/index.html
IBM ist heute das einzige Unternehmen in der IT-Branche, das seinen Kunden die komplette Produktpalette an fortschrittlicher Informationstechnologie anbietet: Von der Hardware, Software über Dienstleistungen und komplexen Anwendungslösungen bis hin zu Outsourcingprojekten und Weiterbildungsangeboten.

Firmenkontakt:
Hans-Jürgen Rehm
Unternehmenskommunikation
IBM Deutschland Hardware (Systems and Technology Group), Supercomputing, Software (Anwendungsentwicklung, Systems Management, Sicherheit), Banken, Versicherungen, Region Berlin
+49-7034-151887
+49-171-5566940
hansrehm@de.ibm.com

Die Pressemeldung "10 Milliarden Dateien in 43 Minuten: IBM Forscher erzielen neue Spitzenleistung bei Dateisystem für Big-Data-Anwendungen" unterliegt dem Urheberrecht der pressrelations GmbH. Jegliche Verwendung dieses Textes, auch auszugsweise, erfordert die vorherige schriftliche Erlaubnis des Autors. Autor der Pressemeldung "10 Milliarden Dateien in 43 Minuten: IBM Forscher erzielen neue Spitzenleistung bei Dateisystem für Big-Data-Anwendungen" ist IBM Deutschland.