Big Data Backups – ein Thema für immer mehr Unternehmen
Die Datensicherung ist gerade für Unternehmen ein unverzichtbarer Prozess. Dieser Punkt ist inzwischen bekannt, und die absolute Mehrheit der Verantwortlichen setzt eine Sicherung um. Beim Big Data Backup geht es jedoch um mehr als nur eine einfache Sicherung von Daten, um einem Verlust vorzubeugen. Welche Punkte hierbei wichtig sind und welche Herausforderungen es gibt, thematisiert der folgende Beitrag.
1 Was ist ein Big Data Backup?
Bei einem Big Data Backup geht es spezifisch um die Sicherung von enorm großen Datenmengen. Die Menge an Daten, die in Unternehmen anfällt, hat in den letzten Jahren exorbitant zugenommen. Vor allem hat sich aber auch die Bedeutung von Daten verändert. Inzwischen liefern Data Lakes wertvolle Informationen über Analysen oder die Interpretation mit Künstlicher Intelligenz. Daten haben sich also zu einem essenziellen Bestandteil der Unternehmenskultur gewandelt.
Die Besonderheit beim Big Data Backup ist in erster Linie die Menge der Daten. Selbst in mittelgroßen Unternehmen kann ein solches Backup schnell einen Umfang von mehreren Terabyte oder sogar Petabyte erreichen. Klassische Backup-Routinen mit Vollsicherung kommen hier an ihre Grenzen. Zum einen nimmt ein solches Backup mit üblichen Methoden viel Zeit in Anspruch. Zum anderen ist auch der Traffic, der hierbei im Firmennetzwerk entsteht, nicht zu unterschätzen. Aus diesem Grund gibt es bei diesen Backups spezielle Routinen und Herangehensweisen, um die besonderen Anforderungen bestmöglich zu erfüllen.
2 Warum ist ein Big Data Backup für Unternehmen so wichtig?
Bei der Sicherung von Daten geht es in erster Linie darum, einen Verlust zu verhindern. Geht es hingegen um das Thema Big Data, spielen noch andere Faktoren eine Rolle. So ist beispielsweise eine hohe Frequenz bei den Backups notwendig. Bei der klassischen Datensicherung findet teilweise nur alle 24 Stunden ein Backup statt. Im Bereich von Big Data ist die Fluktuation bei den Daten aber so hoch, dass ein solches Intervall zu groß ist und im Ernstfall zu einem deutlichen Verlust von Daten führt. Dementsprechend müssen Backups hier regelmäßig stattfinden.
Eine Rolle spielt außerdem die Integrität der Daten. Mithilfe von Integritätskontrollen bei der Datensicherung lässt sich gewährleisten, dass die Daten korrekt sind. Ohne eine solche Kontrolle besteht die Gefahr, Fehler in Datenbanken oder Applikationen zu sichern. Ebenso wichtig ist es aber, bei einem Datenverlust eine möglichst schnelle Wiederherstellung zu ermöglichen. Bei der Wiederherstellung einer Vollsicherung mit einem Umfang von mehreren Petabyte aus den Raw-Daten können schnell mehrere Tage vergehen. Das würde im Falle eines Datenverlustes zu enormen Ausfallzeiten führen. Anwendungen, die auf die Daten angewiesen sind, fallen möglicherweise für Wochen aus. Ein solches Szenario ist natürlich nicht akzeptabel.
Bei klassischen Backups spielen diese Punkte nur eine untergeordnete Rolle. Teilweise kommen hier differenzielle Backup-Routinen zum Einsatz, um die Prozesse schmal zu halten und die Netzwerkauslastung zu minimieren. Die Recovery eines solchen Backups basiert darauf, dass nur Datenbanken und Dokumente benötigt werden. Dementsprechend kompakt fällt ein solches Backup aus. Bei enorm großen Datenmengen ist diese Herangehensweise hingegen nicht praktikabel.
Das sind die zentralen Gründe, warum hier spezielle Backup-Methoden notwendig sind. Dies gelingt vor allem mit der Optimierung im Daten-Storage. Die Deduplizierung ist eine Methode, um die Backup-Routinen deutlich zu verkleinern. Dabei erkennt die Backup-Lösung Wiederholungen sowie Daten, die sich seit der letzten Sicherung nicht verändert haben. Alle diese Daten werden beim Backup ausgeschlossen, da sie bereits in aktueller Form gesichert sind, und werden gar nicht erst übertragen. Durch diesen inkrementellen Ansatz reduzieren sich die Datenmengen, die bei jedem Durchlauf gesichert werden müssen, enorm.
Das minimiert gleichzeitig die Datenlast im Netzwerk deutlich und optimiert den Bedarf an Speicherkapazität für die Sicherung. Dadurch ist es ebenfalls möglich, deutlich häufiger ein Backup durchzuführen, was wichtig ist, um einen aktuellen Zustand der Datensicherung zu gewährleisten. Die Speicherkapazität, die für ein solches Big Data Backup bereitgestellt werden muss, hängt natürlich von den Datenmengen ab. Dementsprechend ist eine Infrastruktur erforderlich, die diesen Anforderungen gewachsen ist.
An diesem Punkt kommt die Replikation ins Spiel. Ein Unternehmen sollte grundsätzlich immer mehrere Kopien der eigenen Daten besitzen. Dies ist unter anderem Grundlage der 3-2-1-Regel, die eine Strategie für die Datensicherung vorgibt. Ein Problem bei klassischen Backup-Strategien ist, dass es viele Kopien gibt, die jedoch nicht alle gleich sind. So entstehen über einen Zeitraum von beispielsweise einer Woche drei oder mehr Kopien, die ein Abbild zu einem spezifischen Zeitpunkt darstellen. Bei einem Datenverlust und der Wiederherstellung erfolgt in der Regel die Recovery nur aus dem neuesten Datensatz. Bei der Replikation hingegen sind alle Datensätze exakt gleich. Außerdem erfolgt die Sicherung kontinuierlich, bei der synchronisierten Replikation sogar laufend in Echtzeit.
Die Backup-Routine verteilt die Daten dann über das Netzwerk auf mehrere Lösungen für die Datensicherung. Auf diesem Weg erfolgt eine Synchronisation und es existieren mehrere exakte Kopien, die nah am Echtzeitstatus der Daten sind. Auf diesem Weg sind Konsistenz und Integrität sichergestellt.
3 Backup in der Cloud – eine Option für Big Data
Jedes Unternehmen benötigt eine individuelle Strategie für Backups. In Zeiten wachsender Datenmengen sowie einer steigenden Abhängigkeit von digitalen Informationen wird eine lückenlose Sicherung aller Informationen immer wichtiger. In der jüngeren Vergangenheit geht es auch darum, unstrukturierte, semistrukturierte und strukturierte Daten gleichermaßen zu sichern.
Die zentralen Anforderungen sind hier hohe Flexibilität, ausreichende Speicherkapazität sowie eine möglichst skalierbare Infrastruktur mit einer schnellen Reaktionszeit. An diesem Punkt kommen die Cloud sowie IT-Dienstleister, die sich auf Backup-Lösungen spezialisiert haben, ins Spiel. Mit einer Multi-Cloud-Strategie ist es möglich, die Sicherung auf mehrere Punkte und Server zu verteilen. Das ermöglicht im Falle eines Datenverlusts eine schnelle Wiederherstellung, da mehrere synchronisierte Quellen zur Verfügung stehen. Das ist wichtig für Unternehmen, um Anwendungen im Bereich der Big-Data-Analyse, der Forschung, Maschine Learning sowie den kritischen Geschäftsprozessen schnellstmöglich wieder in Betrieb zu nehmen.
Passend dazu gibt es Lösungen von IT-Dienstleistern wie TelemaxX für das Server-Backup. Hierbei erfolgt eine Sicherung aller Informationen von einem Server in die Cloud. Von dort gibt es die Möglichkeit, das Backup auf weitere Cloud-Server zu verteilen und zu synchronisieren. Ein weiterer Vorteil der Multi-Cloud-Strategie ist, dass die Netzwerklast aus dem Firmennetzwerk verschoben wird. Die Verteilung der Daten findet in der öffentlichen Infrastruktur zwischen den verschiedenen Punkten in der Cloud statt. So laufen die Prozesse weitestgehend im Hintergrund ab, was einen störungsfreien Betrieb der eigenen Infrastruktur gewährleistet.