Fonte: Solarwinds MSP BLOG – Di Eric Harless – Head Backup Nerd at Solarwinds MSP – Maggio 2020 – Traduzione N4B SRL

Nella prima e seconda parte di questa serie di monitoraggio del backup abbiamo coperto gli aspetti di base del successo del backup. Ad esempio, come guardare un dispositivo Timestamp (TS) per determinare se è online, ordinare i dispositivi per tipo di sistema operativo (OT) e Data di creazione (CD) e vedere quando si è verificata la Total Last Successful Session (TL). Le metriche di successo come queste sono sensibili al tempo, rimangono preziose solo finché sono ancora rilevanti e perdono valore col passare del tempo. Ma puoi utilizzare queste metriche per identificare le cose che dovresti lavorare per correggere ora. Ad esempio, esiste un valore minimo nella risoluzione dei problemi per cui un dispositivo ha avuto cinque errori di file aperti quando è rimasto offline per più di 72 ore. Tuttavia, puoi lavorare per ottenere quel dispositivo online. Altrimenti, è possibile eseguire un nuovo processo di backup prima di iniziare a risolvere guasti, conteggi degli errori o altri problemi di configurazione.

Seguendo questa premessa, ho riassunto sei passaggi per aiutarti a identificare e valutare i problemi dei dispositivi di backup:

  1. Definizione delle priorità
  2. Connettività
  3. Errori
  4. Selezioni
  5. Sincronizzazione
  6. Configurazione

1. Stabilire le priorità

Sebbene sia necessario monitorare tutti i dispositivi protetti per assicurarsi di rispettare gli accordi sul livello di servizio (SLA) concordati, non tutti questi dispositivi garantiscono la stessa risposta. Ti suggerisco di dare la priorità alla gestione di quei dispositivi in ​​base alla loro importanza. Ha senso iniziare con i dispositivi più importanti per il business dei tuoi clienti di profilo più elevato.

Ad esempio, un server è in genere più importante di una workstation. Lo stesso si può dedurre dal laptop di un CEO o di un imprenditore. Assicurati di dare la priorità ai dispositivi dei tuoi clienti più grandi e di alto profilo rispetto a quelli più piccoli e meno strategici. Usa questo (o altri criteri definiti come base) per capire quali dispositivi richiedono prima la tua attenzione. Ma non renderlo la tua unica guida. Se uno dei tuoi clienti non funziona, devi dare la priorità al recupero dei dati rispetto al successo del backup e riportarli online e in esecuzione.

2. Mantenere la connettività

Cerca di non essere distratto osservando gli errori di backup e il conteggio degli errori. Invece, prima lavora sull’identificazione dei dispositivi offline. Se un set di dispositivi non è connesso al cloud, non eseguirà il backup. Esiste un valore minimo nella diagnosi dei problemi di backup che non è possibile affrontare immediatamente. Contrassegna o registra l’errore di backup da rivedere in seguito poiché è irrilevante fino a quando non riesci a ristabilire la connettività al dispositivo. Potrebbe essere offline perché il sistema è offline, il software di backup è stato disinstallato o i servizi sono stati arrestati o bloccati. È possibile che i firewall impediscano l’accesso, che gli utenti siano in vacanza o che la rete sia semplicemente inattiva. Inizia eseguendo il ping del dispositivo, verifica che l’agente di backup sia installato, riavvia i servizi di backup, controlla la connettività al server di gestione ed escludi cose come restrizioni geografiche, firewall, o antivirus che potrebbe bloccare l’accesso. Una volta che il dispositivo è di nuovo online e l’agente di backup risponde, eseguire un nuovo processo di backup per proteggere eventuali nuovi dati e quindi verificare se sono ancora presenti errori precedenti.

3. Risoluzione degli errori

Affrontare gli errori totali prima di affrontare gli errori parziali poiché è meglio disporre di alcuni dati di backup piuttosto che nessun dato di backup. Gli errori potrebbero riguardare l’intero dispositivo o solo una singola origine dati. Grandi conteggi di errori sono generalmente indicativi di problemi di autorizzazioni, file aperti o bloccati, file offline, risorse di snapshot VSS insufficienti, riavvii di sistemi non pianificati, ecc. Grandi conteggi di errori potrebbero sembrare più importanti di piccoli conteggi di errori, ma non è sempre così. Piccoli conteggi di errori potrebbero essere altrettanto critici. Ad esempio, è un errore cruciale se non è possibile accedere all’intera unità C: \ o non sono state effettuate selezioni per un’origine dati.

Cerca le tendenze degli errori su più dispositivi e nel tempo. Determinare se i conteggi degli errori sono coerenti di giorno in giorno o se si verificano solo in determinati giorni o orari in cui si verificano altre finestre e attività di manutenzione. Verifica se i dispositivi interessati fanno parte dello stesso dominio o dietro lo stesso indirizzo IP esterno. Verifica se qualche software di backup o sicurezza di terze parti utilizza VSS.

4. Selezioni

A questo punto la percentuale di successo del backup dovrebbe iniziare ad aumentare. Ora puoi iniziare a confermare le sezioni del dispositivo e dei dati. Chiediti se stai proteggendo tutti i dati importanti dei tuoi clienti o se soffrono di una protezione insufficiente dei dati. Il tuo ambiente è configurato per proteggere automaticamente i volumi esterni quando vengono aggiunti a un sistema? Stai monitorando l’aggiunta di nuovi utenti e sistemi alla rete? Considera di abilitare il rilevamento dei dispositivi, la distribuzione automatizzata e una qualche forma di profilo di backup per risparmiare gli sforzi di installazione.

La protezione eccessiva può anche essere dannosa per il successo del backup. Prendi Microsoft SQL e Microsoft Hyper-V come esempi. È necessario confermare che l’applicazione o un altro strumento non sta eseguendo anche snapshot, dump, replica o backup degli stessi dati. Senza un’installazione corretta, i backup potrebbero interferire tra loro. La scelta di escludere dati ridondanti o con valore di ripristino pari a zero può anche aiutare a migliorare il successo del backup, risparmiare larghezza di banda, ridurre le dimensioni del backup e potenzialmente ridurre i costi. Cerca e rimuovi selezioni duplicate su più origini dati. Imposta filtri di esclusione che ti impediscono di eseguire il backup di elementi come file temporanei, directory di dump, librerie multimediali, aggiornamenti di patch e AV, ecc.

5. Sincronizzazione e prestazioni

I backup potrebbero avere esito positivo, ma stanno completando entro il periodo di tempo desiderato? Se si utilizza un Local Speed ​​Vault, i dati sono completamente sincronizzati a livello locale e fuori sede? Quando è stato completato l’ultimo backup fuori sede eseguito correttamente? Stai limitando upload o download? Ridurre le selezioni, aggiungere esclusioni o regolare la limitazione della larghezza di banda può aiutare a ottimizzare le prestazioni. Ma è anche possibile che tu abbia semplicemente troppi dati di modifica per supportare la frequenza di pianificazione del backup desiderata. È possibile che si desideri esaminare i registri delle sessioni per vedere dove si verificano i backup più lunghi e più grandi. Prendi in considerazione la possibilità di adattare le tue pianificazioni affinché vengano eseguite meno frequentemente durante il giorno o la settimana e con meno sovrapposizioni da altri backup sulla stessa rete. Se questa non è un’opzione, potrebbe essere il momento di considerare l’aggiunta di maggiore larghezza di banda su questo sito.

6. Configurazione e conservazione

Anche i migliori tecnici a volte distribuiscono il backup in fretta. Quando ciò accade, spesso le cose si perdono. Anche se non viene distribuito in fretta, le cose possono essere trascurate. Se le impostazioni dei backup (selezioni, sicurezza, conservazione, ecc.) non sono coerenti all’interno di un client (o tra i tuoi client), potresti scoprire se sei in grado di soddisfare gli SLA o SLO concordati. La conservazione dei dati può essere fondamentale quando si tratta di recupero o conformità del ransomware e potrebbe essere necessario abilitare gli archivi per conservare i dati per più dei 28 giorni predefiniti. Anche la sicurezza dei dati è importante. Hai controllato i tuoi dispositivi per assicurarti di aver impostato le misure di sicurezza desiderate, inclusi proxy, accesso remoto e password della GUI? Hai convalidato di aver registrato le chiavi di crittografia corrette?

7. Rimanere in salute

Inizialmente potrebbe volerci un po ‘di tempo, ma una volta che la dashboard di backup è arrivata al punto in cui è prevalentemente verde con successi, sarà più facile da mantenere. È importante ricordare che non sei solo. Non esitare a contattare l’assistenza tecnica, l’ingegnere delle vendite, l’account manager, il team di successo dei clienti o il responsabile della sicurezza se hai bisogno di assistenza per la risoluzione degli errori.

Eric Harless è Head Nerd di Backup presso MSP SolarWinds. Eric collabora con SolarWinds Backup dal 2013 e ha oltre 25 anni di esperienza nel settore della protezione dei dati nelle vendite, supporto, marketing, ingegneria dei sistemi e gestione dei prodotti.

Puoi seguire Eric su Twitter all’indirizzo @backup_nerd