giovedì, Novembre 21, 2024

L’uptime è denaro – Gestire i rischi di rete per ottimizzare la disponibilità del servizio

IP Fabric
IP Fabrichttps://ipfabric.io/
Fondata nel 2015 nel cuore d’Europa, IP Fabric è stato creata da 2 istruttori CCIE ed uno sviluppatore di talento che hanno visto l'opportunità di semplificare ed automatizzare in modo significativo una serie di attività fondamentali richieste per implementare o gestire qualsiasi progetto di rete. Oggi siamo una tecnologia leader per l’Intent-Based Networking, che aiuta clienti in tutto il mondo ad utilizzare al meglio la propria infrastruttura per raggiungere la sempre ricercata Digital Transformation.

di Seb d’Argoeuves

La vostra azienda si affida all’IT per fornire servizi ai clienti, ma cosa succede se c’è un guasto: potete permettervi un periodo di inattività (downtime)?

Che la risposta sia sì o meno, dovreste porvi questa domanda: come gestire i rischi di rete per massimizzare la disponibilità del servizio?

In questo post indicheremo alcuni rischi potenziali, per capire come meglio affrontarli.

1. Le basi: visibilità totale della rete

È fondamentale disporre di un quadro completo della vostra rete, poiché ragionevolmente non sarete in grado di gestire in modo corretto dispositivi o infrastrutture che non conoscete o di cui avete informazioni parziali.

1.1 Inventory

L’inventory è spesso usato come fonte per definire l’elenco dei dispositivi che andranno in manutenzione. Cosa succede se un dispositivo si guasta e non è coperto da manutenzione?

Sarà necessario ordinare una sostituzione, che potrebbe richiedere diversi giorni, settimane o più, prima di ripristinare il servizio. Nel migliore dei casi solo la resilienza del servizio sarà colpita, ma mentre aspettate l’arrivo del pezzo non potrete permettervi un altro guasto.

Nello scenario peggiore, un servizio non resiliente non sarà disponibile fino alla sostituzione del dispositivo difettoso.

Pertanto, mantenere un inventario accurato è fondamentale, anche se può essere molto impegnativo:

  • Siete certi che il vostro inventario attuale sia aggiornato?
  • L’aggiornamento prevede i dispositivi sostituiti la settimana scorsa o 6 mesi fa?
  • Quanto tempo occorre per verificare?

1.2 Documentazione

Un problema analogo si presenta con la documentazione di rete e il suo aggiornamento. Diagrammi aggiornati parzialmente possono essere fuorvianti quando ci si prepara a un cambiamento o quando si presenta un problema, con la conseguenza di incorrere in evitabili tempi morti.

Ovviamente, esistono processi che garantiscono l’accuratezza dei diagrammi e della relativa documentazione, ma richiedono molto tempo e, siamo onesti, ci sono progetti più emozionanti su cui lavorare.

2. Eliminate le inaccuratezze sulla rete

Gli strumenti di monitoraggio servono ad avvisarvi di un problema: ma cosa succede quando si presentano anomalie non riconosciute come problemi? Ad esempio, non vengono inviate trappole SNMP, né syslog, e non avete riscontrato sintomi perché il problema è solo su un collegamento o dispositivo di backup.

Come si rilevano tali imprecisioni per correggerle prima che diventino un disservizio?

2.1 Cattiva configurazione della MTU

La MTU può creare problemi quando esiste un percorso primario che funziona come previsto, ma il backup è mal configurato. Ciò significa che noterete il problema solo quando il percorso primario si guasta.

Essere certi che la MTU è configurata correttamente su tutti i dispositivi è questione complessa: quanto tempo occorre per raccogliere i dati MTU di tutte le interfacce, analizzarli per sapere, per ogni link, come è configurata la MTU su entrambe le estremità?

Avere accesso istantaneo ai link con MTU incoerente permette di essere proattivi, di correggere i link che causano problemi.

2.2 I BGP neighbor non ricevono prefissi

Il secondo problema di cui volevo parlare ha causato un grosso downtime in occasione di una mia precedente esperienza: il BGP neighbor che non ricevono prefissi.

Questa è la situazione: due BGP neighbors accanto a un service provider, ma sul router di backup, non stavamo ricevendo alcun prefisso. La sessione BGP era ancora stabilita, quindi secondo i nostri strumenti di monitoraggio tutto appariva regolare.

Ma poi è accaduto di perdere la connessione primaria e l’accesso al servizio, con un conseguente, enorme downtime.

Sapevamo che il path resiliente aveva funzionato in passato, ma quello che non sapevamo è che non funzionava più. Come potevamo rilevare e risolvere un problema simile?

Per ulteriori informazioni su questo punto, potete controllare il prossimo post sul blog.

Questi esempi mostrano come la vostra rete potrebbe incontrare problemi nella vostra più totale inconsapevolezza.

3. Ripristinare il servizio

Vogliamo essere proattivi per evitare qualsiasi tempo di inattività, ma ci sono situazioni in cui i problemi non si possono evitare. Quindi, dobbiamo essere reattivi e lavorare in modo efficiente per ripristinare il servizio.

3.1.Percorso end-to-end per troubleshooting avanzato

Utilizzando il percorso end-to-end di IP Fabric, si visualizzano molto rapidamente tutti i dispositivi coinvolti nel traffico da una fonte a una destinazione. IP Fabric non si limita a monitorare i dati di rete, ma include i firewall, in modo da visualizzare tutte le politiche che possono bloccare il traffico.

Con tale strumento a disposizione, diventa semplice individuare rapidamente la fonte del problema senza doversi collegare a nessun dispositivo, controllare i log su diversi firewall o impiegare tempo per trovare l’ultimo diagramma. Tutto è disponibile in un’unica vista dinamica:

3.2 Rappresentazione passata della vostra topologia di rete

Quando si procede con la risoluzione dei problemi, spesso non si ha un quadro di come la topologia funzionasse prima, sarebbe invece molto utile averlo perché, confrontandolo con quello attuale, si possono e identificare subito i cambiamenti:

  • Nell’esempio qui sopra, potete vedere che nell’istantanea precedente, c’era solo un link al cloud MPLS, il secondo (in rosso) non era presente, mentre è operativo nell’ultimo snapshot.

Conclusione

IP Fabric, come piattaforma a tutela della rete, mette in luce tutti questi punti deboli e vi informa proattivamente dei potenziali problemi.

C’è molto altro che IP Fabric può fare. Potete mettervi in contatto con noi attraverso www.ipfabric.io e seguire la nostra azienda su LinkedIn o sul blog, dove troverete altri contenuti.

Articoli correlati

Noleggia una Tesla per il tuo evento ICT!

Categorie