di Seb d’Argoeuves May 6, 2021
Il BGP è famoso per essere il protocollo di routing di Internet, ma non solo. Molte aziende lo usano nella loro rete interna, poiché garantisce controllo e flessibilità nello scambio di routing.
Come con qualsiasi protocollo di routing e connettività critica, vogliamo assicurarci di essere resilienti ai guasti e che la resilienza sia operativa. Con il BGP, per farlo, dobbiamo dare un’occhiata più da vicino ai prefissi che riceviamo.
Perché i prefissi che ricevi via BGP dovrebbero interessarti?
Prendiamo un esempio classico, il caso di due dispositivi collegati a una parte esterna (potrebbe essere il tuo ISP, un provider MPLS, ecc.)

In questo esempio, il sito L47 sulla sinistra è connesso al sito L21, che è il tuo cloud MPLS.
Abbiamo due sessioni eBGP stabilite con il cloud MPLS, ottimo, ma vogliamo assicurarci di essere resilienti controllando le rotte ricevute dal provider su entrambi i link. Così saremo in grado di raggiungere qualsiasi sito collegato al cloud MPLS.
In questo modo, se un link fallisce, si ha una resilienza completa: non perderemo la connettività alla rete MPLS né i servizi ospitati all’esterno del sito L47.
Cosa accade se non ricevi più rotte su uno dei due link?

Cosa può causare questa situazione?
– Misconfigurazione: la configurazione è cambiata su L47EXR2 o all’interno del sito del provider L21 che ha influenzato il numero di prefissi ricevuti.
– Problema del provider: il provider non sta pubblicizzando alcuna rotta, questo potrebbe essere dovuto a un problema all’interno della loro rete centrale. Tuttavia, la sessione BGP rimane attiva.
Qual è il problema?
In questa situazione, se si perde L47EXR1 o il link tra questo router e il sito L21, il link secondario non sarà in grado di inoltrare alcun traffico. L47EXR2 non sta ricevendo alcuna rotta.
Questo è ciò che vedresti sul tuo dispositivo:

State/PfxRcd che mostra “0” dice che la sessione BGP è stabilita, altrimenti si vedrebbe lo stato attuale (Idle, Active…). Qualsiasi altro numero andrebbe bene, purtroppo in questo scenario non si sta ricevendo alcuna rotta.

In questa situazione non hai alcuna resilienza e il tuo sistema di monitoraggio non avvisa del problema.
Perché il mio sistema di monitoraggio non mi avvisa?
Ottima domanda! In una situazione come questa, la sessione BGP non è interessata, il che significa che non c’è nessun errore generato dal router. Il dispositivo non invierà messaggi Syslog o trap SNMP per informare il sistema di monitoraggio del fatto che non stai ricevendo alcuna rotta.
Come posso individuare il problema affinché sia risolto?
È qui che IP Fabric può giocare un ruolo cruciale per identificare rapidamente il problema prima che causi danni. Ci sono diversi modi di individuare il problema:
1. Dashboard
La dashboard di IP Fabric fornisce una panoramica dei risultati dell’analisi della rete, compresi i problemi e i collegamenti a report dettagliati.

Dopo aver visto questa tabella, vorrai controllare ulteriori dettagli. Basta cliccare sul numero che t’interessa, e sarai reindirizzato alla pagina della tecnologia appropriata e alle intent verification.

2. Diagramma
Come abbiamo visto all’inizio, sarà possibile controllare direttamente sul diagramma il numero di prefissi ricevuti per un neighbor specifico.
È anche possibile visualizzare sul diagramma le informazioni di verifica di tutte le tecnologie supportate. In questo esempio, aggiungeremo le informazioni BGP sul diagramma per il sito 47:

Nel momento in cui selezioniamo la verifica da aggiungere al diagramma, possiamo vedere che L47EXR2 diventa rosso. Se clicchiamo sul dispositivo, vedremo la spiegazione del perché:

3. Percorso End to end
Possiamo individuare questo problema anche guardando il percorso end-to-end. Prendiamo un esempio in cui stiamo seguendo il percorso da una fonte nel sito L47 a una destinazione nel sito L66, che è collegato al cloud MPLS.
In una situazione normale, ci aspetteremmo di vedere il traffico in grado di utilizzare entrambi i link per raggiungere il cloud MPLS:

Se lo confrontiamo con lo snapshop in cui abbiamo il problema, possiamo vedere chiaramente che abbiamo perso la nostra resilienza:

Conclusioni
Non puoi assicurare la resilienza BGP se non monitori i prefissi ricevuti. Il problema principale di questa situazione è che il tuo sistema di monitoraggio non sarà in grado di informarti della perdita dei prefissi ricevuti. L’ultima cosa che desideri è una massiccia interruzione a causa del guasto di un link e scoprire che il link secondario non era operativo.
In passato, mi sono personalmente già trovato in una situazione del genere e diciamo solo che non mi è piaciuto scrivere l’autopsia spiegando che non sapevamo che il percorso ridondante non funzionava. È una situazione in cui non vorresti trovarti…
Se volete saperne di più su IP Fabric e su come può aiutare a migliorare la vostra infrastruttura esistente rilevando i problemi di cui non siete a conoscenza, contattateci attraverso www.ipfabric.io! Puoi anche seguire la nostra azienda su LinkedIn o sul Blog, dove abbiamo caricato altri contenuti.