W opisie sytuacji mamy bardzo charakterystyczny objaw: pakiety albo w ogóle nie docierają do celu, albo docierają z ogromnym opóźnieniem. W sieciach rozległych (WAN) jest to klasyczny sygnał natłoku, czyli przeciążenia sieci (ang. congestion). Oznacza to, że jakieś łącze, router lub cała część infrastruktury jest tak obciążona ruchem, że nie nadąża z przetwarzaniem i przekazywaniem pakietów. Bufory w routerach zaczynają się zapełniać, rosną kolejki, a gdy są przepełnione – pakiety są po prostu odrzucane. Stąd właśnie zjawisko utraty pakietów (packet loss) i dużego opóźnienia (delay, jitter). W praktyce, jeśli ping nagle zaczyna rosnąć z kilku ms do setek ms, a do tego pojawiają się timeouty, to bardzo często jest to właśnie efekt natłoku. W nowoczesnych sieciach stosuje się różne mechanizmy, żeby z natłokiem walczyć: QoS (Quality of Service), kolejkowanie priorytetowe (PQ, CBWFQ), mechanizmy RED/WRED do wcześniejszego odrzucania pakietów, kontrolę przeciążenia w TCP (slow start, congestion avoidance). Zgodnie z dobrymi praktykami, administrator monitoruje opóźnienia, straty pakietów i wykorzystanie łączy (np. SNMP, NetFlow) i jeśli widzi stały wysoki poziom zajętości, planuje rozbudowę łącza albo optymalizuje ruch. Moim zdaniem warto kojarzyć, że duże opóźnienia plus utrata pakietów w stanie ustalonym sieci to najczęściej nie „magia Internetu”, tylko właśnie natłok gdzieś po drodze. I to jest dokładnie to, co opisuje pytanie.
Opisany w pytaniu objaw, czyli brak dostarczania pakietów lub ich bardzo duże opóźnienie, wielu osobom automatycznie kojarzy się z jakąś „naprawą” sieci, zmianą trasy albo procesem dostosowania się protokołów routingu. To jest dość typowy błąd myślowy: skoro coś działa niestabilnie, to pewnie sieć się przebudowuje. W praktyce jednak takie zachowanie jest klasycznym skutkiem natłoku, a nie procesów typu regeneracja, konwergencja czy rekonfiguracja. Pojęcie regeneracji dotyczy fizycznej warstwy transmisyjnej. Regenerator, wzmacniacz czy repeater ma za zadanie odświeżyć sygnał, usunąć zakłócenia, przywrócić poziomy napięć lub kształt impulsów. Ten proces jest dla wyższych warstw w zasadzie „przezroczysty” i odbywa się ciągle, nie jako jakiś nagły epizod, który nagle zaczyna kasować pakiety. Jeśli byłby problem na poziomie regeneracji, to mielibyśmy raczej ciągłe błędy ramek, CRC, zrywanie synchronizacji, a nie typowy wzorzec: rosnące opóźnienie, kolejki i selektywna utrata pakietów w sytuacji dużego ruchu. Konwergencja to z kolei termin z protokołów routingu, takich jak OSPF, EIGRP czy BGP. Sieć „konwerguje”, gdy wszystkie rutery uzgodnią spójną tablicę routingu po zmianie topologii. W czasie konwergencji faktycznie może dojść do chwilowych problemów z dostępnością niektórych sieci, np. krótkich przerw, czarnych dziur routingu albo pętli. Jednak są to zwykle zjawiska krótkotrwałe, mocno skorelowane z konkretnym zdarzeniem (awaria łącza, zmiana konfiguracji). Nie objawia się to w sposób długotrwały jako stopniowo rosnące opóźnienia pod rosnącym obciążeniem, tylko raczej jako chwilowy brak trasy. Dobre praktyki projektowe mówią wręcz o dążeniu do szybkiej konwergencji, żeby użytkownik prawie jej nie zauważał. Rekonfiguracja natomiast to świadoma zmiana ustawień urządzeń sieciowych: modyfikacja tablic routingu statycznego, zmiana parametrów QoS, dodanie nowego VLAN-u, przełączenie interfejsu na inne łącze itp. Owszem, nieprzemyślana rekonfiguracja może spowodować przerwy w ruchu, błędne trasy, a nawet utratę łączności. Ale nie jest to z definicji proces, którego normalnym, stałym objawem jest duże opóźnienie i selektywna utrata pakietów przy wzroście obciążenia. To bardziej kwestia błędu administracyjnego niż naturalnej reakcji sieci na ruch. Z mojego doświadczenia najczęstsze pomyłki biorą się z mieszania warstw modelu OSI i patrzenia na sieć jak na jedną „czarną skrzynkę”. Gdy użytkownik widzi lagi, od razu szuka winy w „routingu” albo „konfiguracji”, zamiast najpierw sprawdzić podstawy: wykorzystanie łącza, kolejki na interfejsach, statystyki dropów. Tymczasem przeciążenie, czyli natłok, to zjawisko dokładnie opisane w literaturze i standardach, a pozostałe pojęcia z odpowiedzi dotyczą zupełnie innych mechanizmów i nie tłumaczą wprost tego, co opisano w pytaniu.