El gigante de las redes sociales Facebook sufrió el pasado lunes 4 de octubre una caída completa de todos sus servicios internos y externos; afectando a sus millones de usuarios en todo el mundo.
Facebook, Messenger, Instagram, WhatsApp y sus servicios corporativos dejaron de funcionar tanto en la web como en las aplicaciones móviles.
¿Qué pasó realmente?
Las informaciones más fidedignas que circulan en Internet apuntan a que uno de los administradores de red de Facebook cambió una configuración interna, de tal manera que prácticamente desapareció a la compañía y todas sus aplicaciones y servicios del Internet.
Cabe destacar que la Internet es percibida como una enorme red; sin embargo realmente es un conjunto de redes mucho más pequeñas que están entrelazadas entre sí.
Para que los datos fluyan entre todas esas redes fue diseñado un sistema para intercambiar información sobre la configuración y la localización de los nodos de cada subred.
Los routers (pequeños aparatos instalados en cada oficina y hogar) intercambian continuamente esa información sobre la ubicación de las redes bajo su control, utilizando el protocolo Border Gateway Protocol (BGP).
El protocolo de puerta de enlace de frontera o BGP es un protocolo mediante el cual se intercambia información de enrutamiento entre sistemas autónomos.
La falla ocurrió cuando una de estas subredes anunció a todas las demás, tanto interna como exteriormente, que la red de Facebook ya no era parte de ella.
Esa parte que falló era responsable de los servidores de nombres que son responsables de todos los dominios propiedad de la compañía de Marck Zuckerberg.
Cualquiera que trataba de ubicar la dirección IP de Facebook.com recibía una respuesta vacía, lo que significaba literalmente que sus dominios dejaron de existir en la Internet.
Otros servicios colapsaron
Luego que millones de usuarios se quedaron desconectados de sus redes sociales éstos buscaron la salvación en las siempre confiables Twitter y Telegram.
Sin embargo estos servicios comenzaron a recibir tanto tráfico que comenzaron a estresarse. Los DNS públicos también recibieron una especie de ataque con millones de solicitudes de los servicios de Facebook; los cuales simplemente no existían en ese instante.
Según estos servicios su tráfico subió entre un 30 y un 50%.
¿Por qué tardaron tanto?
Los empleados de Facebook se encontraron en una situación muy difícil ya que todos los servicios internos de la empresa así como los accesos físicos a las oficinas dejaron de funcionar.
Algunas de las oficinas solamente se pueden abrir con llaves electrónicas cuyas cerraduras están conectadas directamente a Internet; además todos sus sistemas tradicionales de comunicación dejaron de funcionar.
La falla era realmente muy sencilla de «reparar» con acceso físico a los servidores y routers de la compañía. Sin embargo todos los empleados están acostumbrados a trabajar remotamente. Las primeras señales de recuperación llegaron 3 horas después a eso de la medianoche.
¿Puede ocurrir nuevamente?
El diseño de la Internet actualmente es basado en los principios que fueron desarrollados hace más de 30 años.
La humanidad construyó una red mundial global que es centralizada, vulnerable y por lo tanto inestable.
Las más recientes fallas de Cloudflare, Amazon, Facebook y otras compañías gigantes del Internet han mostrado que tan frágil es el Internet.