5 cosas que podemos aprender del apagón

Lo bueno, lo malo y lo feo

September 5, 2019 by

Nicolas Solop

Hace unas semanas vivimos un apagón que afectó a casi todos nuestros clientes en mayor o menor medida. Me gustaría en este post recorrer algunos de los puntos más notables de esas horas de incertidumbre.

De estos puntos hay buenos, malos y feos. Todos relacionados con los servicios de TI propios y de nuestros clientes, de la operatoria y de planes que deberían haber funcionado de otra forma.

Y hablo de propios porque dentro del incidente nosotros también vimos afectada parte de nuestra operación. Estas cosas que tenemos que aprender fueron identificadas durante la crisis y analizadas posteriormente.

Desde los primeros minutos nos pusimos en contacto con nuestros clientes, sin importar qué tipo de servicio hubiera contratado con nosotros. Queríamos identificar los siguientes puntos:

1- Si tenían servicios afectados.

2- Estado de la operación del negocio.

3- Cuál era el plan de acción, si tenían.

4- La criticidad para devolver el servicio durante un domingo.

Debido a que tenemos clientes en las más diversas verticales, algunos tenían que operar el domingo sí o sí, y otros podían esperar a la madrugada del lunes.

De estas comunicaciones con los clientes y de las respuestas que obtuvimos, creamos este listado.

Vamos a empezar por lo bueno, lo que creo que funcionó bien dentro de todo ese proceso de incertidumbre.

No estamos tan mal como parece

Este es uno de los puntos buenos que quiero destacar. A pesar de lo que uno puede pensar, fueron pocos los clientes nuestros que vieron afectados completamente sus servicios.

Al menos desde el punto de vista de los servicios primarios del centro de cómputos.

Léase energía eléctrica junto con todos sus derivados (UPS, generadores, etc.) y refrigeración.

En casi todos los casos, por uno u otro método, los servicios continuaron siendo entregados con una mínima interrupción.

Los planes e inversiones que se hicieron en los últimos años demostraron ser eficientes.

Las comunicaciones siguen en funcionamiento

Este es otro de los puntos buenos del que podemos aprender. Si bien fueron muchos los que tenían energía eléctrica en sus centros de cómputo, no tenían acceso a ellos por fallas en algún punto de las comunicaciones.

Algo que no falló del todo sino hasta unas cuantas horas dentro del apagón fueron los servicios de datos de celulares. Esto quiere decir que podemos aprovechar tecnologías modernas de comunicaciones como SDWAN y apalancarlas por medio de servicios de respaldo como líneas de celulares.

Está claro que no es para reemplazar los servicios de acceso remoto, sino para ofrecer una vía adicional.

Si los servicios de datos de celulares demostraron funcionar como lo hicieron, deberíamos considerar adoptarlos como backup.

Acceso a la información vital para la operación

Claramente este es uno de los puntos malos del que tenemos que aprender.

Tener la información almacenada en nuestros servicios web y no poder acceder a los mismos por falta de comunicaciones es algo que no se debe repetir.

Desde no contar con una copia en otro servicio online de ese documento con el procedimiento de la configuración de la VPN o, mucho más grave, el procedimiento de apagado del centro de cómputos.

Tuvimos un caso donde llegamos a minutos de tener que apagar todo el centro de cómputos y no había acceso al procedimiento de apagado ordenado.

Si tenemos la información publicada desde nuestro centro de cómputos, deberíamos contar con parte de esta información replicada en otro servicio que permita el acceso en caso de ser necesario.

Las decisiones se toman antes

Dentro de los puntos malos quiero hablar también de la falta de planificación para este tipo de escenarios. Si bien lo más común a analizar, y crear, es un plan de recuperación de desastres, diferentes escenarios tienen que ser planteados.

Dentro de la práctica de DRP siempre tenemos que analizar diferentes escenarios, como el de un apagón o un evento prolongado que impactará en el servicio.

Esos escenarios se plantean durante la etapa de creación del plan y ante cada uno de éstos, se definen las acciones a tomar. Hacer esto con tanta anticipación permite tomar decisiones mucho más acertadas.

Durante el apagón encontramos muchos casos donde no había definiciones realizadas ante los eventos y encontramos mucha improvisación.

Este evento debería disparar inmediatamente una revisión de tu plan de recuperación de desastres si existe, o de lo contario, la creación de uno.

Las pruebas son clave

Para el final, dejo el feo, el peor punto de todos los puntos a mi gusto.

Encontramos un caso, de los que tomamos contacto inicial, que al consultar el estado de sus servicios nos informó que las UPS habían soportado la carga y que en breve darían arranque al generador de forma manual.

Nos informó que tenían combustible suficiente para operar por horas una vez el generador entrara en régimen y que estaban sin dificultades.

El generador nunca arrancó, las baterías se agotaron y el resto... es historia.

En este caso había un plan de pruebas trimestral del generador.

Un plan que no se ejecutaba hacía dos años. Sí, dos años.

Con el diario del lunes es fácil escribir estas reflexiones.

Durante el incidente, en algunos casos, se vivieron momentos de crisis que se podrían haber evitado con planificación, con pruebas y con un plan de recuperación de desastres que ni siquiera se hubiera llegado a disparar por completo.

No hay que esperar a otro apagón para planificar y hacer las definiciones ahora, cuando estamos tranquilos.

No podemos esperar a chocar el auto para contratar el seguro.

De todo esto tenemos que aprender. De lo bueno, de lo malo y de lo feo.

¿Te interesa saber más sobre las buenas prácticas de DRP? Contactanos https://www.wetcom.com/page/contactus