Recuperacion de desastres en ambientes virtuales VMware – escenarios y conceptos generales

October 29, 2011 by
Recuperacion de desastres en ambientes virtuales VMware – escenarios y conceptos generales
Solop, Nicolas

Estaba escribiendo un post sobre Disaster Recovery as a Service (DRaaS) basado en VMware Site Recovery Manager cuando me di cuenta de que venía para largo el tema y más que un nuevo post se perfilaba como un capítulo para un libro en la materia. Teniendo en cuenta que en un post demasiado extenso el lector tiende a perderse o incluso perder el interés en el mismo decidí escribir este nuevo post en el blog de Wetcom concentrándonos únicamente en los conceptos básicos y en ambientes virtuales sin hundirnos en la complejidad que la materia de recuperación de desastres y continuidad de negocios requiere.

Primero que nada tenemos que entender los puntos básicos de tiempo sobre los cuales se trabaja en un plan de recuperación de desastres que son el RPO (Recovery Point Objective) y el RTO (Recovery Time Objective). Estos dos valores de tiempo son los que definen básicamente lo siguiente:

  • RPO: El Recovery Point Objective es el punto en el tiempo desde el cual recuperamos nuestra información. En otras palabras es la cantidad de información que podemos tolerar perder medido en tiempo desde el último respaldo disponible o bien desde el último trabajo de replicación exitoso. A mayor RPO mayor es la pérdida de información.

  • RTO: El Recovery Time Objective es el tiempo en el que volvemos a poner nuestros servicios en funcionamiento para dar servicios a nuestros usuarios o bien a nuestros clientes. A mayor RTO mayor es el tiempo que demoramos en volver a brindar servicios.

Desde un punto de vista más gráfico podemos verlo de esta forma:

Los cálculos de RTO y RPO no deben ser tomados a la ligera y para determinar los mismos se debe involucrar a toda la organización en un relevamiento de requerimientos de negocio el cual entregará los valores correctos. Este estudio o relevamiento está completamente fuera del alcance de este post.

Una vez definidos los valores de RTO y RPO  tenemos que trabajar en los diferentes escenarios básicos de recuperación de desastres en ambientes virtuales:

  • Respaldo y recuperación: algo complejo en los ambientes físicos y algo bastante más simple sobre ambientes virtuales ya que cada máquina virtual es simplemente un conjunto de archivos. Esta opción es de las más económicas ya que lo único que necesitamos es una buena solución de backup y un ambiente virtual donde recuperar nuestros servidores virtuales y luego comenzar a iniciar los mismos ordenadamente.

  • Replicación bajo demanda: esta alternativa es un poco más costosa que la de respaldo y recuperación pero logra ahorrarnos tener que trabajar con soluciones de backup para la recuperación si podemos tolerar la pérdida de información desde nuestro último trabajo de replicación. Llegado el momento de recuperar nuestro ambiente ante un desastre o algún evento que nos impida trabajar en nuestro centro de cómputos debemos contar con un ambiente virtual donde recuperar nuestros servidores virtuales y luego comenzar a iniciar los mismos ordenadamente.

  • Replicación y orquestación: desde la aparición de VMware Site Recovery Manager los escenarios cambiaron un poco ya que podemos tomar los beneficios de la replicación de almacenamiento (en la versión 5 del producto esto cambia, ya vamos a hablar al respecto) y además de esto orquestar el inicio de los servicios en el sitio secundario siguiendo el plan de recuperación definido sin necesidad de "ponernos a pensar" durante la marcha en medio de la crisis.

Habiendo visto los tres escenarios anteriores podemos exponer la siguiente tabla que si bien dependiendo del momento en que ocurre el incidente y las tecnologías de replicación puede modificarse pero generalmente muestra los siguientes valores:

Tengo que destacar que en los dos primeros casos deberíamos iniciar los procesos de recuperación de forma manual y siguiendo un plan que debe estar escrito en "papel" previamente para evitarnos dolores de cabeza al momento de la ejecución en el escenario real.  Este punto queda completamente automatizado si utilizamos VMware Site Recovery Manager ya que el producto se encarga de automatizar completamente el proceso de inicio en el sitio secundario.

Como conclusión tengo que aclarar que para cada caso en particular debemos analizar cual es la mejor opción de tecnología de recuperación de acuerdo a los tiempos de RTO y RPO como así también de nuestro presupuesto para nuestro plan continuidad de negocios o recuperación de desastres. Como vimos en la tabla anterior las magnitudes de RPO y RTO son diferentes de acuerdo a la tecnología que utilicemos y esto, como siempre, se traduce en la cantidad de dinero que debemos invertir en nuestra solución de DRP.

Nicolas Solop

VMware vExpert

LinkedinXingTwitter