Cómo funciona la deduplicación de datos

La deduplicación de datos (eliminación de duplicados) es una tecnología que permite "encajar" más copias de seguridad en el mismo medio físico, reternerlas durante períodos más prolongados y acelerar la recuperación de datos. La deduplicación analiza los flujos de datos enviados para que se lleve a cabo la copia de seguridad y busca fragmentos duplicados para guardarlos solamente una vez. Los duplicados se guardan en archivos de índice especiales.

En CA ARCserve Backup, la deduplicación (eliminación de duplicados) es un proceso en línea que se realiza en el servidor de copia de seguridad, en una sesión única. Para identificar la redundancia entre las tareas de copia de seguridad realizadas en los directorios raíz de dos equipos diferentes, utilice la deduplicación global.

Durante la primera copia de seguridad:

En el diagrama que se muestra a continuación, el espacio en disco necesario para realizar la copia de seguridad de flujo de datos es menor en una tarea de copia de seguridad de deduplicación que en una tarea de copia de seguridad normal.

Ilustración: la deduplicación solamente guarda fragmentos de datos exclusivos en el disco

Con la eliminación de duplicados, se crean tres archivos para cada copia de seguridad:

Los dos archivos de índice juntos consumen un pequeño porcentaje del almacén total de datos. De esta forma, el tamaño de la unidad que almacena estos archivos no es tan importante como su velocidad. Plantéese el uso de un disco de estado sólido o dispositivo similar con tiempos de búsqueda excelentes para este fin.

Durante los procesos de copia de seguridad posteriores:

Nota: Utilice la optimización para obtener mejor rendimiento y disminuir el uso de la CPU. Con la opción Optimización activada, CA ARCserve Backup explora los atributos de archivo y busca modificaciones realizadas a nivel de encabezado de archivos. En caso de no haberse realizado modificaciones, el algoritmo hash no se ejecuta en esos archivos y éstos no se copian al disco. El algoritmo hash se ejecuta únicamente sobre los archivos modificados desde la última copia de seguridad. Para activar la opción Optimización, seleccione Permitir la optimización en copias de seguridad de deduplicación que se encuentra en la pantalla de configuración de grupo de deduplicación. La opción Optimización solamente se admite en volúmenes de Windows. No es compatible con copias de seguridad basadas en flujos como, por ejemplo, copias de seguridad de nivel de imagen VMware, SQL VDI, nivel de base de datos Exchange u Oracle.

Cuando deba restaurar datos deduplicados, CA ARCserve Backup consulta los archivos de índie para identificar y luego encontrar todos los fragmentos de datos necesarios para volver a ensamblar el flujo de datos