Deduplicación de datos

Deduplicación de datos

¿Qué es la deduplicación de datos?

Es una técnica de compresión de datos que implica eliminar copias redundantes de datos de un sistema.

Se administra tanto en esquemas de respaldo de datos como de datos en red, y permite el almacenamiento de un modelo único de datos dentro de una base de datos o un sistema de información más amplio. La deduplicación de datos también se conoce como compresión inteligente de almacenamiento de instancia única, factorización de comunalidad o reducción de datos.

La deduplicación de datos funciona examinando y comparando los datos entrantes con los ya almacenados. Si ya existen datos específicos, los algoritmos de deduplicación eliminan los nuevos datos y los reemplazan con una referencia a los datos ya existentes.

Al realizar una copia de seguridad con un archivo antiguo con algunos cambios, el archivo anterior y los cambios aplicados se añaden al segmento de datos total. Sin embargo, si no hay diferencia, se descarta el archivo de datos más reciente y se crea una referencia.

La deduplicación de datos es una tecnología que los proveedores de almacenamiento utilizan para optimizar el espacio; la otra es la compresión. Estas funciones de almacenamiento suelen agruparse en una categoría más amplia, denominada reducción de datos. Todos estos sistemas contribuyen al mismo objetivo: una mayor eficiencia del almacenamiento. Con las técnicas de deduplicación adecuadas, las empresas pueden almacenar eficazmente más datos de los que su capacidad total de almacenamiento adecuadas de deduplicación y compresión, puede obtener una reducción 4:1, lo que significa que sería posible almacenar 60 TB en una matriz de datos de 15 TB.

Tipos de deduplicación de datos.

La deduplicación en línea

Se produce en el momento en que se escriben los datos en el almacenamiento. Mientras los datos están en movimiento, el motor de deduplicación los etiqueta secuencialmente. Este proceso, si bien es efectivo, genera sobrecarga de procesamiento. El sistema debe etiquetar repetidamente los datos entrantes e identificar rápidamente si esa nueva huella digital coindice con algo en el sistema. De ser así, se escribe una marca que apunta a la etiqueta existente. De no ser así, el bloque se guarda sin cambios. La deduplicación en línea es una característica importante para muchos dispositivos de almacenamiento y, si bien genera sobrecarga, no es demasiado problemática, ya que ofrece muchas ventajas que costes.

La deduplicación postproceso.

También conocida como deduplicación asincrónica, ocurre cuando todos los datos se escriben por completo hasta que, a intervalos regulares, el sistema de deduplicación los revisa y etiqueta todos los datos nuevos, elimina varias copias y las reemplaza con indicadores que apuntan a la copia de datos original.

La deduplicación postproceso permite a las empresas utilizar su servicio de reducción de datos sin preocuparse por la sobrecarga de procesamiento repetida que causa la deduplicación en línea. Este proceso permite programar la deduplicación para que se realice fuera del horario laboral.

La principal desventaja de la deduplicación postproceso es que todos los datos se almacenan en su forma completa. Para las empresas que utilizan deduplicación postproceso, se requiere una mayor capacidad de almacenamiento en todo momento.

Por qué es importante la deduplicación de datos.

A medida que la capacidad de los discos continúa aumentando, los proveedores de almacenamiento de datos buscan constantemente métodos para que sus clientes puedan almacenar grandes cantidades de datos en dispositivos de almacenamiento. Después de todo, incluso con discos más grandes, es lógico explorar oportunidades para maximizar su capacidad potencial. La deduplicación siempre tendrá importantes efectos positivos en el uso general del almacenamiento, reduciendo así los costos, pero es importante saber qué tipo de método de deduplicación se necesita para maximizar la eficiencia. Algunos métodos reducen los requisitos de ancho de banda, otros reducen las dependencias de almacenamiento local y otros se integran directamente con los servicios de computación en la nube.

Empieza a ahorrar con nuestros servicios de ciberseguridad administrados, contáctanos ahora mismo:

JR

Regresar al blog

Deja un comentario

Ten en cuenta que los comentarios deben aprobarse antes de que se publiquen.