RAIDb

RAIDb (Redundant Array of Inexpensive Databases) es un concepto propuesto en Septiembre de 2003, por Emmanuel Cecchet, Julie Marguerite y Willy Zwaenepoel y recogido en un documento de 27 pÃ¡ginas de lectura obligada.

En este documento los autores definen el concepto de RAIDb como una extensiÃ³n del concepto de RAID (Redundant Array of Inexpensive Disks) aplicado a los repositorios de datos y presentan la implementaciÃ³n que han realizado de su concepto bajo el nombre de C-JDBC.

El problema a resolver es la escalabilidad de las bases de datos y la propuesta es hacerlo de forma horizontal utilizando hardware (y software) de bajo coste.

Tradicionalmente se ha avanzado mucho en la escalabilidad de las capas superiores de una arquitectura de sistemas de informaciÃ³n moderna (multi-capa). AsÃ el escalado de la capa de presentaciÃ³n (servidores web) y de la capa de aplicaciones/procesos (servidores de aplicaciones) estÃ¡ bastante bien resuelta. Mientras que la escalabilidad de la capa de datos normalmente se aborda mediante el escalado vertical (agrupaciones con un nÃºmero de nodos pequeÃ±o, tÃpicamente 2, y muy potentes).

AsÃ es «fÃ¡cil» encontrar instalaciones en las que existen centenares de servidores web atendiendo la presentaciÃ³n, decenas de servidores de aplicaciones ejecutando la aplicaciÃ³n/los procesos y un macro-cluster de base de datos soportando todo eso.

Ese macro-cluster acaba siendo la hardware mÃ¡s potente del fabricante de turno (IBM pSeries, Sun Fire Enterprise Server 25K, HP Superdome, etc.) con decenas de procesadores (sino cientos), cantidades ingentes de memoria y de almacenamiento. En estos clusters casi siempre y por definiciÃ³n, la mitad de la capacidad de proceso estÃ¡ desperdiciada. En un cluster de 2 nodos cada uno de los nodos tiene que ser capaz de asumir la carga completa del cluster ante la caÃda del otro nodo. Esto significa que se intenta mantener la carga del cluster de forma que ninguno de sus nodos supere el 50% de carga y, por lo tanto, el otro 50% de su capacidad no se usa en condiciones normales.

El planteamiento de RAIDb es llevar el concepto de escalabilidad horizontal a la capa de datos. Permitir el escalado horizontal (aÃ±adir mÃ¡s servidores, mÃ¡s pequeÃ±os, mÃ¡s baratos) de una forma sencilla, eficaz y econÃ³mica. RAIDb viene a cubrir las necesidades de escalabilidad y de tolerancia a fallos de la capa de datos.

Al igual que en el caso de RAID, los creadores de RAIDb identifican tres tipos de agrupamiento: RAIDb-0, RAIDb-1 y RAIDb-2. RAIDb-0 es un modelo en el que las bases de datos se particionan pero no se distribuyen (no hay redundancia), RAIDb-1 implica un mirrorring completo de las bases de datos (redundancia completa); mientras que RAIDb-2 define un escenario de replicaciÃ³n incompleta de las bases de datos.

Adicionalmente los autores identifican distintos subtipos: RAIDb-1ec, RAIDb-2ec

RelaciÃ³n rendimiento/tolerancia a fallos de las distintas variedades de RAIDb

En el documento mencionado no solo se explica y define todo lo dicho hasta ahora, sino que tambiÃ©n recoge informaciÃ³n acerca de un conjunto de benchmarks realizados por los autores (concretamente han utilizado el benchmark TCP-W) y que ilustran las capacidades de escalado de las distintas alternativas dependiendo del nÃºmero de nodos en el cluster.

Como os decÃa antes os recomiendo la lectura del documento original.

JorgeTome.info

Un diario web de Jorge Tomé Hernando

RAIDb

Deja una respuesta Cancelar la respuesta

Comparte esto:

Deja una respuesta Cancelar la respuesta