< Blog

Qué es un almacén de datos y qué debe tener en cuenta al configurarlo

By:

Ingrid Ahumada

Computación en la nube
March 23, 2022

Gracias al continuo uso de herramientas digitales los grandes volúmenes de datos o el Big Data, es tema que cualquier empresa de cualquier tamaño o industria debe considerar como punto a tratar en su planeación estratégica.

El almacenamiento, procesamiento y explotación (entendiéndolo como el máximo uso que podamos) de la información, es parte esencial de las organizaciones actualmente. A través de los procesos de definición de una arquitectura y esquema de tratamiento de datos, se recomienda considerar una bodega de datos, o Data Warehouse como paso clave para un flujo de datos óptimo, confiable y escalable.

Un Data Warehouse es un sistema que integra diferentes fuentes de información, las agrega y combina en un almacén de datos único y centralizado, que facilita la generación de usos como la Inteligencia de Negocios, la minería de datos, inteligencia artificial (IA) y Machine Learning. El implementar un Data warehouse va a permitir a los equipos de su negocio el poder ejecutar análisis poderosos de aquellos grandes volúmenes (petabytes y petabytes) de datos que nos referimos inicialmente, ya sean propios históricos, y/o externos a los que quisiera compararse (quizá información pública de su mercado) y entender de formas que una base de datos estándar simplemente no puede.

Básicamente, un Data Warehouse (DWH) facilitará el acceso por parte de los tomadores de decisión a información precisa para una toma correcta y oportuna de decisiones. 

David Florian, quien lidera nuestra área de Arquitectura de Datos en Datavalue, ha desarrollado un extenso y detallado informe acerca de las plataformas actuales que ofrecen DWH y ha seleccionado los tres principales actores que están impactando en el mercado. Indiscutiblemente, si lo que requieres es alguna luz de qué y cual considerar para tu empresa, sigue scrolleando y encontrarás todo lo que debes tener en cuenta. 

¿Quiénes son los más fuertes Data Warehouses del mercado?

En la actualidad existen 3 actores importantes y de mayor robustez en el mercado, según el más reciente reporte de Forrester Wave Q1, 2021: BigQuery que hace parte de la plataforma deGoogle en la nube, Redshift como parte de los servicios de AWS y Snowflake que es un proveedor independiente.

snowflake
google bigquery
amazon redshif

Entonces, ¿cuáles son las ventajas que ofrece cada una de estas plataformas? Big Query es un sistema completamente automatizado que no requiere un programador o un administrador de Data Ware House para saltar al escalado de cómputo. El sistema asigna máquinas informáticas a cada consulta de acuerdo con sus propios cálculos internos. Redshift y Snowflake, por otro lado, son menos autónomos por naturaleza y requieren intervención humana para escalar. En Redshift, se puede usar un almacén diferente para cada consulta y los operadores pueden cambiar rápidamente de una a la siguiente consulta directamente desde la interfaz o el DDL. En Snowflake, el escalado se realiza a nivel de clúster, que consta de nodos de cómputo, lo que a su vez hace que el proceso sea aún más manual. Se utiliza una base de datos diferente para cada clúster. Además, Snowflake no es un servicio sin servidor, a diferencia de BigQuery y Redshift.

Si consideramos la mecánica que se utiliza para realizar las consultas, el método de conversión interna de datos, los tiempos de conexión, las restricciones en la cantidad de datos que se pueden cargar, los costos de ejecución y transferencia, la automatización del escalado utilizado, la existencia de gestión de cómputo dinámico, entre otros elementos, hace que cada plataforma tenga sus propias ventajas y desventajas.

Si quieres saber más sobre estas tres plataformas, déjanos tu email y obtendrás el informe original completo. Una vez que profundice en él, tendrá una mejor idea de qué es la implementación del almacén de datos y cómo se resumirá en sus casos de uso de análisis avanzado. Como resultado, podrá evaluar lo que necesita implementar y cuál se adapta mejor a las necesidades únicas de TI de su empresa.

Por ultimo

La segunda tarea de la conclusión es hacer un comentario final que sustente la tesis de manera memorable. Las lineas de cierre de un trabajo, por lo tanto, debe colocar la tesis en un contexto más amplio al mostrar su importancia dentro del campo de estudio. La segunda tarea de la conclusión es hacer un comentario final que sustente la tesis de manera memorable. Las lineas de cierre de un trabajo, por lo tanto, debe colocar la tesis en un contexto más amplio al mostrar su importancia dentro del campo de estudio.

Have you just learned something new?
Then join the 80,000 people who read our expert articles every month.
By signing up to this form I agree, that Datavalue may store my data and may contact me using the email address I have provided with promotional emails about products, special offers, and other information which may be of interest. Please also read our privacy policy. You can revoke your consent at any time
If you need help with your Digital Strategy don't hesitate to contact us.

Enjoy this article?
Thank you! Your submission has been received! We will share the report directly to your email.
Oops! Something went wrong while submitting the form.

IT'S NOT ABOUT
DATA. IT'S ABOUT
VALUE

Our low code and serverless solutions use advanced analytics to deliver
powerful information for your business success.

Otros blogs..

May 4, 2022

April 27, 2022

La ciencia de datos está en todas partes y todos los días en nuestras vidas. Eres un gran generador de datos.

Ciencia de datos

April 27, 2022