Definición

Se llama Big Data, datos masivos o macrodatos, a los conjuntos de información cuyo volumen sobrepasa las capacidades de las herramientas convencionales de procesamiento de datos. También Big Data se refiere a la recopilación de todos estos datos y nuestra capacidad de utilizarlos a nuestro favor en una amplia gama de áreas, desde los negocios hasta la política.

La revolución de los datos masivos tiene que ver directamente con los grandes avances en las capacidades de cómputo y almacenamiento de información, cuya curva de aceleración no deja de crecer. La realidad social, política y económica siempre ha ofrecido una enorme cantidad de información y el hombre siempre ha hecho lo posible por interpretarla, pero es en la actualidad que se cuenta con la infraestructura tecnológica y el conocimiento para procesar la totalidad de grandes conjuntos de datos, y ya no solo muestras representativas, lo que permite identificar correlaciones y segmentar el universo de datos en formas que eran imposibles anteriormente.

Cada vez se producen más datos que están disponibles para el análisis en la medida en que la tecnología permite registrar prácticamente cualquier rasgo de la actividad humana: desde los latidos del corazón hasta los hábitos de consumo y patrones de pensamiento. Al estudiar enormes cantidades de datos, comienzan a surgir correlaciones entre fenómenos o variables que anteriormente estaban ocultas, y estas relaciones nos permiten aprender y tomar decisiones más inteligentes.

 

Mediante programación algorítmica, se construyen modelos y se ejecutan millones de simulaciones ajustando todas las variables posibles hasta que se encuentre un patrón, o un dato, que ayude a resolver el problema en el que está trabajando.

El concepto de Big Data está en constante evolución y reelaboración, ya que sigue siendo la fuerza impulsora detrás de muchos factores de la transformación digital, incluidos la inteligencia artificial, la ciencia de datos y el Internet de las cosas.

En la actualidad, cada dos días se producen tantos datos como desde el comienzo de los tiempos hasta el año 2000. Y esta capacidad continúa aumentando rápidamente.

Hoy en día, casi todas las acciones que realizamos dejan un rastro digital. Generamos datos cada vez que nos conectamos a internet, cuando activamos el GPS en nuestros teléfonos inteligentes, cuando nos comunicamos con nuestros amigos a través de las redes sociales o aplicaciones de mensajería, y cuando compramos. Se podría decir que dejamos huella digital con todo lo que hacemos que implica una acción digital, que es casi todo. Además de esto, la cantidad de datos generados por máquinas también está creciendo rápidamente. Los datos se generan y se comparten cuando nuestros dispositivos domésticos “inteligentes” se comunican entre sí o con sus servidores matrices. La maquinaria industrial en plantas y fábricas de todo el mundo está cada vez más equipada con sensores que recopilan y transmiten datos.

El término “Big Data” se refiere a la recopilación de todos estos datos y nuestra capacidad de utilizarlos en una amplia gama de áreas, incluidos los negocios.

 

Áreas de aplicación

Las principales áreas de aplicación de las tecnologías Big Data son las siguientes:

 

Inteligencia de Negocios

Es la combinación de tecnología, herramientas y procesos que me permiten transformar datos almacenados en información, esta información en conocimiento y que este conocimiento sea dirigido a un plan o una estrategia comercial. La Inteligencia de Negocios es una técnica que debe convertirse en parte esencial de la estrategia empresarial, ya que le permite optimizar la utilización de recursos, monitorear el cumplimiento de los objetivos de la empresa y la capacidad de tomar buenas decisiones para así obtener mejores resultados.

La Inteligencia de Negocios se puede aplicar tanto a empresas comerciales como a instituciones de carácter público o privado. La toma de decisiones basadas en datos aporta enormes beneficios como: conocimiento pleno y en tiempo real de todos los procesos de la la organización, mejor entendimiento de los clientes o población objetivo, control de costos, desarrollo óptimo de indicadores de gestión, evaluación permanente de la efectividad e impacto de planes y líneas de trabajo.

Inteligencia social

Se refiere al aprovechamiento de la información acerca de grupos y subgrupos sociales poblaciones, audiencias, etc., extraída de la actividad en las redes y canales sociales. Las grandes cantidades de datos (Big Data) que se encuentran disponibles en las plataformas de comunicación digital representan una mina de oro tanto para empresas, marcas, medios de comunicación, agencias de publicidad, como para organizaciones políticas e incluso los gobiernos. Mediante un adecuado análisis, se puede extraer valor de esta información de distintas maneras:

  • Identificar perfiles de grupos e individuos

  • Registrar y relacionar comportamientos

  • Segmentar poblaciones (descubrir subgrupos)

  • Pronosticar cambios conductuales

  • Predecir escenarios

El avance en las capacidades de cómputo y almacenamiento de datos ha permitido un mejor uso de la información de las redes sociales. Las empresas y organizaciones ya no solo “monitorean” el comportamiento de su marca en la red o la cantidad de menciones que pueda haber obtenido. Ahora se concentran más en “conocer” mejor a la audiencia y entenderla de manera orgánica. Comprender que lo que antes se llamaba “el público” en realidad está conformado por distintos grupos e individualidades con intereses, gustos, opiniones y sentimientos particulares ha sido un gran aporte par ala comunicación tanto comercial como política. Y esto ha sido posible gracias a la capacidad de procesar bases de datos realmente enormes para poder establecer patrones con alto grado de seguridad. Es decir, ha sido posible gracias a la Big Data.

Inteligencia política

En el caso del Marketing Político, la aplicación de Big Data a las redes sociales asume una importancia particular. Si bien se asemeja su uso al que hacen las empresas al estudiar y segmentar las poblaciones de consumidores (Microtargeting, análisis de opinión, establecimiento de patrones de comportamiento, predicción del voto), también el procesamiento de Big Data tiene un importante impacto en el área de políticas públicas. Mediante rel análisis y combinación de distintas bases de datos (redes sociales, datos de consumo de servicios, índices económicos y socioeconómicos, etc.) se pueden establecer sistemas para la identificación y geolocalización de necesidades, de manera que los gobiernos puedan ser más eficientes en su gestión y propicien la innovación en los servicios públicos.

 

Tipos de datos

Las bases de datos se clasifican, en primer lugar, de acuerdo a su estructura, es decir, a la forma como están presentados los datos. Es aśi que tenemos tres grandes conjuntos:

Datos estucturados

Esta categoría se refiere a la información que se suele encontrar en la mayoría de bases de datos. Son archivos de tipo texto que se suelen mostrar en hojas de cálulo que presentan filas y columnas con títulos. Son datos que pueden ser ordenados y procesados fácilmente por todas las herramientas de minería de datos. Lo podríamos ver como si fuese un archivador perfectamente organizado donde todo está identificado, etiquetado y es de fácil acceso. Un ejemplo de ello, es una base de datos de clientes estándar, en ella se incluyen el nombre, la dirección de correo electrónico, el número de teléfono, etc. Es decir, dan nombre a cada campo de la base de datos y como consecuencia, este tipo de datos son fáciles de introducir, analizar y almacenar.

Datos semi estructurados

Estos suelen tener un tipo de formato que puede ser definido pero no es fácil su comprensión por el usuario y requieren habitualmente el uso de reglas complejas que ayuden a determinar cómo leer cada pieza de la información. Un ejemplo son los registros de las etiquetas en lenguajes HTML, XML, XTML que escisten en una web o blog.

Datos no estructurados o desestructurados

Generalmente, alrededor de 80 % de la información relevante para un negocio se origina en forma no estructurada, principalmente en formato texto. Los datos no estructurados no tienen estructura interna identificable. Se trata de un conglomerado masivo y desorganizado de varios objetos que no tienen valor hasta que se identifican y almacenan de manera organizada. Una vez que se organizan, los elementos que conforman su contenido pueden ser buscados y categorizados para obtener información. Ejemplos: audios, vídeos, fotografías, documentos impresos, mensajes de correo electrónico, Twitter, etc.

Los datos también pueden ser clasificados por su fuente y por la forma de recolección:

Fuentes

1.- Web y Social Media: Incluye contenido web e información que es obtenida de las redes sociales como Facebook, Twitter, LinkedIn, blogs, etc.

2.- Máquina a Máquina (M2M): M2M se refiere a las tecnologías que permiten conectarse a otros dispositivos. M2M utiliza dispositivos como sensores o medidores que capturan algún evento en particular (velocidad, temperatura, presión, variables meteorológicas, variables químicas como la salinidad, etc.) los cuales transmiten a través de redes alámbricas, inalámbricas o híbridas a otras aplicaciones que traducen estos eventos en información significativa.

3.- Big Data transaccional: Incluye registros de facturación, en telecomunicaciones registros detallados de las llamadas, etc. Estos datos transaccionales están disponibles en formatos tanto semiestructurados como no estructurados.

4.- Biométrica: Información biométrica en la que se incluye huellas digitales, escaneo de la retina, reconocimiento facial, genética, etc. En el área de seguridad e inteligencia, los datos biométricos han sido información importante para las agencias de investigación.

5.- Generación Humana: Las personas generamos diversas cantidades de datos como la información que guarda un call center al establecer una llamada telefónica, notas de voz, correos electrónicos, documentos electrónicos, estudios médicos, etc.

 

Formas de recolectar datos

1- Datos creados: Estos son los datos que no existirían a no ser que los pidamos u obtengamos a través de preguntas a la gente. Así, para obtener los datos de esta categoría necesitas realizar encuestas a personas y establecer un mecanismo de captura y análisis de esta información Ejemplos de datos creados son todos aquellos obtenidos de manera activa a través de formularios online, estudios de mercado, grupos de consumidores, encuestas a empleados etc. Generalmente este tipo de datos implica que una persona voluntariamente participe en el proceso de crearlos.

Los datos creados son por lo general datos estructurados y semi-estructurados y pueden ser tanto internos como externos a la organización.

2- Datos provocados: Los datos provocados de alguna manera son también datos creados. Pero estos datos son obtenidos de una forma pasiva. Por lo general se espera a que las personas expresen una opinión sobre la experiencia que han tenido a cerca de un producto o servicio pero sin pedirles que lo hagan. Un buen ejemplo de todo esto serían los sistemas de evaluación o de “reviews” tipo Amazon. Donde puedes valorar el producto en base a un número determinado de estrellas.

Esto datos son por lo general datos estructurados o semiestructurados y también pueden ser tanto internos como externos.

3- Datos transaccionales: Son los datos que se generan cada vez que un cliente hace una compra. Esta manera de recolectar datos es muy popular entre las empresas de gran consumo y retail. Y permiten obtener información acerca de qué se ha comprado, cuándo se ha comprado, dónde se ha comprado y quién ha comprado algo. Tienen mucho sentido para empresas donde se producen un gran volumen de transacciones de un gran número de clientes. Combinadas con otras informaciones permite mejorar ofertas y desarrollar estrategias de marketing específicas.

Estos son datos internos y totalmente estructurados.

4- Datos compilados: Son los datos previamente recopilados por empresas que después se encargan de venderlos o comercializarlos a terceros. Se trata de compañías cuya actividad se basa en crear grandes bases de datos con información sobre personas o empresas para después vender estos datos para que sean explotados por terceros.

Por lo general los datos compilados son estructurados y externos.

5- Datos experimentales: Estos datos son un híbrido entre los datos creados y los datos transaccionales. En cualquier caso implica diseñar experimentos en los que los consumidores de nuestra empresa reciben diferentes tratamiento de marketing (datos creados) para ver cuál es su respuesta a estos estímulos (transacciones).

Aquí podríamos hablar de los famosos A/B testing que se hace por ejemplo en el diseño de determinados elementos online u offline. Como por ejemplo cambiar el diseño de una landing page o el escaparate de una tienda física. Por eso se llaman datos experimentales. Porque estamos probando y tratando de optimizar la respuesta del público a una serie de estímulos como en un laboratorio.

Estos datos por lo general son datos semiestructurados o estructurados y pueden ser tanto internos como externos.

6- Datos capturados: Estos datos tienen mucho que ver con los datos recogidos de forma pasiva sobre el comportamiento de las personas y máquinas, generados a través del uso de dispositivos y aplicaciones web pero de los que como usuarios no somos cocientes de que los creamos. Ejemplos de este tipo de datos son los datos del GPS del móvil aprovechados para desarrollar aplicaciones sobre tráfico o los datos sobre búsquedas que realizamos en Google o sensores que miden nuestro comportamiento como las pulseras inteligentes.

Estos datos que generamos son generalmente desestructurados y generados interna o externamente a la empresa.

7- Datos generados por usuarios: Son los datos que tanto personas como empresas generan de forma consciente. Incluye tanto comentarios en foros, redes sociales como blogs a cambios en páginas web etc. Todo lo relacionado a la actividad de las personas en internet.

Se trata de datos desestructurados y generalmente externos a la empresa.

 

Tipos de análisis

Existen al menos cuatro categorías en las que podemos ubicar los distintos tipos de análisis de Big Data:

Analítica descriptiva

Se trata de conocer todos los indicadores que permitan aprehender el estado actual de la organización, del mercado o del área que se desee estudiar. Datos como ventas, consumo, producción, ingresos, egresos, etc., procesados y relacionados pueden ayudar a determinar anomalías y posibles amenazas.

Analítica diagnóstica

Se refiere al proceso de profundizar el análisis de los datos para aislar el origen de la situación actual, la raíz de algún problema.

Analítica predictiva

Este análisis implementa técnicas que permiten determinar la probabilidad de que ocurra un evento en el futuro, la previsión de una cantidad cuantificable o la estimación de un punto en el tiempo en el que algo podría suceder.

Analítica prescriptiva

Consiste en un entendimiento de lo que ha sucedido, por qué ha sucedido y una variedad de análisis de “lo que podría suceder” para ayudar al usuario a determinar el mejor curso de acción a tomar.

 

Las 5 V de la Big Data

1.- Volumen

La primera característica es la enorme cantidad de datos para procesar. Por eso se habla de “Big” data. Puede tratarse de datos de valor desconocido, como feeds de Twitter, secuencias de clics en una página web o una aplicación móvil, o equipos habilitados con sensores. Lo que antes era mucha cantidad, ahora no lo es tanto. Pero lo cierto es que la generación de datos crece exponencialmente y también aumenta a gran velocidad nuestra capacidad para porcesarlos. En cualquier caso, qué es Big Data depende de las características de la organización que se esté analizando. Para algunas organizaciones, esto podría ser decenas de terabytes de datos. Para otros, pueden ser cientos de petabytes. El punto está en la capacidad de procesar conjuntos completos de datos, visualizar el 100% de la información.

2.- Velocidad

Hoy en día, algunos productos y servicios inteligentes disponibles en Internet operan en tiempo real o casi en tiempo real, por lo que requieren evaluación y acción también en tiempo real. En muchos casos la cantidad de información crece vertiginosamente, es por eso que el tiempo de procesamiento de la información es un factor fundamental para que dicho tratamiento aporte ventajas que marquen la diferencia.

3.- Variedad

Hay muchos tipos de datos disponibles. Los datos tradicionales eran estructurados y cabían perfectamente en una base de datos relacional. Con el auge de la Big Data, la información muchas veces se presenta en forma de datos no estructurados. Los datos no estructurados y semiestructurados, como el texto, el audio y el video, requieren preprocesamiento adicional para aportar significado y valor.

4.- Veracidad

Con un alto volumen de información que crece a tal velocidad y presenta tal variedad, surgen dudas en el análisis acerca del grado de veracidad que éstos poseen. Por ello es necesario ejercer una limpieza en los datos para así asegurar el mayor aprovechamiento de los mismos.

5.- Valor

Los avances tecnológicos recientes han reducido exponencialmente el costo de almacenamiento y cálculo de datos, por lo que es más fácil y menos costoso que nunca acumular más datos. Con un mayor volumen de Big Data ahora más económico y accesible, es más fácil llegar a tomar decisiones comerciales más acertadas y precisas. Pero encontrar valor en Big Data no es solo organizar la información. Es un proceso de descubrimiento completo que requiere analistas perspicaces, líderes de proyecto que hagan las preguntas correctas, especialistas capaces de diseñar e implementar modelos, reconocer patrones, construir escenarios y hacer predicciones.

 

La revolución de los datos masivos

El flujo cada vez mayor de información proveniente de sensores, fotografías, texto, voz y datos de video implica que ahora podemos usar datos de maneras que no eran posibles hace unos años. Esto está revolucionando el mundo de los negocios en casi todas las industrias. Las empresas ahora pueden predecir con precisión qué segmentos específicos de clientes querrán comprar, y cuándo, con un increíble grado de exactitud. Y la Big Data también ayuda a las empresas a ejecutar sus operaciones de una manera mucho más eficiente.

Los datos están cambiando nuestro mundo y la forma en que vivimos a un ritmo sin precedentes. La cantidad de datos disponibles para nosotros no dejará de aumentar, y las tecnologías de análisis serán cada vez más avanzadas.

La capacidad de aprovechar la Big Data se volverá cada vez más importante para las empresas en los próximos años. Aquellas que vean los datos como un activo estratégico son las que sobrevivirán y prosperarán. Aquellas que ignoren esta revolución corren el riesgo de quedarse atrás.

ISARQ/AG

DESCUBRA MÁS: ISARQ desarrolla soluciones basadas en Big Data para su empresa, industria u organización

 

Comparte en redes sociales
Share on Facebook
Facebook
Share on Google+
Google+
Tweet about this on Twitter
Twitter
Share on LinkedIn
Linkedin

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *