Bienvenidos al sitio del Instituto Europeo de Formación Tecnológica . Haga su búsqueda en el espacio a continuación.

Síguenos en redes:

Big Data & Business Intelligence

.

Luis Esteban Castillo Ledezma

 

– Algoritmia – Instituto Europeo de Formación Tecnológica

 

Big Data & Business Intelligence

 

Resumen

El Big Data se ha convertido en una tendencia mundial y aunque todavía carece de un concepto consensuado científico o académico, cada día augura un mayor crecimiento del mercado que rodea y las áreas de investigación asociadas. Este artículo reporta una revisión sistemática de la literatura sobre Big Data considerando un estado del arte sobre técnicas y tecnologías asociadas con Big Data, que incluyen captura, procesamiento, análisis y visualización de datos.

Se exploran las características, fortalezas, debilidades y oportunidades para algunas aplicaciones y modelos de Big Data que incluyen soporte principalmente para modelado, análisis y minería de datos. Asimismo, se introducen algunas de las tendencias de futuro para el desarrollo de Big Data por aspectos básicos, alcance e importancia de cada uno.
La metodología utilizada para la exploración implica la aplicación de dos estrategias, la primera corresponde a un análisis cienciométrico y la segunda corresponde a una categorización de documentos a través de una herramienta web para apoyar el proceso de revisión de la literatura. Como resultados se genera un resumen y conclusiones sobre el tema y surgen posibles escenarios para el trabajo de investigación en campo.

 

Introducción

El crecimiento en el volumen de datos generados por diferentes sistemas y actividades cotidianas en la sociedad ha forjado la necesidad de modificar, optimizar y generar métodos y modelos de almacenamiento y tratamiento de datos que suplan las falencias que presentan las bases de datos y los sistemas de gestión de datos tradicionales. Respondiendo a esto aparece Big Data, término que incluye diferentes tecnologías asociadas a la administración de grandes volúmenes de datos provenientes de diferentes fuentes y que se generan con rapidez.

A pesar de que el término Big Data se asocia principalmente con cantidades de datos exorbitantes, se debe dejar de lado esta percepción, pues Big Data no va dirigido solo a gran tamaño, sino que abarca tanto volumen como variedad de datos y velocidad de acceso y procesamiento. En la actualidad se ha pasado de la transacción a la interacción, con el propósito de obtener el mejor provecho de la información que se genera minuto a minuto.

Con el auge del Big Data se ha dado cabida también a un nuevo concepto, Data Science o Ciencia de los Datos, que se usa de forma genérica para hacer referencia a la serie de técnicas necesarias para el tratamiento y manipulación de información masiva desde un enfoque estadístico e informático. Incluyendo también el surgimiento de un nuevo perfil profesional, el “Data Scientist” , las personas capacitadas en este perfil deben saber del negocio, de las herramientas computacionales y de análisis e interpretación estadística.

 

Curso Corto en Tecnología Blockchain

 

Materiales y Métodos

El desarrollo de esta exploración se realizó siguiendo dos estrategias. Como primera estrategia, se hizo un acercamiento cienciométrico por medio de la herramienta bibliográfica.

SCOPUS es una de las más grandes bases de datos de resúmenes y citas de literatura revisadas por pares, contienen artículos de
revistas científicas, libros y artículos de congresos, posibilitando tener una visión global de la producción académica e investigativa en campos de la ciencia, tecnología, medicina, artes y humanidades. Además, esta herramienta permite clasificar, refinar y analizar de forma ágil los resultados obtenidos a partir de una ecuación de búsqueda, con ello se puede extraer información relevante de la temática de interés que se esté abordando.

Para este acercamiento se utilizó como ecuación de búsqueda “big data” y a continuación se presentan algunos aspectos relevantes que se extrajeron de los resultados en SCOPUS. Se decidió utilizar
esta ecuación de búsqueda poco delimitada, porque se pretende presentar un estado general de presencia y tratamiento de la temática. Como segunda estrategia se hizo un análisis detallado de algunos documentos, utilizando para su selección y clasificación una herramienta desarrollada desde el Grupo de Investigación en Ambientes Inteligentes Adaptativos – GAIA – y como parte de una tesis doctoral en la Universidad Nacional de Colombia – Sede Manizales. La herramienta llamada ToS (Tree of Science), funciona en la web y se puede acceder a través del enlace: http://tos.manizales.unal.edu.co/.
Los resultados que brinda la herramienta son construidos a partir de la utilización de una serie de algoritmos de redes complejas, los cuales optimizan los resultados de la búsqueda y selección de documentos científicos publicados. Esta herramienta clasifica los
documentos en “raíz”, “tronco” y “ramas” a partir de la lista de trabajos encontrados.

Tratamiento de BIG DATA


Tratamiento de BIG Data Como se ha venido comentando, el tratamiento de Big Data ha exigido el desarrollo de soluciones computacionales que permitan afrontar las necesidades y retos que traen consigo los grandes volúmenes de datos, su variedad de fuentes y la velocidad con que se generan. A continuación, se da una breve descripción de algunas tecnologías y técnicas de Big Data, los artículos referenciados en esta sección comprenden algunos de los documentos “ramas” encontrados en la exploración con la herramienta ToS, otros hacen parte de la búsqueda inicial en Scopus y otros son fuentes adicionales consultadas por los autores para ampliar el tema y cubrir el objetivo de brindar una visión del estado del arte referente a la temática abordada.
Como tecnologías de Big Data se clasifican aquellas que dan soporte a la captura, transformación, procesamiento y análisis de
los datos, ya sean estructurados, semiestructurados o no estructurados.
Seguidamente, en la siguiente figura se muestran las tecnologías de Big Data que se revisarán en este documento. Se decide presentar estas tecnologías ya que son software de libre uso y que permite la generación de soluciones de Big Data de acuerdo con las necesidades particulares de un dominio de datos u organización. Cabe aclarar que existen un mayor número de tecnologías que soportan Big Data, tanto libres como propietarias, pero para efectos de este documento se ha acotado de acuerdo con lo anteriormente expuesto y tomando las tecnologías que dieron las bases iniciales al ecosistema Big Data.

Hadoop es una librería de Apache definida como un framework que permite hacer procesamiento de datos distribuido sobre
volúmenes de datos de considerable tamaño sobre clúster. Está diseñado pensando en brindar poder de escalamiento desde un par de servidores hasta cientos de máquinas o nodos, las cuales manejan almacenamiento y procesamiento local. Hadoop cuenta con dos componentes principales, el HDFS, sistema de archivos distribuidos que permite distribuir los ficheros en distintas máquinas y MapReduce, framework que permite al desarrollador aislarse de la programación paralela, permite ejecutar programas escritos en lenguajes de programación conocidos (p.e Java) en el clúster de Haddop. El HDFS cuenta con tres pilares básicos. Namenode, se ocupa del control de acceso y tiene la información sobre la distribución de datos en el resto de nodos.

Conclusiones

Teniendo en cuenta los objetivos planteados para la realización de esta exploración, el principal aporte logrado con el artículo es la
caracterización en un solo documento de trabajos, enfoques y herramientas recientes relacionadas con el término en boga Big Data, que puede servir como referente para trabajos posteriores y para la consulta de investigadores que deseen adelantar trabajos
en el marco de los campos de estudio abiertos que se dejan ver tras la exploración presentada.

Este artículo se trazó como objetivo mostrar algunos trabajos desarrollados entorno a la temática y describir tecnologías y técnicas de Big Data, notándose que siguen siendo materia de investigación y discusión, generando la posibilidad de proponer alternativas y modelos basados en la táctica de divide y vencerás. Las tecnologías asociadas al enfoque de Big Data ya han comenzado a tomar madurez y se vislumbran grandes oportunidades y retos en su utilización, optimización y adaptación a diferentes dominios de datos. Sin embargo, ya se encuentran resultados que muestran sus beneficios en aspectos como la reducción de tiempos, optimización de recursos y mayor flexibilidad. Existe una estrecha relación entre diferentes métodos y tecnologías para la construcción de soluciones que integren las capacidades de cada uno de estos y las potencien en nuevas propuestas.
Big Data no trata solo de grandes volúmenes de datos, sino que incluye otras dimensiones significativas en el tratamiento de datos, como son la variedad, velocidad y veracidad. No obstante, una implementación de Big Data requiere altos costos en expertos, mayor tiempo de adaptación tecnológica, dificultad para implementar nuevos análisis y percepción limitada. Big Data no busca sustituir a los sistemas tradicionales, sino construir una nueva tendencia donde se construyan arquitecturas de sistemas que permitan manejar todas las peticiones. Y ya ha logrado incentivar en la comunidad académica y comercial el desarrollo de tecnologías de apoyo que toman los paradigmas base y los emplean en la construcción de soluciones particularizadas a problemas de entornos de investigación y producción reales.

 

 

Bibliografía

[1] K.C. Li, H. Jiang, L. T. Yang, and A. Cuzzocrea, Big Data: Algorithms, Analytics, and Applications, Chapman &. CRC Press,
2015.
[2] H. Mohanty, P. Bhuyan, and D. Chenthati, Big Data: A Primer, vol. 11. Springer, 2015.
[3] W. M. P. van der Aalst, “Data Scientist: The Engineer of the Future,” in Enterprise Interoperability VI, no. 7, K. Mertins, F. Bénaben, R. Poler, and J.-P. Bourrières, Eds. Springer International Publishing, 2014, pp. 13–26.
[4] M. Chen, S. Mao, and Y. Liu, “Big Data: A Survey,” Mob. Networks Appl., vol. 19, no. 2, pp. 171–209, Apr. 2014.
[5] L. A. Montenegro Mora, “¿Cómo elaborar un artículo de revisión?,” San Juan de Pasto, Nariño, Colombia, 2013.
[6] Elsevier, “Scopus the largest database of peer-reviewed literature,” Scopus Elsevier. 2016. [Online]. Available: https://www.elsevier.com/solutions /scopus.
[7] M. Armbrust, I. Stoica, M. Zaharia, A. Fox, R. Griffith, A. D. Joseph, R. Katz, A. Konwinski, G. Lee, D. Patterson, and A.
Rabkin, “A view of cloud computing,” Commun. ACM, vol. 53, no. 4, p. 50, Apr. 2010.

Post a Comment

14  +    =  20

Ver más

  • Responsable: Grupo Global Euro Inversiones S.L..
  • Finalidad:  Moderar los comentarios.
  • Legitimación:  Por consentimiento del interesado.
  • Destinatarios y encargados de tratamiento:  No se ceden o comunican datos a terceros para prestar este servicio. El Titular ha contratado los servicios de alojamiento web a CenturyLink USA que actúa como encargado de tratamiento.
  • Derechos: Acceder, rectificar y suprimir los datos.
  • Información Adicional: Puede consultar la información detallada en la Política de Privacidad.

Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Ver nuestra Política de cookies
Privacidad
Abrir chat