Abstract—Este estudio explora las oportunidades de investigación que existen en big data y tecnologías relacionadas. Preguntas de investigación: (1) ¿Cuáles áreas de investigación están abiertas en big data? (2) ¿Cómo puede contribuir la ciencia de diseño a facilitar la investigación en estas áreas? El presente texto revisa literatura específica sobre big data y problemas abiertos, recurriendo a técnicas de búsqueda estricta, para descartar estudios que no aborden directamente el objeto de estudio. Este artículo aplica criterios de búsqueda excluyentes en repositorios académicos y hacer uso de la técnica de paper skimming, para luego seleccionar los artículos que debían ser leídos completos. Se concluye con la descripción de los problemas abiertos en big data, abordados desde distintas perspectivas. Resulta evidente que aún quedan problemas por resolver, lo cual puede motivar a estudiantes de posgrado a escoger esta línea de investigación. La metodología de investigación conocida como ciencia de diseño se ha usado en muy diversos hábitos, con muy buenos resultados y, sin duda, provee un marco de trabajo muy apropiado para investigar artefactos de big data dentro de contextos particulares, con procesos de validación adecuados.

Keywords—big data, problemas abiertos, ciencia de diseño, oportunidades de investigación.

Abstract — This study explores the research opportunities that exist in big data and related technologies. Research Questions: (1) What research areas are open in big data? (2) How can design science contribute to facilitating research in these areas? This text reviews specific literature on big data and open problems, using strict search techniques to rule out studies that do not directly address the object of study. This article applies exclusive search criteria in academic repositories and makes use of the paper skimming technique, to then select the articles that should be read in full. It concludes with the description of open problems in big data, approached from different perspectives. It is evident that there are still problems to be solved, which can motivate graduate students to choose this line of research. The research methodology known as design science has been used in very diverse habits, with very good results and, without a doubt, it provides a very appropriate framework to investigate big data artifacts within particular contexts, with adequate validation processes.

Keywords — big data, open problems, design science, research opportunities.

I. INTRODUCCIÓN

Se suele atribuir a Roger Mougalas el concepto de big data, explicado en 2005, tal como se conoce en el contexto actual [1]. No obstante, ya lo había empleado anteriormente John Mashey para abordar el tema de la capacidad de almacenamiento y la rapidez de recuperación en discos [2].

Hoy en día, se encuentran definiciones de big data como la siguiente: “conjuntos de datos muy grandes producidos por personas que utilizan Internet, y que solo pueden almacenarse, comprenderse y utilizarse con la ayuda de herramientas y métodos especiales” [3]. Esta es otra definición habitual: “conjuntos de información que son demasiado grandes o demasiado complejos para manejar, analizar o usar con métodos estándar” [4].

Evidentemente, el tema de la complejidad asociada al tamaño, es recurrente en big data. Las áreas abiertas a investigación están asociadas al tema de la complejidad de los métodos y, en esta calidad, es que se sugiere en este artículo utilizar ciencia de diseño como metodología de investigación. La ciencia de diseño abarca tres ciclos: el de rigor, el de relevancia y el de diseño” [5]. La figura 1 muestra un esquema de estos ciclos, concebidos para construir artefactos y luego validarlos dentro de un contexto.

El fenómeno de la complejidad, inherente al tratamiento de big data, es abordado de manera muy adecuada por la ciencia de diseño [7].

II. REVISIÓN DE LITERATURA

A. Big data y la ciencia de diseño

Algunos autores [8] se han cuestionado si el análisis de big data afecta la evaluación en investigación de ciencia de diseño (ICD) y, de ser así, si ello conduce a un nuevo género de ICD, concluyendo que el análisis de big data debe influir en la forma en que se evalúa, pero no conduce a la creación de un nuevo género de ICD.

La ciencia de diseño se ha usado para desarrollar y evaluar métodos novedosos de clasificación mediante la construcción de redes de movilidad laboral, utilizando big data de currículos en línea recopilados de redes sociales profesionales [9].

En Arabia Saudita se desarrolló una aplicación de salud móvil basada en big data, utilizando un marco de ciencia de diseño para prevenir y gestionar los problemas de salud relacionados con la peregrinación anual [10].

En un estudio se ha explicado la evolución del desarrollo de servicio en la nube durante la era de big data, desde la perspectiva de la ciencia del diseño y sus tres ciclos. Se propuso un modelo de ecosistema de big data y las relaciones con el desarrollo de servicios en la nube [11].

También se ha abordado el tema de la sostenibilidad, con una relación de datos dinámica y compleja entre ecosistemas humanos y ambientales distribuidos geográficamente. Esto ha motivado el desarrollo de sistemas de información holísticos para gestionar diferentes ecosistemas dentro de un contexto de sostenibilidad, por medio de una interpretación y análisis empírico, con métodos cualitativos y cuantitativos. El enfoque de ciencia de diseño empleado tuvo como objetivo utilizar observaciones a partir de volúmenes de big data no estructurada [12].

B. Problemas abiertos en big data

En [13], los autores insisten en tener una caracterización de la calidad de los datos. Para explotar los datos web, estas caracterizaciones se materializan confiabilidad y procedencia. También señalan aspectos de la calidad de big data mediante ejemplos de calidad de datos de sensores.

En un estudio se insiste en una necesidad muy grande para aportar poder analítico a los datos, en lugar de sencillamente integrarlos en los sistemas de análisis ya existentes [14].

En cuanto a telecomunicaciones, también se han identificado varios problemas en el uso de big data [15], tales como zonas activas de tráfico espacio-temporal y secuencias de transferencia con problemas de rendimiento. En el caso de los sistemas de minería de datos industriales con palabras reales, la garantía de privacidad diferencial propicia una pérdida de precisión del 15% al 30%. La privacidad y la confidencialidad son críticas para la confiabilidad de las empresas de telecomunicaciones debido a lo sensible de los datos del usuario, como registros de facturación, números de llamadas e información de trayectoria.

En este sentido, los autores de ese estudio hacen ver que las empresas de telecomunicaciones están llegando a un punto en el cual recopilan más datos de los cuales podrían explotar. Esto introduce una carga financiera significativa sobre el operador, tomando en cuenta que el almacenamiento de datos en nubes públicas, donde existan economías de escala disponibles, no es una opción debido a razones de privacidad. Por otro lado, se impone un alto costo computacional para acceder y procesar los datos recopilados. La visión de almacenar infinitamente todos los datos por IoT gradualmente se volverá demasiado costoso y poco práctico.

Un artículo concentrado en los problemas de calidad de datos, agrupa en tres grandes categorías los problemas abiertos de big data [16]:

• Heterogeneidad: los sistemas de recomendación en Internet están generando datos de muy variada naturaleza, para lo cual se sugiere usar Pig, Hive y Mahout, que son parte de Hadoop y HDFS, como herramientas de análisis y gestión de datos precisos. Oozie y EMR con Flume y Zookeeper se pueden utilizar para manejar el volumen y la veracidad de los datos.

• Cuello de botella del algoritmo de minería: la mayoría de algoritmos de minería de datos para análisis de big data están diseñados para computación paralela, pero la mayoría de los algoritmos tradicionales de minería de datos no están diseñados para computación paralela. Por lo tanto, no son particularmente útiles para la minería de big data. Un algoritmo tradicional de minería de datos debe transformarse correspondientemente e implementarse en una plataforma de computación en la nube. Aunque los algoritmos tradicionales de minería de datos se pueden usar para analizar problemas de big data, hasta ahora, no hay mucha investigación respecto a este tema.

• Privacidad: los datos abiertos contienen mucha información personal y no se puede garantizar que esta no sea accesible para otras personas y organizaciones. Incluso con datos de entrada anónimos, quizá el sistema pueda recuperar o inferir información personal de los resultados del análisis de big data. El análisis de datos con información confidencial puede traer muchos problemas. En cuanto a privacidad, se han propuesto enfoques como: el cifrado, el control de acceso, el anonimato, las transformaciones y la privacidad diferencial. Los autores del artículo hacen notas que el factor clave es como aplicar estos enfoques en el área de big data.

En el aspecto más cercano a las ciencias de la computación, [17] se estudian aspectos de pre-procesamiento en contextos imprecisos, tomando como base la teoría de conjuntos aproximados. En las últimas décadas, la cantidad de datos ha aumentado a un ritmo nunca antes visto, caracterizando los datos por su volumen, variedad, velocidad y veracidad. Con base en ello, se ha vuelto difícil adquirir rápidamente la información más útil a partir de big data. Es necesario, por lo tanto, realizar pre procesamiento de datos como un primer paso. A pesar de que existen técnicas para esta tarea, la mayoría de los métodos de vanguardia requieren información adicional como primer paso y no son capaces de lidiar con el aspecto de veracidad, ni con sus requisitos computacionales. Existen vacíos en investigación en esta área, que se han tratado de abordar principalmente en teoría de conjuntos aproximados y heurísticas de búsqueda aleatoria para optimización.

III. METODOLOGÍA

La metodología utilizada para constituir este artículo de revisión es la búsqueda directa en repositorios académicos, mediante la conformación de cadenas de búsqueda estrictas. Se ha usado el repositorio Google Scholar, primero para medir la cardinalidad del objeto de estudio y luego se ha determinado que los artículos candidatos son suficientes, sin necesidad de utilizar ténicas de backward snowballing o forward snowballing, tal como las describe Wohlin [18]. Se utilizaron las siguientes cadenas de búsqueda:

• intitle: “big data intitle:” design science”

• intitle: “big data intitle:” open problems”

Por tratarse de un artículo de revisión, no se han seguido todos los pasos de una revisión sistemática de literatura completa. En todo caso, para abordar problemas abiertos se ha restringido la búsqueda a artículos del año 2015 en adelante.

IV. RESULTADOS Y CONCLUSIONES

Las dos preguntas de investigación han sido contestadas a lo largo de este trabajo. Recapitulamos la primera pregunta se refiere a las categorías de problemas abiertos, finalmente es evidente que sobresalen los relacionados con la complejidad del manejo de big data, en cuanto a la calidad de los datos, la cantidad de datos generados y transmitidos a partir de IOT y sistemas de telecomunicaciones, así como el manejo de los temas asociados a la privacidad.

La segunda pregunta cuestiona cómo puede ser útil la ciencia de diseño para la investigación en estas áreas. En cuanto a esta escogencia por parte de los autores referenciados, algunos la justifican debido a su fuerte énfasis en evaluación del diseño dentro de un contexto, lo cual coincide con las fuertes necesidades de evaluación que impone el diseño de cualquier artefacto de big data.

Otros autores, no obstante, simplemente hacen referencia al énfasis en la conceptualización de artefactos, o bien al despliegue de soluciones a través de diferentes dominios. Estos dominios equivalen a los contextos, habituales en la terminología utilizada en la ciencia de diseño.

A pesar de lo anterior, los problemas abiertos no arrojaron resultados en los cuales se utilice la ciencia de diseño como posible metodología de base, para referencia de los investigadores. Esta situación, es precisamente la que ha motivado a escribir este artículo, como una manera de proponer a estudiantes de posgrado un punto de partida en la búsqueda de temas innovadores y marcos metodológicos apropiados para su abordaje.

Se suman a las dos preguntas de investigación, a raíz de la revisión de la literatura una serie adicional de observaciones interesantes, como se procede a explicar a continuación. La revisión de la literatura disponible indica pocas fuentes arbitradas que hablen sobre el objeto de estudio; pero sí muestran, con mucha claridad, la clase de problemas abiertos que existen en big data.

Se consiguen identificar algunas propuestas de tratamiento de big data que ya toman la ciencia de diseño como marco de referencia para la investigación. Las fuentes consultadas están disponibles de manera abierta en lo relativo a big data abordado mediante la metodología de ciencia de diseño. Llama la atención que la segunda cadena de búsqueda recuperó artículos en repositorios de pago, a los cuales el autor tiene acceso.

La tendencia a que los problemas abiertos sean expuestos en repositorios de pago puede explicarse debido a la oportunidad financiera que representa para las casas editoriales el cobro de temas de gran actualidad. Desde un punto de vista formal, queda para otras investigaciones analizar esta situación, sin embargo, para efectos de este artículo parece corroborar que las búsquedas tal como se diseñaron para este estudio arrojaron los resultados esperados.

V. REFERENCES

[1] M. v. Rijmenam, “A short history of big data” 2015.

[2] J. R. Mashey, “Big data and the next wave of infras-tress” in Computer Science Division Seminar, University of California, Berkeley, 1997.

[3] “Significado de big data en el Diccionario Cambridge inglés,” 2019. [Online]. Available: https://dictionary.cambridge.org/es/diccionario/ ingles/big-data

[4] “Significado de big data en el diccionario Oxford inglés,” 2019. [Online]. Available: https://www.oxfordlearnersdictionaries.com/us/ definition/english/big- data

[5] R. J. Wieringa, Design science methodology for information systems and software engineering. Springer, 2014.

[6] S. Robles-Sandoval, H. Va ́squez-Carvajal, and L. Naranjo-Zeledón, “Adaptación de la metodología de ciencia de diseño en el desarrollo de luminarias.” [Online]. Available: https:// revistas.ulatina.ac.cr/index.php/ tecnologiavital/ article/view/252

[7] T. G. Gill and W. Murphy, “Task complexity and design science” in 9th Int. Conference on Education and Information Systems, Technologies and Applications EISTA, 2011, pp. 19–22.

[8] A. Elragal and M. Haddara, “Design science research: Evaluation in the lens of big data analytics” Systems, vol. 7, no. 2, p. 27, 2019.

[9] X. Xu, H. Qian, C. Ge, and Z. Lin, “Industry classification with online resume big data: A design science approach” Information & Management, p. 103182, 2019.

[10] I. Alharbi, B. Alyoubi, M. R. Hoque, and N. Almazmomi, “Big data based m-health application to prevent health hazards: a design science framework” Telemedicine and e-Health, vol. 25, no. 4, pp. 326–331, 2019.

[11] C.-H. Liu, S.-C. Chen, and P.-H. Hsieh, “How big data ecosystem changes cloud services: A design science perspective” Open Journal of Social Sciences, vol. 3, no. 07, p. 74, 2015.

[12] S. L. Nimmagadda, T. Reiners, and G. Burke, “Big data guided de- sign science information system (dsis) development for sustainability management and accounting” Procedia computer science, vol. 112, pp. 1871–1880, 2017.

[13] M. Scannapieco and L. Berti, “Quality of web data and quality of big data: Open problems,” in Data and Information Quality. Springer, 2016, pp. 421–449.

[14] A. Cuzzocrea, “Data warehousing and olap over big data: a survey of the state-of- the-art, open problems and future challenges,” International Journal of Business Process Integration and Management, vol. 7, no. 4, pp. 372–377, 2015.

[15] C. Costa and D. Zeinalipour-Yazti, “Telco big data research and open problems” in 2019 IEEE 35th International Conference on Data Engi- neering (ICDE). IEEE, 2019, pp. 2056– 2059.

[16] P. Zhang, F. Xiong, J. Gao, and J. Wang, “Data quality in big data processing: Issues, solutions and open problems” in 2017 IEEE SmartWorld, Ubiquitous Intelligence & Computing, Advanced & Trusted Computed, Scalable Computing & Communications, Cloud & Big Data Computing, Internet of People and Smart City Innovation (Smart- World/ SCALCOM/UIC/ATC/CBDCom/IOP/SCI). IEEE, 2017, pp. 1–7.

[17] Z. C. Dagdia, “Optimized framework based on rough set theory for big data pre-processing in certain and imprecise contexts”–Marie Sklodowska-curie project: Open problems’,” in Recent Trends in Knowl- edge Compilation, 2018.

[18] C. Wohlin, “Guidelines for snowballing in systematic literature studies and a replication in software engineering” in Proceedings of the 18th international conference on evaluation and assessment in software engineering. Citeseer, 2014, p. 38.