Segmentación en lesiones de piel utilizando redes neuronales convolucionales y campos aleatorios condicionales

 


Anthony Segura Chaves

Ingeniería en Computación

Tecnológico de Costa Rica

[email protected]

 

Efrén Jiménez Delgado

Ingeniería en Computación

Tecnológico de Costa Rica

[email protected]


 


Fecha de recibido: 22 de setiembre 2018

Fecha de aprobado: 18 de octubre de 2018


Abstract — La segmentación automática de imágenes dermatoscópicas, es un proceso fundamental en el desarrollo de sistemas de diagnóstico asistido por ordenador en la clasificación de diversos cánceres de piel. Las redes neuronales convolucionales son muy efectivas en la segmentación de imágenes relacionadas a enfermedades de la piel, aunque no siempre generan segmentaciones con el nivel de detalle requerido en el campo médico. En este documento se presentará un diseño para el modelado de campos aleatorios condicionales, que pueda contribuir en el mejoramiento del nivel de detalle en las segmentaciones con redes neuronales en datos dermatoscópicos en cáncer de piel.

Keywords – segmentación semántica, dermatología, imágenes médicas, visión artificial, aprendizaje automático, U-NET, CNN, redes neuronales, cáncer de piel.

Abstract - The automatic segmentation of dermoscopic images is a fundamental process in the development of computer-assisted diagnostic systems in the classification of various skin cancers. Convolutional neural networks are very effective in the segmentation of images related to skin diseases, although they do not always generate segmentations with the level of detail required in the medical field. This document will present a design for the modeling of conditional random fields, which can contribute to the improvement of the level of detail in the segmentations with neural networks in dermoscopic data in skin cancer.

Keywords - semantic segmentation, dermatology, medical imaging, computer vision, machine learning, U-NET, CNN, neural networks, skin cancer.

               I.     INTRODUCCIÓN

El cáncer de piel se encuentra entre las enfermedades cancerígenas más comunes y mortales en el mundo, siendo el melanoma la variante más agresiva. Se detectan cerca de 100.000 nuevos casos y 9.000 muertes cada año solo en Estados Unidos. A pesar de su tasa de mortalidad, el melanoma es altamente curable si se detecta y es tratado en las primeras etapas, por este motivo es importante el desarrollo de métodos de detección temprana de esta enfermedad. Una herramienta automática que realice un diagnóstico preciso permitirá a las personas, sin acceso a un dermatólogo, revisar sus manchas y lunares, previniendo grandemente las tasas de muerte por este cáncer.

El rápido avance de los algoritmos de aprendizaje automático unido a la gran cantidad de imágenes dermatoscópicas anotadas disponibles hacen posible el desarrollo de sistemas de diagnóstico automatizado de melanoma. Las redes neuronales convolucionales han demostrado ser sumamente efectivas en las tareas de segmentación y diagnóstico llegando incluso a superar a los dermatólogos detectando manchas cancerosas [1] [2].

La segmentación es un paso fundamental en un sistema de  diagnóstico automático y consiste en identificar los píxeles de la imagen en donde se encuentra la mancha de piel, esta tarea es sumamente difícil de resolver de forma automática debido a la gran variedad de formas y colores que presentan las manchas de piel como se puede observar en la figura 1.

             II.     MÉTODOS

Este trabajo propone una herramienta basada en redes neuronales convolucionales y campos aleatorios condicionales para la segmentación automática de imágenes dermatoscópicas. Los campos aleatorios condicionales totalmente conectados [3] (CRF por sus siglas en inglés) son utilizados como mecanismo de post procesado para mejorar el nivel de detalle de la segmentación.

A.    Datos

Imagen que contiene captura de pantalla

Descripción generada automáticamentePara el entrenamiento y validación del modelo se utilizaron los datos proporcionados por el International Skin Imaging Collaboration (ISIC) 2018 Challenge [4] [5]. Este dataset contiene 3694 imágenes dermatoscópicas de alta resolución con sus respectivas anotaciones (máscaras de segmentación) se divide en 3 subdatasets para el entre- namiento, validación y pruebas con 2594, 100 y 1000 imágenes respectivamente.

 

 

 

Fig. 1: Ejemplo de las imágenes de entrenamiento

B.    Arquitectura de la red neuronal

Se utilizó la arquitectura U-Net [6] 1 para realizar segmentación de las imágenes, esta arquitectura fue di-señada para la segmentación de imágenes médicas y está 1Código en Keras disponible: https://gist.github.com/anthonySe+gura/cdde17cf121437deac0d505c4309d373 compuesta solo por capas convolucionales lo que reduce el número de parámetros de entrenamiento, la figura 2 muestra el diagrama de la arquitectura. La red recibe una imágen dermatoscópica de 256 por 256 píxeles y produce una matriz de probabilidades de las mismas dimensiones.

Fig. 2: Arquitectura U-Net

Se utilizaron convoluciones traspuestas en las capas decodificadoras de la red y ReLU [7] como función de activación en todas las capas ocultas; mientras en la capa de salida se utilizó la función de activación sigmoide. También se probó la arquitectura SegNet [8] pero los resultados fueron poco satisfactorios y el tiempo de entrenamiento era mucho más largo en comparación con la arquitectura U-Net.

C.   Pre procesado

Para   preservar  la  información  de  la  imagen  original, cada imagen  se dimensionó a 256 por 256 píxeles antes         de pasarla            a la red sin ninguna otra     modificación.

D.   Entrenamiento

Las redes se entrenaron desde cero, minimizando la diferencia entre las más caras generadas por la red neuronal y las máscaras de entrenamiento mediante la función de optimización Adam [9]. Se ajustó el ritmo de aprendizaje a 10−5 y el “batch size” (cantidad de imágenes por ciclo  de entrenamiento) en 2.

Se ejecutaron 2 sesiones de entrenamiento con diferentes subconjuntos de datos con 70 iteraciones por sesión. Los modelos fueron validados al final de cada iteración con un dataset local y los mejores se guardaron para ser utilizados en un ensamble más adelante.

E.    Post procesado y Ensamble

Para mejorar el resultado final se creó un ensamble con las 3 redes neuronales que obtuvieron mejores resultados con los datos de validación, este ensamble consiste en promediar las salidas de estas redes en un único resultado este resultado se puede interpretar como un mapa de probabilidades, posteriormente se pasa el mapa de probabilidades junto a la imagen original (imagen de entrada para las redes neuronales) a un modelo CRF3 para producir la máscara de segmentación mejorada. La figura 3 describe gráficamente este proceso.

Imagen que contiene reloj

Descripción generada automáticamente

 

 

 

Fig. 3: Ilustración del proceso de post procesado.

 

           III.     RESULTADOS

Para tener una evaluación objetiva de los modelos desarrollados y poder comparar con otros trabajos se utilizaron los datos y herramientas de evaluación provistas por el ISIC Challenge 2018. El proyecto ISIC organiza una com-petencia anual de aprendizaje automático con 3 categorías: Segmentación, Detección de atributos y Diagnóstico, en ese concurso, a través de las fases los participantes pueden probar sus modelos y comparar sus resultados con los demás mediante un sistema de ranking en línea. La calidad de las máscaras de segmentación se mide utilizando el índice Jaccard también conocido como la intersección sobre la unión. Los organizadores de la competencia decidieron agregar una penalización a la métrica, la cual consiste en asignar un cero como calificación a las máscaras que consigan un valor menor a 0.65 en el índice Jaccard. La calificación final se obtiene promediando los resultados de todas las máscaras.

Para probar el modelo propuesto y la efectividad del post procesado con CRF se compararon los resultados de 6 redes distintas con y sin el post procesado en el dataset de validación (100 imágenes), los resultados obtenidos se muestran en la tabla I.

 

TABLEI: Comparación del rendimiento en el data set devalidación en línea de los modelos sin post procesado contra el post procesado propuesto.

El modelo propuesto (ensamble usando post procesado con CRF) obtuvo una calificación de 0.78 en el dataset de validación y 0.754 en el dataset final de pruebas con 1000 imágenes, logrando la posición 31/112 en el ranking final de la categoría segmentación.

 

 

 

           IV.     IMPLEMENTACIÓN

Todos los experimentos se implementaron en Python 3 usando Keras con Tensorflow como back-end en una com putadora de escritorio con un procesador Intel§R CoreTM i5-2310, 8 GB de RAM y una tarjeta gráfica GeForce  GTX   950     con 2GB        de            VRAM.

            V.     DISCUSIÓN

El método de post procesado con campos aleatorios condicionales logra una mejora significativa en la calidad de la segmentación con redes neuronales, tal como se observa en la sección de resultados. Además, con el ensamble propuesto se obtienen resultados bastantes satisfactorios en los datos de validación y prueba, por ello, consiguen una buena posición en el ranking; sin embargo, se considera que pueden obtenerse mejores resultados si se realiza aumento de datos durante la etapa de entrenamiento o al utilizar una arquitectura de red neuronal más profunda, estos detalles se considerarán en futuros trabajos.

           VI.     REFERENCIAS               

[1] A. Esteva, B. Kuprel, R. A. Novoa, J. Ko, S. M. Swetter, H. M. Blau, and S.  Thrun, “Dermatologistlevel classification of skin cancer with deep neural networks,” Nature, vol. 542, pp. 115–, Jan. 2017. [Online]. Available: http://dx.doi.org/10.1038/nature21056

[2] H. A. Haenssle, C. Fink, R. Schneiderbauer, F. Toberer, T. Buhl, A. Blum, A. Kalloo, A. B. H. Hassen, L. Thomas, A. Enk, L. Uhlmann, R. study level I, and level II Groups, “Man against machine: diagnostic performance of a deep learning convolutional neural network for dermoscopic melanoma recognition in comparison to 58 dermatologists,” Annals of Oncology, p. mdy166, 2018. [Online]. Available: http://dx.doi.org/ 10.1093/annonc/mdy166

[3] P. Krähenbühl and V. Koltun, “Efficient inference in fully connected crfs with gaussian edge potentials,” in Advances in Neural Information Processing Systems 24, J. Shawe-Taylor, R. S. Zemel, P. L. Bartlett, F. Pereira, and K. Q. Weinberger, Eds. Curran Associates, Inc., 2011, pp. 109–117. [Online]. Available: http://papers.nips.cc/paper/4296-efficient-inference-in-fully-connected-crfs-with-gaussian-edge-potentials.pdf

[4] N. C. F. Codella, D. Gutman, M. E. Celebi, B. Helba, M. A. Marchetti, S. W. Dusza, A. Kalloo, K. Liopyris, N. K. Mishra, H. Kittler, and A. Halpern, “Skin lesion analysis toward melanoma detection: A challenge at the 2017 international symposium on biomedical imaging (isbi), hosted by the international skin imaging collaboration (ISIC),” CoRR, vol. abs/1710.05006, 2017. [Online]. Available: http://arxiv.org/abs/1710.05006

[5] P. Tschandl, C. Rosendahl, and H. Kittler, “The HAM10000 dataset, a large collection of multi-source dermatoscopic images of common pigmented skin lesions,” Sci. Data, vol. 5, p. 180161, 2018.

[6] O. Ronneberger, P. Fischer, and T. Brox, “U-net: Convolutional networks for biomedical image segmentation,”

CoRR, vol. abs/1505.04597, 2015. [Online]. Available: http://arxiv.org/abs/1505.04597

[7] V. Nair and G. E. Hinton, “Rectified linear units improve restricted boltzmann machines,” in Proceedings of the 27th International Conference on International Conference on Machine Learning, ser. ICML’10. USA: Omnipress, 2010, pp. 807–814. [Online]. Available: http://dl.acm.org/citation.cfm?id=3104322.3104425

[8] V. Badrinarayanan, A. Kendall, and R. Cipolla, “Segnet: A deep convolutional encoder-decoder architecture for image segmentation,”CoRR, vol. abs/1511.00561, 2015. [Online]. Available: http://arxiv.org/abs/1511.00561

[9] D. P. Kingma and J. Ba, “Adam: A method for stochastic optimization,” CoRR, vol. abs/1412.6980,2014. [Online]. Available: http://arxiv.org/abs/1412.6980