Segmentación en
lesiones de piel utilizando redes neuronales convolucionales y campos
aleatorios condicionales
Anthony Segura Chaves
Ingeniería en
Computación
Tecnológico de Costa
Rica
Efrén Jiménez Delgado
Ingeniería en
Computación
Tecnológico de Costa
Rica
Fecha
de recibido: 22 de setiembre 2018
Fecha
de aprobado: 18 de octubre de 2018
Abstract — La
segmentación automática de imágenes dermatoscópicas, es un proceso fundamental
en el desarrollo de sistemas de diagnóstico asistido por ordenador en la
clasificación de diversos cánceres de piel. Las redes neuronales
convolucionales son muy efectivas en la segmentación de imágenes relacionadas a
enfermedades de la piel, aunque no siempre generan segmentaciones con el nivel
de detalle requerido en el campo médico. En este documento se presentará un
diseño para el modelado de campos aleatorios condicionales, que pueda
contribuir en el mejoramiento del nivel de detalle en las segmentaciones con
redes neuronales en datos dermatoscópicos en cáncer de piel.
Keywords –
segmentación semántica, dermatología, imágenes médicas, visión artificial,
aprendizaje automático, U-NET, CNN, redes neuronales, cáncer de piel.
Abstract
- The automatic
segmentation of dermoscopic images is a fundamental
process in the development of computer-assisted diagnostic systems in the
classification of various skin cancers. Convolutional neural networks are very
effective in the segmentation of images related to skin diseases, although they
do not always generate segmentations with the level of detail required in the
medical field. This document will present a design for the modeling of
conditional random fields, which can contribute to the improvement of the level
of detail in the segmentations with neural networks in dermoscopic
data in skin cancer.
Keywords
- semantic segmentation,
dermatology, medical imaging, computer vision, machine learning, U-NET, CNN,
neural networks, skin cancer.
El
cáncer de piel se encuentra entre las enfermedades cancerígenas más comunes y
mortales en el mundo, siendo el melanoma la variante más agresiva. Se detectan cerca
de 100.000 nuevos casos y 9.000 muertes cada año solo en Estados Unidos. A
pesar de su tasa de mortalidad, el melanoma es altamente curable si se detecta
y es tratado en las primeras etapas, por este motivo es importante el
desarrollo de métodos de detección temprana de esta enfermedad. Una herramienta
automática que realice un diagnóstico preciso permitirá a las personas, sin
acceso a un dermatólogo, revisar sus manchas y lunares, previniendo grandemente
las tasas de muerte por este cáncer.
El
rápido avance de los algoritmos de aprendizaje automático unido a la gran
cantidad de imágenes dermatoscópicas anotadas disponibles hacen posible el
desarrollo de sistemas de diagnóstico automatizado de melanoma. Las redes
neuronales convolucionales han demostrado ser sumamente efectivas en las tareas
de segmentación y diagnóstico llegando incluso a superar a los dermatólogos
detectando manchas cancerosas [1] [2].
La
segmentación es un paso fundamental en un sistema de diagnóstico automático y consiste en
identificar los píxeles de la imagen en donde se encuentra la mancha de piel,
esta tarea es sumamente difícil de resolver de forma automática debido a la
gran variedad de formas y colores que presentan las manchas de piel como se
puede observar en la figura 1.
Este
trabajo propone una herramienta basada en redes neuronales convolucionales y
campos aleatorios condicionales para la segmentación automática de imágenes
dermatoscópicas. Los campos aleatorios condicionales totalmente conectados [3]
(CRF por sus siglas en inglés) son utilizados como mecanismo de post procesado
para mejorar el nivel de detalle de la segmentación.
A. Datos
Para
el entrenamiento y validación del modelo se utilizaron los datos proporcionados
por el International Skin Imaging Collaboration (ISIC) 2018 Challenge [4] [5].
Este dataset contiene 3694 imágenes dermatoscópicas de alta resolución con sus
respectivas anotaciones (máscaras de segmentación) se divide en 3 subdatasets
para el entre- namiento, validación y pruebas con 2594, 100 y 1000 imágenes
respectivamente.
Fig. 1: Ejemplo de las imágenes
de entrenamiento
B. Arquitectura de la red neuronal
Se
utilizó la arquitectura U-Net [6] 1 para realizar segmentación de las imágenes,
esta arquitectura fue di-señada para la segmentación de imágenes médicas y está
1Código en Keras disponible: https://gist.github.com/anthonySe+gura/cdde17cf121437deac0d505c4309d373
compuesta solo por capas convolucionales lo que reduce el número de parámetros
de entrenamiento, la figura 2 muestra el diagrama de la arquitectura. La red
recibe una imágen dermatoscópica de 256 por 256 píxeles y produce una matriz de
probabilidades de las mismas dimensiones.
Fig.
2: Arquitectura U-Net
Se
utilizaron convoluciones traspuestas en las capas decodificadoras de la red y
ReLU [7] como función de activación en todas las capas ocultas; mientras en la
capa de salida se utilizó la función de activación sigmoide. También se probó
la arquitectura SegNet [8] pero los resultados fueron poco satisfactorios y el
tiempo de entrenamiento era mucho más largo en comparación con la arquitectura
U-Net.
C. Pre procesado
Para preservar
la información de
la imagen original, cada imagen se dimensionó a 256 por 256 píxeles antes de pasarla a la red sin ninguna otra modificación.
D. Entrenamiento
Las
redes se entrenaron desde cero, minimizando la diferencia entre las más caras generadas
por la red neuronal y las máscaras de entrenamiento mediante la función de
optimización Adam [9]. Se ajustó el ritmo de aprendizaje a 10−5 y el “batch
size” (cantidad de imágenes por ciclo de
entrenamiento) en 2.
Se
ejecutaron 2 sesiones de entrenamiento con diferentes subconjuntos de datos con
70 iteraciones por sesión. Los modelos fueron validados al final de cada
iteración con un dataset local y los mejores se guardaron para ser utilizados
en un ensamble más adelante.
E. Post procesado y Ensamble
Para
mejorar el resultado final se creó un ensamble con las 3 redes neuronales que
obtuvieron mejores resultados con los datos de validación, este ensamble
consiste en promediar las salidas de estas redes en un único resultado este resultado
se puede interpretar como un mapa de probabilidades, posteriormente se pasa el
mapa de probabilidades junto a la imagen original (imagen de entrada para las
redes neuronales) a un modelo CRF3 para producir la máscara de segmentación
mejorada. La figura 3 describe gráficamente este proceso.

Fig. 3: Ilustración del proceso
de post procesado.
Para
tener una evaluación objetiva de los modelos desarrollados y poder comparar con
otros trabajos se utilizaron los datos y herramientas de evaluación provistas
por el ISIC Challenge 2018. El proyecto ISIC organiza una com-petencia anual de
aprendizaje automático con 3 categorías: Segmentación, Detección de atributos y
Diagnóstico, en ese concurso, a través de las fases los participantes pueden
probar sus modelos y comparar sus resultados con los demás mediante un sistema
de ranking en línea. La calidad de las máscaras de segmentación se mide
utilizando el índice Jaccard también conocido como la intersección sobre la
unión. Los organizadores de la competencia decidieron agregar una penalización
a la métrica, la cual consiste en asignar un cero como calificación a las
máscaras que consigan un valor menor a 0.65 en el índice Jaccard. La
calificación final se obtiene promediando los resultados de todas las máscaras.
Para
probar el modelo propuesto y la efectividad del post procesado con CRF se
compararon los resultados de 6 redes distintas con y sin el post procesado en
el dataset de validación (100 imágenes), los resultados obtenidos se muestran
en la tabla I.

TABLEI: Comparación del rendimiento
en el data set devalidación en línea de los modelos sin post procesado contra
el post procesado propuesto.
El
modelo propuesto (ensamble usando post procesado con CRF) obtuvo una calificación
de 0.78 en el dataset de validación y 0.754 en el dataset final de pruebas con
1000 imágenes, logrando la posición 31/112 en el ranking final de la categoría
segmentación.

Todos
los experimentos se implementaron en Python 3 usando Keras con Tensorflow como
back-end en una com putadora de escritorio con un procesador Intel§R CoreTM
i5-2310, 8 GB de RAM y una tarjeta gráfica GeForce GTX 950 con 2GB de VRAM.
El
método de post procesado con campos aleatorios condicionales logra una mejora
significativa en la calidad de la segmentación con redes neuronales, tal como
se observa en la sección de resultados. Además, con el ensamble propuesto se
obtienen resultados bastantes satisfactorios en los datos de validación y
prueba, por ello, consiguen una buena posición en el ranking; sin embargo, se
considera que pueden obtenerse mejores resultados si se realiza aumento de
datos durante la etapa de entrenamiento o al utilizar una arquitectura de red
neuronal más profunda, estos detalles se considerarán en futuros trabajos.
[1] A. Esteva, B. Kuprel, R. A. Novoa, J. Ko, S. M.
Swetter, H. M. Blau, and S.
Thrun, “Dermatologistlevel classification of skin cancer with deep
neural networks,” Nature, vol. 542, pp. 115–, Jan. 2017. [Online]. Available:
http://dx.doi.org/10.1038/nature21056
[2] H. A. Haenssle, C. Fink,
R. Schneiderbauer, F. Toberer,
T. Buhl, A. Blum, A. Kalloo, A. B. H. Hassen, L.
Thomas, A. Enk, L. Uhlmann, R. study level I, and
level II Groups, “Man against machine: diagnostic performance of a deep learning
convolutional neural network for dermoscopic melanoma
recognition in comparison to 58 dermatologists,” Annals of Oncology, p. mdy166,
2018. [Online]. Available: http://dx.doi.org/ 10.1093/annonc/mdy166
[3] P. Krähenbühl and V. Koltun, “Efficient inference in fully connected crfs with gaussian edge potentials,” in Advances in Neural
Information Processing Systems 24, J. Shawe-Taylor,
R. S. Zemel, P. L. Bartlett, F. Pereira, and K. Q.
Weinberger, Eds. Curran Associates, Inc., 2011, pp. 109–117. [Online].
Available:
http://papers.nips.cc/paper/4296-efficient-inference-in-fully-connected-crfs-with-gaussian-edge-potentials.pdf
[4] N. C. F. Codella, D.
Gutman, M. E. Celebi, B. Helba,
M. A. Marchetti, S. W. Dusza, A. Kalloo,
K. Liopyris, N. K. Mishra, H. Kittler, and A.
Halpern, “Skin lesion analysis toward melanoma detection: A challenge at the
2017 international symposium on biomedical imaging (isbi),
hosted by the international skin imaging collaboration (ISIC),” CoRR, vol. abs/1710.05006, 2017. [Online]. Available: http://arxiv.org/abs/1710.05006
[5] P. Tschandl, C.
Rosendahl, and H. Kittler, “The HAM10000 dataset, a large collection of multi-source dermatoscopic images of
common pigmented skin lesions,” Sci. Data, vol. 5, p. 180161, 2018.
[6] O. Ronneberger, P.
Fischer, and T. Brox, “U-net: Convolutional networks
for biomedical image segmentation,”
CoRR,
vol. abs/1505.04597, 2015. [Online]. Available: http://arxiv.org/abs/1505.04597
[7] V. Nair and G. E. Hinton, “Rectified linear units
improve restricted boltzmann machines,” in
Proceedings of the 27th International Conference on International Conference on
Machine Learning, ser. ICML’10. USA: Omnipress, 2010,
pp. 807–814. [Online]. Available:
http://dl.acm.org/citation.cfm?id=3104322.3104425
[8] V. Badrinarayanan, A.
Kendall, and R. Cipolla, “Segnet:
A deep convolutional encoder-decoder architecture for image segmentation,”CoRR, vol. abs/1511.00561, 2015.
[Online]. Available: http://arxiv.org/abs/1511.00561
[9] D. P. Kingma and J. Ba,
“Adam: A method for stochastic optimization,” CoRR,
vol. abs/1412.6980,2014. [Online]. Available: http://arxiv.org/abs/1412.6980