U-Net es una red neuronal convolucional desarrollada para la segmentación de imágenes biomédicas en el Departamento de Informática de la Universidad de Friburgo.[1]​ La red se basa en una red neuronal totalmente convolucional[2]​ cuya arquitectura se modificó y amplió para trabajar con menos imágenes de entrenamiento y producir una segmentación más precisa. La segmentación de una imagen de 512 × 512 tarda menos de un segundo en una GPU moderna.

La arquitectura U-Net también se ha empleado en modelos de difusión para la eliminación iterativa de ruido en imágenes.[3]​ Esta tecnología es la base de muchos modelos modernos de generación de imágenes, como DALL-E, Midjourney y Stable Diffusion.

Descripción

editar

La arquitectura U-Net procede de la denominada "red totalmente convolucional" propuesta por Long, Shelhamer y Darrell en 2014.[2]

La idea principal consiste en complementar una red de contratación habitual con capas sucesivas, en las que las operaciones de agrupamiento se sustituyen por operadores de remuestreo. Así, estas capas aumentan la resolución de la salida. A continuación, una capa convolucional sucesiva puede aprender a ensamblar una salida precisa basándose en esta información.[1]

Una modificación importante en U-Net es que hay un gran número de canales de características en la parte de muestreo ascendente, que permiten a la red propagar la información de contexto a capas de mayor resolución. Como consecuencia, la ruta expansiva es más o menos simétrica a la parte de contracción, y da lugar a una arquitectura en forma de U. La red sólo utiliza la parte válida de cada convolución, sin capas totalmente conectadas.[2]​ Para predecir los píxeles de la región fronteriza de la imagen, el contexto que falta se extrapola reflejando la imagen de entrada. Esta estrategia de mosaico es importante para aplicar la red a imágenes de gran tamaño, ya que de otro modo la resolución se vería limitada por la memoria de la GPU.

Historia

editar

U-Net fue creada por Olaf Ronneberger, Philipp Fischer y Thomas Brox en 2015 y publicada en el artículo "U-Net: Convolutional Networks for Biomedical Image Segmentation".[1]​ Es una mejora y desarrollo de FCN: Evan Shelhamer, Jonathan Long, Trevor Darrell (2014). "Redes totalmente convolucionales para la segmentación semántica".[2]

Arquitectura de red

editar

La red consta de una ruta de contracción y una ruta expansiva, lo que le confiere la arquitectura en forma de u. La ruta de contracción es una red convolucional típica que consiste en la aplicación repetida de convoluciones, cada una de ellas seguida de una unidad lineal rectificada (ReLU) y una operación de agrupación máxima. Durante la contracción, la información espacial se reduce mientras que la información de características aumenta. La vía expansiva combina la información espacial y de rasgos mediante una secuencia de convoluciones ascendentes y concatenaciones con rasgos de alta resolución procedentes de la vía de contracción.[4]

Aplicaciones

editar
 
Este es un ejemplo de arquitectura de U-Net para producir k máscaras de imagen de 256 por 256 para una imagen RGB de 256 por 256.

Existen muchas aplicaciones de U-Net en la segmentación de imágenes biomédicas, como la segmentación de imágenes cerebrales (''BRATS'')[5]​ y la segmentación de imágenes hepáticas (''siliver07''),[6]​ así como la predicción de sitios de unión de proteínas.[7]​ Las implementaciones de U-Net también han encontrado uso en las ciencias físicas, por ejemplo en el análisis de micrografías de materiales.[8][9][10]​ También se han aplicado variaciones de U-Net para la reconstrucción de imágenes médicas.[11]​ A continuación se presentan algunas variantes y aplicaciones de U-Net:

  1. Regresión por píxeles mediante U-Net y su aplicación al enfoque panorámico;[12]
  2. 3D U-Net: Aprendizaje de segmentación volumétrica densa a partir de anotación dispersa;[13]
  3. TernausNet: U-Net con codificador VGG11 preentrenado en ImageNet para segmentación de imágenes.[14]
  4. Traducción de imagen a imagen para estimar las manchas fluorescentes.[15]
  5. En la predicción de sitios de unión de la estructura de las proteínas.[7]

Referencias

editar
  1. a b c Ronneberger O, Fischer P, Brox T (2015). "U-Net: Convolutional Networks for Biomedical Image Segmentation". 
  2. a b c d Shelhamer E, Long J, Darrell T (2014). «"Fully Convolutional Networks for Semantic Segmentation".». IEEE Transactions on Pattern Analysis and Machine Intelligence. PMID 27244717. doi:10.1109/TPAMI.2016.2572683. 
  3. Ho, Jonathan (2020). Denoising Diffusion Probabilistic Models. 
  4. «U-Net: Convolutional Networks for Biomedical Image Segmentation». lmb.informatik.uni-freiburg.de (en alemán). Consultado el 9 de marzo de 2024. 
  5. «MICCAI BraTS 2017: Scope | Section for Biomedical Image Analysis (SBIA) | Perelman School of Medicine at the University of Pennsylvania». www.med.upenn.edu (en inglés). Consultado el 9 de marzo de 2024. 
  6. "SLIVER07 : Home. 
  7. a b Nazem F, Ghasemi F, Fassihi A, Dehnavi AM (2021). «"3D U-Net: A voxel-based method in binding site prediction of protein structure".». Journal of Bioinformatics and Computational Biology. PMID 33866960. doi:10.1142/S0219720021500062. 
  8. Chen, Fu-Xiang Rikudo; Lin, Chia-Yu; Siao, Hui-Ying; Jian, Cheng-Yuan; Yang, Yong-Cheng; Lin, Chun-Liang (2023). «"Deep learning based atomic defect detection framework for two-dimensional materials"». Scientific Data. PMID 36788235. doi:10.1038/s41597-023-02004-6. 
  9. Shi, Peng; Duan, Mengmeng; Yang, Lifang; Feng, Wei; Ding, Lianhong; Jiang, Liwu (2022). «"An Improved U-Net Image Segmentation Method and Its Application for Metallic Grain Size Statistics"». Materials. PMID 35806543. doi:10.3390/ma15134417. 
  10. «"Automated Grain Boundary Detection for Bright-Field Transmission Electron Microscopy Images via U-Net"». academic.oup.com. doi:10.1093/micmic/ozad115/7422794. Consultado el 9 de marzo de 2024. 
  11. Andersson J, Ahlström H, Kullberg J (2019). «"Separation of water and fat signal in whole-body gradient echo scans using convolutional neural networks». Magnetic Resonance in Medicine. PMID 31033022. doi:10.1002/mrm.27786. 
  12. Yao W, Zeng Z, Lian C, Tang H (2018). «"Pixel-wise regression using U-Net and its application on pansharpening".». Neurocomputing. ISSN 0925-2312. doi:10.1016/j.neucom.2018.05.103. 
  13. Çiçek Ö, Abdulkadir A, Lienkamp SS, Brox T, Ronneberger O (2016). "3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation. 
  14. Iglovikov V, Shvets A (2018). "TernausNet: U-Net with VGG11 Encoder Pre-Trained on ImageNet for Image Segmentation. 
  15. Kandel ME, He YR, Lee YJ, Chen TH, Sullivan KM, Aydin O, et al. (2020). «"Phase imaging with computational specificity (PICS) for measuring dry mass changes in sub-cellular compartments». Nature Communications. PMID 33288761. doi:10.1038/s41467-020-20062-x. 

Implementaciones

editar
  • Tensorflow Unet by J Akeret (2017)
  • U-Net source code from Pattern Recognition and Image Processing at Computer Science Department of the University of Freiburg, Germany.