Conversión de 2D a 3D - 2D to 3D conversion

Conversión de 2D a 3D
Tipo de proceso digital e impreso
Sector (es) industrial (es) Cine y televisión, producción impresa
Principales tecnologías o subprocesos Software de ordenador
Producto (s) Películas, programas de televisión, redes sociales, imágenes impresas

La conversión de video de 2D a 3D (también llamada conversión de 2D a estéreo 3D y conversión estéreo ) es el proceso de transformación de película 2D ("plana") a forma 3D , que en casi todos los casos es estéreo , por lo que es el proceso de creación de imágenes para cada ojo de una imagen 2D.

Visión general

La conversión de 2D a 3D agrega la señal de profundidad de disparidad binocular a las imágenes digitales percibidas por el cerebro, por lo que, si se realiza correctamente, mejora en gran medida el efecto de inmersión mientras se visualiza video estéreo en comparación con el video 2D. Sin embargo, para tener éxito, la conversión debe realizarse con suficiente precisión y corrección: la calidad de las imágenes 2D originales no debe deteriorarse y la señal de disparidad introducida no debe contradecir otras señales utilizadas por el cerebro para la percepción de profundidad . Si se realiza de manera adecuada y completa, la conversión produce un video estéreo de calidad similar al video estéreo "nativo" que se graba en estéreo y se ajusta y alinea con precisión en la postproducción.

Se pueden definir libremente dos enfoques para la conversión estéreo: conversión semiautomática de calidad para cine y 3DTV de alta calidad, y conversión automática de baja calidad para 3DTV , VOD y aplicaciones similares económicas .

Reproducción de películas animadas por computadora

Las películas 2D animadas por computadora hechas con modelos 3D se pueden volver a renderizar en 3D estereoscópico agregando una segunda cámara virtual si los datos originales aún están disponibles. Técnicamente, esto no es una conversión; por lo tanto, estas películas re-renderizadas tienen la misma calidad que las películas originalmente producidas en 3D estereoscópico. Ejemplos de esta técnica incluyen el relanzamiento de Toy Story y Toy Story 2 . Revisar los datos originales de la computadora para las dos películas tomó cuatro meses, así como seis meses adicionales para agregar el 3D. Sin embargo, no todas las películas CGI se vuelven a renderizar para el relanzamiento en 3D debido a los costos, el tiempo requerido, la falta de recursos especializados o la falta de datos informáticos.

Importancia y aplicabilidad

Con el aumento de películas lanzadas en 3D, la conversión de 2D a 3D se ha vuelto más común. La mayoría de los éxitos de taquilla en 3D estéreo no CGI se convierten total o al menos parcialmente a partir de imágenes en 2D. Incluso Avatar contiene varias escenas filmadas en 2D y convertidas a estéreo en postproducción. Las razones para grabar en 2D en lugar de estéreo son financieras, técnicas y, a veces, artísticas:

  • El flujo de trabajo de postproducción estéreo es mucho más complejo y no está tan bien establecido como el flujo de trabajo 2D, lo que requiere más trabajo y renderizado.
  • Las plataformas estereoscópicas profesionales son mucho más caras y voluminosas que las cámaras monoculares habituales. Algunas tomas, en particular las escenas de acción, solo se pueden realizar con cámaras 2D relativamente pequeñas.
  • Las cámaras estéreo pueden introducir varios desajustes en la imagen estéreo (como paralaje vertical , inclinación, cambio de color, reflejos y resplandores en diferentes posiciones) que deberían corregirse en la postproducción de todos modos porque arruinan el efecto 3D. Esta corrección a veces puede tener una complejidad comparable a la conversión estéreo.
  • Las cámaras estéreo pueden delatar los efectos prácticos que se utilizan durante la filmación. Por ejemplo, algunas escenas de la trilogía cinematográfica El señor de los anillos se filmaron utilizando una perspectiva forzada para permitir que dos actores parecieran tener diferentes tamaños físicos. La misma escena filmada en estéreo revelaría que los actores no estaban a la misma distancia de la cámara.
  • Por su propia naturaleza, las cámaras estéreo tienen restricciones sobre qué tan lejos puede estar la cámara del sujeto filmado y aún proporcionan una separación estéreo aceptable. Por ejemplo, la forma más sencilla de filmar una escena ambientada en el costado de un edificio podría ser usar una plataforma de cámara desde el otro lado de la calle en un edificio vecino, usando una lente de zoom. Sin embargo, mientras que la lente de zoom proporcionaría una calidad de imagen aceptable, la separación estéreo sería prácticamente nula en esa distancia.

Incluso en el caso de la grabación estéreo, la conversión puede ser necesaria con frecuencia. Además de las escenas difíciles de filmar mencionadas, hay situaciones en las que los desajustes en las vistas estéreo son demasiado grandes para ajustar, y es más sencillo realizar la conversión de 2D a estéreo, tratando una de las vistas como la fuente 2D original.

Problemas generales

Independientemente de algoritmos particulares, todos los flujos de trabajo de conversión deben resolver las siguientes tareas:

  1. Asignación de "presupuesto de profundidad" : definición del rango de disparidad o profundidad permitida, qué valor de profundidad corresponde a la posición de la pantalla (la llamada posición del "punto de convergencia"), los rangos de distancia permitidos para efectos fuera de la pantalla y detrás -los objetos de fondo de la pantalla. Si un objeto en par estéreo está exactamente en el mismo lugar para ambos ojos, aparecerá en la superficie de la pantalla y estará en paralaje cero. Se dice que los objetos frente a la pantalla están en paralaje negativo, y las imágenes de fondo detrás de la pantalla están en paralaje positivo. Existen las correspondientes compensaciones negativas o positivas en las posiciones de los objetos para las imágenes del ojo izquierdo y derecho.
  2. Control de la cómoda disparidad según el tipo de escena y el movimiento: demasiado paralaje o señales de profundidad conflictivas pueden causar fatiga visual y efectos de náuseas
  3. Relleno de áreas descubiertas : las imágenes de vista izquierda o derecha muestran una escena desde un ángulo diferente, y partes de objetos u objetos completos cubiertos por el primer plano en la imagen 2D original deben volverse visibles en un par estéreo. A veces, las superficies de fondo son conocidas o pueden estimarse, por lo que deben usarse para rellenar áreas descubiertas. De lo contrario, las áreas desconocidas deben ser completadas por un artista o pintadas , ya que la reconstrucción exacta no es posible.

Los métodos de conversión de alta calidad también deberían resolver muchos problemas típicos, entre los que se incluyen:

  • Objetos translúcidos
  • Reflexiones
  • Bordes de objetos semitransparentes difusos, como pelo, pelo, objetos desenfocados en primer plano, objetos delgados
  • Granulado de película (real o artificial) y efectos de ruido similares
  • Escenas con movimiento errático rápido
  • Partículas pequeñas: lluvia, nieve, explosiones, etc.

Conversión semiautomática de calidad

Conversión basada en profundidad

La mayoría de los métodos semiautomáticos de conversión estéreo utilizan mapas de profundidad y renderizado basado en imágenes de profundidad.

La idea es que se cree una imagen auxiliar separada conocida como " mapa de profundidad " para cada fotograma o para una serie de fotogramas homogéneos para indicar la profundidad de los objetos presentes en la escena. El mapa de profundidad es una imagen separada en escala de grises que tiene las mismas dimensiones que la imagen 2D original, con varios tonos de gris para indicar la profundidad de cada parte del marco. Si bien el mapeo de profundidad puede producir una ilusión bastante potente de objetos 3D en el video, inherentemente no admite objetos o áreas semitransparentes, ni representa superficies ocluidas; Para enfatizar esta limitación, las representaciones 3D basadas en profundidad a menudo se denominan explícitamente 2.5D . Estas y otras cuestiones similares deben tratarse mediante un método separado.

Un ejemplo de mapa de profundidad
Generación y reconstrucción de formas 3D a partir de siluetas o mapas de profundidad de una o varias vistas

Los pasos principales de los métodos de conversión basados ​​en profundidad son:

  1. Asignación de presupuesto de profundidad: cuánta profundidad total en la escena y dónde estará el plano de la pantalla.
  2. Segmentación de imágenes , creación de mates o máscaras, generalmente mediante rotoscopia . Cada superficie importante debe estar aislada. El nivel de detalle depende de la calidad de conversión y el presupuesto requeridos.
  3. Creación de mapas de profundidad. A cada superficie aislada se le debe asignar un mapa de profundidad. Los mapas de profundidad separados deben componerse en un mapa de profundidad de la escena. Este es un proceso iterativo que requiere el ajuste de objetos, formas, profundidad y visualización de resultados intermedios en estéreo. Microrrelieve de profundidad, forma 3D se agrega a las superficies más importantes para evitar el efecto de "cartón" cuando las imágenes estéreo parecen una combinación de imágenes planas colocadas a diferentes profundidades.
  4. Generación estéreo basada en 2D + Profundidad con cualquier información complementaria como planchas limpias, fondo restaurado, mapas de transparencia, etc. Cuando se complete el proceso, se habrá creado una imagen izquierda y derecha. Por lo general, la imagen 2D original se trata como la imagen central, de modo que se generan dos vistas estéreo. Sin embargo, algunos métodos proponen usar la imagen original como la imagen de un ojo y generar solo la imagen del otro ojo para minimizar el costo de conversión. Durante la generación estéreo, los píxeles de la imagen original se desplazan hacia la izquierda o hacia la derecha según el mapa de profundidad, el paralaje máximo seleccionado y la posición de la superficie de la pantalla.
  5. Reconstrucción y pintura de cualquier área descubierta que no haya sido rellenada por el generador estéreo.

El estéreo se puede presentar en cualquier formato con fines de vista previa, incluido el anaglifo .

Los pasos que requieren mucho tiempo son la segmentación de imágenes / rotoscopia, la creación de mapas de profundidad y el llenado de áreas descubiertas. Esto último es especialmente importante para la conversión de la más alta calidad.

Existen varias técnicas de automatización para la creación de mapas de profundidad y la reconstrucción de fondo. Por ejemplo, la estimación de profundidad automática se puede utilizar para generar mapas de profundidad iniciales para ciertos fotogramas y tomas.

Las personas que se dedican a este tipo de trabajo pueden denominarse artistas de profundidad.

Multicapa

Un desarrollo en el mapeo de profundidad, multicapa trabaja alrededor de las limitaciones del mapeo de profundidad al introducir varias capas de máscaras de profundidad en escala de grises para implementar una semitransparencia limitada. Similar a una técnica simple, la multicapa implica aplicar un mapa de profundidad a más de un "corte" de la imagen plana, lo que da como resultado una aproximación mucho mejor de la profundidad y la protuberancia. Cuantas más capas se procesen por separado por fotograma, mayor será la calidad de la ilusión 3D.

Otros enfoques

La reconstrucción y la reproyección 3D se pueden utilizar para la conversión estéreo. Implica la creación de modelos de escena 3D, extracción de superficies de imágenes originales como texturas para objetos 3D y, finalmente, renderizado de la escena 3D desde dos cámaras virtuales para adquirir video estéreo. El enfoque funciona bastante bien en el caso de escenas con objetos rígidos estáticos como tomas urbanas con edificios, tomas interiores, pero tiene problemas con cuerpos no rígidos y bordes difusos suaves.

Otro método consiste en configurar las cámaras virtuales izquierda y derecha, ambas desplazadas de la cámara original pero dividiendo la diferencia de desplazamiento y luego pintando los bordes de oclusión de los objetos y personajes aislados. Esencialmente enchapado en limpio varios elementos de fondo, terreno intermedio y primer plano.

La disparidad binocular también se puede derivar de una geometría simple.

Conversión automática

Profundidad del movimiento

Es posible estimar la profundidad automáticamente utilizando diferentes tipos de movimiento. En caso de movimiento de la cámara, se puede calcular un mapa de profundidad de toda la escena. Además, se puede detectar el movimiento del objeto y se pueden asignar áreas en movimiento con valores de profundidad más pequeños que el fondo. Las oclusiones proporcionan información sobre la posición relativa de las superficies en movimiento.

Profundidad de foco

Los enfoques de este tipo también se denominan "profundidad desde el desenfoque" y "profundidad desde el desenfoque". En los enfoques de "profundidad desde el desenfoque" (DFD), la información de profundidad se estima en función de la cantidad de desenfoque del objeto considerado, mientras que los enfoques de "profundidad desde el enfoque" (DFF) tienden a comparar la nitidez de un objeto en un rango de imágenes tomadas con diferentes distancias de enfoque para averiguar su distancia a la cámara. DFD solo necesita dos o tres con un enfoque diferente para funcionar correctamente, mientras que DFF necesita al menos de 10 a 15 imágenes, pero es más preciso que el método anterior.

Si se detecta el cielo en la imagen procesada, también se puede tener en cuenta que los objetos más distantes, además de ser brumosos, deberían estar más desaturados y más azulados debido a una capa de aire espesa.

Profundidad desde perspectiva

La idea del método se basa en el hecho de que las líneas paralelas, como las vías del tren y los bordes de las carreteras, parecen converger con la distancia, llegando finalmente a un punto de fuga en el horizonte. Encontrar este punto de fuga da el punto más lejano de toda la imagen.

Cuanto más convergen las líneas, más lejos parecen estar. Entonces, para el mapa de profundidad, el área entre dos líneas de fuga vecinas se puede aproximar con un plano de degradado.


Artefactos de conversión

  • El efecto cartón es un fenómeno en el que los objetos 3D ubicados a diferentes profundidades aparecen planos para el público, como si estuvieran hechos de cartón, mientras se conserva la profundidad relativa entre los objetos.
  • Discrepancia en la nitidez de los bordes : este artefacto puede aparecer debido a un mapa de profundidad borroso en los límites de los objetos. El borde se vuelve preciso en una vista y difuminado en otra. El artefacto de desajuste de nitidez de los bordes suele deberse a lo siguiente:
    • Uso de una técnica de "lámina de goma", definida como deformar los píxeles que rodean las regiones de oclusión para evitar un relleno de oclusión explícito. En tales casos, los bordes del mapa de desplazamiento se difuminan y la transición entre las regiones de primer plano y de fondo se suaviza. La región ocupada por el borde / desenfoque de movimiento se "estira" o "se pliega", según la dirección del desplazamiento del objeto. Naturalmente, este enfoque conduce a desajustes en la nitidez de los bordes entre las vistas.
    • Falta de un tratamiento adecuado de los bordes semitransparentes, lo que puede resultar en duplicación de bordes o efecto fantasma.
    • Técnicas simples de relleno de oclusión que conducen a estirar los artefactos cerca de los bordes de los objetos.
  • Atascado en objetos de fondo : este error de "pegar" objetos en primer plano al fondo

Métricas de calidad 3D

PQM

PQM imita el HVS, ya que los resultados obtenidos se alinean muy de cerca con la puntuación de opinión media (MOS) obtenida de las pruebas subjetivas. El PQM cuantifica la distorsión en la luminancia y la distorsión del contraste utilizando una aproximación (varianzas) ponderada por la media de cada bloque de píxeles para obtener la distorsión en una imagen. Esta distorsión se resta de 1 para obtener la puntuación de calidad objetiva.

HV3D

La métrica de calidad HV3D se ha diseñado teniendo en cuenta la percepción visual 3D humana. Tiene en cuenta la calidad de las vistas individuales derecha e izquierda, la calidad de la vista ciclópea (la fusión de la vista derecha e izquierda, lo que percibe el espectador), así como la calidad de la información de profundidad.

VQMT3D

El proyecto VQMT3D incluye varias métricas desarrolladas para evaluar la calidad de la conversión de 2D a 3D

Métrico Clase Escribe Aplicable a
Efecto cartón Avanzado Cualitativo Conversión de 2D a 3D
Discrepancia de nitidez de los bordes Único Cualitativo Conversión de 2D a 3D
Objetos pegados al fondo Único Cualitativo Conversión de 2D a 3D
Comparación con la versión 2D Único Cualitativo Conversión de 2D a 3D


Ver también

Referencias

  • Mansi Sharma; Santanu Chaudhury; Brejesh Lall (2014). Kinect-Variety Fusion: un nuevo enfoque híbrido para la generación de contenido 3DTV sin artefactos . En la 22ª Conferencia Internacional sobre Reconocimiento de Patrones (ICPR), Estocolmo, 2014. doi : 10.1109 / ICPR.2014.395 .