Imágenes de rango - Range imaging

Imágenes de rango es el nombre de una colección de técnicas que se utilizan para producir una imagen 2D que muestra la distancia a los puntos en una escena desde un punto específico, normalmente asociado con algún tipo de dispositivo sensor.

La imagen resultante, la imagen de rango , tiene valores de píxeles que corresponden a la distancia. Si el sensor que se utiliza para producir la imagen de rango está calibrado correctamente, los valores de píxeles se pueden dar directamente en unidades físicas, como metros.

Diferentes tipos de cámaras de rango

El dispositivo sensor que se utiliza para producir la imagen de rango a veces se denomina cámara de rango . Las cámaras de rango pueden operar de acuerdo con varias técnicas diferentes, algunas de las cuales se presentan aquí.

Triangulación estéreo

La triangulación estéreo es una aplicación de estereofotogrametría en la que los datos de profundidad de los píxeles se determinan a partir de los datos adquiridos mediante un sistema de configuración estéreo o de varias cámaras . De esta forma es posible determinar la profundidad a puntos en la escena, por ejemplo, desde el punto central de la línea entre sus puntos focales. Para resolver el problema de la medición de profundidad utilizando un sistema de cámara estéreo, primero es necesario encontrar los puntos correspondientes en las diferentes imágenes. La resolución del problema de correspondencia es uno de los principales problemas a la hora de utilizar este tipo de técnica. Por ejemplo, es difícil resolver el problema de correspondencia para puntos de imagen que se encuentran dentro de regiones de intensidad o color homogéneos. Como consecuencia, las imágenes de rango basadas en la triangulación estéreo generalmente pueden producir estimaciones de profundidad confiables solo para un subconjunto de todos los puntos visibles en las múltiples cámaras.

La ventaja de esta técnica es que la medición es más o menos pasiva; no requiere condiciones especiales en términos de iluminación de la escena. Las otras técnicas mencionadas aquí no tienen que resolver el problema de correspondencia, sino que dependen de las condiciones particulares de iluminación de la escena.

Lámina de triangulación de luz

Si la escena se ilumina con una hoja de luz, esto crea una línea reflejada como se ve desde la fuente de luz. Desde cualquier punto fuera del plano de la hoja, la línea aparecerá típicamente como una curva, cuya forma exacta depende tanto de la distancia entre el observador y la fuente de luz como de la distancia entre la fuente de luz y los puntos reflejados. Observando la hoja de luz reflejada usando una cámara (a menudo una cámara de alta resolución) y conociendo las posiciones y orientaciones tanto de la cámara como de la fuente de luz, es posible determinar las distancias entre los puntos reflejados y la fuente de luz o cámara.

Al mover la fuente de luz (y normalmente también la cámara) o la escena frente a la cámara, se puede generar una secuencia de perfiles de profundidad de la escena. Estos se pueden representar como una imagen de rango 2D.

Luz estructurada

Al iluminar la escena con un patrón de luz especialmente diseñado, luz estructurada , se puede determinar la profundidad usando una sola imagen de la luz reflejada. La luz estructurada puede adoptar la forma de líneas horizontales y verticales, puntos o patrones de tablero de ajedrez. Un escenario de luz es básicamente un dispositivo de imágenes de rango de luz estructurado genérico creado originalmente para el trabajo de captura de reflectancia .

Tiempo de vuelo

La profundidad también se puede medir usando la técnica estándar de tiempo de vuelo (ToF), más o menos como un radar , en la que se produce una imagen de rango similar a una imagen de radar, excepto que se usa un pulso de luz en lugar de una RF. legumbres. Tampoco es diferente a un LIDAR , excepto que ToF no tiene escáner, es decir, toda la escena se captura con un solo pulso de luz, en lugar de punto por punto con un rayo láser giratorio. Las cámaras de tiempo de vuelo son dispositivos relativamente nuevos que capturan una escena completa en tres dimensiones con un sensor de imagen dedicado y, por lo tanto, no necesitan partes móviles. Un radar láser de tiempo de vuelo con una cámara CCD intensificada de activación rápida logra una resolución de profundidad submilimétrica. Con esta técnica, un pulso de láser corto ilumina una escena y la cámara CCD intensificada abre su obturador de alta velocidad solo durante unos cientos de picosegundos . La información 3D se calcula a partir de una serie de imágenes 2D que se recopilaron con un retraso creciente entre el pulso láser y la apertura del obturador.

Interferometria

Iluminando puntos con luz coherente y midiendo el cambio de fase de la luz reflejada en relación con la fuente de luz, es posible determinar la profundidad. Suponiendo que la imagen de rango real es una función más o menos continua de las coordenadas de la imagen, se puede obtener la profundidad correcta utilizando una técnica llamada desenvolvimiento de fase. Consulte interferometría SAR terrestre .

Apertura codificada

La información de profundidad puede inferirse total o parcialmente junto con la intensidad mediante la convolución inversa de una imagen capturada con un patrón de apertura codificado especialmente diseñado con una disposición compleja específica de orificios a través de los cuales se permite el paso o se bloquea la luz entrante. La forma compleja de la apertura crea un desenfoque no uniforme de la imagen para aquellas partes de la escena que no se encuentran en el plano focal de la lente. El grado de desenfoque en la escena, que está relacionado con el desplazamiento desde el plano focal, se puede utilizar para inferir la profundidad.

Para identificar el tamaño del desenfoque (necesario para decodificar la información de profundidad) en la imagen capturada, se pueden utilizar dos enfoques: 1) eliminar el desenfoque de la imagen capturada con diferentes desenfoques, o 2) aprender algunos filtros lineales que identifican el tipo de desenfoque .

El primer enfoque utiliza una deconvolución matemática correcta que tiene en cuenta el patrón de diseño de apertura conocido; esta deconvolución puede identificar dónde y en qué grado la escena se ha vuelto complicada por la luz desenfocada que cae selectivamente sobre la superficie de captura, e invertir el proceso. Por lo tanto, la escena sin desenfoque se puede recuperar junto con el tamaño del desenfoque.

El segundo enfoque, en cambio, extrae la extensión del desenfoque sin pasar por la recuperación de la imagen sin desenfoque y, por lo tanto, sin realizar una convolución inversa. Usando una técnica basada en análisis de componentes principales (PCA), el método aprende fuera de línea un banco de filtros que identifican de forma única cada tamaño de desenfoque; estos filtros se aplican luego directamente a la imagen capturada, como una convolución normal. Una ventaja clave de este enfoque es que no se requiere información sobre el patrón de apertura codificado. Por su eficacia, este algoritmo también se ha extendido a secuencias de vídeo con objetos en movimiento y deformables.

Dado que la profundidad de un punto se infiere de su grado de desenfoque causado por la luz que se extiende desde el punto correspondiente en la escena que llega a toda la superficie de la apertura y se distorsiona de acuerdo con esta extensión, esta es una forma compleja de triangulación estéreo. Cada punto de la imagen se muestrea espacialmente de forma eficaz a lo largo del ancho de la abertura.

Esta tecnología últimamente se ha utilizado en el iPhone X . Muchos otros teléfonos de Samsung y computadoras de Microsoft han intentado usar esta tecnología pero no usan el mapeo 3D.

Ver también

Referencias