Auriculares con cámara: la IA ya puede hablar sobre lo que ves

TECNOLOGÍA / INTELIGENCIA ARTIFICIAL.-

El sistema incluye visión artificial integrada en el oído, con respuesta rápida, menor consumo y más control sobre la privacidad.

Los auriculares integran visión artificial y conversación en tiempo real. / Crédito: Kim et al./CHI ‘26.

Investigadores estadounidenses desarrollaron un sistema que utiliza pequeñas cámaras en auriculares inalámbricos disponibles en el mercado, para permitir a los usuarios hablar con un modelo de IA sobre la escena frente a sus ojos.

Un equipo de especialistas de la Universidad de Washington, en Estados Unidos, ha desarrollado un sistema llamado VueBuds, que integra cámaras diminutas en auriculares inalámbricos comunes para que el usuario pueda preguntarle a una IA qué tiene delante, traducir un texto o identificar objetos en tiempo real. La propuesta fue presentada en la conferencia de informática CHI 2026, definiéndose como el primer sistema de este tipo en auriculares de consumo.

El principio técnico es el siguiente: cada auricular incorpora una microcámara que captura imágenes en blanco y negro, de baja resolución, y las envía por Bluetooth a un teléfono móvil u otro dispositivo cercano. Luego, un modelo de visión continúa con el trabajo, de modo que el procesamiento se realiza en el propio aparato y no en la nube.

Inteligencia visual en tiempo real.

Según una nota de prensa, el sistema responde en alrededor de un segundo: la captura es bajo demanda y el consumo cae por debajo de 5 mW. Los autores sostienen que los auriculares ya son un objeto masivo y cotidiano, mientras que las gafas inteligentes o los cascos de realidad virtual todavía enfrentan resistencias por comodidad y por privacidad.

En ese contexto, VueBuds intenta llevar “inteligencia visual” a un formato menos intrusivo. Frente a un dispositivo visible como unas gafas, el auricular promete una adopción más natural, pero también obliga a resolver una dificultad central: mirar sin que la propia oreja de la persona tape la escena.

Esa limitación fue precisamente una de las preguntas que guiaron el diseño. El equipo comprobó que una ligera orientación hacia afuera, de entre 5 y 10 grados, permite un campo de visión de entre 98 y 108 grados. También detectó un punto ciego: cuando un objeto se sostiene a menos de 20 centímetros, la cara puede obstruir parte de la imagen.

Más allá de esto, los investigadores concluyen que ese problema no afecta demasiado el uso habitual, porque en pocas ocasiones una persona examina algo tan cerca del rostro. Además, el sistema “pega” las imágenes de ambos auriculares, para ganar velocidad y pasar de unos dos segundos a aproximadamente un segundo en la respuesta.

Elevados porcentajes de precisión y el problema del color.

En las pruebas realizadas, 74 participantes compararon salidas grabadas con este sistema y con unas gafas de realidad virtual disponibles en el mercado: pese a usar imágenes de menor resolución y mayores controles de privacidad, el desempeño fue similar. Incluso, VueBuds rindió mejor en traducciones, mientras que las gafas obtuvieron mejores resultados en conteo de objetos.

En otro conjunto de ensayos, 16 personas usaron VueBuds directamente y el sistema alcanzó entre 83 % y 84 % de precisión en traducción o identificación de objetos, y 93 % al reconocer autor y título de un libro. Al mismo tiempo, en estudios en línea y presenciales con 90 participantes, el sistema igualó la calidad de respuesta de las gafas Ray-Ban Meta en 17 tareas visuales.

La privacidad es otro eje de esta innovación tecnológica: el procesamiento ocurre en el dispositivo, se enciende una luz cuando el sistema está grabando y el usuario puede borrar imágenes de inmediato. Sin embargo, al trabajar solo con escala de grises el sistema no puede responder preguntas sobre colores, y el propio equipo reconoce que el siguiente paso sería incorporar color o entrenar modelos específicos para tareas como lectura o traducción.

Por: Pablo Javier Piacente / T21.

Sitio Fuente: Levante / Tendencias21