Extraño. Los humanos aún son mejores que la IA en leer la habitación

Extraño. Los humanos aún son mejores que la IA en leer la habitación

Se revela que los seres humanos son mejores que los modelos de IA actuales para describir e interpretar las interacciones sociales en una escena móvil, las habilidades requeridas para los automóviles de bienestar, apoyar robots y otras técnicas que dependen del sistema de IA para navegar por el mundo real.

La investigación dirigida por científicos de la Universidad de Johns Hopkins descubrió que el sistema de inteligencia artificial no comprende la movilidad social y las referencias necesarias para interactuar con las personas y sugiere que el problema puede ser inherente a la infraestructura del sistema de IA.

Por ejemplo, la IA para un automóvil autónomo, por ejemplo, necesitará identificar las intenciones, objetivos y tareas de los conductores y peatones humanos. Desea saber cómo un peatón está a punto de comenzar a caminar, o si dos personas están conversando “sobre cruzar el camino”, dijo Lyla Isik, autora principal de una profesora asistente de ciencias cognitivas en la Universidad Johns Homakins. “En cualquier momento que desee que AI interactúe con los humanos, desea identificar lo que la gente está haciendo. Creo que destaca el hecho de que estos sistemas no pueden hacer ahora”.

Kathy García, una estudiante de doctorado que trabaja en el laboratorio de ISIK en el momento de la investigación y la co-directa, ofrecerá conclusiones de investigación en la Conferencia Internacional sobre la representación de aprendizaje el 24 de abril.

Para determinar cómo los modelos de IA miden en comparación con la percepción humana, los investigadores pidieron a los participantes humanos que vieran videocolips de tres segundos y significativamente para comprender las interacciones sociales en una escala de uno a cinco. Las personas en el clip interactúan entre sí, realizan actividades de lado a lado o realizan actividades independientes por su cuenta.

Luego, los investigadores preguntaron más de 350 modelos de lenguaje, video e imagen de IA para adivinar cómo los humanos descubrirían videos y responderían su cerebro. Para modelos de idiomas grandes, los investigadores evaluaron AIS, que evaluaron pequeños subtítulos escritos por humanos.

Los participantes, para la mayoría de las partes, acordaron entre sí en todas las preguntas; No estaba entrenado, independientemente del modelo de IA, el tamaño o los datos. Los modelos de video no pudieron describir lo que la gente estaba haciendo en el video. Incluso los modelos de imagen que todavía recibieron una serie de marcos para analizar, no pueden adivinar si las personas se estaban comunicando. Los modelos de lenguaje fueron mejores para predecir el comportamiento humano, mientras que los modelos de video fueron mejores para predecir la actividad nerviosa en el cerebro.

Los investigadores declararon que los resultados siguen siendo un fuerte contraste con el éxito de la IA en la lectura de imágenes.

“Esto no es suficiente para mirar una imagen e identificar objetos y caras. Este fue el primer paso que nos hizo un largo camino en la IA. Pero la vida real no es estable.

Los investigadores creen que la red neuronal de IA se inspiró en la infraestructura de la parte del cerebro que procesa imágenes estáticas, que difieren de la región del cerebro que procesa escenas sociales dinámicas.

“Hay muchos matices, pero el gran Techway no es ninguno de los modelos de IA, que no pueden igualar el cerebro humano y las reacciones de comportamiento para las escenas en todos los ámbitos, como lo hacen para escenas estáticas”, dijo ISIC. “Creo que hay algo original sobre la forma en que los humanos están procesando a los humanos que faltan estos modelos”.

Comments

No comments yet. Why don’t you start the discussion?

Leave a Reply

Your email address will not be published. Required fields are marked *