domingo, 2 de septiembre de 2012

Reconocimiento automático de fotos de grupo de fiesta

Esta semana un amigo me mandó un artículo que me podría interesar y dio la casualidad que mirando los autores encontré a una ex-compañera de la carrera de ingeniería informática (¡enhorabuena por el paper Ana Cris!). El artículo se titula Urban Tribes: Analyzing Group Photos from a Social Perspective y trata del reconocimiento de atributos sociales en fotos de grupo.

Técnicamente me parece muy bueno. Consiguen unir varios algoritmos de reconocimiento de personas y facial, a la vez que extraer algunos atributos como % de piel visible, el sexo, si sonríe o no, si tiene el pelo largo, si lleva sombrero, si tiene camiseta o manga larga, la distancia entre las caras, etc. El objetivo principal del trabajo es conseguir agrupar automáticamente por medio de estos atributos fotos pertenecientes a lo que ellos llaman "tribus urbanas". Sin embargo, lo que parece una utilización de la teoría de señalización aplicada a la categorización de grupos sociales, tiene algunos puntos que me gustaría poder comentar, al menos que puedan servir para afinar trabajos de este tipo en el futuro.

En primer lugar, el artículo parte de la afirmación de que en las fotos de grupo aparecen personas que pertenecen a la misma tribu urbana. Pero ¿Qué es una tribu urbana? ¿Qué tipos de grupos existen? ¿Son todos los grupos tribus urbanas?

En principio, los metadrives darwininanos nos definirían dos tipos de grupos, uno sería el grupo familiar, regulado por la selección de parentesco y el segundo sería el grupo cercano regulado por el altruismo recíproco. Además de estos dos, tendríamos los grupos de trabajo, que no tienen por qué tener relaciones sociales fuertes, pero que hacen que los miembros trabajen en objetivos comunes, y por último tenemos el grupo cultural, que es lo que se conocería por "tribu social".

¿Qué caracteriza a una tribu urbana? 

Una tribu urbana es un grupo social con un grupo de señales comunes y distintas del resto del conjunto de la sociedad. Como todo grupo social, tendrá máscaras de alto coste que identifique a los que las poseen como miembros del grupo, y tendrá su propia jerarquía de medallas que regulará la jerarquía social de sus portadores, además de su preferencia por ciertas plumas e incluso personalidad asociada al grupo social (los moteros tienen una personalidad diferente a los emos o los hippies). Esto es parte del efecto que tienen las máscaras y la supresión de la personalidad individual y la adopción de caracteres del grupo social al que se asocia esa máscara, efecto conocido como vestimenta incorporada.

Los 5 grandes rasgos de la personalidad, que se pueden aplicar también a los grupos culturales.

Además de todo esto, tenemos que diferenciar entre contexto y persona. Un contexto social va a definir unas normas sociales y convenciones específicas que en algunas ocasiones van a implicar la aplicación de ciertas señales y el tabú de otras. No es lo mismo un contexto de playa que un contexto de una boda.  Sin embargo, la pertenencia a un grupo social será independiente del contexto social. ¿Qué implicaciones tiene esto?

Yo mismo puedo aparecer en fotos de grupo en diferentes contextos sociales, como en la playa, jugando un partido de fútbol, de boda, en una fiesta de disfraces y tomando unas cañas en un bar. Cada uno de estos contextos tienen normas de vestimenta y tabús que restringen las señales que se muestran en cada uno. En la playa llevaré bañador, en el partido camiseta y pantalones cortos, de boda iré con traje y corbata, en la fiesta de disfraces quién sabe qué llevaré puesto y en el bar iré casual. Sin embargo, tal y como está planteado el artículo, yo, siendo la misma persona, pertenecería a 5 "tribus urbanas" diferentes por el hecho de aparecer en contextos sociales diferentes.

Esto no es malo. Podría ser interesante un trabajo futuro en la distinción de diferentes contextos sociales, basándose en convenciones de este tipo, de hecho, es muy similar a los que han conseguido ya en este artículo. Esto podría tener implicaciones muy potentes en la segmentación de público para publicidad en redes sociales tipo Facebook (alguien que suele ir a la montaña le iteresarán botas de montaña, y alguien que va mucho a la playa tablas de surf).

Otra guerra es la distinción de tribus urbanas. Como hemos dicho, una tribu urbana se caracteriza por el uso de un grupo de señales distintas del resto de la sociedad general en la que se desarrolla e independientemente del contexto social en el que se tome la foto. En el artículo veo que tienen acceso a atributos muy interesantes para la detección de señales, entre ellos el % de piel, tipo de peinado, sombrero, gafas, etc. Para futuros trabajos, me parecería muy importante desarrollar identificadores automáticos de:
  • Tipo de maquillaje: Si se tiene acceso al color de piel, sexo y a la posición de los labios y ojos se podrían desarrollar detectores del tipo de maquillaje, como color del pintalabios, sombra de ojos, maquillaje en hombres, etc. Esto es muy importante, ya que algunas tribus urbanas se caracterizan por usos distintivos de maquillaje o la ausencia del mismo (hippies, pijos, goticos...). 
  • Detección de vello facial: Como máscara, el vello facial en hombres es muy útil para su asociación a diferentes grupos culturales. Los roqueros, los frikis, los hipster, etc. tienen sus bigotes, patillas y barbas características, que ayudarían a la identificación del grupo de cada individuo.
  • Tatuajes y piercings: Como decoración corporal, los tatuajes y piercings constituyen una máscara fiable para la pertenencia a ciertos grupos sociales. Los tatuajes podrían reconocerse mediante detección de % de ruido en zonas de piel y los piercings por brillos rodeados de piel. Los góticos, hippies, pijos, moteros, etc. tienen diferentes usos de modificaciones corporales y se podrían agrupar por medio de estos de manera fiable. 
  • Reconocimiento de marcas en vestimenta: Las marcas comerciales son medallas fiables que confieren posición social en ciertos grupos que basan su jerarquía en el poder económico. La detección de logos en la ropa (Adidas, Nike, D&G, etc.) podría darnos muchas postas sobre el grupo social al que pertenecen, ya que al ser elementos de alto coste, estos tienen que ser identificados y valorados por el grupo social al que se pertenece. 
  • Jerarquía de grupo: Por lo que veo en el artículo, tienen acceso a la posición relativa de las cabezas. Sería interesante ver si se pueden hacer inferencias de la jerarquía dentro del grupo, tales como identificar al individuo de sexo masculino de mayor altura en el centro del grupo. Esto nos daría una idea del tipo de grupo en el que estamos por medio de las señales que exhiba el macho dominante (¡¡¡no olvidar que somos primates!!!).
  • Tipo de grupo por tamaño y cohesión: La clasificación que nos da Dunbar de los grupos según su tamaño podría ser útil, ya que podemos tener parejas (2), grupos de apoyo (3-5), familias (12-15), clanes (35-50) y tribu (150). Además, habrá una diferencia notable entre la cohesión del grupo si las personas que aparecen pertenecen a estos grupos o no. No es lo mismo una foto del departamento de una universidad que una foto de familia o una foto de ex-alumnos de instituto.

Grupos sociales por tamaño según R. Dunbar.

Para terminar, hay un aspecto que he visto del artículo que supone un sesgo en el tipo de imágenes que se procesan. A la hora de recopilar las imágenes para el experimento, han buscado en internet fotos con las palabras “group picture” o “party picture”. Esto hace que sólo aparezcan fotos en el contexto de fiesta y bares. Este sesgo aparece representado en la familia L2 que muestra la agrupación por custers de uno de los métodos de agrupación que utilizan.


Como vemos, en ambos, pero sobre todo en SoP detecta una mezcla de la mayoría de los grupos con el L02 (Informal Pub). ¿Qué hubiese pasado si se hubiesen buscado imágenes que no sólo hubiesen sido de fiesta? Muchas tribus urbanas se manifiestan también fuera de los bares, pensemos en los moteros en concentraciones, los hippies en conciertos y festivales, los bikers... Todos salen de fiesta pero también podemos encontrar fotos de todos ellos fuera de este contexto social, incluso en contextos propios que definen su pertenencia a un grupo cultural (pensemos en los montañeros)


Grupo de moteros en pleno ritual fuera del bar

En resumen, me ha parecido muy interesante el trabajo, ya que supone una primera aproximación al reconocimiento de señales sociales en informática gráfica. Sin embargo, aún queda mucho por hacer y aunque los resultados son muy prometedores, sería muy enriquecedor para futuros trabajos contar con la experiencia de un antropólogo o un sociólogo que pueda dirigir los esfuerzos en el reconocimiento de señales sociales para maximizar el éxito del trabajo. Esto me recuerda a una charla a la que fui en la que uno de los miembros de desarrollo de DeepBlue nos contaba que fueron capaces de vencer a Kasparov no porque el ordenador fuese superpotente, sino porque tuvieron la suerte de que uno de los desarrolladores sabía jugar al ajedrez a nivel de competición y pudieron optimizar el algoritmo para ser todo lo eficiente posible.


ResearchBlogging.org Murillo, A.C.; Kwak, I.S.; Bourdev, L.; Kriegman, D.; Belongie, S. (2012). Urban tribes: Analyzing group photos from a social perspective Computer Vision and Pattern Recognition Workshops (CVPRW), 2012 IEEE Computer Society Conference on : 10.1109/CVPRW.2012.6239352

No hay comentarios:

Publicar un comentario