Detección y clasificación de contenidos para adultos

Desde que se lanzaron los primeros motores de búsqueda uno de los primeros filtros que se incorporaron fue el de contenidos para adultos, normalmente con 3 límites: nulo, moderado y estricto. Cada cierto tiempo, y debido a que el sector de adultos evoluciona mucho más rápido que el resto de la web, los motores han de buscar nuevas formas de organizar y clasificar esa información, y de ahí que Microsoft haya preparado el Multimodal classification of adult content donde se detallan algunas metodologías.

El objetivo es encontrar en textos, imágenes y vídeos si hay contenidos para adultos, y para ello se utilizan ciertas metodologías de detección, que se suman a las ya utilizadas hasta ahora. Y por eso el primer paso que se realiza es el de detectar el tipo de contenido.

En este caso lo primero que se hará es analizar la dirección URL del recurso. Para ello se dividirá la URL en distintas palabras y se determinará si estas disponen de un elemento que pueda corresponder a contenido adulto. Estas palabras se normalizarán (por ejemplo, la palabra searching y searcher quedaría como search. Además también se hace un análisis semántico, de forma que picture, graph, wallpaper o photograph quedarían como picture. Una vez se han normalizado, se identifica contenido adulto. Para ello se utilizan distintos sistemas que también determinarían que adult movie sí que podría entrar en el filtrado, pero adult education no. Además, este sistema también determinaría si el contenido es moderado o estricto (como comentaba antes en el sistema de filtrado) y de esta forma decidir si se ha de mostrar al usuario o no.

El siguiente paso es el de determinar el contenido textual de la página (en caso de que esta dirección URL lo incluya). En este caso se analizar el texto de la página, los textos alrededor de las imágenes (y vídeos) que se incluyen. En caso de ser necesario se puede usar el mismo sistema que en la detección de URL de normalizar los contenidos para mejorar la detección. Aún así, el sistema que analiza los textos y las URL son distintos aunque usen métodos similares. Otra de las cosas que se analizan son los enlaces, tanto el “anchor text” como los títulos o textos alternativos.

La parte interesante viene en cómo se determina si una imagen o un vídeo incluye contenido para adultos o no, que es la parte más novedosa. En la parte de imágenes lo que se intenta determinar es si existe alguna parte de la imagen en la que se incluye “piel”, es decir, zonas de la imagen en las que por color se puede apreciar que existe una persona o parte de ella. Si la imagen directamente no tiene “piel” se clasifica como una imagen normal y no sigue las siguientes pruebas.

El siguiente punto es el análisis de rostros; en este caso el sistema “recorta” los rostros y devuelve la imagen al siguiente paso con esas zonas que ya se han eliminado y no se deben analizar más. Gracias a esto también se revisan aquellos posibles falsos positivos que se hayan dado en el punto anterior. Otra cosa que se hace es analizar ese rostro y comprobar que tampoco implica, de por sí, un contenido para adultos. Como el rostro tiene un color determinado de piel, se puede reajustar el paso anterior y volver a revisar otras partes del cuerpo basadas en el color de piel encontrado en el rostro.

Una vez analizado el color de piel y los rostros lo que se buscan son texturas. Eliminar las texturas lo que permitirá es encontrar aquellas partes que, ya de por sí no son contenidos para adultos (por ejemplo, ropa, lugares, cabello…) y, de la misma forma que en el caso de los rostros, se eliminan y se pasan al siguiente paso. Además también se podrían eliminar determinadas zonas de piel. Como detalle es que las texturas suelen encontrarse a partir de las esquinas de las imágenes y están “borrosas”.

En último lugar encontramos en análisis de formas, que revisa distintas partes de la zona de piel que permitan encontrar formas de contenidos para adultos. En este caso, si se encuentra alguna forma que pueda relacionarse con contenido para adultos esa imagen se marca como tal. En caso contrario la imagen se marca como normal.

Con esto nos quedarían estos dos workflows que resumirían los distintos pasos que se llevan a cabo a la hora del filtrado de direcciones URL y de contenidos multimedia.

Categorías Javier, SEO

Deja un comentario