Marc Ginjaume Gómez Country Manager zeotap Spain & Latam

Data Socio-Demográfica: la importancia de una buena fuente de datos para poder aplicar Data Science

dataUno de los indicadores más importantes para las campañas digitales que buscan generar notoriedad  es el On-Target Reach (OTR) o el porcentaje de impresiones dentro de la audiencia target (basada en género y/o edad). La mayoría de agencias suelen utilizar datos socio-demográficos extensamente disponibles en el mercado para alcanzar el OTR deseado, pero esto crea una problemática ya que en la mayoría de casos, la fuente de ellos no es determinística. Además de esto, dado que los proveedores de data típicamente se ven en la necesidad de extrapolarlos debido a la falta de escala y teniendo en cuenta que los look-alike models no funcionan con data socio-demográfica, el resultado en muchos casos es poco fiable.

No hay duda que para resolver este problema, es muy importante incorporar mejores datos socio-demográficos con mayor OTR y aplicar  data science de forma correcta.

El problema con los datos socio-demográficos

- No existen comportamientos estereotípicos online

El género es difícil de predecir en base al historial de búsqueda incluso cuando se trata de los websitos masculinos o femeninos “típicos”. Por ejemplo, se esperaría que un usuario que visita Vogue fuera una mujer. Sin embargo, este no siempre es el caso. Al hablar recientemente con una publicación de renombre orientada al público femenino, descubrimos que el 30-40% de sus visitas provienen de hombres.

El género no es el único atributo que es difícil de predecir; la edad es aún más complicada. Al final, tanto los millennials como los más adultos visitan los mismos webs de noticias, y de igual manera, gente de todas las edades visita sitios de e-commerce. Al parecer, tenemos más en común de lo que pensamos.

- Los dispositivos son utilizados frecuentemente por más de una persona

¿En alguna ocasión tu hijo/a ha jugado con tu móvil? ¿Le has prestado tu ordenador a tu esposo/a? Estos ejemplos lo dicen todo. 

- Abundan las estadísticas exageradas

Existen algunos proveedores en el mercado que no pueden resistir la tentación de tratar de impresionar a las marcas al sugerir que pueden llegar por ejemplo, a los ojos de 15 millones de “tech enthusiasts” cuando en realidad no tienen ese volumen de audiencia.

La verdad es relativa

Otro problema muy común en la industria es que los anunciantes se muestran satisfechos al usar la misma metodología en TV que para todo lo digital –  comparando los datos con los paneles tradicionales de medición y recalibrando debidamente. Al fin y al cabo, las agencias y anunciantes comprenden dichos paneles ya que los llevan utilizando por décadas. Puede ser que algunos se sientan agobiados con la gran cantidad de opciones tecnológicas en el mercado, así que no buscan nuevas alternativas aunque éstas puedan mejorar la situación.

Es cierto que los paneles ofrecen un gran punto de partida para entender la calidad de tus datos, pero cuando una marca está buscando llegar a digamos 10 millones de usuarios, el solapamiento con dichos paneles puede ser bastante pequeño. Por esta misma razón los resultados tienden a variar muy frecuentemente.

Sí, algunos podrán utilizar datasets de mayor escala para tratar de calibrar mejor – pero estos datasets no se convierten en parte del panel, y por lo tanto no lo aumentan. Así que, mientras estas compañías de medición se mantengan como una parte importante dentro del ámbito digital, se necesita una mayor escala y más revisiones que se pueden dar al comparar diferentes fuentes de datos, incluyendo el truth set propio.

Es momento de sumergirnos en Data Science

Si lo que se está buscando es precisión a la hora de calibrar basado en uno o varios conjuntos de datos específicos, siempre se pueden aplicar modelos estadísticos Bayesianos para conseguir múltiples calificaciones de diferentes fuentes de data y así poder asignar un resultado homogéneo al conjunto – lo cual defina la confianza en dicho conjunto. Posteriormente, tiene sentido desarrollar una matriz priorizando de calidad de la data a nivel individual de cada proveedor, con el objetivo de organizarlos únicamente según su calidad o su OTR, ayudando a priorizar cada proveedor. Desarrollar tal método permite a los anunciantes elegir si desean tener sus segmentos optimizados en relación a un panel en específico o a otros truth sets.

A continuación, cuando se quiera incluir nuevos datos externos en este sistema e incorporarlos dentro de la matriz, es necesario implementar una metodología adicional para asignarle las calificaciones apropiadas. Los nuevos atributos tienen que ser comparados con los anteriormente calificados como punto de referencia. En este caso, el modelo de Markov Chain Monte Carlo Model (MCMC) se puede utilizar para medir la calidad de la distribución de la nueva data, antes de aplicar modelos los estadísticos Bayesianos - los cuales van a evaluar el nuevo dataset que incluye las recientes adiciones de data.

Aunque el data science no hará maravillas si la fuente de datos es errónea, mejorar el input permitirá generar resultados mucho más positivos con ella.

Crea tu propio camino

Finalmente, es posible hacer mediciones de forma independiente. La data verificada con el DNI y la data self-declared proporcionan los mejores inputs porque son más precisos. Así que si se trabaja con varios proveedores data, es buena idea no dejar de cuestionar sus fuentes y métodos de recolección. A la misma vez, ¡es importante nunca olvidar auditar y verificar todos los datos de manera constante! Es un grave error aplicarlos y olvidarse de ellos. Los pequeños errores estadísticos se acumulan fácilmente con el tiempo.

Finalmente, tenemos que admitir que si la industria no puede ni siquiera lograr data socio-demográfica de calidad podemos empezar a olvidarnos de todos los avances que podríamos experimentar gracias a AI y/o machine learning. En orden de prioridades, es importante que primero obtengamos los mejores resultados al aplicar data science en data que realmente ha probado ser de calidad a escala, y luego empezar a apostar en grande.

Marc Ginjaume Gómez, Country Manager zeotap Spain & Latam

Te recomendamos

FOA

The trade lab

vueling

México

Compartir