EVITAR LAS DUPLICACIONES UTILIZANDO EL SOFTWARE
Por Carsten Kraus, fundador y presidente de Omikron (Twinfinder)
La duplicación de direcciones es un problema tan antiguo como la existencia misma de bases de datos. En el pasado era imposible solucionarlo, pero ahora existen aplicaciones informáticas que permiten encontrarlas. En Mail Marketing queremos ayudarle a elegir el software que mejor se adapte a sus necesidades, explicándole los criterios más importantes que debe tener en cuenta.
Consecuencias de tener direcciones duplicadas
Las bases de datos mejor cuidadas, si no se limpian regularmente con un software adecuado, contienen entre un 4 y un 6% de direcciones duplicadas. Dicho así tal vez no parezca un porcentaje excesivo. Pero pongamos un ejemplo práctico y hagamos cuentas: en una campaña de 100.000 mailings, ¿cuántos se envían repetidos? Nada menos que 5.000.
Por culpa de las duplicaciones no sólo pagamos miles de cartas inútiles; también arruinamos el impacto de otros tantos miles de mailings, porque quien recibe dos cartas repetidas enseguida se sabe destinatario de una campaña de publicidad masiva. El efecto de personalización se viene abajo.
La duplicación de direcciones tiene, además, otro efecto negativo: falsea los análisis. La validez de los estudios sobre las bases de datos, sobre CLV (Customer Lifetime Value) y sobre Cross-selling puede verse afectada por estas duplicaciones. Sobre todo porque las duplicaciones no se encuentran repartidas homogéneamente por toda las base de datos, sino que se concentran en el grupo de quienes han hecho más de una compra.
¿Prevenir o curar?
Hay dos formas de atacar el problema: se puede limpiar periódicamente la base de datos, o se puede intentar que no entren registros repetidos. Para cada una de estas tareas existen programas específicos.
¿Por qué hay direcciones duplicadas?
Los duplicados surgen por las diferencias en las formas de escribir los nombres y las direcciones. En las bases de datos de particulares las duplicaciones más frecuentes se producen por:
· Errores de mecanografía: Manuel puede convertirse en Maneul al teclear.
· Errores de escritura: Apellidos poco comunes pueden escribirse de modo incorrecto.
· Existencia de nombres que admiten más de una escritura: una mujer puede figurar como Esther Jiménez y Ester Giménez en la misma base de datos.
· Errores al escuchar los datos: el nombre Xabier puede ser escuchado y anotado como Javier.
· Errores de comprensión: una calle llamada Poeta Federico García puede transformarse en Poeta Federico García Lorca porque nuestro cerebro tiende a completar el nombre.
En las bases de datos de empresas las duplicaciones se producen por otros motivos:
· Distinto orden de las palabras: un mismo negocio puede figurar como Muebles Fonseca y Fonseca Muebles.
· Añadiduras: ADrggt – Publicaciones puede estar repetido con el nombre ADrggt – Publicaciones y Revistas, S.L.
· Utilización de abreviaturas: el Asociación Española de Comercio Electrónico puede figurar también como A.E.C.E.
Cada empresa debe ver qué tipo de datos maneja con más frecuencia y elegir el software adecuado.
Overkill y Underkill
Ningún programa de software es perfecto, y los que encuentran duplicados en las bases de datos no son la excepción. Hay muchas direcciones que se toman como repetidas sin estarlo: es lo que se conoce como “Overkill”. Otras veces el problema es el contrario: no encuentran algunas que sí lo están. A esto se le llama “Underkill”. Cuanto mejor sea el programa, menor será la suma de las direcciones Under- y Overkill.
La aplicación más simple: Matchcode
En lugar de comparar todas las palabras letra por letra, estos programas comparan sólo unas cuantas letras “relevantes” – por ejemplo, la primera y la tercera del nombre y la primera del apellido. Cuando coincidan, el programa considerará que ha encontrado un duplicado.
Estos programas son rápidos, simples y fáciles de crear, pero tienen un inconveniente muy grave: cuando encuentran a Julián Pérez y a Julia Paniagua en la base de datos, los toman por un duplicado. En cambio, consideran a Esther Jiménez y a Ester Giménez dos personas distintas.
Estos programas están ya desfasados, y su uso no es muy recomendable.
Fonética
Con los nombres que admiten dos formas de escritura distintas – Sara y Sarah, Jiménez y Giménez,… – se corre el riesgo de hacer un duplicado. En español esté problema no es especialmente grave porque la correspondencia entre los sonidos y las letras es mayor que en cualquier otro lenguaje europeo. Pero en Alemania o Inglaterra es la causa de miles de duplicados en las bases de datos.
Para solucionar este problema los alemanes han desarrollado programas que trabajan con las transcripciones fonéticas de los nombres. Los más simples comparan únicamente letras sueltas. Uno de los más simples se llama Soundex (Russell-Sondex-Verfahren). Es un programa muy difundido cuyo mayor inconveniente es su alto porcentaje de Overkill.
Otros programas más avanzados son capaces de diferenciar los sonidos “umlaut” (ä, ö, ü), de comparar grupos de letras, y de distinguir entre nombres, como Kristof y Christoph, que tienen una pronunciación parecida.
Pero hay que tener cuidado con estos programas: incluso los mejores cometen errores. Además, ninguno de ellos puede detectar las duplicaciones causadas por los errores de escritura o el uso de abreviaturas. Resultan insuficientes por sí solos, al menos con bases de datos de direcciones.
Comparando las semejanzas
Los programas del tipo Matchcode han sido sustituidos por otros más avanzados. Estas nuevas aplicaciones, calificadas como “fuzzy” o “unscharf” (poco nítidas, borrosas) se distinguen de las antiguas en que precisan el grado de semejanza de los datos y no se limitan solamente a dar respuestas binarias Sí/No.
Comparando los diferentes elementos de las direcciones se puede alcanzar una mayor precisión. Por ejemplo, detectan duplicaciones cuando los nombres de dos empresas y el de sus personas de contacto sean muy parecidos, aunque no coincidan las direcciones (puede haber habido una mudanza). Y si las direcciones son muy parecidas, puede examinar con más detenimiento los nombres de las empresas. Esto sería imposible de hacer con los procedimientos de Matchcode.
Los programas actuales están optimizados para la entrada de direcciones. Pueden localizar palabras con las letras cambiadas de orden, abreviaturas,…
Dos de los más importantes son FACT, una matriz asociativa, y Einzel-Analyse, basado en la fonética. A menudo lo más conveniente es utilizar varios programas diferentes.
El parecido no lo es todo
Un buen software de bases de datos debe tener un buen procedimiento para encontrar los parecidos. Pero esa condición, aunque necesaria, no es suficiente: para el usuario también es importante que el programa se adapte al uso que le va a dar. ¿De qué vale el mejor software si al final no lo utiliza? La presentación del programa es un factor a tener en cuenta. Pero más importante aún es el formato de los datos: el software debe minimizar el número de transformaciones necesarias para poder trabajar con los datos, porque en cada una se pierde tiempo y se corre el riesgo de cometer errores. Téngalo en cuenta.
Como oferente de servicios
Si usted ofrece servicios a otros, le recomendamos que, cuando pueda, compare las bases de datos. Compruebe si funciona el software cuando los formatos de los datos son distintos. ¿Cuantos pasos previos hay? ¿Hay varios ficheros de datos que se puedan transformar en distintos pasos previos? ¿Se puede hacer fácilmente?
Para acabar con esta lista de aspectos a tener en cuenta se necesita un informe de la elaboración. Se considera lo normal que se muestre: el número de entradas, los duplicados internos (dentro del correspondiente fichero de datos), duplicados contra otros ficheros de datos y coste de los ficheros de datos.
Comprobar los datos al introducirlos
También se puede comprobar si los datos están en la lista antes de introducirlos. Si hacemos siempre esto, evitamos tener que revisarla luego entera. Algunas compañías de software para empresas ya se han dado cuenta de las ventajas de este sistema, y utilizan estas pruebas. Sin embargo, están más extendidos los programas de calidad inferior, especialmente los de tipo Matchcode.
Las empresas que más se pueden beneficiar de estos programas son, obviamente, las que manejan grandes cantidades de datos. Sin embargo, su uso resulta recomendable a cualquiera que tenga un fichero con nombres y direcciones.
Con el tiempo, seguramente, estos programas se incluirán en la mayor parte de los paquetes de software configurados para trabajar con direcciones.