“Parseo”, “parsear” o parsing se han convertido en términos habituales entre los profesionales del ámbito comercial y del marketing que operan en internet en los últimos años. Con ellos se hace referencia al proceso de obtención de datos de clientes potenciales mediante el análisis del contenido web.
El sutantivo “parseo” y el verbo “parsear” son dos adaptaciones de los vocablos procedentes del inglés “parsing” (sutantivo) o “to parse” (verbo). Su origen está ligado al análisis lingüístico que algunos programas informáticos realizaban sobre textos escritos, aunque el uso de estos rápidamente se extendió y mercantilizó hacia el análisis o rastreo de webs en busca de datos personales que poder comercializar.
¿Qué es el parseo o parsing en programación?
En programación, parsear es el proceso de analizar una cadena de texto para identificar su estructura sintáctica y extraer información significativa de ella. Por ejemplo, si tienes una cadena de texto que contiene una lista de números separados por comas, para poder trabajar con esos números en tu programa, debes parsear la cadena para extraer los números individuales. Esto implica separar la cadena en elementos separados por comas, eliminar cualquier espacio en blanco o caracteres no numéricos, y luego convertir cada elemento a un valor numérico que pueda ser utilizado por el programa.
Los programas informáticos para “parsear” son softwares capaces de analizar el código HTML del que se componen las webs con el fin de obtener datos personales (nombres y apellidos, emails, teléfonos, etc.) que a veces incluso pueden llegar a estar ocultos o encriptados. Como es lógico, la utilización de este tipo de programas está regulada por las distintas leyes de protección de datos que existen en algunos países. No obstante, la ausencia de fronteras físicas de la que hace gala internet dificulta enormemente la delimitación de las leyes aplicables a esta actividad.
Fases del parseo
El parseo se compone de dos fases:
Escaneo
Un token representa un concepto presentado en un formato y se puede considerar una etiqueta asignada a uno o más caracteres. Desde el punto de vista del procesamiento, un token es un objeto y puede contener tipo, lexema, información de ubicación, y mucho más.
En lenguaje Java: if, while e int son ejemplos de tokens. En el parseo de fechas, los tokens se definen en los motores de expresiones regulares como \d{2} (día, mes), — (separador), \d{4} (año), que son tokens. Al escaneo también se lo denomina tokenización o análisis léxico. En jerga de programación, a un software de escaneo se le llama tokenizador.
Análisis sintáctico
El análisis sintáctico examina la estructura manteniendo los tokens tal y como aparecen. A su vez, extrae datos grabados para crear la estructura de datos deseada. Un ejemplo en parseo de datos sería: «día está seguido de mes y año». Regex Engine verifica el orden y se extrae la información con base en el orden y las coincidencias establecidas.
Los errores que se detectan durante esta fase se llaman errores sintácticos. Si volvemos al ejemplo anterior de parseo de una fecha, 99-JAN-2021 sería una fecha inválida. Sin embargo, 99-99-9999 es una fecha válida, puesto que la regla (\d{2})-(\d{2})-(\d{4}) así lo determina. Puede sonar absurdo, pero lo que validan los parsers (o analizadores sintácticos) es la corrección estrictamente sintáctica.
El parseo en programación desde una perspectiva legal
¿En qué país se sitúa el servidor en el que se almacenan nuestros datos personales que cedemos voluntariamente a una web? ¿Cuál es la ley que regula su protección en el hipotético caso de que la hubiera? Los límites a la legalidad son muy difusos en este campo y las empresas dedicadas tanto a la obtención de datos personales en internet como las aquellas que los compran para utilizarlos proliferan muy rápidamente en una sociedad, la tecnológica, a la que aún se le escapan de las manos muchos aspectos legales de vital importancia como este.
La complejidad y el enorme calado del uso de internet con fines comerciales dificultan aún más si cabe el problema del tráfico de datos. La sociedad del conocimiento y la información en la que vivimos debe hacer frente lo antes posible a este fenómeno con el fin de garantizar que los derechos de sus usuarios se cumplen. Mientras tanto, y como siempre ocurre, sacar partido del vacío legal existente es una posibilidad real de hacer negocio y así se está haciendo. El viejo refrán de “quien no corre vuela” vuelve a tener sentido una vez más.