INESEM Business School
Contactar por whatsappWhatsapp

Contacta con nosotros

Teléfono de INESEM 958 050 205
Parseo de datos
Te ayudamos a elegir tu formación

El parseo de datos en internet: nuevas oportunidades comerciales al filo de la legalidad

“Parseo”, “parsear” o parsing se han convertido en términos habituales entre los profesionales del ámbito comercial y del marketing que operan en internet en los últimos años. Con ellos se hace referencia al proceso de obtención de datos de clientes potenciales mediante el análisis del contenido web.

El sutantivo “parseo” y el verbo “parsear” son dos adaptaciones de los vocablos procedentes del inglés “parsing” (sutantivo) o “to parse” (verbo). Su origen está ligado al análisis lingüístico que algunos programas informáticos realizaban sobre textos escritos, aunque el uso de estos rápidamente se extendió y mercantilizó hacia el análisis o rastreo de webs en busca de datos personales que poder comercializar.

¿Qué es el parseo o parsing en programación?

En programación, parsear es el proceso de analizar una cadena de texto para identificar su estructura sintáctica y extraer información significativa de ella. Por ejemplo, si tienes una cadena de texto que contiene una lista de números separados por comas, para poder trabajar con esos números en tu programa, debes parsear la cadena para extraer los números individuales. Esto implica separar la cadena en elementos separados por comas, eliminar cualquier espacio en blanco o caracteres no numéricos, y luego convertir cada elemento a un valor numérico que pueda ser utilizado por el programa.

Los programas informáticos para “parsear” son softwares capaces de analizar el código HTML del que se componen las webs con el fin de obtener datos personales (nombres y apellidos, emails, teléfonos, etc.) que a veces incluso pueden llegar a estar ocultos o encriptados. Como es lógico, la utilización de este tipo de programas está regulada por las distintas leyes de protección de datos que existen en algunos países. No obstante, la ausencia de fronteras físicas de la que hace gala internet dificulta enormemente la delimitación de las leyes aplicables a esta actividad.

Fases del parseo

El parseo se compone de dos fases:

Escaneo

Un token representa un concepto presentado en un formato y se puede considerar una etiqueta asignada a uno o más caracteres. Desde el punto de vista del procesamiento, un token es un objeto y puede contener tipo, lexema, información de ubicación, y mucho más.

En lenguaje Java: if, while e int son ejemplos de tokens. En el parseo de fechas, los tokens se definen en los motores de expresiones regulares como \d{2} (día, mes), — (separador), \d{4} (año), que son tokens. Al escaneo también se lo denomina tokenización o análisis léxico. En jerga de programación, a un software de escaneo se le llama tokenizador.

Análisis sintáctico

El análisis sintáctico examina la estructura manteniendo los tokens tal y como aparecen. A su vez, extrae datos grabados para crear la estructura de datos deseada. Un ejemplo en parseo de datos sería: «día está seguido de mes y año». Regex Engine verifica el orden y se extrae la información con base en el orden y las coincidencias establecidas.

Los errores que se detectan durante esta fase se llaman errores sintácticos. Si volvemos al ejemplo anterior de parseo de una fecha, 99-JAN-2021 sería una fecha inválida. Sin embargo, 99-99-9999 es una fecha válida, puesto que la regla (\d{2})-(\d{2})-(\d{4}) así lo determina. Puede sonar absurdo, pero lo que validan los parsers (o analizadores sintácticos) es la corrección estrictamente sintáctica.

El parseo en programación desde una perspectiva legal

¿En qué país se sitúa el servidor en el que se almacenan nuestros datos personales que cedemos voluntariamente a una web? ¿Cuál es la ley que regula su protección en el hipotético caso de que la hubiera? Los límites a la legalidad son muy difusos en este campo y las empresas dedicadas tanto a la obtención de datos personales en internet como las aquellas que los compran para utilizarlos proliferan muy rápidamente en una sociedad, la tecnológica, a la que aún se le escapan de las manos muchos aspectos legales de vital importancia como este.

La complejidad y el enorme calado del uso de internet con fines comerciales dificultan aún más si cabe el problema del tráfico de datos. La sociedad del conocimiento y la información en la que vivimos debe hacer frente lo antes posible a este fenómeno con el fin de garantizar que los derechos de sus usuarios se cumplen. Mientras tanto, y como siempre ocurre, sacar partido del vacío legal existente es una posibilidad real de hacer negocio y así se está haciendo. El viejo refrán de “quien no corre vuela” vuelve a tener sentido una vez más.

Categorizado en: Gestión Empresarial

Solicita información




    Información básica sobre Protección de Datos. Haz clic aquí

    Acepto el tratamiento de mis datos con la finalidad prevista en la información básica

    ¿Quieres más artículos de Gestión Empresarial ?

    Selecciona la categoría que más te interese

    ¡Descubre los secretos de inesem en nuestro canal de Telegram!

    Artículos más leídos

    Descubre Territorio Inesem

    Disfruta del mejor contenido con los últimos podcast y webinars

    ES EL MOMENTO

    Comienza tu futuro de la mano de INESEM Business School con el programa de

    EXECUTIVE MASTERS

    Únete al selecto grupo de alumnos que han conseguido alcanzar una carrera de éxito en las profesiones más demandadas.

    ÚNETE AL EQUIPO DE REDACCIÓN

    Comparte tu conocimiento con otros profesionales

    Saber más