La estilometría

¿Qué es la estilometría? María José García, socia de UniCo, nos da las claves.

Cada vez es más frecuente oír hablar de estilometría en ámbitos relacionados con la lingüística y por ello presentamos a continuación lo que dicen al respecto algunas fuentes digitales.

  • José Calvo Tello, en su blog eumanismo.eu, afirma lo siguiente:

La estilometría es una metodología estadística para analizar textos a través de sus palabras más frecuentes (Most Frequent Words o MFW). Fue Wicenty Lutoslawski quien acuñó esta palabra; en los últimos años John Burrow ha sido uno de los principales investigadores, cuya influencia puede observarse en varios grupos de investigación en Centroeuropa.

La estilometría se ha utilizado principalmente para estudiar atribuciones de autorías. Cada autor tiene tendencias al escribir: unos tienden a utilizar más estructuras determinante + adjetivo + sustantivo, algunos prefieren sumar oraciones con y u o, otros prefieren la confrontación mediante peros y aun­ques… Decenas de esos rasgos medidos estadísticamente y enfrentados crearían la llamada huella dactilar textual de un autor: un patrón que podría reconocer la autoría de cualquier autor. Al menos esa es la idea.

A continuación, este autor ofrece un interesante ejemplo práctico de esta metodología aplicada a textos literarios en el artículo «Estilometría: stylo y novelas en español».

Además, en la revista Caracteres, José Calvo publica el artículo «Entendiendo Delta desde las Humanidades», donde presenta un método utilizado en estilometría:

La estilometría es una de las áreas de investigación en las humanidades digitales con mayor desarrollo. Sin embargo, pocos estudios han trabajado hasta hace poco con textos en español y menos aún se han desarrollado en países hispanohablantes. El objetivo de este artículo es presentar en español, y sin presuponer conocimientos estadísticos por parte del lector, uno de los principales métodos utilizados en la estilometría: la medida de distancia textual de Burrows llamada Delta. El artículo explica este algoritmo usando un corpus mínimo de refranes y posteriormente comprueba los resultados en un corpus de novelas españolas.

Resultado de realizar un cluster analysis (algoritmo de agrupamiento) con novelas de autores españoles. Fuente: http://eumanismo.blogspot.com.es/2014/09/ estilometria-stylo-y-novelas-en-espanol.html

La estilometría analiza ciertos rasgos del estilo de un autor y los utiliza para comparar dos o más textos. El punto de partida de la estilometría es que el estilo es algo que nace en el subconsciente y, por esta razón, cada quien tiene su estilo propio. Por otro lado, la estilometría es una forma de analizar textos a diferentes niveles. Algunas de sus aplicaciones son la determinación de la auto­ría de una obra, así como de su autenticidad, la clasificación de textos, la medición de frecuencia de palabras y la identificación de lenguas.

En este artículo solo describiré brevemente dos de sus usos:

1. Para determinar la autoría.

2. Para clasificar textos.

Cada texto tiene unos marcadores de estilo que lo hacen diferente o similar a otros en cuanto a estilo. De esta forma, los marcadores lexicales de estilo sirven para determinar la autoría, entre otras cosas. Los marcadores léxicos se dividen en dos:

1. Riqueza del vocabulario.

2. Frecuencia de las palabras de función.

Las palabras de función, por ejemplo, podrían ser simples preposiciones (a, contra, bajo, etc.). La idea es que la forma y el lugar donde se emplean dichas palabras es suficiente para identificar a alguien como el autor de una obra. Como resultado, con este tipo de análisis podría determinarse el plagio de una obra.

Asimismo, la estilometría sirve para clasificar textos en diferentes categorías. Por ejemplo, según el tipo de caracteres de un texto, el idioma…

Para este tipo de análisis se pueden usar los n-grams, que se definen como una secuencia de ítems, cualesquiera que estos sean, dentro de una palabra o frase. Por así decirlo, el inglés utiliza ciertas combinaciones (cre, tra) mientras que el español tiene otras (ar, er). Esto solo es un ejemplo de una técnica y no tiene nada que ver con ciertas unidades lingüísticas. Sin embargo, los n-grams se utilizan en la lingüística computacional.

Finalmente, una vez obtenidos los datos, se almacenan para usarlos posteriormente. Cabe destacar que este tipo de análisis no es automático. Quien lo lleva a cabo debe almacenar dichas secuencias para después poder analizar cuantitativamente, es decir, obtener su frecuencia, y, luego, compararlas con las de otros textos o corpus de textos. En este caso, existen herramientas que hacen el trabajo de cuantificación de forma automática. Así, hay herramientas que no solo arrojan datos numé­ricos, sino también gráficos. El proceso descrito sirve también para clasificar textos y para deter­minar la autoría de ciertas obras. Se trata de crear marcadores de palabras o, incluso, cualquier com­binación que pueda servir para el análisis.

Algunos parámetros que se deben tomar en cuenta para que el análisis estilométrico tenga mayor fia­bilidad son:

1. El número de textos.

2. La cantidad de autores.

3. La extensión de la lista de palabras o n-grams.

Para realizar este tipo de análisis estadístico existen varias herramientas que pueden facilitar la obtención de los datos necesarios hasta su repre­sentación gráfica. (http://www.r-project.org/). Una de estas herramientas es el análisis estilométrico en R. Dicho programa está bajo licencia GNU. Ade­más, proporciona varias técnicas de análisis lineal y no lineal, así como gráfico. Sus características principales son:

1. Ambiente en R, que facilita el manejo y el almacenamiento de la información.

2. Colección de herramientas integradas para el análisis de datos.

3. Diversos operadores para operaciones.

4. Representación gráfica.

5. Lenguaje de programación simple y efectivo.

Para concluir, la estilometría es una herramienta que se considera dentro del campo de las huma­nidades digitales.

La estilometría utiliza una variedad de técnicas analíticas para lograr la caracterización de un texto. El uso de determinados patrones grama­ticales de un texto (artículos, pronombres, conjunciones, verbos auxiliares, interjecciones, etc.) permite, mediante análisis de componentes prin­cipales, obtener una huella característica de un autor, que puede ser utilizada con propósito de atribución. Otras técnicas utilizadas son las redes neuronales, los algoritmos genéticos o el análisis de asociación de palabras, en busca de pautas reconocibles.

En un entorno como la red, la estilometría puede suponer un arma fundamental en el arsenal ana­lítico de los gobiernos. Poder caracterizar a un posible activista en función de sus escritos, poder atribuir determinados textos, almacenar las hue­llas estilísticas de todos los ciudadanos a partir de lo que escriben en la red o ser capaz, incluso, de utilizar estas técnicas como prueba procesal supone una presión añadida al clima de vigilan­cia en el que estamos viviendo. De ahí el desa­rrollo de JStylo-Anonymouth, una herramienta diseñada por estudiantes del Privacy, Security and Automation Lab (PSAL) de Drexel University, que permite analizar un texto y sugerir los cam­bios necesarios para evitar la caracterización del mismo mediante el uso de técnicas de estilometría. Una especie de «estilometría inversa» al servicio de aquellos que consideran importante resguardar su anonimato.

El tema me ha llamado la atención, al tiempo que me ha despertado interrogantes. Me imagino que las pautas estilísticas se perderán en un cambio de idioma, por ejemplo, o incluso que se generarán otras posiblemente diferentes. O me pregunto qué ocurrirá en el caso de documen­tos de autoría compartida, en los que múltiples autores se reúnen, por ejemplo, en un documento en el que se dan procesos de escritura, enmienda y reflexión colectiva —la gran mayoría de los procesos de activismo en los que he participado han tenido lugar en torno a herramientas de este tipo—. La idea de que lo que escribes lleva, en cierto sentido, «tu huella» y que esta puede ser utilizada para caracterizarte con un nivel de pre­cisión significativo es, como mínimo, intrigante, como lo es el posible uso por parte de determi­nadas agencias gubernamentales que operan al margen de todo control. Un tema en el que, sin duda, es necesaria muchísima reflexión.

Dendograma del corpus de novelas, realizado en stylo con la Delta de Eder. Fuente: http://revistacaracteres.net/revista/vol5n1mayo2016/ entendiendo-delta/

 

Dendograma de 24 novelas españolas realizado con el archivo Python. Fuente: http://revistacaracteres.net/revista/vol5n1mayo2016/ entendiendo-delta/

En resumen, podemos concluir, a la vista de todos estos documentos, que la estilometría, como metodología de análisis de textos, es una disciplina que se sirve de la informática, la estadística y la filología: se caracteriza por el uso de programas informáticos para cuantificar ras­gos gramaticales que son interpretados por un filólogo. El objetivo de la estilometría es identificar la huella característica de un autor determinando los patrones gramaticales de sus textos. Se utiliza básicamente en peritajes de lingüística forense y en investigaciones de atribución de autoría. Sus posibilidades futuras aún están por desvelarse.

Artículo publicado en el n.º 10 de la revista Deleátur.

2 comentarios en “La estilometría

  1. Dra. Sheila Queralt dijo:

    Un artículo de difusión muy interesante, aunque son necesarios ciertos matices:
    -Los análisis de estilometría son útiles en análisis de atribución de autoría cuando tenemos suficientes datos, no suele suceder en la mayor parte de casos reales puesto que el autor anónimo no suele invertir muchas horas.
    -Es muy importante que los resultados estén siempre supervisados y revisados por un lingüístia forense, el cual debe saber interpretar correctamente los resultados.
    – Se debe aclarar que no se puede hablar de «huella característica o huella lingüística del autor» puesto que en una huella se encuentra toda la información del individuo y no es variable, mientras que el material lingüístico representa una porción muy pequeña de toda la producción lingüística que puede hacer un individuo y es variable (tipo de texto, carga emocional, distancia el tiempo, medio de escritura, etc.).

Deja un comentario