Los idiomas humanos, a pesar de su diversidad, parecen compartir un patrón tan curioso como misterioso: la ley de Zipf. Esta regla estadística describe cómo las palabras de un idioma tienden a distribuirse según su frecuencia de uso. Lo intrigante es que, aunque se ha observado en casi todos los idiomas estudiados, aún no se comprende completamente el por qué.
Propuesta hace 80 años por el lingüista George Kingsley Zipf, esta ley establece que la frecuencia de una palabra es inversamente proporcional a su rango en la lista de palabras. Es decir, la palabra más común en un idioma (por ejemplo, "the" en inglés) aparece aproximadamente el doble de veces que la segunda más común, tres veces más que la tercera, y así sucesivamente.
Este patrón sigue una fórmula matemática de ley de potencia:
Lo más sorprendente es que la ley de Zipf no solo se aplica al inglés o a idiomas ampliamente estudiados como el español o el mandarín, sino también a idiomas que no hemos logrado descifrar, como el del Manuscrito Voynich .
Incluso textos individuales, como El origen de las especies de Charles Darwin, o clásicos como Hamlet de Shakespeare, muestran una distribución que obedece esta regla.
Aunque la ley de Zipf es ampliamente aceptada como un fenómeno lingüístico, su origen sigue siendo un misterio. Algunas teorías intentan arrojar luz sobre este enigma:
La ley de Zipf revela una sorprendente regularidad en la forma en que usamos el lenguaje, lo que pone en duda la idea de que los humanos somos completamente impredecibles en nuestra comunicación. Este fenómeno se observa en prácticamente todos los idiomas y textos largos, y sugiere que nuestro uso del lenguaje responde a reglas subyacentes, aunque no las comprendamos del todo.
Si quieres comprobar este fenómeno, puedes analizar un texto propio utilizando herramientas estadísticas. Verás cómo la frecuencia de las palabras sigue este patrón casi de manera mágica. No importa si es una novela, un ensayo o un discurso, el del lenguaje estará más regido por esta ley de lo que podrías imaginar.