Terça, 25 de Junho de 2024 09:06
editor-sênior, jornalista Mhario Lincoln
De Portugal LINGUAS PORTUGUÊSAS

Marcos Neves, de Portugal, traz uma discussão interessante: "Qual é a distância entre o galego e o português?"

O galego e o português estão próximos. Será possível quantificar essa proximidade? E como medir a distância entre o português de agora e o português de Camões?

17/05/2024 15h17 Atualizada há 1 mês
Por: Mhario Lincoln Fonte: Marco Neves
Mont. em cima de fotos originais do texto.
Mont. em cima de fotos originais do texto.



MARCO NEVES

Este artigo é uma adaptação de um capítulo do livro História do Português desde o Big Bang.

 

Como medir a distância linguística?

Haverá forma objectiva de olhar para a proximidade entre línguas ou variantes de línguas? Não é fácil: todos temos tendências, impressões, inclinações…

Há, no entanto, técnicas que tentam ser um pouco mais objectivas. Um dos mais recentes estudos neste âmbito foi realizado por José Ramom Pichel, numa investigação apresentada nos artigos científicos referidos na bibliografia e na sua tese de doutoramento. (Fui co-autor, em conjunto com outros linguistas, de dois dos artigos.)

O estudo baseia-se neste facto linguístico: um conjunto de caracteres aparece com uma frequência diferente entre línguas, mas é relativamente estável em textos da mesma língua.

Todos concordarão, por exemplo, se eu disser que «ção» é um conjunto de caracteres muito frequente em textos escritos em português e muitíssimo pouco frequente em textos escritos em castelhano (por exemplo). Mais do que isso: a frequência com que aparece num texto português é relativamente estável.

Se olharmos e contabilizarmos as frequências de conjuntos de caracteres com dimensão suficiente, encontramos uma espécie de impressão matemática de cada língua. Por exemplo, «ção#de#» (# representa o espaço, que também é usado para estes cálculos) é um conjunto de 7 caracteres com uma determinada frequência em português. Este conjunto denomina-se, tecnicamente, «7-grama». A elevada frequência deste 7-grama depende do facto de a preposição «de» poder seguir-se a um nome, sendo esta uma construção frequente.

O conjunto de frequências dos 7-gramas de determinado corpus (conjunto de textos) representativo de uma língua ou variante cria uma impressão matemática não só do léxico, como da morfologia das palavras e da própria sintaxe da língua.

Uma análise matemática destas frequências será cega: ninguém ensina à fórmula matemática o que é uma preposição ou um nome; no entanto, o próprio funcionamento da língua implica as tais frequências, que ficam assim impressas nos números analisados. A própria cegueira da matemática ajuda-nos, neste caso, a limpar impressões e tendências pessoais.

José Ramom Pichel usou uma métrica ainda mais complexa do que a descrição acima − essa métrica já existia e tem como nome perplexity. Em termos simples, mede a distância de um texto (ou conjunto de textos) em relação a um modelo de língua previamente calculado com base num corpus significativo (com milhões de palavras dessa língua).   

A métrica foi adaptada à análise da proximidade linguística, criando-se um valor de PLD (Perplexity Language Distance) que mede a distância entre, por exemplo, português e castelhano, português e russo ou inglês e arménio − mas também entre português europeu e português do Brasil ou castelhano de Espanha ou castelhano da Argentina.

Proximidades e distâncias das línguas da Europa
Quanto mais baixa a PLD, mais próximas as línguas ou variantes.

Se calcularmos a PLD entre textos na mesma língua e variante surge-nos um valor próximo do 3 (a PLD só será 0 se usarmos os mesmos textos para criar o modelo de língua e o corpus de teste).

Entre variantes da mesma língua, costumamos encontrar valores entre o 3 e o 6.

Entre línguas próximas, encontramos valores de PLD entre o 6 e 12 (a distância entre português e castelhano é de aproximadamente 8).

Entre línguas distantes encontramos valores muito superiores: entre inglês e holandês temos 31 e entre o inglês e o francês temos 16 (que o inglês esteja muito mais próximo do francês do que de uma língua germânica vizinha mostra bem os estragos que o francês fez à língua para lá da Mancha).

Os valores entre o 5 e o 7 são interessantes, pois aparecem no caso de línguas em que a diferença entre língua e variante é ténue − a PLD entre bósnio e croata é de 5 e a PLD entre galego e português é de 6 (a PLD entre galego e castelhano também é de 6). Por comparação, a PLD entre catalão e castelhano é de 8, igual à PLD entre português e castelhano. Outras línguas próximas revelam valores superiores. O sueco e o dinamarquês apresentam uma PLD de 13.

Aplicando esta técnica às línguas da Europa, encontramos um mapa de proximidades:

Original do texto.

Mapa de distâncias entre línguas na Europa, com base em PLD. Adaptação de imagem incluída no artigo de Pablo Gamallo, José Ramom Pichel e Iñaki Alegria, «From Language Identification to Language Distance».

Apesar de algumas distorções em relação à origem das línguas − a especial inclinação do inglês para as línguas latinas, a proximidade do maltês (uma língua semítica) ao italiano, entre outras − este mapa mostra de forma bastante certeira o agrupamento de línguas por famílias. Esta adequação não foi previamente incluída nas fórmulas usadas para os cálculos − surge naturalmente da análise nos textos. Temos, assim, uma forte indicação de que esta métrica é adequada para estudar a proximidade entre línguas.

Duas notas importantes: estes cálculos baseiam-se em textos escritos e publicados. São, portanto, um cálculo da proximidade entre normas. Em segundo lugar, para conseguirmos perceber até que ponto as diferenças ortográficas interferem nos resultados, os cálculos foram feitos duas vezes: com a ortografia dos textos tal como existe na realidade (original) e com uma ortografia normalizada, que permite comparar a distância entre épocas e variantes independentemente da ortografia (transcrito).

 

Caption

O português mudou muito ao longo da História?
Esta métrica permite comparar diferentes épocas da língua, para perceber a distância que a língua percorreu. Assim, se usarmos textos do final do século XX e calcularmos a distância em relação a várias épocas históricas do português, encontramos os seguintes valores:


Distância (PLD) entre o português de várias épocas e o português de final do século XX. Em cada época, a barra da esquerda representa a distância usando textos com a ortografia original e a barra da direita com uma ortografia artificial, normalizada entre épocas. A distância entre o português do final do século XX e o português da época medieval está, se ignorarmos a ortografia, no nível 6.

Obs: para ver outras estatísticas e ler a íntegra desse texto, no original, basta clicar em: https://certaspalavras.substack.com/i/99505878/como-medir-a-distancia-linguistica

 

1 comentário
500 caracteres restantes.
Comentar
JaimeHá 1 mês BSB/DFA produção desse texto, tem um grande valor cultural.
Mostrar mais comentários
* O conteúdo de cada comentário é de responsabilidade de quem realizá-lo. Nos reservamos ao direito de reprovar ou eliminar comentários em desacordo com o propósito do site ou que contenham palavras ofensivas.
Curitiba, PR
Atualizado às 08h02
11°
Chuvas esparsas

Mín. 11° Máx. 15°

11° Sensação
3 km/h Vento
97% Umidade do ar
100% (5.44mm) Chance de chuva
Amanhã (26/06)

Mín. 11° Máx. 22°

Chuvas esparsas
Amanhã (27/06)

Mín. 11° Máx. 21°

Parcialmente nublado
Ele1 - Criar site de notícias