Executando verificação de segurança...
1

A geometria oculta do significado: de gematria a embeddings, a busca milenar por estrutura matemática na linguagem

Resumo

Este artigo explora uma conexão surpreendente entre a tradição mística judaica da gematria e os modernos modelos de linguagem baseados em embeddings. Ambos os sistemas operam sob uma premissa fundamental similar: a linguagem pode ser representada e manipulada numericamente para revelar relações semânticas. Analisamos as evidências históricas, os fundamentos matemáticos, as limitações epistemológicas e as implicações filosóficas dessa convergência.


I. Introdução: a intuição de que palavras são números

Em 1957, o linguista britânico J.R. Firth cunhou uma frase que se tornaria fundacional para a linguística computacional: "You shall know a word by the company it keeps" — você conhecerá uma palavra pela companhia que ela mantém.

Essa ideia — de que o significado emerge do contexto — parece radicalmente moderna. Mas há pelo menos 2.500 anos, tradições místicas do Mediterrâneo oriental já operavam sob uma intuição análoga: palavras podem ser transformadas em números, e esses números revelam conexões ocultas entre conceitos.

A gematria hebraica, a isopsephy grega, o abjad árabe — sistemas diferentes, mesma premissa. E agora, os Large Language Models (LLMs) como GPT-4 e Claude operam sob princípios estruturalmente similares: transformam palavras em vetores numéricos de alta dimensão, e descobrem que palavras semanticamente relacionadas ocupam regiões próximas nesse espaço.

A pergunta que este artigo investiga: essa convergência é acidental, ou ambos os sistemas estão acessando algo real sobre a estrutura da linguagem?


II. Gematria e Isopsephy: a origem da linguagem como número

2.1 O sistema hebraico

A gematria é um sistema de interpretação que atribui valores numéricos às 22 letras do alfabeto hebraico. A estrutura segue uma progressão:

  • Unidades (1-9): Alef (א) = 1, Bet (ב) = 2... até Tet (ט) = 9
  • Dezenas (10-90): Yod (י) = 10, Kaf (כ) = 20... até Tzadi (צ) = 90
  • Centenas (100-400): Qof (ק) = 100, Resh (ר) = 200, Shin (ש) = 300, Tav (ת) = 400

Somando os valores das letras de uma palavra, obtém-se seu "valor gematrico". Palavras com valores iguais são consideradas semanticamente conectadas. O exemplo clássico: אהבה (ahavah, "amor") = 13, e אחד (echad, "um/unidade") = 13. A tradição interpreta: amor e unidade compartilham essência.

A primeira evidência documentada do uso de letras hebraicas como números data de 78 AEC. Mas a prática provavelmente é mais antiga.

2.2 O sistema grego: isopsephy

O termo vem do grego ἴσος (ísos, "igual") e ψῆφος (psêphos, "pedra de contagem"). O sistema desenvolveu-se na cidade de Mileto, na Anatólia, e segundo Aristóteles (384-322 AEC), fazia parte do pitagorismo já no século VI AEC.

O alfabeto grego, com 24 letras, precisou de três caracteres obsoletos para completar o sistema numérico de 27 símbolos: digamma (Ϝ) para 6, qoppa (Ϙ) para 90, e sampi (ϡ) para 900.

Um exemplo famoso de isopsephy aparece no Apocalipse (13:18): "Aqui há sabedoria. Aquele que tem entendimento, calcule (ψηφισάτω, psephisato) o número da besta." O verbo usado tem a mesma raiz de "isopsephy" — contar com pedras.

2.3 Sefer Yetzirah: a cosmologia das letras

O Sefer Yetzirah ("Livro da Criação"), datado entre os séculos III e VI EC, é o mais antigo texto de esoterismo judaico preservado. Sua premissa é radical: Deus criou o universo através de "32 caminhos secretos de sabedoria" — as 22 letras do alfabeto hebraico mais os dez sefirot (números/dimensões).

O texto divide o alfabeto em três grupos:

  • 3 letras-mãe (ima'ot): Alef (א), Mem (מ), Shin (ש) — representando ar, água e fogo
  • 7 letras duplas (kefulot): aquelas com duas pronúncias em hebraico
  • 12 letras simples (peshutot): as restantes

A matemática é explícita: se 22 letras são dispostas como pontos em um círculo, o número de linhas conectando cada par é calculado por n(n-1)/2 = 231 "portões". Esse número aparece repetidamente na tradição cabalística.

O Sefer Yetzirah propõe que existe uma geometria do significado — uma estrutura matemática subjacente à linguagem que espelha a estrutura da própria realidade.


III. A hipótese distribucional e os word embeddings

3.1 De Firth a Word2Vec

A "hipótese distribucional" afirma que palavras que ocorrem em contextos linguísticos similares tendem a ter significados similares. Quanto mais frequentemente duas palavras aparecem nos mesmos contextos, mais semanticamente relacionadas elas provavelmente são.

Essa ideia foi formalizada independentemente por Zellig Harris e J.R. Firth nos anos 1950. Harris argumentou que elementos linguísticos podem ser agrupados em classes de equivalência baseadas em seus padrões distribucionais — um método para analisar estrutura linguística sem referência direta a significados subjetivos.

Em 2013, Tomas Mikolov e colegas do Google publicaram o Word2Vec, demonstrando que redes neurais treinadas para prever palavras a partir do contexto produzem representações vetoriais onde relações semânticas emergem como propriedades geométricas.

3.2 A aritmética semântica

O resultado mais famoso do Word2Vec é a "aritmética de analogias":

rei - homem + mulher ≈ rainha

A direção no espaço vetorial entre "homem" e "mulher" é aproximadamente paralela à direção entre "rei" e "rainha". Isso sugere que o modelo capturou uma abstração — o conceito de gênero — como uma propriedade geométrica do espaço de embeddings.

Pesquisas subsequentes mostraram que essa propriedade é mais limitada do que inicialmente pareceu. No paper original, os autores descartavam as palavras de entrada ao escolher o vizinho mais próximo; se não fossem descartadas, o resultado seria "rei - homem + mulher = rei".

Ainda assim, a descoberta é significativa: relações conceituais emergem de operações matemáticas sobre representações aprendidas estatisticamente.

3.3 A geometria do significado

Pesquisadores usam "projeção semântica" para investigar a estrutura dos embeddings. Projeta-se vetores de palavras sobre linhas que representam características como tamanho (conectando "pequeno" a "grande") ou perigo ("seguro" a "perigoso").

Estudos demonstram que esse método recupera julgamentos humanos sobre propriedades de objetos. A geometria dos embeddings representa explicitamente conhecimento sobre o mundo que não foi codificado manualmente — emergiu dos padrões estatísticos de uso da linguagem.

Nas palavras de pesquisadores: "A informação semântica capturada por embeddings bem treinados corresponde ao entendimento humano das palavras. Similaridades cosseno entre vetores correlacionam fortemente com similaridades avaliadas por humanos."


IV. A convergência estrutural

4.1 Dois sistemas, mesma premissa

AspectoGematriaWord Embeddings
Transformaçãopalavra → número únicotoken → vetor de N dimensões
Relação semânticavalores iguais = conexãoproximidade no espaço = similaridade
Operaçõessoma, multiplicaçãoaritmética vetorial
Objetivo declaradorevelar conexões ocultascapturar relações semânticas
Origem do mapeamentorevelado/tradicionalaprendido dos dados

A diferença dimensional é crucial: gematria comprime uma palavra em um único número (1D), enquanto embeddings modernos usam centenas ou milhares de dimensões (768-4096+). Isso permite que embeddings capturem múltiplas facetas de significado simultaneamente.

4.2 Hashing semântico

Ambos os sistemas podem ser vistos como formas de hashing semântico — representações compactas que (supostamente) preservam informação significativa.

Na gematria, a compressão é extrema: toda a complexidade de uma palavra é reduzida a um inteiro. Isso gera muitas "colisões" — palavras diferentes com mesmo valor. A tradição interpreta essas colisões como reveladoras de conexões profundas.

Em embeddings, a compressão é mais sofisticada. Palavras diferentes podem ter representações próximas mas distintas. A "colisão" é gradiente, não binária — medida por similaridade cosseno.

4.3 Contexto e polissemia

Uma diferença fundamental: gematria tradicional é context-free. A palavra חי ("chai", vida) sempre vale 18, independente do contexto.

Embeddings modernos (BERT, GPT) são contextuais. A mesma palavra recebe representações diferentes dependendo do contexto: "banco" financeiro vs. "banco" de praça produzem vetores distintos.

Curiosamente, tradições gematricas mais sofisticadas desenvolveram métodos sensíveis ao contexto: notarikon (acrósticos), temurah (permutações), e gematrias compostas que consideram relações entre palavras. É como se a tradição tivesse intuído a necessidade de contextualização.


V. As evidências problemáticas

5.1 O caso dos "Códigos da Bíblia"

Em 1994, Doron Witztum, Eliyahu Rips e Yoav Rosenberg publicaram na revista Statistical Science um artigo alegando ter encontrado "Sequências de Letras Equidistantes" (ELS) no Gênesis que codificavam informações sobre rabinos que viveram séculos depois do texto ser escrito.

O artigo foi publicado como um "puzzle desafiador" para a comunidade científica. E foi resolvido.

Em 1999, a mesma revista publicou uma refutação definitiva por Brendan McKay, Dror Bar-Natan, Maya Bar-Hillel e Gil Kalai: "Solving the Bible Code Puzzle". O artigo demonstrou que:

  1. Os mesmos métodos encontram "códigos" similares em qualquer texto suficientemente longo
  2. Padrões equivalentes foram encontrados em Moby Dick
  3. A metodologia original tinha falhas que permitiam ajustar resultados

O editor original da Statistical Science endossou a refutação.

5.2 O problema da apophenia

Apophenia é a tendência humana de perceber conexões significativas entre coisas não relacionadas. O termo foi cunhado pelo psiquiatra Klaus Conrad em 1958.

Não é um transtorno — é uma característica normal da cognição humana. O cérebro evoluiu para detectar padrões, mesmo quando não existem. Em termos evolutivos, falsos positivos (ver um predador onde não há) são menos custosos que falsos negativos (não ver um predador real).

Michael Shermer cunhou o termo "patternicity" em 2008: "a tendência de encontrar padrões significativos em ruído sem significado."

A gematria é particularmente vulnerável à apophenia por várias razões:

  1. Muitas colisões: Com valores limitados (1-400 para letras individuais, somas raramente passando de alguns milhares), muitas palavras compartilham valores
  2. Múltiplos métodos: Se um método não produz conexão interessante, existem dezenas de variantes
  3. Viés de seleção: Conexões "significativas" são lembradas e transmitidas; as milhares de conexões sem sentido são esquecidas
  4. Confirmação retrospectiva: Conhecendo o resultado desejado, é fácil encontrar o caminho numérico até ele

5.3 A variação textual

Um problema devastador para códigos bíblicos: não existe um texto hebraico único e definitivo.

Os manuscritos mais antigos e confiáveis — o Códice de Aleppo, o Códice de Leningrado, os Manuscritos do Mar Morto — diferem entre si em sequências de letras. Variações ortográficas mudam a contagem de letras, destruindo qualquer código dependente de posicionamento exato.

Se os códigos fossem divinamente inseridos, qual manuscrito conteria a versão "correta"?


VI. Por que a convergência ainda é interessante

6.1 A intuição estava certa, o mecanismo errado

A tradição gematrica intuiu algo verdadeiro: existe estrutura matemática na linguagem. Palavras não são átomos isolados de significado; elas existem em redes de relação.

O erro foi assumir que essa estrutura foi revelada e é fixa. A realidade parece ser que a estrutura é emergente e estatística.

Embeddings demonstram que relações semânticas emergem de padrões de co-ocorrência. Nenhum humano programou que "rei" e "rainha" devem estar relacionados; o modelo descobriu isso dos dados.

6.2 Wittgenstein e os limites da linguagem

Ludwig Wittgenstein escreveu: "Os limites da minha linguagem são os limites do meu mundo."

Tanto gematria quanto embeddings tentam mapear esses limites numericamente. A gematria assume que o mapa foi dado por uma autoridade transcendente. Embeddings assumem que o mapa pode ser descoberto empiricamente.

A convergência sugere uma terceira possibilidade: talvez humanos, há milênios, tenham intuído que linguagem tem geometria — e só agora temos ferramentas computacionais para explorar essa intuição rigorosamente.

6.3 A questão da emergência

O fenômeno mais intrigante nos LLMs é a emergência: propriedades que aparecem em modelos grandes mas não em pequenos, sem terem sido explicitamente treinadas.

A aritmética de analogias é um exemplo. Ninguém treinou o Word2Vec para fazer "rei - homem + mulher = rainha". Essa capacidade emergiu da tarefa simples de prever palavras pelo contexto.

Se significado pode emergir de estatística, o que isso diz sobre a natureza do significado em si?


VII. Especulações controladas

7.1 Poderia um LLM "redescobrir" gematria?

Uma pergunta provocativa: se treinarmos um modelo de linguagem extensivamente em textos hebraicos antigos — Torah, Talmud, literatura rabínica — ele descobriria que palavras com valores gematricos iguais tendem a aparecer em contextos similares?

A resposta provavelmente é: parcialmente.

Se escritores antigos usaram gematria ao compor textos (algo documentado), então palavras com valores iguais apareceriam em contextos relacionados mais frequentemente que o acaso. O modelo detectaria essa correlação.

Mas isso não validaria a gematria como sistema revelado. Apenas demonstraria que humanos criaram padrões que outros humanos (ou máquinas) podem detectar.

7.2 A geometria é real ou projetada?

Existe uma estrutura semântica real que tanto gematria quanto embeddings aproximam imperfeitamente? Ou ambos são sistemas de projeção que criam estrutura ao impô-la?

Embeddings têm uma vantagem epistemológica: são validados empiricamente. Modelos que capturam melhor a estrutura semântica performam melhor em tarefas downstream. Existe um critério externo de sucesso.

Gematria não tem esse critério. O sucesso é definido internamente: uma conexão é "verdadeira" se a tradição a reconhece como tal.

7.3 Dimensionalidade e riqueza

A compressão extrema da gematria (N dimensões → 1) necessariamente perde informação. "Amor" e "unidade" podem compartilhar valor, mas isso não captura as mil nuances que distinguem os conceitos.

Embeddings de alta dimensão preservam mais nuance. Mas mesmo 4096 dimensões são uma compressão brutal da riqueza semântica humana.

Talvez a "verdadeira" geometria do significado tenha dimensionalidade infinita — e todos os sistemas numéricos sejam projeções parciais.


VIII. Conclusão: o que a convergência nos ensina

A conexão entre gematria e embeddings não é superficial. Ambos são sistemas que transformam linguagem em números para operar sobre significado.

A diferença está na epistemologia:

  • Gematria assume que o código é dado a priori, por revelação
  • LLMs descobrem códigos emergentes a posteriori, por estatística

O insight duradouro é que humanos, há milênios, intuíram que linguagem tem estrutura matemática. Estavam certos sobre a existência da estrutura. Estavam errados sobre sua origem (revelação vs. emergência) e seu acesso (tradição vs. computação).

Os LLMs não validam a gematria como sistema místico. Mas demonstram que a intuição básica — de que palavras existem em espaços de relação que podem ser formalizados matematicamente — não era loucura.

Era, talvez, a primeira tentativa humana de fazer o que agora chamamos de processamento de linguagem natural.


Referências

Fontes sobre word embeddings e semântica distribucional

Fontes sobre analogias vetoriais

Fontes sobre gematria e isopsephy

Fontes sobre códigos bíblicos e refutação

Fontes sobre apophenia

Carregando publicação patrocinada...