E.A. Poe și lingvistica statistică

E A  Poe și lingvistica statistică jpeg

La mijlocul secolului al XIX-lea, exploatînd interesul crescut al publicului american pentru mesaje încifrate, scriitorul E.A. Poe publică The Gold-Bug, tradusă la noi sub titlul Cărăbușul de aur. Povestirea îl urmărește pe un anume William Legrand care găsește un mesaj secret a cărui descifrare îl duce la o comoară îngropată. Pergamentul găsit conține următoarea criptogramă:

53‡‡†305))6*;4826)4‡.)806*;48†8¶60))85;]8*:‡*8†83(88)5*†;46(;88*96?;8)*‡(;85);5*†2:* ‡(;4956*2(5*-4)8¶8*;4069285);)6†8)4‡‡; ı(‡9;4808ı;8:8‡ı; 48†85;4 )48 5†528806*8 ı(‡9;48;(88;4(‡?34;48)4‡; ı6ı;: ı88;‡?;

Este foarte interesant de parcurs raționamentul făcut de personajul Legrand în vederea spargerii codului. După cum se știe, în orice cod, un simbol înlocuiește o literă dintr-o limbă. Deci, în primul rînd, trebuie identificată limba textului, iar în cazul nostru se dovedește a fi engleza. Apoi, observînd că nu există spații între cuvinte, Legrand își propune să identifice cele mai frecvente litere, precum și pe cele mai rare. La numărătoare, găsește rezultatele pe care le-am transcris în primele două coloane ale tabelului de mai jos (coloana a treia e adăugată de mine):

              Simbolul

De cîte ori apare

Ce simbolizează

8

33

e

;

26

t

4

19

h

‡    și   )

16

o  și  s

*

13

n

5

12

a

6

11

i

(

9

r

†    și    ı

8

d   și  f

0

6

l

9    și   2

5

m  și  b

:     și   3

4

y   și   g

?

3

u

2

v

]    și    -

1

w  și  c

.

1

p

1. Legrand spune că, în engleză, litera care apare cel mai des în texte este e. Deci se poate presupune că simbolul 8, care apare cel mai des, reprezintă litera e. Ținînd apoi cont că, în engleză, litera e apare frecvent dublată ee, vedem că secvența 88 apare de cinci ori, lucru care îi confirmă presupunerea.

2. În continuare, știind că cel mai frecvent cuvînt din engleză este articolul hotărît the, Legrand caută secvențe identice de cîte trei simboluri dintre care ultimul să fie 8. Dacă se descoperă repetiții de astfel de secvențe, atunci cel mai probabil vor reprezenta cuvîntul the. La analiză reiese că secvența ;48 se repetă de șapte ori, deci 4 este h, iar punctul și virgula reprezintă pe t.

3. Găsirea unui cuvînt înlesnește stabilirea granițelor între unele cuvinte. Astfel, spre sfîrșitul criptogramei, în penultima secvență ;48 se observă că ea apare urmată de semnul punct și virgulă, semn care reprezintă sigur începutul unui alt cuvînt. Înlocuind simbolurile cu ceea ce se cunoaște, obținem două cuvinte

; 4 8    ; ( 8 8 ; 4

t h e    t_ e e t h

Secvența finală th nu poate ține de cuvîntul t_ee: orice literă s-ar pune în spațiul liber, rezultatul nu va fi un cuvînt din limba engleză. Legrand deduce că simbolul nostru de mai sus, paranteza curbată spre dreapta, înseamnă r.

4. Căutînd puțin mai departe, se vede din nou secvența ;48 – ultima din criptogramă – deci se completează cu ce se știe:

the tree thr ? 3h the

the tree thr_ _ _ h the

În sintagma aceasta, orice vorbitor de engleză recunoaște prepoziția through, ceea ce pe loc oferă cheia pentru literele o, u și g.

5. Nu departe de începutul criptogramei avem secvența 83(88 care se transformă, prin înlocuirea simbolurilor, în egree. Nu se poate reconstrui decît cuvîntul degree, de unde se deduce că simbolul dinainte, adică , reprezintă litera d.

Prin alți trei pași similari, Legrand descoperă zece dintre cele mai importante litere, apoi restul devine tot mai ușor. În final, dezlegarea arată astfel: „A good glass in the Bishop’s hostel in the Devil’s seat – twenty-one degrees and thirteen minutes – northeast and by north – main branch seventh limb east side – shoot from the left eye of the death’s head – a bee-line from the tree through the shot fifty feet out.” (Pentru edificarea cititorului, am grupat toate corespondențele în coloana a treia din tabel).

Este uimitor cum Edgar Allan Poe folosește lingvistica statistică, o ramură dezvoltată abia în secolul XX, datorită inventării computerului. În zilele noastre, prin folosirea computerului și prin introducerea în lingvistică a analizei statistice din matematică, s-a permis obținerea unor date cantitative cu ajutorul cărora s-a demonstrat foarte convingător apropierea naturală dintre vorbirea umană și cibernetică. Nivelurile la care se aplică studiul lingvistic statistic sînt multiple: stilistic, se poate afla cu certitudine dacă o operă literară aparține unui autor; lexicologic, se pot identifica cele mai frecvente cuvinte dintr-o limbă și include în manuale de învățare pentru studenți străini astfel încît, de exemplu, în loc să înveți cît mai multe cuvinte, memorezi mai întîi doar un număr restrîns care acoperă însă 80% din situațiile de comunicare.

Criptograma de mai sus ilustrează o analiză la nivel fonologic, în care, prin studierea frecvenței de apariție a literelor (respectiv, a sunetelor în limbile fonetice), se pot stabili criterii de recunoaștere a literelor. În nici o limbă de pe pămînt fonemele nu se înșiră la întîmplare, ci se supun unor legi, și este sarcina celor care se ocupă cu fonologia să studieze distribuția lor. Computerul ajută crucial la sesizarea tiparelor de distribuție și a constrîngerilor fonotactice.

De exemplu, în engleză, nici un cuvînt nu se poate termina în sunetul h sau în vocale scurte (cu excepția lui /ə/ - sunetul ă din română). Cele mai frecvente perechi de litere sînt th he an re er in on at nd st es en of te ed or ti hi as to. Cele mai frecvente litere dublate sînt ll ee ss oo tt ff rr nn pp cc. Poe are dreptate cînd spune că litera e este folosită cel mai des între cele 26 cîte cuprinde alfabetul limbii engleze. În ceea ce privește restul de litere, Poe (prin personajul Legrand) indică următoarea succesiune: a o i d h n r s t u y c f g l m w b k p q x z. Datele furnizate în prezent de diverse surse asistate informatic precizează următoarea secvență (în grupuri de cîte 5, pentru convenabilitate): etaon rishd lfcmu gypwb vkjxq z (la cei doi poli – litera e cu o frecvență de 12,7% iar z cu 0,07%).

Pentru o comparație scurtă între cîteva limbi indo-europene aparținînd aceleiași familii (romanice) sau nu (germanice), avem primele zece cele mai frecvente litere (cititorul, pentru amuzament, se poate folosi de aceste informații inclusiv la jocurile Spînzurătoarea și Scrabble, pentru victorii rapide): italiană eaoin lrtsc, spaniolă eaosr nidlt, franceză esait nruol, română eiarn utlos. Pe de altă parte, avem: germană enisr atdhu, suedeză eanrt sildo, daneză ernta idslo.

Criptografia, adică folosirea unor coduri secrete pentru scrierea și descifrarea mesajelor, nu a fost, la începuturile ei, o activitate cu scop recreativ, ci militar. În secolele anterioare, erau puțini aceia care se ocupau cu așa ceva. În vremurile noastre însă, lucrurile stau altfel. În timpul celui de-al Doilea Război Mondial, 30.000 de oameni erau angajați în munca de încifrare și descifrare doar în Marea Britanie. În SUA, în prezent, nici nu se știe cîți sînt – probabil de ordinul zecilor de mii. Însă criptogramele au destui fani, amatori sau nu: o asociație de profil, American Cryptogram Association, publică de două ori pe lună revista The Cryptogram. În foarte multe ziare și reviste există rubrici zilnice care propun astfel de puzzle-uri cititorilor, în concursuri cu premii. Însuși E.A. Poe, de la care am pornit în textul de astăzi, a scris Cărăbușul de aur pentru un concurs dintr-un ziar din Philadelphia, la care a cîștigat premiul cel mare (publicarea povestirii plus o sută de dolari). Era atît de pasionat de orice enigmă încît, cu cîțiva ani înainte, lansase o provocare publică în Alexander’s Weekly Messenger, declarînd că desfide orice cititor care îi trimite o criptogramă de substituție pe care să nu o poată rezolva. Despre Poe vom mai vorbi, însă, și în articolul viitor.

Laura Carmen Cuțitaru este conferențiar la Literele ieșene, specializată pe lingvistică americană.

Foto: wikimedia commons

image png
Ceasurile organismelor
Majoritatea organismelor vii au astfel de ritmuri sincronizate cu o durată de aproximativ 24 de ore, cea a unei zile pe Pămînt.
image png
Scrierea și scrisul
Cînd unii «intelectuali» catadicsesc (nu catadixesc!) să scrie cîteva rînduri, îți pui mîinile în cap! Dixi!...”
p 22 la Necsulescu jpg
Mama, între Leagăn și Lege
Cu alte cuvinte, a seta o limită fermă și apoi a putea fi alături de copil în stările lui de revoltă, furie și neputință în timp ce asimilează limita.
image png
De la supă la politică
Anul trecut, o investigație jurnalistică a WELT a scos la iveală țelul principal al asociației: acela de a se transforma într-un partid politic.
p 22 jpg
Limba trădătoare
Și, cu toate acestea, ce capacitate formidabilă au de a distruge vieți…”.
image png
Casă bună
Însă, de bună seamă, pe vremea lui Socrate, și casele erau mai... reziliente, și timpul avea mai multă răbdare...
p 22 Radu Paraschivescu WC jpg
Radu Paraschivescu. Portret sumar
Cărţile lui Radu Paraschivescu sînt mărturia unei curiozităţi insaţiabile, a unui umor inefabil şi a unei verve torenţiale.
p 22 WC jpg
„Trecutul e o țară străină“
Ethos creștin? Indiferent de explicație, gestul este de o noblețe spirituală pe care ar trebui să o invidiem de-a dreptul.
image png
Cînd trădarea e familiară
Filmul devine astfel o restituire simbolică pentru experiențele trăite.
p 7 coperta 1 jpg
Sfîrșitul visului african
Începutul „oficial” al Françafrique e considerat anul 1962, cînd Charles de Gaulle l-a însărcinat pe Jacques Foccart, întemeietorul unei firme de import-export de succes, cu coordonarea politicii africane a Franței.
p 22 la Gherghina WC jpg
Cabinetul de curiozități al evoluției
În ciuda spectaculoasei diversități a organismelor vii, evoluția a făcut ca, prin înrudirea lor, acestea să se asemene ramurilor unui singur arbore.
image png
Sofisme combinate
Și în cazul comunicării interpersonale, distincția dintre „public” și „privat” contează.
fbman png
Testul omului-facebook
Dar să identificăm oamenii-facebook din lumea noastră și să îi tratăm ca atare, încă mai putem.
image png
Încăpățînare discursivă
Altminteri, cînd politicienii nu-și înțeleg misiunea, cheltuindu-și energia în dispute stupide și inutile, rezultatul poate fi ușor de ghicit.
1031 22 23 jpg
O lume schizoidă
Laura Carmen Cuțitaru este conferențiar la Literele ieșene, specializată în lingvistică americană.
the running man jpg
Arta figurativă și teoria recapitulării
Totodată, ambele dezvăluie peisaje unice, de o frumusețe nemaiîntîlnită.
image png
Dezamăgirea ca „dezvrăjire”
Este o deșteptare amară, dar deșteptare. Ni se pare că ni s-a luat un solz de pe ochi.
image png
De ce 2 și nu 1
Ajunși în acest ultim punct, tot ceea ce putem, așadar, conștientiza e că nu sîntem niciodată 1, ci 2, că nu sîntem niciodată singuri
image png
Oglinzile sparte ale organismelor
Astfel, poate că natura se repetă, dar nu vrea mereu să spună același lucru.
image png
Topografia iertării
Uneori, poate să apară efectul iertării de sine pentru neputința de a ierta pe alții din afară.
p 23 WC jpg
Etică și igienă
Revenind acum la psihologie și experimente, Arie Bos notează că „acolo unde miroase a substanțe de igienă, oamenii se comportă mai sociabil și mai generos”.
p 21 Viktor E  Frankl WC jpg
Pustiul refuzat
Nimic de adăugat, nimic de comentat.
p 22 jpg
Contradicțiile dreptului proprietății intelectuale
Ce înseamnă, mai exact, forma radicală a ideii? Înseamnă forma simplificată și agresivă a ideii.
p 7 LibertÔÇÜ 6 jpg
Dreptate pentru vînzătorii stradali
Comerțul stradal e o activitate economică legitimă prin care își cîștigă existența milioane de oameni.

Parteneri

Barbat arestat - catuse FOTO Shutterstock
Un profesor universitar din Iași arestat preventiv după acuzații de viol: o studentă ar fi fost chemată în birou după un examen pentru a discuta nota
Un profesor în vârstă de 57 de ani de la Universitatea de Științele Vieții din Iași a fost arestat preventiv, fiind acuzat de viol de către o studentă.
banner Ana Maria Barnoschi jpg
Aleksandar Vucic FOTO EPA EFE jpg
Președintele Serbiei amenință cu represalii după ce planurile pentru Trump Tower la Belgrad au fost anulate: „Am pierdut o investiție excepțională”
Președintele Serbiei, Aleksandar Vučić, a amenințat cu represalii după ce proiectul Trump Tower la Belgrad a fost anulat în urma protestelor și a inculpării unui ministru implicat în sprijinirea investiției de 500 de milioane de dolari.
supa ciorba istock jpg
Cum să acrești ciorba dacă nu ai borș sau lămâie. Ingredientul la care nu te-ai fi gândit
Se întâmplă frecvent: ciorba este aproape gata, legumele sunt fierte, carnea este fragedă, verdeața tocată și aroma aproape perfectă, dar realizezi că ai uitat să cumperi borș sau lămâie.
Susie Wiles jpg
Declarații explozive la Casa Albă: șefa de cabinet spune că Trump „are personalitatea unui alcoolic”. Cum a reacționat președintele
Șefa de cabinet a Casei Albe, Susie Wiles, a făcut o serie de evaluări surprinzător de sincere și, pe alocuri, deloc măgulitoare la adresa președintelui Donald Trump
woman with eating disorder trying eat healthy jpg
Obsesia pentru mâncarea sănătoasă poate fi o tulburare. Iată care sunt semnele ortorexiei!
Ortorexia este o tulburare alimentară tot mai frecventă, mascată sub dorința de a mânca sănătos. Află semnele, riscurile și când este cazul să ceri ajutor specializat!
tea 1132529 1280 jpg
Ce știu spaniolii și noi încă nu am aflat despre pliculețele de ceai puse la ferestre în lunile de iarnă
În Spania, pe măsură ce frigul pătrunde în case și ferestrele rămân închise pentru perioade lungi, gospodinele au transformat un gest simplu de zi cu zi într-un obicei eficient de iarnă. Ele așază pliculețe de ceai pe pervazuri
Ionel Fleseriu jpg
Kronospan, printre primele companii din România complet conforme cu Regulamentul EUDR
În contextul noilor cerințe europene privind trasabilitatea lemnului și combaterea defrișărilor, Kronospan Trading SRL s-a numărat printre primele companii din România care au implementat deja procedurile cerute de Regulamentul (UE) 2023/1115 (EUDR).
Donnarumma jpg
FIFA a desemnat cel mai bun 11 din fotbalul mondial în 2025. PSG a primit partea leului
La Doha (Qatar) a avut loc ceremonia de decernare a premiilor „The Best Football Awards”.