E.A. Poe și lingvistica statistică

E A  Poe și lingvistica statistică jpeg

La mijlocul secolului al XIX-lea, exploatînd interesul crescut al publicului american pentru mesaje încifrate, scriitorul E.A. Poe publică The Gold-Bug, tradusă la noi sub titlul Cărăbușul de aur. Povestirea îl urmărește pe un anume William Legrand care găsește un mesaj secret a cărui descifrare îl duce la o comoară îngropată. Pergamentul găsit conține următoarea criptogramă:

53‡‡†305))6*;4826)4‡.)806*;48†8¶60))85;]8*:‡*8†83(88)5*†;46(;88*96?;8)*‡(;85);5*†2:* ‡(;4956*2(5*-4)8¶8*;4069285);)6†8)4‡‡; ı(‡9;4808ı;8:8‡ı; 48†85;4 )48 5†528806*8 ı(‡9;48;(88;4(‡?34;48)4‡; ı6ı;: ı88;‡?;

Este foarte interesant de parcurs raționamentul făcut de personajul Legrand în vederea spargerii codului. După cum se știe, în orice cod, un simbol înlocuiește o literă dintr-o limbă. Deci, în primul rînd, trebuie identificată limba textului, iar în cazul nostru se dovedește a fi engleza. Apoi, observînd că nu există spații între cuvinte, Legrand își propune să identifice cele mai frecvente litere, precum și pe cele mai rare. La numărătoare, găsește rezultatele pe care le-am transcris în primele două coloane ale tabelului de mai jos (coloana a treia e adăugată de mine):

              Simbolul

De cîte ori apare

Ce simbolizează

8

33

e

;

26

t

4

19

h

‡    și   )

16

o  și  s

*

13

n

5

12

a

6

11

i

(

9

r

†    și    ı

8

d   și  f

0

6

l

9    și   2

5

m  și  b

:     și   3

4

y   și   g

?

3

u

2

v

]    și    -

1

w  și  c

.

1

p

1. Legrand spune că, în engleză, litera care apare cel mai des în texte este e. Deci se poate presupune că simbolul 8, care apare cel mai des, reprezintă litera e. Ținînd apoi cont că, în engleză, litera e apare frecvent dublată ee, vedem că secvența 88 apare de cinci ori, lucru care îi confirmă presupunerea.

2. În continuare, știind că cel mai frecvent cuvînt din engleză este articolul hotărît the, Legrand caută secvențe identice de cîte trei simboluri dintre care ultimul să fie 8. Dacă se descoperă repetiții de astfel de secvențe, atunci cel mai probabil vor reprezenta cuvîntul the. La analiză reiese că secvența ;48 se repetă de șapte ori, deci 4 este h, iar punctul și virgula reprezintă pe t.

3. Găsirea unui cuvînt înlesnește stabilirea granițelor între unele cuvinte. Astfel, spre sfîrșitul criptogramei, în penultima secvență ;48 se observă că ea apare urmată de semnul punct și virgulă, semn care reprezintă sigur începutul unui alt cuvînt. Înlocuind simbolurile cu ceea ce se cunoaște, obținem două cuvinte

; 4 8    ; ( 8 8 ; 4

t h e    t_ e e t h

Secvența finală th nu poate ține de cuvîntul t_ee: orice literă s-ar pune în spațiul liber, rezultatul nu va fi un cuvînt din limba engleză. Legrand deduce că simbolul nostru de mai sus, paranteza curbată spre dreapta, înseamnă r.

4. Căutînd puțin mai departe, se vede din nou secvența ;48 – ultima din criptogramă – deci se completează cu ce se știe:

the tree thr ? 3h the

the tree thr_ _ _ h the

În sintagma aceasta, orice vorbitor de engleză recunoaște prepoziția through, ceea ce pe loc oferă cheia pentru literele o, u și g.

5. Nu departe de începutul criptogramei avem secvența 83(88 care se transformă, prin înlocuirea simbolurilor, în egree. Nu se poate reconstrui decît cuvîntul degree, de unde se deduce că simbolul dinainte, adică , reprezintă litera d.

Prin alți trei pași similari, Legrand descoperă zece dintre cele mai importante litere, apoi restul devine tot mai ușor. În final, dezlegarea arată astfel: „A good glass in the Bishop’s hostel in the Devil’s seat – twenty-one degrees and thirteen minutes – northeast and by north – main branch seventh limb east side – shoot from the left eye of the death’s head – a bee-line from the tree through the shot fifty feet out.” (Pentru edificarea cititorului, am grupat toate corespondențele în coloana a treia din tabel).

Este uimitor cum Edgar Allan Poe folosește lingvistica statistică, o ramură dezvoltată abia în secolul XX, datorită inventării computerului. În zilele noastre, prin folosirea computerului și prin introducerea în lingvistică a analizei statistice din matematică, s-a permis obținerea unor date cantitative cu ajutorul cărora s-a demonstrat foarte convingător apropierea naturală dintre vorbirea umană și cibernetică. Nivelurile la care se aplică studiul lingvistic statistic sînt multiple: stilistic, se poate afla cu certitudine dacă o operă literară aparține unui autor; lexicologic, se pot identifica cele mai frecvente cuvinte dintr-o limbă și include în manuale de învățare pentru studenți străini astfel încît, de exemplu, în loc să înveți cît mai multe cuvinte, memorezi mai întîi doar un număr restrîns care acoperă însă 80% din situațiile de comunicare.

Criptograma de mai sus ilustrează o analiză la nivel fonologic, în care, prin studierea frecvenței de apariție a literelor (respectiv, a sunetelor în limbile fonetice), se pot stabili criterii de recunoaștere a literelor. În nici o limbă de pe pămînt fonemele nu se înșiră la întîmplare, ci se supun unor legi, și este sarcina celor care se ocupă cu fonologia să studieze distribuția lor. Computerul ajută crucial la sesizarea tiparelor de distribuție și a constrîngerilor fonotactice.

De exemplu, în engleză, nici un cuvînt nu se poate termina în sunetul h sau în vocale scurte (cu excepția lui /ə/ - sunetul ă din română). Cele mai frecvente perechi de litere sînt th he an re er in on at nd st es en of te ed or ti hi as to. Cele mai frecvente litere dublate sînt ll ee ss oo tt ff rr nn pp cc. Poe are dreptate cînd spune că litera e este folosită cel mai des între cele 26 cîte cuprinde alfabetul limbii engleze. În ceea ce privește restul de litere, Poe (prin personajul Legrand) indică următoarea succesiune: a o i d h n r s t u y c f g l m w b k p q x z. Datele furnizate în prezent de diverse surse asistate informatic precizează următoarea secvență (în grupuri de cîte 5, pentru convenabilitate): etaon rishd lfcmu gypwb vkjxq z (la cei doi poli – litera e cu o frecvență de 12,7% iar z cu 0,07%).

Pentru o comparație scurtă între cîteva limbi indo-europene aparținînd aceleiași familii (romanice) sau nu (germanice), avem primele zece cele mai frecvente litere (cititorul, pentru amuzament, se poate folosi de aceste informații inclusiv la jocurile Spînzurătoarea și Scrabble, pentru victorii rapide): italiană eaoin lrtsc, spaniolă eaosr nidlt, franceză esait nruol, română eiarn utlos. Pe de altă parte, avem: germană enisr atdhu, suedeză eanrt sildo, daneză ernta idslo.

Criptografia, adică folosirea unor coduri secrete pentru scrierea și descifrarea mesajelor, nu a fost, la începuturile ei, o activitate cu scop recreativ, ci militar. În secolele anterioare, erau puțini aceia care se ocupau cu așa ceva. În vremurile noastre însă, lucrurile stau altfel. În timpul celui de-al Doilea Război Mondial, 30.000 de oameni erau angajați în munca de încifrare și descifrare doar în Marea Britanie. În SUA, în prezent, nici nu se știe cîți sînt – probabil de ordinul zecilor de mii. Însă criptogramele au destui fani, amatori sau nu: o asociație de profil, American Cryptogram Association, publică de două ori pe lună revista The Cryptogram. În foarte multe ziare și reviste există rubrici zilnice care propun astfel de puzzle-uri cititorilor, în concursuri cu premii. Însuși E.A. Poe, de la care am pornit în textul de astăzi, a scris Cărăbușul de aur pentru un concurs dintr-un ziar din Philadelphia, la care a cîștigat premiul cel mare (publicarea povestirii plus o sută de dolari). Era atît de pasionat de orice enigmă încît, cu cîțiva ani înainte, lansase o provocare publică în Alexander’s Weekly Messenger, declarînd că desfide orice cititor care îi trimite o criptogramă de substituție pe care să nu o poată rezolva. Despre Poe vom mai vorbi, însă, și în articolul viitor.

Laura Carmen Cuțitaru este conferențiar la Literele ieșene, specializată pe lingvistică americană.

Foto: wikimedia commons

image png
Ceasurile organismelor
Majoritatea organismelor vii au astfel de ritmuri sincronizate cu o durată de aproximativ 24 de ore, cea a unei zile pe Pămînt.
image png
Scrierea și scrisul
Cînd unii «intelectuali» catadicsesc (nu catadixesc!) să scrie cîteva rînduri, îți pui mîinile în cap! Dixi!...”
p 22 la Necsulescu jpg
Mama, între Leagăn și Lege
Cu alte cuvinte, a seta o limită fermă și apoi a putea fi alături de copil în stările lui de revoltă, furie și neputință în timp ce asimilează limita.
image png
De la supă la politică
Anul trecut, o investigație jurnalistică a WELT a scos la iveală țelul principal al asociației: acela de a se transforma într-un partid politic.
p 22 jpg
Limba trădătoare
Și, cu toate acestea, ce capacitate formidabilă au de a distruge vieți…”.
image png
Casă bună
Însă, de bună seamă, pe vremea lui Socrate, și casele erau mai... reziliente, și timpul avea mai multă răbdare...
p 22 Radu Paraschivescu WC jpg
Radu Paraschivescu. Portret sumar
Cărţile lui Radu Paraschivescu sînt mărturia unei curiozităţi insaţiabile, a unui umor inefabil şi a unei verve torenţiale.
p 22 WC jpg
„Trecutul e o țară străină“
Ethos creștin? Indiferent de explicație, gestul este de o noblețe spirituală pe care ar trebui să o invidiem de-a dreptul.
image png
Cînd trădarea e familiară
Filmul devine astfel o restituire simbolică pentru experiențele trăite.
p 7 coperta 1 jpg
Sfîrșitul visului african
Începutul „oficial” al Françafrique e considerat anul 1962, cînd Charles de Gaulle l-a însărcinat pe Jacques Foccart, întemeietorul unei firme de import-export de succes, cu coordonarea politicii africane a Franței.
p 22 la Gherghina WC jpg
Cabinetul de curiozități al evoluției
În ciuda spectaculoasei diversități a organismelor vii, evoluția a făcut ca, prin înrudirea lor, acestea să se asemene ramurilor unui singur arbore.
image png
Sofisme combinate
Și în cazul comunicării interpersonale, distincția dintre „public” și „privat” contează.
fbman png
Testul omului-facebook
Dar să identificăm oamenii-facebook din lumea noastră și să îi tratăm ca atare, încă mai putem.
image png
Încăpățînare discursivă
Altminteri, cînd politicienii nu-și înțeleg misiunea, cheltuindu-și energia în dispute stupide și inutile, rezultatul poate fi ușor de ghicit.
1031 22 23 jpg
O lume schizoidă
Laura Carmen Cuțitaru este conferențiar la Literele ieșene, specializată în lingvistică americană.
the running man jpg
Arta figurativă și teoria recapitulării
Totodată, ambele dezvăluie peisaje unice, de o frumusețe nemaiîntîlnită.
image png
Dezamăgirea ca „dezvrăjire”
Este o deșteptare amară, dar deșteptare. Ni se pare că ni s-a luat un solz de pe ochi.
image png
De ce 2 și nu 1
Ajunși în acest ultim punct, tot ceea ce putem, așadar, conștientiza e că nu sîntem niciodată 1, ci 2, că nu sîntem niciodată singuri
image png
Oglinzile sparte ale organismelor
Astfel, poate că natura se repetă, dar nu vrea mereu să spună același lucru.
image png
Topografia iertării
Uneori, poate să apară efectul iertării de sine pentru neputința de a ierta pe alții din afară.
p 23 WC jpg
Etică și igienă
Revenind acum la psihologie și experimente, Arie Bos notează că „acolo unde miroase a substanțe de igienă, oamenii se comportă mai sociabil și mai generos”.
p 21 Viktor E  Frankl WC jpg
Pustiul refuzat
Nimic de adăugat, nimic de comentat.
p 22 jpg
Contradicțiile dreptului proprietății intelectuale
Ce înseamnă, mai exact, forma radicală a ideii? Înseamnă forma simplificată și agresivă a ideii.
p 7 LibertÔÇÜ 6 jpg
Dreptate pentru vînzătorii stradali
Comerțul stradal e o activitate economică legitimă prin care își cîștigă existența milioane de oameni.

Parteneri

Xi jinping FOTO shutterstock jpg
China lui Xi Jinping: O explozie tehnologică, o armată redutabilă dar o economie în haos
În timp ce armata chineză s-a modernizat semnificativ, iar industria și tehnologia au ajuns să concureze direct cu Statele Unite, economia a rămas în urmă, fiind marcată de scăderea încrederii consumatorilor, criza imobiliară și încetinirea creșterii, relatează WSJ.
image png
Ce mănâncă zilnic Willie Nelson la 93 de ani. Artistul country are un meniu surprinzător de simplu
Willie Nelson a dezvăluit ce mănâncă aproape zilnic la 93 de ani. Legendarul artist country preferă mesele simple și spune că rutina sa alimentară nu s-a schimbat prea mult în ultimele decenii.
Adoptie FOTO Shutterstock
Persoanele adoptate nu vor mai avea nevoie de judecători pentru a-și afla rădăcinile. Ce riscuri ascunde însă „adevărul brutal”
Tinerii adoptați ar urma să aibă acces rapid la informații referitoare la părinții biologici, în cazul în care își doresc acest lucru. Inițiativa legislativă aparține senatoarei Cynthia Păun și prevede simplificarea și accelerarea procedurilor. Măsura este salutată de psihologi.
Vladimir Putin la conferința de presă de după parada de 9 mai FOTO profimedia jpg
Ce semnal a dat cu adevărat Putin când a spus că războiul se apropie de final. Analiză ISW
Președintele Rusiei, Vladimir Putin, a sugerat recent că războiul din Ucraina s-ar putea apropia de final, însă potrivit unei analize realizate de Institutul pentru Studiul Războiului (ISW) nu există indicii reale că Moscova ar intenționa să oprească agresiunea militară.
image png
Un truc simplu care îți garantează un pui perfect. Suculent în interior și crocant auriu la exterior
Puiul este, fără îndoială, una dintre cele mai consumate surse de proteine din bucătăriile moderne, însă paradoxal rămâne și unul dintre cele mai „sabotate” ingrediente.
vremea in bucuresti si romania jpg
Peste ce capitale din UE se situează Bucureștiul? „Atena e teribilă, Roma e murdară”. Dezbaterea care împarte internetul în două
O întrebare postată pe Reddit a generat o discuție amplă despre poziția Bucureștiului în ierarhia capitalelor europene din perspectiva nivelului de trai. Utilizatorii au oferit răspunsuri contradictorii, de la evaluări optimiste până la critici dure.
Spalat Oua fierte spalate foto shutterstock
Câte ouă trebuie să mănânci pe săptămână ca să reduci riscul de Alzheimer
Cercetătorii americani au urmărit timp de peste 15 ani alimentația și starea de sănătate a aproape 40.000 de adulți trecuți de 65 de ani. Concluzia? Persoanele care au consumat ouă în mod regulat au dezvoltat mai rar boala Alzheimer decât cele care evitau acest aliment.
678653132 1525816492233271 629050637550441635 n jpg
Primăria Sectorului 3 vrea să aloce alte 43 milioane de lei pentru „Aqua Park Pantelimon”. Explicația lui Negoiță
Consiliul Local al Sectorului 3 urmează să voteze, la propunerea primarului Robert Negoiță, atribuirea unui nou contract pentru lucrările la Aqua Park Pantelimon, în valoare de peste 43 de milioane de lei, TVA inclus, către compania municipală Algorithm Construcții S3 SRL.
drone china shutterstock 1056287798 jpg
Lecțiile din Iran: Ce învață Beijingul din conflictul dintre SUA și Republica Islamică
Pe măsură ce războiul din Iran intră în a treia lună, acesta oferă Chinei o perspectivă rară asupra modului în care capacitățile militare ale SUA funcționează sub foc inamic.