E.A. Poe și lingvistica statistică

E A  Poe și lingvistica statistică jpeg

La mijlocul secolului al XIX-lea, exploatînd interesul crescut al publicului american pentru mesaje încifrate, scriitorul E.A. Poe publică The Gold-Bug, tradusă la noi sub titlul Cărăbușul de aur. Povestirea îl urmărește pe un anume William Legrand care găsește un mesaj secret a cărui descifrare îl duce la o comoară îngropată. Pergamentul găsit conține următoarea criptogramă:

53‡‡†305))6*;4826)4‡.)806*;48†8¶60))85;]8*:‡*8†83(88)5*†;46(;88*96?;8)*‡(;85);5*†2:* ‡(;4956*2(5*-4)8¶8*;4069285);)6†8)4‡‡; ı(‡9;4808ı;8:8‡ı; 48†85;4 )48 5†528806*8 ı(‡9;48;(88;4(‡?34;48)4‡; ı6ı;: ı88;‡?;

Este foarte interesant de parcurs raționamentul făcut de personajul Legrand în vederea spargerii codului. După cum se știe, în orice cod, un simbol înlocuiește o literă dintr-o limbă. Deci, în primul rînd, trebuie identificată limba textului, iar în cazul nostru se dovedește a fi engleza. Apoi, observînd că nu există spații între cuvinte, Legrand își propune să identifice cele mai frecvente litere, precum și pe cele mai rare. La numărătoare, găsește rezultatele pe care le-am transcris în primele două coloane ale tabelului de mai jos (coloana a treia e adăugată de mine):

              Simbolul

De cîte ori apare

Ce simbolizează

8

33

e

;

26

t

4

19

h

‡    și   )

16

o  și  s

*

13

n

5

12

a

6

11

i

(

9

r

†    și    ı

8

d   și  f

0

6

l

9    și   2

5

m  și  b

:     și   3

4

y   și   g

?

3

u

2

v

]    și    -

1

w  și  c

.

1

p

1. Legrand spune că, în engleză, litera care apare cel mai des în texte este e. Deci se poate presupune că simbolul 8, care apare cel mai des, reprezintă litera e. Ținînd apoi cont că, în engleză, litera e apare frecvent dublată ee, vedem că secvența 88 apare de cinci ori, lucru care îi confirmă presupunerea.

2. În continuare, știind că cel mai frecvent cuvînt din engleză este articolul hotărît the, Legrand caută secvențe identice de cîte trei simboluri dintre care ultimul să fie 8. Dacă se descoperă repetiții de astfel de secvențe, atunci cel mai probabil vor reprezenta cuvîntul the. La analiză reiese că secvența ;48 se repetă de șapte ori, deci 4 este h, iar punctul și virgula reprezintă pe t.

3. Găsirea unui cuvînt înlesnește stabilirea granițelor între unele cuvinte. Astfel, spre sfîrșitul criptogramei, în penultima secvență ;48 se observă că ea apare urmată de semnul punct și virgulă, semn care reprezintă sigur începutul unui alt cuvînt. Înlocuind simbolurile cu ceea ce se cunoaște, obținem două cuvinte

; 4 8    ; ( 8 8 ; 4

t h e    t_ e e t h

Secvența finală th nu poate ține de cuvîntul t_ee: orice literă s-ar pune în spațiul liber, rezultatul nu va fi un cuvînt din limba engleză. Legrand deduce că simbolul nostru de mai sus, paranteza curbată spre dreapta, înseamnă r.

4. Căutînd puțin mai departe, se vede din nou secvența ;48 – ultima din criptogramă – deci se completează cu ce se știe:

the tree thr ? 3h the

the tree thr_ _ _ h the

În sintagma aceasta, orice vorbitor de engleză recunoaște prepoziția through, ceea ce pe loc oferă cheia pentru literele o, u și g.

5. Nu departe de începutul criptogramei avem secvența 83(88 care se transformă, prin înlocuirea simbolurilor, în egree. Nu se poate reconstrui decît cuvîntul degree, de unde se deduce că simbolul dinainte, adică , reprezintă litera d.

Prin alți trei pași similari, Legrand descoperă zece dintre cele mai importante litere, apoi restul devine tot mai ușor. În final, dezlegarea arată astfel: „A good glass in the Bishop’s hostel in the Devil’s seat – twenty-one degrees and thirteen minutes – northeast and by north – main branch seventh limb east side – shoot from the left eye of the death’s head – a bee-line from the tree through the shot fifty feet out.” (Pentru edificarea cititorului, am grupat toate corespondențele în coloana a treia din tabel).

Este uimitor cum Edgar Allan Poe folosește lingvistica statistică, o ramură dezvoltată abia în secolul XX, datorită inventării computerului. În zilele noastre, prin folosirea computerului și prin introducerea în lingvistică a analizei statistice din matematică, s-a permis obținerea unor date cantitative cu ajutorul cărora s-a demonstrat foarte convingător apropierea naturală dintre vorbirea umană și cibernetică. Nivelurile la care se aplică studiul lingvistic statistic sînt multiple: stilistic, se poate afla cu certitudine dacă o operă literară aparține unui autor; lexicologic, se pot identifica cele mai frecvente cuvinte dintr-o limbă și include în manuale de învățare pentru studenți străini astfel încît, de exemplu, în loc să înveți cît mai multe cuvinte, memorezi mai întîi doar un număr restrîns care acoperă însă 80% din situațiile de comunicare.

Criptograma de mai sus ilustrează o analiză la nivel fonologic, în care, prin studierea frecvenței de apariție a literelor (respectiv, a sunetelor în limbile fonetice), se pot stabili criterii de recunoaștere a literelor. În nici o limbă de pe pămînt fonemele nu se înșiră la întîmplare, ci se supun unor legi, și este sarcina celor care se ocupă cu fonologia să studieze distribuția lor. Computerul ajută crucial la sesizarea tiparelor de distribuție și a constrîngerilor fonotactice.

De exemplu, în engleză, nici un cuvînt nu se poate termina în sunetul h sau în vocale scurte (cu excepția lui /ə/ - sunetul ă din română). Cele mai frecvente perechi de litere sînt th he an re er in on at nd st es en of te ed or ti hi as to. Cele mai frecvente litere dublate sînt ll ee ss oo tt ff rr nn pp cc. Poe are dreptate cînd spune că litera e este folosită cel mai des între cele 26 cîte cuprinde alfabetul limbii engleze. În ceea ce privește restul de litere, Poe (prin personajul Legrand) indică următoarea succesiune: a o i d h n r s t u y c f g l m w b k p q x z. Datele furnizate în prezent de diverse surse asistate informatic precizează următoarea secvență (în grupuri de cîte 5, pentru convenabilitate): etaon rishd lfcmu gypwb vkjxq z (la cei doi poli – litera e cu o frecvență de 12,7% iar z cu 0,07%).

Pentru o comparație scurtă între cîteva limbi indo-europene aparținînd aceleiași familii (romanice) sau nu (germanice), avem primele zece cele mai frecvente litere (cititorul, pentru amuzament, se poate folosi de aceste informații inclusiv la jocurile Spînzurătoarea și Scrabble, pentru victorii rapide): italiană eaoin lrtsc, spaniolă eaosr nidlt, franceză esait nruol, română eiarn utlos. Pe de altă parte, avem: germană enisr atdhu, suedeză eanrt sildo, daneză ernta idslo.

Criptografia, adică folosirea unor coduri secrete pentru scrierea și descifrarea mesajelor, nu a fost, la începuturile ei, o activitate cu scop recreativ, ci militar. În secolele anterioare, erau puțini aceia care se ocupau cu așa ceva. În vremurile noastre însă, lucrurile stau altfel. În timpul celui de-al Doilea Război Mondial, 30.000 de oameni erau angajați în munca de încifrare și descifrare doar în Marea Britanie. În SUA, în prezent, nici nu se știe cîți sînt – probabil de ordinul zecilor de mii. Însă criptogramele au destui fani, amatori sau nu: o asociație de profil, American Cryptogram Association, publică de două ori pe lună revista The Cryptogram. În foarte multe ziare și reviste există rubrici zilnice care propun astfel de puzzle-uri cititorilor, în concursuri cu premii. Însuși E.A. Poe, de la care am pornit în textul de astăzi, a scris Cărăbușul de aur pentru un concurs dintr-un ziar din Philadelphia, la care a cîștigat premiul cel mare (publicarea povestirii plus o sută de dolari). Era atît de pasionat de orice enigmă încît, cu cîțiva ani înainte, lansase o provocare publică în Alexander’s Weekly Messenger, declarînd că desfide orice cititor care îi trimite o criptogramă de substituție pe care să nu o poată rezolva. Despre Poe vom mai vorbi, însă, și în articolul viitor.

Laura Carmen Cuțitaru este conferențiar la Literele ieșene, specializată pe lingvistică americană.

Foto: wikimedia commons

image png
Ceasurile organismelor
Majoritatea organismelor vii au astfel de ritmuri sincronizate cu o durată de aproximativ 24 de ore, cea a unei zile pe Pămînt.
image png
Scrierea și scrisul
Cînd unii «intelectuali» catadicsesc (nu catadixesc!) să scrie cîteva rînduri, îți pui mîinile în cap! Dixi!...”
p 22 la Necsulescu jpg
Mama, între Leagăn și Lege
Cu alte cuvinte, a seta o limită fermă și apoi a putea fi alături de copil în stările lui de revoltă, furie și neputință în timp ce asimilează limita.
image png
De la supă la politică
Anul trecut, o investigație jurnalistică a WELT a scos la iveală țelul principal al asociației: acela de a se transforma într-un partid politic.
p 22 jpg
Limba trădătoare
Și, cu toate acestea, ce capacitate formidabilă au de a distruge vieți…”.
image png
Casă bună
Însă, de bună seamă, pe vremea lui Socrate, și casele erau mai... reziliente, și timpul avea mai multă răbdare...
p 22 Radu Paraschivescu WC jpg
Radu Paraschivescu. Portret sumar
Cărţile lui Radu Paraschivescu sînt mărturia unei curiozităţi insaţiabile, a unui umor inefabil şi a unei verve torenţiale.
p 22 WC jpg
„Trecutul e o țară străină“
Ethos creștin? Indiferent de explicație, gestul este de o noblețe spirituală pe care ar trebui să o invidiem de-a dreptul.
image png
Cînd trădarea e familiară
Filmul devine astfel o restituire simbolică pentru experiențele trăite.
p 7 coperta 1 jpg
Sfîrșitul visului african
Începutul „oficial” al Françafrique e considerat anul 1962, cînd Charles de Gaulle l-a însărcinat pe Jacques Foccart, întemeietorul unei firme de import-export de succes, cu coordonarea politicii africane a Franței.
p 22 la Gherghina WC jpg
Cabinetul de curiozități al evoluției
În ciuda spectaculoasei diversități a organismelor vii, evoluția a făcut ca, prin înrudirea lor, acestea să se asemene ramurilor unui singur arbore.
image png
Sofisme combinate
Și în cazul comunicării interpersonale, distincția dintre „public” și „privat” contează.
fbman png
Testul omului-facebook
Dar să identificăm oamenii-facebook din lumea noastră și să îi tratăm ca atare, încă mai putem.
image png
Încăpățînare discursivă
Altminteri, cînd politicienii nu-și înțeleg misiunea, cheltuindu-și energia în dispute stupide și inutile, rezultatul poate fi ușor de ghicit.
1031 22 23 jpg
O lume schizoidă
Laura Carmen Cuțitaru este conferențiar la Literele ieșene, specializată în lingvistică americană.
the running man jpg
Arta figurativă și teoria recapitulării
Totodată, ambele dezvăluie peisaje unice, de o frumusețe nemaiîntîlnită.
image png
Dezamăgirea ca „dezvrăjire”
Este o deșteptare amară, dar deșteptare. Ni se pare că ni s-a luat un solz de pe ochi.
image png
De ce 2 și nu 1
Ajunși în acest ultim punct, tot ceea ce putem, așadar, conștientiza e că nu sîntem niciodată 1, ci 2, că nu sîntem niciodată singuri
image png
Oglinzile sparte ale organismelor
Astfel, poate că natura se repetă, dar nu vrea mereu să spună același lucru.
image png
Topografia iertării
Uneori, poate să apară efectul iertării de sine pentru neputința de a ierta pe alții din afară.
p 23 WC jpg
Etică și igienă
Revenind acum la psihologie și experimente, Arie Bos notează că „acolo unde miroase a substanțe de igienă, oamenii se comportă mai sociabil și mai generos”.
p 21 Viktor E  Frankl WC jpg
Pustiul refuzat
Nimic de adăugat, nimic de comentat.
p 22 jpg
Contradicțiile dreptului proprietății intelectuale
Ce înseamnă, mai exact, forma radicală a ideii? Înseamnă forma simplificată și agresivă a ideii.
p 7 LibertÔÇÜ 6 jpg
Dreptate pentru vînzătorii stradali
Comerțul stradal e o activitate economică legitimă prin care își cîștigă existența milioane de oameni.

Parteneri

Spania  Foto Pixabay (4) jpg
Capcanele din vacanța în Spania: un mop lăsat pe balcon sau un castel de nisip prea mare îți pot aduce amenzi de 750 de euro
Spania atrage anual zeci de milioane de turiști datorită plajelor, gastronomiei și climatului său, însă vizitatorii pot avea parte și de surprize mai puțin plăcute. Există o serie de reguli locale și hotărâri municipale care par neobișnuite la prima vedere, dar care pot duce la amenzi consistente.
curatare baie jpg
Cum să faci corect curățenia generală în baie: care este ordinea corectă. Greșelile pe care mulți le fac fără să știe
Ce sa faci ca să ai o baie impecabilă. Cu doar niște pași simpli îți poți ușura munca. Profesioniștii din domeniu explică. Care sunt locurile pe care oamenii uită să le curețe și de ce ustensile avem nevoie
transelectrica jpg
Presa maghiară anunță un posibil blackout în România. Cât de real este pericolul și ce capcană ascunde iarna viitoare
Avertismentele apărute în presa maghiară, potrivit cărora România ar putea avea probleme serioase cu alimentarea cu energie în iarna viitoare, au reaprins dezbaterea despre închiderea centralelor pe cărbune și securitatea energetică a țării.
zodie floare jpg
Singura zodie pentru care totul va fi perfect în iunie. Norocul îi va surâde din plin acestui nativ
Luna iunie vine cu o energie aparte, o perioadă în care schimbările de ritm, deciziile rapide și oportunitățile neașteptate pot rescrie complet direcția în care merg anumite zodii.
Cetatea Alba Carolina   Foto Daniel Guță (4) jpg
Transformarea Cetății Alba Carolina continuă. Porțile monumentale sunt restaurate, iar șanțurile devin zone de agrement
Cetatea Alba Carolina trece din nou prin transformări ample: porțile sale monumentale sunt restaurate, iar șanțurile de apărare primesc noi utilități. Datorită cetății sale, Alba Iulia a devenit un reper turistic al regiunii din centrul României.
Strajk sierpniowy w Stoczni Gdańskiej im  Lenina 05 jpg
Cum a dărâmat un sindicat de muncitori întregul sistem opresiv din blocul comunist
În anul 1980, muncitorii din Polonia aveau să schimbe istoria Europei. Aceștia au fondat singurul sindicat liber din blocul comunist și au avut dârzenia și puterea de a schimba pașnic, cu mari sacrificii, un întreg sistem opresiv. Sindicatul Solidaritatea a dus la căderea comunismului european.
alimente par sanatos jpg
Alimentele care contribuie la un păr sănătos și puternic. Sfaturile experților
Ce să faci pentru a avea un păr sănătos? Top 10 alimente eficiente. Nutriționiștii spun ce trebuie să consumăm pentru a avea o podoabă capilară cât mai bogată.
mircea tudor
De la sacul de porumb din Obor la scanarea avioanelor Airbus. Povestea fabuloasă a inventatorului Mircea Tudor
Mircea Tudor, antreprenorul român care a inventat scannerul pentru avioane, și-a testat primele idei de inginerie pe macarale defecte, pentru ca ani mai târziu să revoluționeze securitatea globală și să aducă în România două Grand Prix-uri de la Geneva.
Chay Bowes captură video jpg
Chay Bowes, jurnalist la Russia Today, a fost expulzat din România imediat după ce a aterizat la București. Ce spun autoritățile române
Jurnalistul irlandez Chay Bowes, colaborator al postului Russia Today, nu a fost lăsat să intre în România şi a fost expuszat la scurt timp după ce a aterizat pe Aeroportul Henri Coandă din București.