E.A. Poe și lingvistica statistică

E A  Poe și lingvistica statistică jpeg

La mijlocul secolului al XIX-lea, exploatînd interesul crescut al publicului american pentru mesaje încifrate, scriitorul E.A. Poe publică The Gold-Bug, tradusă la noi sub titlul Cărăbușul de aur. Povestirea îl urmărește pe un anume William Legrand care găsește un mesaj secret a cărui descifrare îl duce la o comoară îngropată. Pergamentul găsit conține următoarea criptogramă:

53‡‡†305))6*;4826)4‡.)806*;48†8¶60))85;]8*:‡*8†83(88)5*†;46(;88*96?;8)*‡(;85);5*†2:* ‡(;4956*2(5*-4)8¶8*;4069285);)6†8)4‡‡; ı(‡9;4808ı;8:8‡ı; 48†85;4 )48 5†528806*8 ı(‡9;48;(88;4(‡?34;48)4‡; ı6ı;: ı88;‡?;

Este foarte interesant de parcurs raționamentul făcut de personajul Legrand în vederea spargerii codului. După cum se știe, în orice cod, un simbol înlocuiește o literă dintr-o limbă. Deci, în primul rînd, trebuie identificată limba textului, iar în cazul nostru se dovedește a fi engleza. Apoi, observînd că nu există spații între cuvinte, Legrand își propune să identifice cele mai frecvente litere, precum și pe cele mai rare. La numărătoare, găsește rezultatele pe care le-am transcris în primele două coloane ale tabelului de mai jos (coloana a treia e adăugată de mine):

              Simbolul

De cîte ori apare

Ce simbolizează

8

33

e

;

26

t

4

19

h

‡    și   )

16

o  și  s

*

13

n

5

12

a

6

11

i

(

9

r

†    și    ı

8

d   și  f

0

6

l

9    și   2

5

m  și  b

:     și   3

4

y   și   g

?

3

u

2

v

]    și    -

1

w  și  c

.

1

p

1. Legrand spune că, în engleză, litera care apare cel mai des în texte este e. Deci se poate presupune că simbolul 8, care apare cel mai des, reprezintă litera e. Ținînd apoi cont că, în engleză, litera e apare frecvent dublată ee, vedem că secvența 88 apare de cinci ori, lucru care îi confirmă presupunerea.

2. În continuare, știind că cel mai frecvent cuvînt din engleză este articolul hotărît the, Legrand caută secvențe identice de cîte trei simboluri dintre care ultimul să fie 8. Dacă se descoperă repetiții de astfel de secvențe, atunci cel mai probabil vor reprezenta cuvîntul the. La analiză reiese că secvența ;48 se repetă de șapte ori, deci 4 este h, iar punctul și virgula reprezintă pe t.

3. Găsirea unui cuvînt înlesnește stabilirea granițelor între unele cuvinte. Astfel, spre sfîrșitul criptogramei, în penultima secvență ;48 se observă că ea apare urmată de semnul punct și virgulă, semn care reprezintă sigur începutul unui alt cuvînt. Înlocuind simbolurile cu ceea ce se cunoaște, obținem două cuvinte

; 4 8    ; ( 8 8 ; 4

t h e    t_ e e t h

Secvența finală th nu poate ține de cuvîntul t_ee: orice literă s-ar pune în spațiul liber, rezultatul nu va fi un cuvînt din limba engleză. Legrand deduce că simbolul nostru de mai sus, paranteza curbată spre dreapta, înseamnă r.

4. Căutînd puțin mai departe, se vede din nou secvența ;48 – ultima din criptogramă – deci se completează cu ce se știe:

the tree thr ? 3h the

the tree thr_ _ _ h the

În sintagma aceasta, orice vorbitor de engleză recunoaște prepoziția through, ceea ce pe loc oferă cheia pentru literele o, u și g.

5. Nu departe de începutul criptogramei avem secvența 83(88 care se transformă, prin înlocuirea simbolurilor, în egree. Nu se poate reconstrui decît cuvîntul degree, de unde se deduce că simbolul dinainte, adică , reprezintă litera d.

Prin alți trei pași similari, Legrand descoperă zece dintre cele mai importante litere, apoi restul devine tot mai ușor. În final, dezlegarea arată astfel: „A good glass in the Bishop’s hostel in the Devil’s seat – twenty-one degrees and thirteen minutes – northeast and by north – main branch seventh limb east side – shoot from the left eye of the death’s head – a bee-line from the tree through the shot fifty feet out.” (Pentru edificarea cititorului, am grupat toate corespondențele în coloana a treia din tabel).

Este uimitor cum Edgar Allan Poe folosește lingvistica statistică, o ramură dezvoltată abia în secolul XX, datorită inventării computerului. În zilele noastre, prin folosirea computerului și prin introducerea în lingvistică a analizei statistice din matematică, s-a permis obținerea unor date cantitative cu ajutorul cărora s-a demonstrat foarte convingător apropierea naturală dintre vorbirea umană și cibernetică. Nivelurile la care se aplică studiul lingvistic statistic sînt multiple: stilistic, se poate afla cu certitudine dacă o operă literară aparține unui autor; lexicologic, se pot identifica cele mai frecvente cuvinte dintr-o limbă și include în manuale de învățare pentru studenți străini astfel încît, de exemplu, în loc să înveți cît mai multe cuvinte, memorezi mai întîi doar un număr restrîns care acoperă însă 80% din situațiile de comunicare.

Criptograma de mai sus ilustrează o analiză la nivel fonologic, în care, prin studierea frecvenței de apariție a literelor (respectiv, a sunetelor în limbile fonetice), se pot stabili criterii de recunoaștere a literelor. În nici o limbă de pe pămînt fonemele nu se înșiră la întîmplare, ci se supun unor legi, și este sarcina celor care se ocupă cu fonologia să studieze distribuția lor. Computerul ajută crucial la sesizarea tiparelor de distribuție și a constrîngerilor fonotactice.

De exemplu, în engleză, nici un cuvînt nu se poate termina în sunetul h sau în vocale scurte (cu excepția lui /ə/ - sunetul ă din română). Cele mai frecvente perechi de litere sînt th he an re er in on at nd st es en of te ed or ti hi as to. Cele mai frecvente litere dublate sînt ll ee ss oo tt ff rr nn pp cc. Poe are dreptate cînd spune că litera e este folosită cel mai des între cele 26 cîte cuprinde alfabetul limbii engleze. În ceea ce privește restul de litere, Poe (prin personajul Legrand) indică următoarea succesiune: a o i d h n r s t u y c f g l m w b k p q x z. Datele furnizate în prezent de diverse surse asistate informatic precizează următoarea secvență (în grupuri de cîte 5, pentru convenabilitate): etaon rishd lfcmu gypwb vkjxq z (la cei doi poli – litera e cu o frecvență de 12,7% iar z cu 0,07%).

Pentru o comparație scurtă între cîteva limbi indo-europene aparținînd aceleiași familii (romanice) sau nu (germanice), avem primele zece cele mai frecvente litere (cititorul, pentru amuzament, se poate folosi de aceste informații inclusiv la jocurile Spînzurătoarea și Scrabble, pentru victorii rapide): italiană eaoin lrtsc, spaniolă eaosr nidlt, franceză esait nruol, română eiarn utlos. Pe de altă parte, avem: germană enisr atdhu, suedeză eanrt sildo, daneză ernta idslo.

Criptografia, adică folosirea unor coduri secrete pentru scrierea și descifrarea mesajelor, nu a fost, la începuturile ei, o activitate cu scop recreativ, ci militar. În secolele anterioare, erau puțini aceia care se ocupau cu așa ceva. În vremurile noastre însă, lucrurile stau altfel. În timpul celui de-al Doilea Război Mondial, 30.000 de oameni erau angajați în munca de încifrare și descifrare doar în Marea Britanie. În SUA, în prezent, nici nu se știe cîți sînt – probabil de ordinul zecilor de mii. Însă criptogramele au destui fani, amatori sau nu: o asociație de profil, American Cryptogram Association, publică de două ori pe lună revista The Cryptogram. În foarte multe ziare și reviste există rubrici zilnice care propun astfel de puzzle-uri cititorilor, în concursuri cu premii. Însuși E.A. Poe, de la care am pornit în textul de astăzi, a scris Cărăbușul de aur pentru un concurs dintr-un ziar din Philadelphia, la care a cîștigat premiul cel mare (publicarea povestirii plus o sută de dolari). Era atît de pasionat de orice enigmă încît, cu cîțiva ani înainte, lansase o provocare publică în Alexander’s Weekly Messenger, declarînd că desfide orice cititor care îi trimite o criptogramă de substituție pe care să nu o poată rezolva. Despre Poe vom mai vorbi, însă, și în articolul viitor.

Laura Carmen Cuțitaru este conferențiar la Literele ieșene, specializată pe lingvistică americană.

Foto: wikimedia commons

p 22 jpg
Împotriva organizării de către licee a admiterii pentru clasa a IX-a
Ce tip de lume este aceea în care se întîmplă asta? Este ceva mai mult decît medieval, este un fapt primitiv și rău, atroce.
980 22 L Cutitaru  jpg
Ești cum scrii?
Așa că subiectul acestui text, scrisul de mînă, destinat mai degrabă a amuza decît a informa, va fi dezvoltat într-o mică serie, în lunile următoare.
p 21 Pierre Nora WC jpg
„Monsieur notă-de-subsol“ face istorie
Nașterea revistei Nouvelle Revue Française a avut loc în timpul unei încrîncenate lupte culturale.
caderea unui dictator jpg
„Cine a tras în noi după 22”? Singura teorie logică și bazată pe dovezi - o discuție cu Andrei Ursu -
Sînt oameni care au fost eroi în mod real și cărora li s-a băgat în cap că de fapt au fost niște unii care nu știau ce fac pe acolo și, în același timp, securiștii, care au pensii speciale, sînt eroizați.
p 22 Taormina WC jpg
Luminile și parcările Taorminei
Și să nu uitam că sîntem colonii Romei la gurile Dunării, printre atîția barbari... am pătimit destule... deve avere importanza in qualche modo”.
p 23 WC jpg
Criptomonedele nu sînt bani
Criptomonedele nu sînt bani, sînt o iluzie a unei lumi care-și caută noi căi acum în noua eră a informaticii și informației.
P G  Lowery Sideshow Band jpg
Se caută un cuvînt
Cohorte de îngeri... roiuri, stoluri, puzderie, cete, alaiuri... îți trebuie o mulțime de substantive colective ca să-l alegi pe cel mai potrivit ideii de „grup”.
973 22 Iulia Marin jpeg
De ce Bach?
Doar ecourile unui Du schaffst das m-au ajutat să pot duce piesele la final. Însă în acea zi, nu cred că Johann Sebastian Bach a ajutat multora.
p 23 Lewis Carroll WC jpg
Efemeridele lingvistice
O atitudine normală, veți zice. Poți pretinde drepturi asupra vocabularului?
p 22  James Cooke Brown WC jpg
Dreptul asupra limbii
Vladimir Putin poate, de fapt, să declare că limba rusă e proprietatea sa personală, consecințele legale ale unei astfel de pretenții sînt nule.
RoAlert jpg
Societatea de consum emoțional
De cîte ori ar trebui să sune telefoanele oamenilor într-o zi? Și apoi ce se va mai adăuga pe lista Ro-Alert?
p 22 Nagit WC jpg
Nagîț de pui
Etimologiile acestea „raționale”, dar false nu reflectă simple asocieri formale și sonore între cuvinte.
p 7 FED WC jpg
E inflația, prostule!
Întrucît Sistemul Federal de Rezerve al SUA (FED) a majorat recent rata-țintă a dobînzii, s-ar putea ca inflația să încetinească spre sfîrșitul anului în curs.
Florin Stoian 10 jpg
„Am transformat Oltenia de sub Munte într-un brand” – interviu cu geologul Florin STOICAN
„Mai întîi, trebuie să spun că rețeaua internațională a Geoparcurilor UNESCO a ajuns acum la 177 de geoparcuri din 46 de țări și există un interes atît de mare pentru alte geoparcuri, încît UNESCO a limitat numărul anual de aplicații la maximum 20 și maximum două/țară.”
p 7 WC jpg
Periculoasa alunecare spre violență a Americii
Teoriile conspiraționiste de extremă dreapta ale „statului paralel” și minciunile partidului republican despre alegerile măsluite au același țel comun: să conteste legitimitatea statului.
959 22 LCCutitarupng jpg
A texta, textare, textor & texteză
Lucrări și cărți întregi încep tot mai des să aibă ca subiect această dezvoltare adusă de inventarea computerului. Încotro va merge texteza și unde va ajunge reprezintă o chestiune care, nu mă îndoiesc, va depăși imaginația noastră din prezent.
p 7 WC jpg
America și provocarea chineză
America trebuie de asemenea să-și sporească participarea la actualele instituții internaționale pe care le-a creat și să le dezvolte pentru a stabili standarde și a gestiona interdependența.
p 19 jpg
Hîrtia, ecranul și cititul
Cum rămîne cu argumentele „emoționale” ale unui cititor care nu se poate „debarasa” de cartea tipărită?
p 7 WC jpg
Căderea lui Boris Johnson – și a noastră
În ziua de azi, personal este realmente politic: eșecurile personale sînt ipso facto eșecuri politice.
p 23 ExpoziLŤia Columbian¦â, Chicago, 1893 WC jpg
Ierusalimul de ipsos – Expoziția Mondială de la Chicago, 1893
La Chicago, în 1893, un oraş ideal întreg s-a pogorît pe harta oraşului, condiţionat de sit şi de cultura albă, creştină, „falocentrică” şi „elitistă” care domina acel moment.
p 7 Thyssen Krupp, Essen, Germania WC jpg
Războiul lui Putin și modelul economic german
Va supraviețui oare modelul economic german războiului purtat de președintele rus Vladimir Putin împotriva Ucrainei?
p 2 WC jpg
Tocăniță de vin
Numite, în engleză, SOT („slips-of-the-tongue”), greșelile de vorbire care se fac involuntar, de obicei din grabă sau sub imperiul emoțiilor, sînt studiate de o parte a lingvisticii cognitiviste americane cu scopul de a descifra tiparele fonologice mentale.
p 22 WC jpg
„Noua Ideocrație” și Eterna Idiocrație
În locul pe care credința (frica de Dumnezeu) îl ocupa în sufletul individual a rămas un gol, o gaură neagră.
948 19 poza jpg
Barbara Klemm – artistul din fața fotojurnalistului
Fotojurnaliștilor le-aș spune să se concentreze pe fericirea din lume, să rămînă curioși și puternici, să lucreze constant, să fie empatici cu oamenii – însă toate acestea ar trebui să fie conectate cu talentul artistic.

Adevarul.ro

image
Fost membru CNA, atac la adresa unui concurent de la Românii au talent. Ce răspunde mama băiețelului luat în vizor
Mama lui Rareș Prisacariu, băiețelul care a primit Golden Buzz-ul la emisiunea Românii au talent a răspuns la reacția dură pe care Radu Herjeu, fost membru CNA, a avut-o după emisiune.
image
Clujul depășește la PIB orașe similare din Estul Europei. „Percepția e una, realitatea e alta”
Zona Metropolitană Cluj a depășit, în ceea ce privește Produsul Intern Brut, zone metropolitane din jurul altor orașe similare din țări estice. Economistul Radu Nechita explică de ce clujenilor nu li se pare că ar trăi mai bine.
image
Marius Manole, în șoc hipotermic pe scenă!
„Ce avem noi aici?”, o piesă de teatru scrisă și regizată de Lia Bugnar, jucată de Carmen Tănase, Maria Obretin și Marius Manole, a fost un succes deplin la Birmingham, unde spectatorii nici măcar n-au observat că Marius Manole a intrat șoc hipotermic.

HIstoria.ro

image
Moștenirea fabuloasă a lui Heinrich Schliemann, descoperitorul Troiei
Când, în 1891, i s-a citit testamentul, s-a dovedit că Heinrich Schliemann lăsase în urmă o moștenire (apropo de lichidități, judecând după valoarea de azi) de aproximativ 100 de milioane de euro.
image
„Orașul de aur”, de sub nisipurile Egiptului
Pe lista descoperirilor recente și considerate fascinante se înscrie și dezvăluirea unui oraș de aur, din Luxor, Egipt.
image
Ce mai mare soprană a nostră, Hariclea Darclée, cea care a salvat opera La Tosca / VIDEO
E duminică, 14 ianuarie 1900, iar pe scena Teatrului Constanzi din Roma are loc o premieră memorabilă:„Tosca”, opera în trei acte a lui Giacomo Puccini. E prima reprezentaţie a poveştii dramatice care va cuceri lumea, iar soprana româncă Hariclea Darclée o interpretează pe Floria Tosca.