⬆

Limbă și computere

18 iulie 2020

Cititorul își amintește cu siguranță faptul că, în articolul de săptămîna trecută, m-am referit la două invenții remarcabile ale secolului al XIX-lea, Jucătorul-de-șah (sau Turcul automat) și Mașina lui Babbage, pe care Edgar Allan Poe le-a comparat în presa vremii. Cea de-a doua invenție stă la baza computerului din zilele noastre, iar prima, dacă nu ar fi fost o înșelătorie, ar fi demonstrat că se poate construi un mecanism automat capabil de gîndire proprie. Mai spuneam că, în prezent, celebrul umanoid Sophia ne dă impresia că acest lucru chiar s-a îndeplinit.

Însă, dacă Poe ar mai trăi, s-ar minuna nu numai la vederea Sophiei. Ar vedea computere care, neavînd forma umană a Turcului, joacă șah: sînt celebre partidele lui Gari Kasparov cu Deep Blue, computerul companiei IBM, și nu numai ele. Avem muzică generată de calculator. Cu prima lucrare științifică scrisă la cincisprezece ani și doctoratul la douăzeci, americanul Stephen Wolfram lucrează, în zilele noastre, la crearea unui program de computer care să conțină toată știința lumii, care să calculeze și să dea răspunsuri la orice întrebare i s-ar pune, din orice domeniu, la fel ca în serialul SF Star Trek.

Ideea construirii unei mașini de calcul a pornit, în primul rînd, de la necesitatea de a te putea baza pe niște rezultate care să nu mai depindă de variabilele provenite din alcătuirea biologică a omului, mult prea imprevizibilă și limitată. Colossus, primul computer digital electronic (nu mecanic, cum au fost toți predecesorii lui), a fost creat cu scopul de a descifra codurile folosite de germani în cel de-al Doilea Război Mondial. În 1945 a început lucrul pentru punerea în practică a unei idei dezvoltate anterior de Alan Turing, într-o lucrare teoretică în care acesta propunea posibilitatea construirii unei mașini care să nu mai aibă la bază programe fixe. Dezavantajul evident al unui program fix e că schimbarea lui presupune procese de reconfigurare și restructurare, care costau și timp și bani. În loc, Turing a prefigurat un program stocat într-o memorie internă, în care principiul de bază presupune existența a două componente: un set de date și un set de instrucțiuni. Astfel, acest mecanism numit mașină universală de calculat poate fi folosit la calcularea oricărui lucru calculabil.

În procesul vorbirii, omul folosește aceleași componente: un set de date (vocabularul, format din cuvinte) și un set de instrucțiuni (gramatica, formată din regulile referitoare la modul în care se combină cuvintele). Astfel că ideea lui Warren Weaver, din 1949, de a folosi computerul în prelucrarea limbajului – mai precis, în traducere – a venit natural, s-ar putea spune. Limba omului e tot un cod, iar computerul l-ar putea descifra. Numai că cei zece ani de eforturi care au urmat în această direcție au arătat ce simplistă a fost această comparație, cîtă complexitate există într-o limbă naturală și cît de profunde sînt diferențele dintre un limbaj informatic și cel uman.

Traducerea automată a fost, în anii ’50, unul dintre proiectele majore ale Ministerului Apărării din Statele Unite. Erau vizate, bineînțeles, textele tehnice și științifice, sub motivul accesului imediat la publicațiile străine și neconstrîns de necesitatea cunoașterii limbilor străine: oamenii de știință trebuiau informați cît mai rapid despre descoperirile altora datorită vitezei cu care se perimează materialele tehnice. Informaticienii nu s-au putut dispensa de ajutorul lingviștilor, care au fost chemați să identifice un set complet de proceduri, adică de instrucțiuni gramaticale pe baza cărora computerul să poată genera propoziții și fraze corecte.

Celebra MIT a fost în avangardă, cu lingviștii săi structuraliști. Alimentat de guvern cu sume mari de bani, aici a fost creat un Departament de Lingvistică, dar în toate marile universități americane (care au cunoscut, din acest motiv, un boom nemaivăzut la sfîrșitul anilor ʼ50 și în tot deceniul următor) au fost sponsorizate generos, inclusiv de CIA, programe de cercetare a traducerii automate, în care se pleca de la premisa că diferențele dintre două limbi ar putea fi cuantificate sub aspectul numărului și conținutului instrucțiunilor gramaticale necesare generării frazelor dintr-o limbă pornind de la frazele din cealaltă.

Lucrurile au arătat altfel în practică decît în teorie. Dacă limba ar fi doar o înșiruire liniară a elementelor unui inventar de foneme cu mereu aceleași valori și funcții, dacă apoi cuvintele ar fi doar niște etichete unice și dacă nu s-ar grupa adesea în blocuri sintagmatice, atunci ar fi mai simplu: pînă la un punct, traducerea automată a unui text științific chiar funcționează, și asta deoarece o parte a limbii poate într-adevăr să fie formalizată, cu ajutorul matematicii. Există însă limitări importante. În matematică, cifra 4 are mereu aceeași valoare indiferent de vecinătățile în care se află (24 sau 42, să zicem), dar nu același lucru se întîmplă în limbă. Ca să dăm un exemplu simplu: -s din engleză poate fi, simultan, un fonem (sunet) din inventarul sonor, terminație de plural la substantiv și marcă de persoana a treia singular la indicativul prezent. Pe diverse niveluri, are diverse valori.

Marea problemă este, deci, pe de o parte, dispunerea ierarhică a mai multor niveluri lingvistice ale căror granițe se întrepătrund și, pe de altă parte, existența unui nivel superior, cel semantic (un fel de Sfînt Graal al lingvisticii), care nu se lasă prins în descrieri formale. Din cauza acestor niveluri multiple de codificare și a ambiguității structurale din sintaxă nu avem, nici pînă în ziua de azi, o teorie a limbii (un model) care să descrie și să explice simultan suprapunerea formei încifrate a unei fraze (forma ei de suprafață) cu forma descifrată a acesteia (sensul sau forma de adîncime).

Nici nu ne putem aștepta prea curînd să dispunem de o teorie a sensului. Structuraliștii s-au învîrtit în jurul lui, admițîndu-i existența, unii luîndu-l în calcul doar rareori și forțați de împrejurări, alții întorcîndu-i spatele cu totul, deoarece s-a sustras și încă se sustrage unei descrieri lingvistice care să nu fie circulară. Eforturile din traducerea automată au dovedit, mai degrabă, ce prăpastie se cască între limbajul informatic și cel uman. Cu toate acestea, viziunea automaton-ului, a mașinii vorbitoare despre care scrie Descartes în Meditațiile sale, nu va dispărea niciodată, probabil. Problema sensului, cu care precedenta a ajuns oarecum să fie sinonimă, la fel. Putem specula doar că roboții vor imita din ce în ce mai mult comportamentul omului, tocmai pentru că o parte a acestuia se bazează pe imitație (dar cît exact este imitație și cît exact este natură nu cred că vom ști vreodată).

Poate că nu vom reuși niciodată să construim automaton-ul lui Descartes pentru simplul fapt că, la fel ca și în jocul de șah, există prea multă imprevizibilitate în mintea omului. S-ar putea să nu răspundem niciodată la întrebarea carteziană asupra creativității limbii – care e, ultimativ, a minții. Un argument de bun-simț că realitatea s-ar putea prezenta în acest mod vine din constatarea că, dacă sîntem ființe neurale, atunci avem limite impuse pur și simplu de biologie, peste care e imposibil să trecem. Însă trebuie să ținem cont de faptul că revoluția cibernetică este abia la început. Și, logic vorbind, însăși imprevizibilitatea minții este cea care ar trebui să ne împiedice să prezicem eșecul oricărui efort în care este angajată specia umană.

Laura Carmen Cuțitaru este conferențiar la Literele ieșene, specializată pe lingvistică americană.

Foto: wikimedia commons

CARICATURA SĂPTĂMÎNII

DILEMA BLOG

Parteneri