⬆

Foloasele lingvisticii computaţionale

Liviu P. DINU

Publicat în Dilema Veche nr. 733 din 8-14 martie 2018

Foloasele lingvisticii computaţionale jpeg

În timpul unei lecţii de matematică alternativă de clasa a doua, la întrebarea „La ce credeţi voi că ne foloseşte matematica?“, Ianis, unul dintre năzdrăvanii clasei, răspunde extrem de dezinvolt: „Să nu ne înşele la piaţă!“ Departe de mine gîndul de a compara răspunsul cu citatul pitagorean pe care îl aveam eu în clasa a doua pe pereţii şcolii la care învăţam atunci, dar nu mă pot stăpîni să mă gîndesc la întrebările (şi răspunsurile) similare legate de domeniul pomenit în titlu. Fiindcă alăturarea celor două domenii care aparent se dezvoltă în emisfere distincte ale creierului deranjează ecartamentul ortodox în care multe persoane (cercetători sau nu) s-au aşezat confortabil, născînd în primă fază nedumeriri, urmate de un şir de ironii, respingere violentă cînd gluma se îngroaşă şi, în final, iată, o normalitate.

Lucrurile au stat şi stau aşa nu numai la noi (cu un plus de vigoare, deh!), ci în aproape toate mediile universitare în care s-a încercat timid introducerea domeniului. Erhard Hinrichs povestea că, atunci cînd, după lupte crîncene, a reuşit să construiască departamentul de Procesare a Limbajului Natural (NLP) la Tübingen, în timpul inaugurării şi al prezentării festive a fost întrerupt de un coleg umanist care i-a replicat sec: „Adică voi vreţi să faceţi cu calculatorul ceea ce noi pînă acum făceam cu capul?“ Reacţiile venite din zona ştiinţelor tari nu sînt cu nimic mai prejos, dar nu e locul aici pentru o colecţie de replici şi reacţii. Mai amintim doar reacţia unor critici literari stimabili care într-o vreme reduceau lingvistica computaţională la numărarea de cuvinte şi cu asta aruncau în derizoriu pe oricine s-ar fi aplecat asupra domeniului.

Reacţia (împărtăşită şi de mulți oameni de ştiinţă) nu este departe de adevăr, numai că se referă la o realitate din anii ’50-’60 care venea în urma secţiunii speciale de lingvistică cantitativă de la cel de-al şaselea Congres de Lingvistică de la Paris din 1948, perioadă într-adevăr extrem de propice pentru investigaţiile preponderent statistice ale limbajului natural. Este perioada în care sînt puse bazele principiilor de tip minim efort care par să guverneze limbajul natural („cu cît sînt mai lungi construcţiile lingvistice, cu atît sînt mai scurte elementele sale constitutive“), să se identifice diverse legi statistice care guvernează anumite elemente lingvistice din text sau limbă (care este probabilitatea de apariţie a unui cuvînt cu un anumit număr de silabe), sau încep să se structureze proprietăţi cantitative ale limbii menite să creioneze o hartă a limbii (vezi Fonostatistica Alexandrei Roceric). Însă tot în acest timp apare generativismul lui Chomsky, iar sfîrşitul deceniului şapte aduce nu numai Aselenizarea şi Revoluţia de la Praga, dar şi primul şoc în domeniu: este vorba despre celebrul raport ALPAC care oprea finanţarea americană pentru traducere automată datorită rezultatelor modeste. Se prăbuşea visul (nu numai american) lingvisticii computaţionale (LC)?

Din fericire, făcut cu bună-credinţă, raportul îndrepta tot răul spre bine: semnala o realitate existentă deja pe buzele tuturor, şi anume că în perioada următoare domeniul procesării limbajului natural trebuie să se rafineze în topici speciale care să rezolve probleme specifice ale limbii şi abia apoi să reatace problema traducerii automate. Este momentul în care intră în scenă Solomon Marcus. În doar cîţiva ani pune domeniul LC pe harta domeniilor frecventabile şi capătă rapid recunoaştere internaţională.

Unde sîntem acum, o jumătate de secol mai tîrziu?

Domeniul a cunoscut o dezvoltare şi o specializare remarcabile, greu de imaginat din afara domeniului. Semnalăm doar faptul că principala şcoala de vară dedicată studenţilor europeni şi nu numai (ESSLLI) numără în fiecare an în jur de 50 de cursuri (topici) distincte de cîte o săptămînă, fiecare curs tratînd o anumită parte din LC şi nesuprapunîndu-se peste celelalte cursuri. Calendarul conferinţele dedicate domeniului seamănă cu calendarul turneelor de tenis: începe în ianuarie şi se termină în noiembrie, fiind greu să găseşti loc pentru o nouă conferinţă. Sînt conferințe de „grand slam“ ACL, EMNLP, NAACL, COLING, EACL, urmate de o listă lungă de conferinţe absolut onorabile, obligatorii pentru oricine activează în domeniu, şi în care rata de acceptare a lucrărilor este tot mai mică.

Dar, totuşi, ne ajută LC la piaţă? Sau doar dă aceleaşi răspunsuri abuzînd în schimb de tehnologia modernă?

Nu vom juca această ruletă, dar vom prezenta cîteva rezultate care conţin germenii unor răspunsuri. Mai întîi, noi nu credem ca domeniul LC se poate substitui muncii specializate a lingviştilor, criticilor, psihologilor, traducătorilor, analiştilor din diverse domenii, sau că ar putea funcţiona fără ei, în schimb poate funcţiona ca o plasă ajutătoare şi de siguranță pentru aceştia. Concret, rezultatele furnizate de către LC pot funcţiona ca un filtru care să reducă plaja de căutări, să dea indicii despre posibile rezultate, să îndrepte atenţia asupra unor zone de analiză, să (semi)automatizeze anumite procese manuale costisitoare în timp şi resurse şi, nu în ultimul rînd, să semnaleze anumite interpretări şi piste greu accesibile altfel ochiului uman.

„În aproape 98% din cazuri“

Fără pretenţia unui studiu exhaustiv, exemplificăm cîteva etape prin prisma unor lecturi şi experienţe personale.

S-a investit mult în sintaxă cu convingerea că, odată rezolvată, maşina nu va mai vedea „o femeie singură“ drept „o singură femeie“. La fel şi în morfologie, şi, cu ceva mai puţină insistenţă, în fonologie. Rezultatele s-au apropiat de performanţele oamenilor, picînd totuşi uneori diverse teste. Şi totuşi, cîteva lucruri sînt de semnalat şi aici: ezitările maşinii în identificarea corectă a părţilor de vorbire sau în determinarea pluralului vreunui substantiv neutru în română, de exemplu, sînt erori pe care le întîlneşti şi la cei ce învaţă o limbă străină (de exemplu, maşina a avut aceleaşi ezitări în faţa pluralului terminat în „uri“). Pentru română, dar nu numai, maşina a reuşit să silabisească aproape de performanţa umană, reuşind să identifice reguli acolo unde oamenii nu se gîndiseră. În plus, în aproape 98% din cazuri, maşina a reuşit să prezică corect accentul în română. Sînt exemple simple, care arată că maşina a reuşit să „copieze“ munca omului în probleme elementare de studiu al limbii. Aceşti paşi erau considerați esenţiali înainte de redeschiderea surselor de finanţare pentru proiecte mai complexe.

De cu totul altă natură sînt rezultatele recente din zona lingvisticii istorice: putem spune noi care este cuvîntul din care a provenit un cuvînt modern dintr-o limbă dată? LC a început să ofere răspunsuri acceptabile la această sarcină, astfel încît, în filtrul dat de primele cinci posibile cuvinte, cuvîntul real se găseşte cu o bună acurateţe. Dacă ne gîndim că pînă mai ieri metodele comparative erau singurele mijloace avute la îndemînă, cu costuri nu de neglijat, aceste tehnici moderne pot oferi un ajutor nesperat colegilor.

Ce se întîmplă cu similaritatea limbilor naturale? În mandatul de comisar cu multilingvismul, Leonard Orban a elaborat un raport asumat de UE în care cerea explicit să se ofere o măsură a distanţelor dintre limbile europene cel puţin. Fiindcă, dacă apartenenţa unei limbi la una dintre familiile lingvistice este aproape unanim acceptată, distanţa dintre limbi (europene sau nu) este un subiect de dispută continuă. Baza de date Ethno--
logue.com spune că româna se aseamănă 70% cu franceza, ceea ce e departe de adevăr, dar este folosit masiv. Cauzele erorilor sînt multiple, nu avem loc aici de o analiză a lor, ci amintim doar că recent am propus o nouă clasificare a distanţelor lexicale şi sintactice dintre română și celelalte limbi europene. Identificarea autorului unor texte cu paternitate incertă este o temă care merge mînă în mînă cu critica şi istoriografia literară. Folosind cu totul şi cu totul alte mijloace, propunînd termenul de stilom literar, LC a putut de multe ori să dea o mînă de ajutor criticilor sau să dea unele indicii (vezi cazul recent al Elenei Ferrante).

Ultimii ani au adus un subiect nou: extragerea opiniilor din texte şi analiza sentimentelor. Perierea textelor electronice şi inventarierea polarităţilor opiniilor exprimate sînt tehnici care, utilizate cu maturitate şi înţelepciune, pot aduce foloase nebănuite celor interesaţi. Și da, Trump a făcut un mare bine domeniului: fără el ar mai fi trecut mult timp probabil pînă cînd lumea să se sesizeze de prezenţa fake news-urilor (chiar dacă primele rezultate de detectare a recenziilor mincinoase pe Trip-Advisor, de pildă, existau dinainte de 2012). Stabilirea datei la care a fost scris un text (doar pe baza conţinutului, nu cu carbon), realizarea automată de rezumate ale textelor sau succesul recent al tehnicilor de simplificare a textului sînt doar alte cîteva lucruri cu care mulţi colegi de-ai noştri se joacă.

Şi da, Procesarea Limbajului Natural (sinonim pentru LC) are nu numai trecut, prezent, dar şi viitor: dacă la Universitatea Cornell numărul studenţilor care studiază NLP aproape s-a dublat în ultimul an (similar cu ce se întîmplă în Europa), iată că şi la Universitatea din București vor porni din această toamnă două masterate dedicate domeniului: unul de Digital Humanities la Facultatea de Limbi şi Literaturi Străine, şi unul de Procesare a Limbajului Natural la Facultatea de Matematică şi Informatică, ambele cu profesori români şi străini.

Liviu P. Dinu este prof. dr. la Facultatea de Matematică şi Informatică a Universităţii din Bucureşti şi director al Human Language Technologies Research Center.

Foto: flickr

piese de schimb

„O vîscozitate, sau altceva analog”

Înlocuirea unei piese de schimb presupune îndeobște oprirea mașinăriei, „scoaterea din priză” a ansamblului care trebuie reparat.

Matei PLEŞU

piese de schimb

Grefe, transplant, înlocuiri de organe

Dimineața, doctorii își pun repede la loc „piesele” și pleacă la drum.

piese de schimb

Despre viața eternă. Un creier în borcan

ă mă salvez în cer? Păi, ce discutăm noi aici, domnule, neuroștiințe, filosofie, transumanism sau teologie? În halul ăsta am ajuns? Doamne ferește!

piese de schimb

Făpturi de unică folosință

Dar pentru a fi, realmente, mai buni, trebuie să găsim ieșirea din labirint.

piese de schimb

Poema centralei

Am găsit-o aici, montată de fostul proprietar, și va împlini în curînd 22 de ani.

Ana Maria SANDU

piese de schimb

Piese de schimb

Sperăm ca prin aceste considerații elementare să vă fi trezit dorința de a afla mai multe aspecte legate de acest capitol și curiozitatea de a urmări mai îndeaproape subiectul.

piese de schimb

(Sub)ansambluri cognitive

Omul nu mai este, poate, măsura tuturor lucrurilor.

centenar - eugen barbu

Cu ură și abjecție

Mă amuz și eu, dar constatativ, de un alt episod, grăitor, zic eu, cît zece.

Cosmin CIOTLOŞ

centenar - eugen barbu

Groapa, cazul și centenarul

Eugen Barbu (20 februarie 1924 – 7 septembrie 1993) este, probabil, cel mai detestabil și mai controversat scriitor român din postbelicul literar românesc.

Marius CHIVU

centenar - eugen barbu

Dilemele decadenței

Există aici, poate, o secretă soteriologie la confiniile cu sensibilitatea decadentă, și anume credința că printr-o înălțare estetică deasupra oricărei etici contingente.

centenar - eugen barbu

„Biografia detestabilă” și „opera admirabilă”

Groapa, cîteva nuvele din Oaie și ai săi ori Prînzul de duminică, parabolele decadente Princepele și Săptămîna nebunilor sînt titluri de neocolit.

centenar - eugen barbu

Montaje despre un mare prozator

Din dorința de a da autenticitate însemnării, autorul s-a slujit și de propria biografie. Cititorul va fi înțeles astfel semnificația primului montaj.

p 13 Eugen Barbu, Marcela Rusu, Aurel Baranga foto Ion Cucu credit MNLR jpg

centenar - eugen barbu

Ce trebuie să faci ca să nu mai fii citit

Nu cred că Barbu e un scriitor mare, dar Groapa rămîne un roman bun (preferata mea e scena nunții) și pînă și-n Principele sînt pagini de foarte bună literatură.

centenar - eugen barbu

Cele trei „Grații” ale „Împăratului Mahalalei”

Se pune, astfel, întrebarea ce ratează și unde ratează acest scriitor: fie în proasta dozare a elementului senzațional, fie în inabila folosire a șablonului ideologic.

dalí

Dalí la București

Dalí vorbește românilor pe limba lor, spunîndu‑le, totuși, o poveste pe care nu o pot auzi de la nici un alt artist.

Sever VOINESCU

dalí

„Bucureștiul reflectă perfect genul de om care a fost Dalí“ interviu cu Jasmine MERLI, curatorul expoziției „Universului lui Salvador Dalí“ deschisă la ARCUB

Însă, mai presus de orice, noi sperăm că vizita o să le facă pur și simplu plăcere.

Sever VOINESCU

dalí

Declarația de independență a imaginației și drepturile omului la propria sa nebunie

În coșmarul unei Venus americane, din beznă apare (ticsit de umbrele uscate) vestitul taxi al lui Cristofor Columb.

dalí

Gala

Numai Gala și Dalí sînt deghizați într‑o mitologie deja indestructibilă.

dalí

Suprarealismul sînt eu! Avida Dollars

Materia nu poate fi spiritualizată decît dacă o torni în aur.

dalí

Viziunea suprarealistă a lumii

Ne aflăm pe versantul opus lucidității gîndului. Intrăm în ținutul somnului, al tainei, adică în zona de umbră a vieții.

dalí

Dalí în România?

Dacă ar fi să căutăm influența lui Dalí în arta românească, este necesar ca mai întîi să înțelegem cine și ce a fost Salvador Dalí.

noile fanatisme

Mințile înfierbîntate

Cu alte cuvinte, cum diferă noile forme de fanatism de cele din trecut?

Stela GIURGEANU

noile fanatisme

Dragă Domnule Cioran,

Pe vremuri, m-ați fi vrut arestat; acum, trebuie să-mi acceptați o „distanță ironică de destinul nostru”. Vai, lumea merge înainte cu „semi-idealuri”!

noile fanatisme

„Rezistența acerbă a tuturor partidelor de a se popula cu membri educați: cea mai nocivă formă de fanatism românesc” interviu cu jurnalistul Cătălin PRISACARIU, cofondator Defapt.ro

Asta e o întrebare care are foarte multe variabile: locul, perioada, online, offline, vîrsta, educația și tot așa.

Parteneri

Cât costă, de fapt, o shaorma în Nibiru. Selly a promis prețuri mai mici decât în Bulgaria

Participanții la ediția din 2026 a festivalului „Beach, Please!” au început să descopere nu doar artiștii și atmosfera din noua stațiune Nibiru, ci și prețurile practicate în zona de food court.

Donald Trump, campionul gafelor: liderul SUA a vorbit despre „Republica Islamică a Japoniei”, la summitul NATO de la Ankara

Donald Trump a susţinut miercuri o conferinţă de presă alături de Volodimir Zelenski la Ankara, în marja summitului NATO, unde a fost întrebat despre împrumutul sistemelor de apărare aeriană Patriot către Ucraina, iar preşedintele american a avut un lapsus de exprimare flagrant.

Angela Similea împlinește 80 de ani. Povestea emoționantă a marii artiste. „Adunasem suficientă 'ocară' din partea publicului”

Angela Similea, una dintre cele mai iubite și respectate artiste din muzica ușoară românească, împlinește astăzi, pe 9 iulie, venerabila vârstă de 80 de ani.

SUA au atacat din nou Iranul, 8 iulie 2026 FOTO captura video X

SUA au atacat Iranul, după avertismentul lui Trump de la Ankara. Alertă în Qatar și Bahraini. „Lucrurile se vor agrava mult mai mult”

Statele Unite au lansat miercuri seară o nouă serie de atacuri aeriene asupra Iranului, la câteva ore după ce președintele Donald Trump a declarat, la summitul NATO de la Ankara, că armistițiul dintre cele două țări poate fi considerat încheiat.

Două zodii vor avea parte de o bucurie uriașă între 10 și 16 iulie. Vor primi vestea pe care o așteptau de mult și vor plânge de fericire

Perioada 10-16 iulie vine cu schimbări spectaculoase pentru două zodii care au trecut prin luni dificile, pline de incertitudini, amânări și momente în care și-au pierdut speranța.

Tehnica de ascultare folosită de fosta Securitate

Cum arăta un filaj al Securității?

Aceasta este definiția filajului pe care o întâlnim în cursul de specialitate al Securității (D 17793, vol. 28):

Bilanțul cutremurelor din Venezuela a ajuns la 3.811 morți. Aproape 17.000 de persoane au fost rănite și tot atâtea au rămas fără case

Bilanțul victimelor celor două cutremure puternice care au lovit Venezuela pe 24 iunie a fost revizuit și a ajuns la 3.811 morți, a anunțat miercuri președintele Adunării Naționale, Jorge Rodriguez, în cadrul unei intervenții televizate.

9 treburi casnice pe care este mai bine să le amâni când plouă. Greșelile care îți pot afecta locuința

O zi ploioasă pare momentul perfect pentru a rezolva lista de treburi din casă, însă specialiștii spun că unele activități ar trebui amânate.

Maria Zaharova foto Amabasada Rusiei în România jpg

Zaharova susține că „fisurile” din NATO persistă, în ciuda unității afișate la summit. Confruntarea cu Rusia este „existențială și sistemică”

Purtătoarea de cuvânt a Ministerului rus de Externe, Maria Zaharova, a declarat că divergențele din interiorul NATO nu au dispărut, în ciuda unității afișate de statele membre la summitul alianței de la Ankara.

Foloasele lingvisticii computaţionale

CARICATURA SĂPTĂMÎNII

DILEMA BLOG

Parteneri