Foloasele lingvisticii computaţionale

Liviu P. DINU
Publicat în Dilema Veche nr. 733 din 8-14 martie 2018
Foloasele lingvisticii computaţionale jpeg

În timpul unei lecţii de matematică alternativă de clasa a doua, la întrebarea „La ce credeţi voi că ne foloseşte matematica?“, Ianis, unul dintre năzdrăvanii clasei, răspunde extrem de dezinvolt: „Să nu ne înşele la piaţă!“ Departe de mine gîndul de a compara răspunsul cu citatul pitagorean pe care îl aveam eu în clasa a doua pe pereţii şcolii la care învăţam atunci, dar nu mă pot stăpîni să mă gîndesc la întrebările (şi răspunsurile) similare legate de domeniul pomenit în titlu. Fiindcă alăturarea celor două domenii care aparent se dezvoltă în emisfere distincte ale creierului deranjează ecartamentul ortodox în care multe persoane (cercetători sau nu) s-au aşezat confortabil, născînd în primă fază nedumeriri, urmate de un şir de ironii, respingere violentă cînd gluma se îngroaşă şi, în final, iată, o normalitate.

Lucrurile au stat şi stau aşa nu numai la noi (cu un plus de vigoare, deh!), ci în aproape toate mediile universitare în care s-a încercat timid introducerea domeniului. Erhard Hinrichs povestea că, atunci cînd, după lupte crîncene, a reuşit să construiască departamentul de Procesare a Limbajului Natural (NLP) la Tübingen, în timpul inaugurării şi al prezentării festive a fost întrerupt de un coleg umanist care i-a replicat sec: „Adică voi vreţi să faceţi cu calculatorul ceea ce noi pînă acum făceam cu capul?“ Reacţiile venite din zona ştiinţelor tari nu sînt cu nimic mai prejos, dar nu e locul aici pentru o colecţie de replici şi reacţii. Mai amintim doar reacţia unor critici literari stimabili care într-o vreme reduceau lingvistica computaţională la numărarea de cuvinte şi cu asta aruncau în derizoriu pe oricine s-ar fi aplecat asupra domeniului.

Reacţia (împărtăşită şi de mulți oameni de ştiinţă) nu este departe de adevăr, numai că se referă la o realitate din anii ’50-’60 care venea în urma secţiunii speciale de lingvistică cantitativă de la cel de-al şaselea Congres de Lingvistică de la Paris din 1948, perioadă într-adevăr extrem de propice pentru investigaţiile preponderent statistice ale limbajului natural. Este perioada în care sînt puse bazele principiilor de tip minim efort care par să guverneze limbajul natural („cu cît sînt mai lungi construcţiile lingvistice, cu atît sînt mai scurte elementele sale constitutive“), să se identifice diverse legi statistice care guvernează anumite elemente lingvistice din text sau limbă (care este probabilitatea de apariţie a unui cuvînt cu un anumit număr de silabe), sau încep să se structureze proprietăţi cantitative ale limbii menite să creioneze o hartă a limbii (vezi Fonostatistica Alexandrei Roceric). Însă tot în acest timp apare generativismul lui Chomsky, iar sfîrşitul deceniului şapte aduce nu numai Aselenizarea şi Revoluţia de la Praga, dar şi primul şoc în domeniu: este vorba despre celebrul raport ALPAC care oprea finanţarea americană pentru traducere automată datorită rezultatelor modeste. Se prăbuşea visul (nu numai american) lingvisticii computaţionale (LC)?

Din fericire, făcut cu bună-credinţă, raportul îndrepta tot răul spre bine: semnala o realitate existentă deja pe buzele tuturor, şi anume că în perioada următoare domeniul procesării limbajului natural trebuie să se rafineze în topici speciale care să rezolve probleme specifice ale limbii şi abia apoi să reatace problema traducerii automate. Este momentul în care intră în scenă Solomon Marcus. În doar cîţiva ani pune domeniul LC pe harta domeniilor frecventabile şi capătă rapid recunoaştere internaţională.

Unde sîntem acum, o jumătate de secol mai tîrziu?

Domeniul a cunoscut o dezvoltare şi o specializare remarcabile, greu de imaginat din afara domeniului. Semnalăm doar faptul că principala şcoala de vară dedicată studenţilor europeni şi nu numai (ESSLLI) numără în fiecare an în jur de 50 de cursuri (topici) distincte de cîte o săptămînă, fiecare curs tratînd o anumită parte din LC şi nesuprapunîndu-se peste celelalte cursuri. Calendarul conferinţele dedicate domeniului seamănă cu calendarul turneelor de tenis: începe în ianuarie şi se termină în noiembrie, fiind greu să găseşti loc pentru o nouă conferinţă. Sînt conferințe de „grand slam“ ACL, EMNLP, NAACL, COLING, EACL, urmate de o listă lungă de conferinţe absolut onorabile, obligatorii pentru oricine activează în domeniu, şi în care rata de acceptare a lucrărilor este tot mai mică.

Dar, totuşi, ne ajută LC la piaţă? Sau doar dă aceleaşi răspunsuri abuzînd în schimb de tehnologia modernă?

Nu vom juca această ruletă, dar vom prezenta cîteva rezultate care conţin germenii unor răspunsuri. Mai întîi, noi nu credem ca domeniul LC se poate substitui muncii specializate a lingviştilor, criticilor, psihologilor, traducătorilor, analiştilor din diverse domenii, sau că ar putea funcţiona fără ei, în schimb poate funcţiona ca o plasă ajutătoare şi de siguranță pentru aceştia. Concret, rezultatele furnizate de către LC pot funcţiona ca un filtru care să reducă plaja de căutări, să dea indicii despre posibile rezultate, să îndrepte atenţia asupra unor zone de analiză, să (semi)automatizeze anumite procese manuale costisitoare în timp şi resurse şi, nu în ultimul rînd, să semnaleze anumite interpretări şi piste greu accesibile altfel ochiului uman.

„În aproape 98% din cazuri“

Fără pretenţia unui studiu exhaustiv, exemplificăm cîteva etape prin prisma unor lecturi şi experienţe personale.

S-a investit mult în sintaxă cu convingerea că, odată rezolvată, maşina nu va mai vedea „o femeie singură“ drept „o singură femeie“. La fel şi în morfologie, şi, cu ceva mai puţină insistenţă, în fonologie. Rezultatele s-au apropiat de performanţele oamenilor, picînd totuşi uneori diverse teste. Şi totuşi, cîteva lucruri sînt de semnalat şi aici: ezitările maşinii în identificarea corectă a părţilor de vorbire sau în determinarea pluralului vreunui substantiv neutru în română, de exemplu, sînt erori pe care le întîlneşti şi la cei ce învaţă o limbă străină (de exemplu, maşina a avut aceleaşi ezitări în faţa pluralului terminat în „uri“). Pentru română, dar nu numai, maşina a reuşit să silabisească aproape de performanţa umană, reuşind să identifice reguli acolo unde oamenii nu se gîndiseră. În plus, în aproape 98% din cazuri, maşina a reuşit să prezică corect accentul în română. Sînt exemple simple, care arată că maşina a reuşit să „copieze“ munca omului în probleme elementare de studiu al limbii. Aceşti paşi erau considerați esenţiali înainte de redeschiderea surselor de finanţare pentru proiecte mai complexe.

De cu totul altă natură sînt rezultatele recente din zona lingvisticii istorice: putem spune noi care este cuvîntul din care a provenit un cuvînt modern dintr-o limbă dată? LC a început să ofere răspunsuri acceptabile la această sarcină, astfel încît, în filtrul dat de primele cinci posibile cuvinte, cuvîntul real se găseşte cu o bună acurateţe. Dacă ne gîndim că pînă mai ieri metodele comparative erau singurele mijloace avute la îndemînă, cu costuri nu de neglijat, aceste tehnici moderne pot oferi un ajutor nesperat colegilor.

Ce se întîmplă cu similaritatea limbilor naturale? În mandatul de comisar cu multilingvismul, Leonard Orban a elaborat un raport asumat de UE în care cerea explicit să se ofere o măsură a distanţelor dintre limbile europene cel puţin. Fiindcă, dacă apartenenţa unei limbi la una dintre familiile lingvistice este aproape unanim acceptată, distanţa dintre limbi (europene sau nu) este un subiect de dispută continuă. Baza de date Ethno--
logue.com spune că româna se aseamănă 70% cu franceza, ceea ce e departe de adevăr, dar este folosit masiv. Cauzele erorilor sînt multiple, nu avem loc aici de o analiză a lor, ci amintim doar că recent am propus o nouă clasificare a distanţelor lexicale şi sintactice dintre română și celelalte limbi europene. Identificarea autorului unor texte cu paternitate incertă este o temă care merge mînă în mînă cu critica şi istoriografia literară. Folosind cu totul şi cu totul alte mijloace, propunînd termenul de stilom literar, LC a putut de multe ori să dea o mînă de ajutor criticilor sau să dea unele indicii (vezi cazul recent al Elenei Ferrante).

Ultimii ani au adus un subiect nou: extragerea opiniilor din texte şi analiza sentimentelor. Perierea textelor electronice şi inventarierea polarităţilor opiniilor exprimate sînt tehnici care, utilizate cu maturitate şi înţelepciune, pot aduce foloase nebănuite celor interesaţi. Și da, Trump a făcut un mare bine domeniului: fără el ar mai fi trecut mult timp probabil pînă cînd lumea să se sesizeze de prezenţa fake news-urilor (chiar dacă primele rezultate de detectare a recenziilor mincinoase pe Trip-Advisor, de pildă, existau dinainte de 2012). Stabilirea datei la care a fost scris un text (doar pe baza conţinutului, nu cu carbon), realizarea automată de rezumate ale textelor sau succesul recent al tehnicilor de simplificare a textului sînt doar alte cîteva lucruri cu care mulţi colegi de-ai noştri se joacă.

Şi da, Procesarea Limbajului Natural (sinonim pentru LC) are nu numai trecut, prezent, dar şi viitor: dacă la Universitatea Cornell numărul studenţilor care studiază NLP aproape s-a dublat în ultimul an (similar cu ce se întîmplă în Europa), iată că şi la Universitatea din București vor porni din această toamnă două masterate dedicate domeniului: unul de Digital Humanities la Facultatea de Limbi şi Literaturi Străine, şi unul de Procesare a Limbajului Natural la Facultatea de Matematică şi Informatică, ambele cu profesori români şi străini. 

Liviu P. Dinu este prof. dr. la Facultatea de Matematică şi Informatică a Universităţii din Bucureşti şi director al Human Language Technologies Research Center.

Foto: flickr

„Am avut covidu’!”, iar „de murit, murea oricum   ” jpeg
„Nu ne mai facem bine”
Și eu am propria mea curiozitate, așa că încerc să aflu ce s-a schimbat aici, din perspectiva lor, este una dintre principalele teme de discuție.
p 10 jpg
România era țara mea bună, dar vitregă
Astăzi consider că România e țara în care mă pot întoarce cînd doresc, e „cartierul vecin”.
Palatul Culturii Iasi   Aerial jpg
Iași, mon amour contrarié
Iașiul îmi pare un cameleon. Apar întruna terase noi și e tonifiant. Vara asta am mîncat într-un gastrobar cu specific andaluz, cu o veselă aleasă cu gust, cu prețuri rezonabile și porții mărișoare.
640px Parliament 704254 jpg
Stai, cum adică avem o imagine bunicică la Bruxelles?!
Dar cum adică „nu creăm probleme” la Bruxelles, dacă în România sînt atîtea probleme? E simplu, grijile Bruxelles-ului sînt altele decît ale noastre.
p 12 WC jpg
Cum văd eu România? După 15 ani și de la 3.500 de kilometri distanță?
În cele cîteva limbi de circulație pe care le înțeleg, nu găsesc un sinonim în valoare absolută al cuvîntului „omenie”. Poate în el rezidă, totuși, logica speranței.
Bjc cv cs foto 089 jpg
Secretul stă la primărie
În România, m-am ocupat, vrînd-nevrînd, cu colecționarea de faze și impresii, să le spun ilustrate.
p 13 sus jpg
Cînd trăiești între aici și acolo
Am început, timid, să ies în afara granițelor, întrebîndu-mă deseori cum ar fi viața mea în altă parte, în momentul în care nimic nu mă mai reținea în România.
Page 428 Captured Romanians transported away (12239755986) jpg
Trei neîntoarceri
România are acum un chip ponosit, în tușe de gri și negru. Dar e OK pentru că e o Românie exterioară, din afara ta, e un context din care ai scăpat. High five.
Romania Parliament at night jpg
Sedarea românilor
n reacție, nu puțini români refuză calmarea și emigrează, seduși de melodia sirenelor potrivit cărora „în România, asta e!”, totul a „rămas la fel”.
Scriitorii, rudele mele maghiare jpeg
Tribunalul Poporului
Vedem asta în fiecare zi: nimic din ceea ce se postează nu rămîne necorectat, necontestat, nejudecat, nesancționat. Mai devreme sau mai tîrziu – ca să fac o parafrază – fiecare are parte de cincisprezece minute de judecată publică.
p 10 jpg
Critica publică în online: virtuți și vicii
Am observat, de asemenea, și cum platometre digitale au fost utilizate pentru a instiga la ură, dispreț și sexism, pentru a delegitima această mișcare și a decredibiliza victimele violenței de gen.
p 11 Ostrakon WC jpg
Ostracizarea online ca dilemă liberală
Cu toate acestea, nu trebuie să uităm de pericolul pe care apelul la ostracizarea online îl deschide, ținînd cont de stimulentele pe care viața în mediul online ni le oferă în conjuncție cu impactul pe care emoțiile morale îl au la adresa modului în care interacționăm cu ceilalți
640px The Two Gossips (Les Deux Commères) MET DP808826 jpg
Gura satului global
Gura satului global nu este diferită de gura satului tradițional decît prin instrumentele sale.
640px Cyber bullying 122156 960 720 jpg
Cel fără de păcat – o sursă idiopatică?
Realitatea socială poate fi remarcabilă datorită ansamblului de creiere umane adunate pentru a influența evoluția societății în bine, și aici avem nevoie de etică – în lipsa acesteia, realitatea se poate transforma în factori și actori sociali maligni.
John George Brown The Bully of the Neighborhood jpg
Și cu copiii ce facem? Intruziune, expunere, violență, anulare
Spațiul virtual a căpătat dimensiuni tot mai mari în viața copiilor, marea lor majoritate preferînd o interacțiune mediată de un dispozitiv uneia reale.
p 14 sus jpg
J’accuse! Indignarea morală și ostracizarea digitală
Nu e mare lucru să ne gîndim mai mult înainte de a (re)acționa, cum nu e nici prea mare efortul de a încerca să vedem lucrurile dintr-o perspectivă mai largă, dincolo de interesele noastre imediate.
p 21 jpg
Linșajul contemporan
Strămoșii noștri nu aveau lideri, judecători sau poliție, dar aveau mijloace pentru a răspunde celor care încălcau normele sociale de a respecta autonomia celorlalți sau de a contribui în mod echitabil la bunăstarea socială
Cea mai bună parte din noi jpeg
Ce rol mai au valorile?
Am aflat că valorile sînt cele care ne dau un sens, iar acest lucru ne face să fim perseverenți și să depășim obstacolele.
p 10 sus jpg
Dihotomia fapte/valori a fost greşit înţeleasă
Valorile sînt ingredientele indispensabile ale realităţii sociale.
Elevi jpg
StateLibQld 2 198959 Planting a tree for Arbor Day at Ban Ban Springs State School, 1920 jpg
Tot ceea ce vreau să fiu
„Prietenia înseamnă să împarți punga de chips-uri cu celălalt.”
p 12 sus jpg
Mesajul corect
Într-o clinică de toxicomani e barometrul cel mai fidel al suferinței unei societăți.
640px Islamic   Garden Scene   1987 360 4   Art Institute of Chicago jpg
Valori, virtuți, viață în islam
Societățile musulmane sînt puternic condiționate de tradiții.
Social Media and Technology jpg
Social media și tribalizarea valorică
Viața noastră socială nu arată întotdeauna precum fluxul nostru de pe rețelele sociale.

Adevarul.ro

Alexandru Arșinel și soția lui, Marilena / Foto via Click
Dramele prin care a trecut Alexandru Arșinel. Ce a pățit soția lui
Alexandru Arșinel a murit joi seară, la vârsta de 83 de ani. De-a lungul vieții, actorul a trecut prin mai multe drame, una fiind legată și de soția sa.
Dmitri Peskov FOTO EPA-EFE
Rusia recomandă prudenţă în speculaţiile privind armele nucleare
Speculaţiile că Kremlinul ar putea folosi armele nucleare în lupta pentru teritoriile anexate de Rusia de la Ucraina doar răspândesc frica, afirmă Moscova, relatează vineri DPA.
premiul nobel foto epa efe
Premiile Nobel 2022, umbrite de războiul din Ucraina. Prima distincție, acordată luni, pentru Medicină
Celebrarea păcii şi a binefăcătorilor umanităţii în contextul conflictului dezlănţuit în Europa: premiile Nobel sunt decernate începând de luni în umbra apăsătoare a războiului din Ucraina, informează AFP.

HIstoria.ro

image
„Historia Special”: 100 de ani de la încoronarea regilor României Mari
„Historia Special”: 100 de ani de la Încoronarea de la Alba Iulia
image
Care este importanța strategică a Insulei Șerpilor?
De mici dimensiuni, având doar 17 hectare, Insula Șerpilor are cu toate acestea o importanță geostrategică semnificativă. Controlul insulei și al apelor înconjurătoare afectează toate rutele de navigație care leagă Ucraina de restul lumii.
image
Cum era la ora de istorie ținută de I.L. Caragiale?
Ca mulţi alţi literaţi, Ion Luca Caragiale a avut o pasiune pentru istorie, inclusiv pentru cea naţională. Blamat de unii încă din timpul vieţii pentru că, în scrierile sale, s-ar fi relevat drept anti-român, el a avut, uneori, o viziune romantică (dacă nu chiar idilică) asupra trecutului neaoș.