Tezaurul prezintă. Tezauri. principiile lingvistice ale construcției tezaurului. Noul dicționar explicativ și derivativ al limbii ruse, T. F. Efremova

Departamentul TAOY KemGUKI

Tezauri de regăsire a informațiilor:

structura, scopul si procedura de dezvoltare

1. Tezaur ca modalitate de reprezentare sistematizată a cunoștințelor și

un fel de dicționar ideografic.

2. Tezauri de regăsire a informațiilor: esență și scop

3. Structura IPT

4. Procedura de dezvoltare, examinare, înregistrare și întreținere a IPT.

Bibliografie

1. GOST 7.74 - 96. Limbi de regăsire a informațiilor. Termeni și definiții [Text]. - Intrare. 1997-07-01. - Minsk: Consiliul Interstatal pentru Standardizare, Metrologie și, 1997. - 34 p. (Sistem de standarde pentru informare, biblioteconomie și publicare) TC 191.

2. GOST 7.25-2001. Tezaurul de regăsire a informațiilor monolingv. Reguli de dezvoltare, structură și formă de prezentare [Text]. – GOST 7,25-80; Introducere 2002-07-01. - M.: Editura IPK de standarde, 2001. - 16 p. MTK 191.

3. GOST 7.24-2007 Tezaur multilingv pentru regăsirea informațiilor. Compoziție, structură și cerințe de bază pentru construcție. - În loc de GOST 7.24-90; intrare. 2008-07-01. / Consiliul Interstatal pentru Standardizare, Metrologie și Certificare. - M.: Standartinform, 2008. - 7 p. (Sistem de standarde privind informarea, biblioteconomia și publicarea)

4. Baranov, O. S. Dicționar ideologic al limbii ruse / O. S. Baranov. - M.: Editura ETS, 1995. - 820 s

5. Zhmailo, S. V. Despre definiția tezaurului [Text] / S. V. // NTI. Ser. 1 Munca de organizare și informare. - 2003. - Nr. 12. – P.20 – 25.

6. Zhmailo, S. V. Dezvoltarea tezaurilor moderne de regăsire a informațiilor [Text] / S. V. Zhmailo // NTI. Ser. 1 Organizarea și metodologia muncii informaționale. -2004. - Numarul 1. – P.23 – 31.

Deci, în dicționarul ideografic al limbii ruse de O. S. Baranov (4), se disting 12 secțiuni superioare ale dicționarului ideografic, printre care se numără: „ordine, natură, activitate, cultură”, etc., fiecare dintre ele împărțită în grupuri, subgrupe, departamente, secțiuni . Toate cuvintele din acest dicționar sunt grupate în cuiburi în funcție de semnificația lor și sunt grupate după un anumit concept cu care sunt asociate cel mai adesea prin relații de specii. Cuiburile sunt grupate în subsecțiuni și așa mai departe. În acest moment, în dicționar există 5923 de cuiburi, 7 niveluri de diviziune (conform www.rifmovnik.ru/thesaurus.htm din 16 februarie 2010). Iată un exemplu de intrare de dicționar din acest dicționar:

178.4.7 aromă ▲ - un miros plăcut (de exemplu, miros de flori, iarbă, fân. blând #. îmbătător #). aromatizare . . . ambra. tămâia.

Codul cuvântului „aromă” reflectă clasificarea ideografică acceptată în acest cuvânt dat, în special, corelarea acestui cuvânt cu categoria „178-Senzații”.

Astfel, termenii „tezaur”, „dicționar ideologic”, „dicționar de tip tezaur” înseamnă în primul rând că totalitatea cuvintelor limbii este prezentată în ei în așa fel încât un grup de cuvinte să includă cuvinte care au sens similar. . Scopul principal al dicționarelor ideografice este o colecție de unități lexicale unite printr-un concept comun; acest lucru facilitează pentru cititor găsirea celor mai potrivite mijloace pentru exprimarea adecvată a gândirii și promovează stăpânirea activă a limbii.

Din istoria tezaurilor

JACHETE 2302

în Costume

Produse pentru haine

Produse de cusut

n Jachetă cu două piept

Jacheta combinata

Jachetă de sport

în Măsuri de ambalare

Material rămas

Deseuri materiale

Notă lexicală;

Ascriptori sau descriptori-sinonime;

Descriptori superiori;

Descriptori în aval;

Descriptori asociativi;

Descriptori legați de alte tipuri de relații.

În cadrul fiecărui grup de LU asociate cu un descriptor principal printr-un fel de relație paradigmatică, trebuie să existe o ordine alfabetică de aranjare. De exemplu:

LIMBAJE ALGORITMICE

cu limbaje algoritmice

limbaje orientate către mașină

limbaje specifice domeniului

în SOFTWARE

LIMBAJE FORMALE

n AUTOCODURI

un ALGORITMI

PROGRAMARE cf. limbaje artificiale

O intrare ascriptor constă dintr-un ascriptor și descriptori sau o combinație de descriptori care o înlocuiesc atunci când procesează și caută informații. Iată exemple de articole ascriptor:

Caractere alfanumerice

LIMBAJE FORMALE spaniole

LIMBAJE NATURALE

vezi LIMBAJE ALGORITMICE

O intrare din dicționar poate include, de asemenea:

Cât de des este folosit descriptorul;

cod descriptor;

Cod descriptor conform indexului sistematic;

Indici de clasificare;

Mărci semantice și lexicografice suplimentare;

echivalente străine.

Calitatea unui index lexico-semantic este determinată de completitudinea unităților lexicale incluse în acesta. este înțeleasă ca probabilitatea de a introduce în tezaur orice cuvânt cu semnificație informativă pentru o anumită disciplină. Completitudinea indexului lexico-semantic și, în consecință, a întregului tezaur are un efect semnificativ asupra rezultatelor indexării documentelor și interogărilor.

Părțile suplimentare pot include indici sistematici, permutaționali, ierarhici și de altă natură și liste de categorii speciale de unități lexicale.

Un index sistematic este un index în care descriptorii sunt grupați în funcție de rubricile acceptate în IPT. Un index sistematic definește direcția tematică a tezaurului, îi dezvăluie conținutul și reflectă acele ramuri ale științei și tehnologiei care pot fi căutate cu una sau alta profunzime de detaliu. Necesitatea acestuia ca parte a IPT se datorează faptului că oferă o reprezentare vizuală a stării generale a terminologiei într-un anumit domeniu de cunoaștere, vă permite să construiți un model terminologic coerent și, dacă este posibil, toți termenii și concepte care ar trebui să-şi găsească loc în tezaur. Este destinat să faciliteze căutarea de termeni la compilarea imaginilor de căutare ale documentelor și interogărilor prin ordonarea unui set de descriptori și ascriptori pe subiect.

Indexul sistematic, în esență, este o schemă de clasificare pentru completarea tezaurului cu terminologie, deoarece este construit prin ordonarea unui set de descriptori în funcție de domeniile de studiu.

Indicii sistematici ai IPT sunt împărțiți în trei tipuri:

tematice,

Amestecat.

Această împărțire reflectă principiul construirii schemei de clasificare a unui index sistematic.

Principalele funcții îndeplinite de indicele sistematic al IPT:

Utilizare ca auxiliar în indexare, oferind, în total, căutarea descriptorilor pentru indexarea conceptelor care nu sunt reprezentate explicit în tezaur (funcția de căutare);

Utilizare în procesul de menținere a unui tezaur (funcția de menținere a IPT);

Utilizarea ca bază structurală a IPT, ca management al dezvoltării acestuia (funcția constructivă).

În conformitate cu GOST 7.25-2001 (2), atunci când se construiește un index sistematic de tipuri tematice și mixte în partea sa tematică, ar trebui să fie utilizate rubrici ale rubricatorului Interstate NTI sau un rubricator ASNTI specific compatibil cu rubricatorul Interstate NTI. La construirea unui index sistematic de tipuri categorice și mixte, în partea sa categorială urmează următoarele categorii generale:

Denumirile disciplinelor și ramurilor de activitate;

Articole, materiale;

Metode, procese, operații, fenomene;

Proprietăți, valori, parametri, caracteristici;

Relații, structuri, modele, legi, reguli, concepte abstracte.

Index ierarhic. Un index ierarhic este un index care oferă o listă de liste de descriptori, fiecare listă începând cu un descriptor care nu are părinte. Ea reflectă structura completă a relațiilor ierarhice în IPT. După fiecare descriptor, descriptorii sunt dați direct cu o indicație a nivelului lor în ierarhie, folosind numerotarea sau o denumire grafică a nivelului:

Necesitatea elaborării unui index ierarhic al IPT este cauzată de faptul că întregul sistem de subordonare a conceptelor nu este fixat în intrările de dicționar ale IPT, deoarece aceasta ar presupune o creştere semnificativă a indicelui lexico-semantic. este necesar să se dezvolte o secțiune independentă a IPT - un index ierarhic care să reflecte întregul lanț ierarhic de subordonare a descriptorilor la partea de jos.

Un index de permutare este un index care enumeră în ordine alfabetică toate cuvintele individuale care fac parte din componentele frazelor care denotă descriptori și pentru fiecare dintre ele sunt indicați toți descriptorii care includ aceste cuvinte. Prin urmare, fiecare termen apare în indexul permutațional de câte ori conține cuvinte semnificative. Scopul indexului permutațional este de a oferi o căutare a descriptorilor-expresii după orice cuvânt inclus în compoziția lor, inclusiv cei care nu se află la începutul unei unități lexicale. Vă permite să grupați cuvinte cu o singură rădăcină într-un singur loc.

De regulă, un index permutațional este compilat într-un mod automat și are de obicei forma unui index de tip KWIC (Cuvânt cheie - În context - „Cuvinte cheie în context”), în care toate cuvintele semnificative - termenii - sunt aranjate in ordine alfabetica. în indicele de permutare se află în centrul coloanei, care este format din microcontextele elementelor termenului, iar partea din termeni care nu se potrivește este transferată în partea stângă a aceleiași linii:

cuantumul optic

excitare

electric

cu excitaţie dependentă

Generatoare de interferențe

GENERATORE SERIALE

GENERATOARE DC

GENERATOARELE DC se dovedesc a fi necesare.

4. Procedura de dezvoltare, examinare, înregistrare și întreținere a IPT

În prezent, procedura de elaborare, examinare și înregistrare a IPT este determinată de două standarde: GOST 7.25-2001 „Tezaurul de regăsire a informațiilor monolingv. Reguli de dezvoltare, structură, compoziție și formă de prezentare” și GOST 7.24-2007 „Tezaurul de regăsire a informațiilor multilingve. Compoziție, structură și cerințe de bază pentru construcție. În conformitate cu aceste standarde, funcțiile de examinare și înregistrare a IPT sunt îndeplinite de fondurile depozitare naționale și internaționale.

Fondul Național de Depozitare al IPT în limba rusă (inclusiv IPT care conține echivalentele descriptorilor în limba rusă) se află la , în VINITI.

Există, de asemenea, două IPT-uri depozitare internaționale:

1) IPT International Depository Fund în limba engleză, inclusiv IPT care conține echivalentele descriptorilor în limba engleză. Se află în, în Toronto, în biblioteca Facultății de Științe Informaționale a Universității din Toronto (Thesaurus Clearinghouse - „calculated”, The Library, Faculty of Information Studies, University of Toronto, TORONTO, Canada);

2) IPT International Depository Fund în toate limbile, altele decât engleza. Este situat în , în Varșovia, în informații științifice și tehnice și economice (Instytut Informacji Naukowej, Technicznej i Ekonomicznej, Clearinghouse, VARSOVIA A, Polonia.).

Adresele complete ale acestor organizații sunt date în GOST 7.25-2001.

GOST 7.25-2001 și GOST 7.24-2007 definesc acțiunile dezvoltatorilor IPT după cum urmează:

1. Înainte de a începe lucrul la crearea unui IPT, dezvoltatorul trebuie să se adreseze fondului de depozit național sau internațional corespunzător pentru a determina disponibilitatea tezaurilor înregistrate pe o anumită temă. În prezența unor astfel de tezaure, se face o evaluare a posibilității de a le introduce într-un sistem dat. Dacă nu se găsesc astfel de tezaure, este posibilă crearea unui IPT. În același timp, întreaga tehnologie pentru crearea IPT trebuie să respecte strict GOST 7.25-2001 și GOST 7.24-2007

2. IPT terminat (dezvoltat) trebuie să fie supus unei examinări pentru conformitatea cu GOST 7.25-2001. ei îndeplinesc standardul, apoi National emite dezvoltator . din acest IPT este depus (depus) în fondurile naționale relevante sau într-unul dintre fondurile de depozit internaționale (în Toronto sau Varșovia).

Depozitariile naționale difuzează informații despre componența fondului IPT-urilor depuse și le furnizează dezvoltatorilor de noi IPT-uri pentru a împrumuta elemente și a asigura compatibilitatea suportului lingvistic al diferitelor sisteme informaționale. Astfel, aceștia îndeplinesc funcțiile de examinare, înregistrare, stocare a IPT-urilor și informații despre IPT-urile disponibile.

multe operațiuni pentru managementul IPT);

Tranziția AIS de la operarea independentă la operarea în rețea (atunci când se utilizează IPT în cadrul unui principiu unic de întreținere a acestora, acestea trebuie convenite).

Procesul de menținere a IPT-ului în funcțiune se numește menținerea sau ajustarea tezaurului. De obicei, include următoarele:

Modificarea compoziției lexicale a IPT: introducerea de noi unități lexicale, a acestora, schimbarea statutului unităților lexicale (traducerea unui cuvânt cheie în descriptori și invers);

Schimbarea relațiilor paradigmatice în IPT (întărire, slăbire);

Menținerea IPT presupune utilizarea obligatorie a instrumentelor de automatizare care vă permit să efectuați rapid operații atât de laborioase precum sortarea alfabetică a dicționarului, vocabular, verificarea reciprocității și consistenței referințelor, cu ajutorul cărora se fixează relații paradigmatice în ITP etc. .

Tezaur(din greacă thesauros - comoară) în lingvistica modernă - un tip special de dicționare de vocabular general sau special, care indică relații semantice (sinonime, antonime, paronime, hiponime, hipernime etc.) între unități lexicale. Astfel, tezaurile, în special în format electronic, sunt unul dintre cele mai eficiente instrumente de descriere a domeniilor individuale.

Spre deosebire de un dicționar explicativ, un tezaur vă permite să identificați sensul nu numai cu ajutorul unei definiții, ci și prin corelarea unui cuvânt cu alte concepte și grupurile acestora, care pot fi folosite în sistemele de inteligență artificială.

În trecut, termenul tezaur desemna în primul rând dicționare care reprezentau vocabularul limbii cu maximă completitate cu exemple de utilizare a acesteia în texte.

Paronimie- asemănarea parțială a sunetului a cuvintelor cu diferența lor semantică (totală sau parțială). Paronimele sunt adesea o sursă de erori de vorbire.

Exemple de paronime cu o singură rădăcină: îmbrăcare - îmbrăcat, uman - uman, plătiți - plătiți - plătiți.

Exemple de paronime complet neînrudite: biologie - briologie, bulion - brillon, compot - complot, textură - fractură.

Cu toate acestea, un tezaur este mai mult decât un instrument de regăsire a informațiilor. Tezaurul poate fi considerat ca un model universal al unui sistem terminologic și, prin urmare, ca un sistem formal de cunoștințe conținut în limbajul unui anumit domeniu științific.

Tezaur de uz general

Tezaurul în cea mai generală definiție este un dicționar cu legături semantice între unitățile de vocabular. De la sfârșitul anilor 1950, tezaurile au fost folosite în sistemele de traducere automată și sistemele de recuperare a informațiilor (IPS).

Spre deosebire de dicționarele semantice, care sunt concepute pentru a descrie vocabularul general în detaliu, tezaurile sunt concepute pentru a stoca și clasifica cuvinte și fraze extrem de specifice. De exemplu, cuvântul substanţă se află în dicționarul ROSS (Dicționar semantic general rus), iar toate denumirile compușilor chimici sunt deja în tezaur.

Ce relații sunt descrise în tezaur? De obicei:

    gen-specie (AKO)

    parțial întreg (POF)

    sinonimie/antonimie

    asociativ.

Un exemplu de relație gen-specie

Exemplu de analiză semantică

Acest paradigmatic(legături stabile care există între cuvintele dintr-o limbă). Și asta nu este tot.

Sintagmatic Legăturile (text) nu sunt reprezentate în tezaur.

Exemplu: WORDNET - tezaur computer inteligent

http://wordnet.princeton.edu/perl/webwn

Creat la Universitatea Princeton și distribuit gratuit.

Caracteristici cheie.

Cuvintele din el sunt grupate în grupuri sinonime ( synsets - synsets). Ele sunt împărțite în 4 dicționare - substantive, adjective, verbe și adverbe.

Sinseturile sunt unite atât în ​​relații ierarhice (hiponime și hipernime), cât și în raport cu antonimie și, de asemenea, meronimie (a fi parte din ceva sau a consta din părți).

Problema morfologiei este și ea rezolvată - cuvântul după apelul la WN revine în forma sa originală.

Tezaur de regăsire a informațiilor

În domeniul regăsirii informațiilor, tezaurile beneficiază de trecerea de la text la descriptori care descriu un obiect din lumea reală. Trecerea la descriptori permite o indexare extinsă (redundantă).

În tezaurul de regăsire a informațiilor, relațiile PARADIGMATICE dintre descriptori sunt exprimate în mod explicit (nu toate, dar cele care sunt cel mai adesea importante pentru creșterea caracterului complet al regăsirii informațiilor). S-a determinat experimental că cele mai importante relaţii paradigmatice sunt

    subordonare

    asemănare

    specie-gen (gen-specie)

    cauza efect

    parte-întreg.

Exemplu de intrare de dicționar:

Utilaje agreeculturale.Echipamente agreecultural

Sin. mașini agricole, mașini agricole,

Vedere: mașină de recoltat cartofi, semănătoare etc.

Un exemplu de indexare redundantă

Cerere "Mașini agreeculturale. Echipamente agreeculturale"

Exemplu: Tezaurul socio-politic al Sistemului Informațional al Universității de Limbă Rusă RUSIA

http://www.cir.ru/index.jsp

Dezvoltat de Organizația Autonomă non-profit „Centrul de Cercetare Informațională” (ANO TsII)

Tezaurul este o resursă terminologică implementată ca un dicționar de concepte și termeni cu legături între ei. Scopul principal al tezaurului este de a ajuta la regăsirea informațiilor: pe baza legăturilor tezaurului, interogarea este extinsă, navigarea prin legăturile tezaurului ajută la formularea mai clară a interogării în sine.

O caracteristică a ierarhiei Tezaurului UIS „Rusia” este pluralitatea clasificării, adică pentru majoritatea conceptelor, nu se caută un singur concept de clasificare (conexiunea SUS - JOS), ci puncte de vedere diferite asupra unui anumit concept sunt descris, de exemplu, conceptul de MAGAZIN poate fi considerat atât ca CLĂDIR, cât și ca O ORGANIZAȚIE DE COMERȚ.

Tezaurul pe teme socio-politice, include peste 26.000 de concepte, 62.000 de termeni, 100.000 de relații directe și 700.000 de relații moștenite între concepte. Versiunea actuală a Tezaurului descrie terminologia utilizată în domeniul socio-politic, inclusiv în domeniul economic, politic, militar, legislativ, social, al relațiilor internaționale și în alte domenii.

Numele complet al Tezaurului este un tezaur de regăsire a informațiilor pe subiecte socio-politice pentru indexare automată. Aici toate definițiile sunt importante:

    „preluare informații” - deoarece este conceput special pentru a fi utilizat în regăsirea informațiilor pentru a ajuta utilizatorul în formarea (clarificarea) cererii și pentru a extinde automat termenii cererii în timpul căutării;

    „pe subiecte socio-politice” - deoarece acoperă 95-99% din vocabularul și terminologia textului în limba rusă pe teme socio-politice;

    „pentru indexare automată” - întrucât stă la baza procesului de determinare automată a subiectului documentelor - gruparea termenilor apropiați în ierarhia tezaurului în noduri tematice, categorizare automată și adnotare automată.

Tezaure - Concluzie

Pentru multe tezaure cunoscute (WordNet, Roget, EuroWordNet), inferența automată prin legături de tezaur rămâne o mare problemă - atunci când extinderea la cel mai apropiat cartier este corectă, dar nu completă, iar încercările de extindere a cartierului duc la erori.

Sistemul conceptual al disciplinei Baza oricărei discipline este sistemul de concepte din această zonă. Definiția unui concept: Un concept este o gândire care reflectă obiecte și fenomene ale realității într-o formă generalizată prin fixarea proprietăților și relațiilor acestora; acestea din urmă (proprietăți și relații) apar în concept ca trăsături generale și specifice corelate cu clase de obiecte și fenomene (Dicționar lingvistic)


Concepte și termeni Pentru a exprima conceptul de domeniu în texte, se folosesc cuvinte sau expresii numite termeni. Setul de termeni ai disciplinei formează sistemul său terminologic. Relația unui anumit termen cu alți termeni ai sistemului terminologic al domeniului de studiu este dată de definiție


Definiții ale termenului? Un cuvânt (sau o combinație de cuvinte) care este o desemnare exactă a unui anumit concept din orice domeniu special al științei, tehnologiei, artei, vieții sociale etc. || Un cuvânt sau o expresie specială folosită pentru a desemna ceva. într-un anumit mediu, profesie (Marele Dicționar explicativ al limbii ruse)


Termeni - denumiri exacte ale conceptelor De obicei, fiecărui concept al zonei îi corespunde cel puțin un termen înțeles fără ambiguitate, al cărui sens este acest concept. - termeni, în sensul teoriei tradiționale a terminologiei Proprietăți ale termenilor - denumirile exacte ale conceptelor - termenul trebuie să se refere direct la concept, trebuie să exprime clar conceptul; - sensul termenului trebuie să fie precis și să nu se suprapună în sens cu alți termeni; - sensul termenului nu trebuie să depindă de context. Termenii care denumesc cu acuratețe un concept sunt subiectul de studiu al teoriei terminologiei, terminologii


Termeni texti În textele reale ale domeniului de studiu, pe lângă termenii principali, se pot folosi o varietate de expresii lingvistice diferite pentru a face referire la concept, pe care îl numim termeni texti: - opțiuni sintactice și de formare a cuvintelor: beneficiar al fondurilor bugetare - destinatarul bugetului; - variante lexicale - radiere directă, radiere indiscutabilă; - expresii cu mai multe valori, în funcție de context, servind drept referință la diferite concepte ale regiunii, de exemplu, cuvântul monedă în diferite contexte poate însemna monedă națională sau valută străină.














Descriptori etichetați Etichete - parte a numelui descriptorului macarale (echipament de ridicat) vs macarale (păsări) cochilii (structuri) - compararea diferitelor tezaure Preferințe pentru fraze: –Înregistrări fonografice vs. înregistrări (fonograf) Litere și plural: Lemn (material) Păduri (zone împădurite)






Includerea descriptorilor bazați pe expresii cu mai multe cuvinte Împărțirea unui termen crește ambiguitatea: hrana vegetală Sensul expresiei depinde de ordinea cuvintelor: știința informației - informația științifică Unul dintre cuvintele componente este în afara domeniului tezaurului sau prea general: mai întâi relațiile de descriptor de ajutor nu decurg din structura sa: – Rinichi artificiali, statut de refugiat, semafoare




Relații asociative Domeniu de activitate - caracter - Matematică - matematician Disciplina - obiect de studiu - Neurologie - sistem nervos Acțiune - agent sau unealtă - Vânătoare - vânător Acțiune - rezultat al acțiunii - țesut - țesătură Acțiune - scop - Legare - carte Cauză-efect - Deces - funerar Valoare - unitate de masura - Puterea curentului - amper Actiune - contrapartida - Alergen - medicament antialergic etc.


Tezauri de regăsire a informațiilor: etape de dezvoltare Etapa unu: indexatorii descriu subiectul principal al textului cu cuvinte și expresii arbitrare Termenii obținuți din mai multe texte sunt reuniți. sinonime condiționate, restul sunt șterse Termenii specifici nu sunt de obicei incluși


Tezauri de regăsire a informațiilor: arta designului Descriptorii sunt termeni care sunt necesari pentru a exprima subiectul principal al documentului Sinonimele sunt incluse doar pe cele mai necesare (de exemplu, începeți cu o altă literă) pentru a nu împiedica activitatea indexatorului Termenii similari ar trebui reduși la un singur termen pentru a evita indexarea subiectivității Nivelurile ierarhice, includerea unor termeni specifici este limitată


Tezaur de regăsire a informațiilor: arta dezvoltării - 2 În cazuri complexe, descriptorii sunt furnizați cu etichete și comentarii -LIV: bombardament - bombardament -Termeni ambigui: o valoare în tezaur (capitala), nu se încadrează în tezaur, etichete!! ! Tezaur tradițional de regăsire a informațiilor - un limbaj artificial construit pe baza unor termeni reali




IPT tradițional: aplicație în procesare automată Lipsa cunoașterii limbajului real al software-ului Lipsa cunoașterii limbajului real al software-ului Legislative Indexing Vocabular:Legislative Indexing Vocabular: – în text TRUPELE – în tezaur FORȚE MILITARE – în text CAPITAL – capital, în tezaur numai majuscule Sugerat: fiecare descriptor supliment cu liste de cuvinte și termeni Sugerat: fiecare descriptor trebuie completat cu liste de cuvinte și termeni Dar: polisemie sau legat de diferiți descriptori. Dar: polisemie sau raportat la diferiți descriptori. Rezolvarea ambiguității Rezolvarea ambiguității


IPT tradițional: extindere automată a interogării Problemă cu asocierile Sugerat: introduceți ponderi introduceți ponderi introduceți numele relațiilor: obiect, proprietate etc. introduceți numele relațiilor: obiect, proprietate etc. CONCLUZIE: trebuie să înveți cum să construiești resurse lingvistice special pentru procesarea automată a colecțiilor de texte


Tezaur EUROVOC – tezaur multilingv al Comunităţii Europene Tezaur în 9 limbi Versiunea rusă a EUROVOC –+5 mii de concepte care reflectă specificul rusesc Tezaur multilingv – Descriptor – nume în diferite limbi – Ascriptori – pentru unele limbi


Indexare automată bazată pe reguli pe tezaurul EUROVOC (Hlava, Heinebach, 1996) Exemplu de regulă: IF (lângă „Tehnologie” ȘI cu „Dezvoltare”) UTILIZARE Program comunitar UTILIZARE ajutor pentru dezvoltare ENDIF 40 mii reguli. Testare: cei 20 de descriptori cei mai frecventi din text, generati automat - 42% completitate, comparativ cu rubricarea manuala


Indexare automată bazată pe stabilirea ponderilor de corespondență între cuvinte și descriptori (Steinberger et al., 2000) Etapa 1 - stabilirea unei corespondențe între cuvintele text și descriptorii alocați pe baza unor măsuri statistice (chi-pătrat sau log-probabilitate) Descriptor de MANAGEMENT PESCUIT - următorul cuvinte (în ordinea descrescătoare a greutății): pescuit, pește, stoc, pescuit, conservare, management, navă etc. Etapa a 2-a indexarea în sine - însumarea logaritmilor greutăților sau ca produs scalar al vectorilor


Combinație de interogări de tezaur liber și de regăsire a informațiilor Colecție indexată manual - corelații Seturi de utilizator Interogare în limbaj natural Interogarea este extinsă de descriptorii tezaurului cel mai puternic corelați cu interogarea (Petras 2004; Petras 2005). De exemplu, la solicitarea Societăților Insolvente (Companii Insolvente), se poate obține o listă de descriptori lichiditate, îndatorare, întreprindere, firmă, iar interogarea este extinsă.Acuratețea experimentului a crescut cu 13%.



Secțiunea este foarte ușor de utilizat. În câmpul propus, introduceți doar cuvântul dorit și vă vom oferi o listă cu semnificațiile acestuia. Aș dori să remarc faptul că site-ul nostru oferă date din diverse surse - dicționare enciclopedice, explicative, de construire a cuvintelor. Aici vă puteți familiariza și cu exemple de utilizare a cuvântului pe care l-ați introdus.

Înțelesul cuvântului thesaurus

tezaur în dicționarul de cuvinte încrucișate

Dicționar explicativ al limbii ruse. S.I. Ozhegov, N.Yu. Shvedova.

tezaur

[te], -a, m. (special).

    Dicționar al limbii, care stabilește sarcina unei reflectări complete a întregului său vocabular.

    Un dicționar sau un set de date care acoperă în întregime termenii, conceptele de un fel. zonă specială.

    adj. tezaur, th, th.

Noul dicționar explicativ și derivativ al limbii ruse, T. F. Efremova.

tezaur

    Orice dicționar. limba, reprezentând vocabularul în întregime.

    Un set complet, sistematic de date despre a un domeniu de cunoștințe care permite unei persoane sau unui computer să navigheze în el (în informatică).

Dicţionar enciclopedic, 1998

tezaur

THESAURUS (din greaca thesauros - comoara)

    un dicționar în care cuvintele limbii sunt prezentate cât mai complet posibil cu exemple de utilizare a acestora în text (este pe deplin fezabil doar pentru limbile moarte).

    Un dicționar în care cuvintele legate de orice domeniu de cunoaștere sunt aranjate după principiul tematic și sunt prezentate relații semantice (specifice genului, sinonime etc.) între unitățile lexicale. În tezaurile de regăsire a informațiilor, unitățile lexicale ale textului sunt înlocuite cu descriptori.

Tezaur

(din grecescul thesaurós ≈ comoară, vistierie), un set de unități semantice ale unei anumite limbi cu un sistem de relații semantice (vezi Semantică) dat în ea. T. determină de fapt semantica unei limbi (o limbă națională, limba unei științe specifice sau un limbaj formalizat pentru un sistem de control automat). Inițial, T. a fost considerat ca un dicționar monolingv, în care relațiile semantice sunt determinate de gruparea cuvintelor după titluri tematice. De exemplu, engleza T. (autor P. M. Roget), publicată în 1962 (ediția I 1852), conține 1040 de titluri, dintre care sunt distribuite aproximativ 240.000 de cuvinte. Indexul (cheia) acestui T. conține o listă alfabetică de cuvinte care indică titlurile și subtitlurile cărora le aparține fiecare cuvânt. Există limbi tradiționale generale (descrieri ale sistemelor semantice ale limbilor individuale) pentru engleză, franceză și spaniolă. Dicționarele monolingve care definesc expresiile parametrilor semantici principali ai fiecărui cuvânt sunt foarte apropiate de T., de exemplu, dicționarul limbii ruse de S. I. Ozhegov.

În anii 70. Secolului 20 volumele de regăsire a informațiilor s-au răspândit.În aceste volume au fost identificate unități lexicale speciale, sau descriptori, care pot fi utilizați pentru căutarea automată a informațiilor documentare. Fiecare cuvânt al unui astfel de termen este asociat cu un descriptor sinonim (vezi Sinonimia), iar relațiile semantice sunt indicate în mod explicit pentru descriptori: gen ≈ specie, parte ≈ întreg, scop ≈ înseamnă, etc. De obicei este obișnuit să se separe genul- specii (ierarhice) şi relaţii asociative. Astfel, „Tezaurul de regăsire a informațiilor în informatică”, publicat în URSS în 1973, prevede pentru fiecare descriptor o intrare de dicționar, care indică separat cuvinte cheie sinonime, descriptori generici, specifici și asociativi. Pentru o mai bună orientare în legăturile asociative dintre descriptori, hărți semantice ale claselor tematice sunt atașate acestui T. În regăsirea automată a informațiilor, sunt căutate documente al căror index conține nu numai descriptori de interogare, ci și acei descriptori care se află în anumite relații semantice cu aceștia. Uneori este util să se evidențieze relații asociative specifice în T. care sunt specifice unui anumit domeniu tematic: boală ≈ agent cauzal, dispozitiv ≈ scop (sau valoare măsurată) etc. Poziția unei unități lexicale (cuvânt, frază) în T. îşi caracterizează sensul în limbă ; cunoașterea sistemului de relații semantice în care intră un cuvânt dat (inclusiv rubricile în care intră) face posibilă judecarea sensului acestui cuvânt.

Într-un sens larg, tehnologia este interpretată ca o descriere a sistemului de cunoștințe despre realitate pe care îl posedă un purtător individual de informații sau un grup de purtători. Acest purtător poate îndeplini funcțiile unui receptor de informații suplimentare, în urma căruia se modifică și T. lui.T. inițial determină capabilitățile receptorului atunci când primește informații semantice. În psihologie și în studiul sistemelor cu inteligență artificială sunt luate în considerare proprietățile T. ale indivizilor, care se manifestă în percepția și înțelegerea informațiilor. În sociologie și teoria comunicării, ei studiază proprietățile lui T. ale indivizilor și grupurilor, care oferă posibilitatea înțelegerii reciproce pe baza generalității lui T. În aceste situații, T. trebuie să includă enunțuri complexe și conexiunile lor semantice care determină stocul de informații de care dispune un sistem complex. T. conține de fapt nu numai informații despre realitate, ci și meta-informații (informații despre informații), care oferă posibilitatea de a primi mesaje noi.

Lit.: Cherny A.I., Metodologia generală de construire a tezaurilor, „Informații științifice și tehnice. Ser. 2", 1968, =5; Varga D., Metodologia întocmirii tezaurilor informaţionale, trad. [din Hung.], M., 1970; Shreider Yu. A., Tezauri în informatică și semantică teoretică, „Informații științifice și tehnice. Ser. 2", 1971, ╧ Z.

Yu. A. Schreider.

Wikipedia

Tezaur

Tezaur, în sens general - terminologie specială, mai strict și mai substanțial - un dicționar, o colecție de informații, un corpus sau cod care acoperă integral conceptele, definițiile și termenii unui domeniu special de cunoaștere sau de activitate, care ar trebui să contribuie la comunicare corectă lexicală, corporativă; în lingvistica modernă, un tip special de dicționare care indică relații semantice (sinonime, antonime, paronime, hiponime, hipernime etc.) între unitățile lexicale. Tezaurile sunt unul dintre cele mai eficiente instrumente pentru descrierea domeniilor individuale de subiect.

Spre deosebire de un dicționar explicativ, un tezaur face posibilă dezvăluirea sensului nu numai cu ajutorul unei definiții, ci și prin corelarea unui cuvânt cu alte concepte și grupurile acestora, datorită cărora poate fi folosit pentru a umple bazele de cunoștințe ale artificiale. sisteme de informații.

În trecut, termenul tezaur au fost desemnate în principal dicționare, reprezentând vocabularul limbii cu exemple de utilizare a acesteia în texte cu maximă completitudine.

Tot termen tezaur folosit în teoria informaţiei pentru a se referi la totalitatea tuturor informaţiilor pe care le deţine subiectul.

În psihologie, tezaurul unui individ caracterizează percepția și înțelegerea informațiilor. Teoria comunicării are în vedere și tezaurul general al unui sistem complex, prin care elementele sale interacționează.

Tezaur (dezambiguizare)

Tezaur:

  • Tezaur - un dicționar, o colecție de informații care acoperă conceptele, definițiile și termenii unui domeniu special de cunoaștere sau domeniu de activitate.
  • Tezaurul lui Roger este unul dintre primele și cele mai faimoase dicționare ideografice din istorie.

Exemple de utilizare a cuvântului tezaur în literatură.

Pentru percepție și co-creare, unele optime tezaur Nu mic, dar nici prea mare.

Cu o cantitate nelimitată de informații primite, depășind semnificativ tezaur, valoarea sa nu depinde de această cantitate și este în întregime determinată de tezaur ohm.

Versatilitatea, natura sistemică a artei duce la percepția neuniformă a operei în ansamblu: pentru perceperea unor aspecte ale versului tezaur optim, pentru alţii, insuficient sau prea mare.

Deoarece tezaur crește și se schimbă, re-cunoașterea cu munca poate însemna primirea de noi informații valoroase.

Dorința copilului de a reciti în mod repetat basmul de care s-a îndrăgostit este de înțeles: a lui tezaur capacitatea lui de co-creare, de fantezie asociativă este deosebit de mare.

Această parte a problemei este mai schimbătoare și subiectivă decât tezaur, iar în căutarea unei evaluări estetice obiective a lucrării, aceasta ar trebui redusă la minimum.

El pătrunde în tezaur poet și se adresează traducerii tezaur de la un cititor străin.

Cel mai important lucru este să determinați cât de mare aveți tezaur, T.

Nu, doar că propriul lui bagaj este puțin, e nedezvoltat, al lui tezaur este la început, iar dacă nu înțelege asta tezaur ar trebui să fie crescută, atunci, în orice caz, această femeie va avea o perioadă grea cu el.

Bogat tezaur, bazat pe cunoștințe adevărate, permite unei persoane în comunicare cu o altă persoană, inclusiv în cea mai apropiată comunicare cu cea mai apropiată persoană, să răspundă corect la tot ceea ce se întâmplă.

Evident, scăderea valorii informației odată cu creșterea tezaur ar trebui să depindă de relație tezaur la cantitatea de informații primite.

Evident, valoarea optimă a informațiilor artistice corespunde proximității tezaur cititor și tezaur poet.

Putem spune că co-crearea, ca și creativitatea, necesită inspirație, adică includerea tezaurîn sensul cel mai larg al cuvântului.

O astfel de repetiție internă a imaginilor strălucitoare și a sunetului strălucitor, rămânând în interiorul existentului tezaur, o îmbogățește cu același moment estetic de repetiție.

În acest moment tezaur Nabokov și Prișvin ar trebui considerați antipozi ai lui Platonov, iar Marina Tsvetaeva poate fi recunoscută ca fiind asemănătoare cu el.

N. V. Lukaşevici

[email protected]

B. V. Dobrov

Centrul de cercetare de calcul al Universității de Stat din Moscova M.V.Lomonosov;

Centrul ANO pentru Cercetare Informațională

[email protected]

Cuvinte cheie: tezaur, regăsire informații, procesare automată a textului,

Marea majoritate a tehnologiilor care lucrează cu colecții mari de texte se bazează pe metode statistice și probabilistice. Acest lucru se datorează faptului că resursele lexicale care ar putea fi utilizate pentru a procesa colecții de text folosind metode lingvistice ar trebui să aibă un volum de zeci de mii de intrări de dicționar și să aibă o serie de proprietăți importante care trebuie monitorizate în mod special atunci când se dezvoltă o resursă. În raport, luăm în considerare principiile de bază ale dezvoltării resurselor lexicale pentru prelucrarea automată a colecțiilor mari de texte folosind exemplul tezaurului limbii ruse creat din 1997 pentru prelucrarea computerizată a textelor RuThez, care este în prezent o rețea ierarhică de peste 42 de mii de concepte. . Descriem starea actuală a tezaurului pe baza unei comparații a compoziției sale lexicale și a corpusului de text al Sistemului Informațional Universitar RUSIA (www.cir.ru) - 400 de mii de documente. Sunt discutate exemple de utilizare a tezaurului în diverse aplicații automate de procesare a textului.

  1. Introducere

În prezent, milioane de documente au devenit disponibile în formă electronică, au fost create mii de sisteme informatice și biblioteci electronice. În același timp, sistemele informaționale care utilizează resurse lexicale și terminologice pentru căutare sunt calculate în fracțiuni de procent. Acest lucru se datorează problemelor grave ale creării unor astfel de resurse lingvistice pentru prelucrarea automată a colecțiilor moderne de documente electronice.

În primul rând, aceste colecții sunt de obicei foarte mari, resursa trebuie să includă descrieri de mii de cuvinte și termeni. În al doilea rând, colecțiile sunt un set de documente cu structură diferită cu o varietate de construcții sintactice, ceea ce face dificilă procesarea automată a propozițiilor text. În plus, informațiile importante sunt adesea distribuite între diferite propoziții ale textului.

Toate acestea ridică brusc întrebarea ce fel de resursă lingvistică ar trebui să fie, care, pe de o parte, ar fi utilă pentru prelucrarea și căutarea automată în colecțiile electronice, pe de altă parte, ar putea fi creată într-un timp previzibil și menținută cu relativ efort mic.

În articol, vom lua în considerare principiile de bază ale dezvoltării resurselor lexicale pentru procesarea automată a colecțiilor mari de texte. Aceste principii vor fi luate în considerare pe exemplul tezaurului limbii ruse creat din 1997 de Centrul ANO pentru Cercetare Informațională pentru prelucrarea computerizată a textelor RuThez. RuThez este în prezent o rețea ierarhică de peste 42 de mii de concepte, care include peste 95 de mii de cuvinte, expresii, termeni rusești. Vom descrie starea actuală a tezaurului pe baza unei comparații între compoziția sa lexicală și lexicul corpusului de text al Sistemului Informațional Universitar RUSIA, susținut de Centrul de Cercetare și Dezvoltare al Universității de Stat din Moscova. M.V.Lomonosov si ANO TsII. UIS RUSSIA (www.cir.ru) conține 400.000 de documente pe teme socio-politice (aproximativ 3 GB de texte, 200 de milioane de cuvinte de utilizare). Articolul va analiza, de asemenea, exemple de utilizare a tezaurului în diferite aplicații de procesare a textului.

  1. Principii pentru dezvoltarea unei resurse lingvistice

pentru sarcini de regăsire a informațiilor

Pentru a asigura procesarea automată eficientă a documentelor electronice (indexare automată, clasificare, comparare a documentelor), este necesar să se construiască o bază pentru compararea acestora - o listă a ceea ce a fost menționat în document. Pentru ca un astfel de index să fie mai eficient decât un index de cuvinte, este necesar să se depășească diversitatea lexicală a textului: sinonime, polisemie, părți de vorbire, stil și să-l reducă la un invariant - un concept care devine baza pentru comparare. texte diferite. Astfel, conceptele ar trebui să devină baza unei resurse lingvistice, iar expresiile limbajului: cuvinte, termeni - devin doar intrări de text care inițializează conceptul corespunzător.

Pentru a putea compara concepte diferite, dar apropiate ca înțeles, trebuie stabilite relații între ele. În mod tradițional, în resursele lingvistice pentru prelucrarea automată a textelor în limbaj natural s-au folosit anumite seturi de relații semantice, precum parte, sursă, cauzăși așa mai departe. Cu toate acestea, atunci când lucrăm cu colecții de texte mari și eterogene, trebuie să înțelegem că, odată cu stadiul actual al tehnologiei de procesare a textului, un sistem informatic nu va putea detecta aceste relații în text într-un mod stabil pentru a efectua procedurile pe care le-am au asociat cu anumite relații. Prin urmare, relațiile dintre concepte ar trebui în primul rând să descrie unele proprietăți invariante care nu depind sau depind slab de tema unui anumit text în care este menționat conceptul.

Funcția principală a acestor relații este de a răspunde la următoarea întrebare:

dacă se știe că textul este consacrat discuției despre C1, iar C2 este legat

atitudineRcu C1, putem spune că subiectul textului(*)

are legatura cu C2?

Atunci când se creează o resursă lingvistică pentru prelucrare automată, este important să se determine care proprietăți ale conceptelor C1 și C2 permit stabilirea relațiilor corecte (*) între ele.

Deci, de exemplu, despre orice texte sunt scrise mesteceni, putem spune întotdeauna că acestea sunt versuri despre copaci. Dar în ciuda popularității și a discuțiilor frecvente despre relație copac ca parte paduri, un număr foarte mic de texte despre copaci sunt texte despre păduri. Rețineți că problema nu este legată de numele relației. Asa de poiana face parte din padure, iar textele despre poieni sunt texte despre pădure.

Invarianța relațiilor în raport cu spectrul de subiecte posibile ale textelor domeniului subiectului este în mare măsură determinată de proprietăți mai profunde decât cele reflectate de numele relațiilor, și anume cuantificatorul și proprietățile existențiale ale acestuia. Deci proprietățile cuantificatoare ale relațiilor descriu dacă toate instanțele unui concept au o relație dată, dacă o relație dată este păstrată pe parcursul întregului ciclu de viață al exemplului. Problemă de utilizare a relației copacpădure este legată tocmai de faptul că nu fiecare copac anume se află în pădure, dar luminișul nu poate fi în afara pădurii.

Un exemplu de descriere a proprietăților existențiale ale relațiilor este dacă existența conceptului C2 decurge din existența conceptului C1 (de exemplu, existența conceptului GARAJ necesită conceptul AUTO) sau existența exemplelor de C1 depinde de existența exemplelor de C2 (deci un anumit POTOP inseparabil de un exemplu concret RÂURI). Discuția din textul conceptului dependent C2, în special al celui dependent de exemplu, sugerează că textul este relevant și pentru conceptul principal C1.

Luați în considerare relația dintre concepte PĂdure și LEMN in detalii. De fapt, o parte a conceptului PĂDURE este COPACUL ÎN PĂdure, în timp ce există și COPACUL ÎN STARE,COPACUL ÎN GRĂDINĂ etc. În orice caz, se impune ruperea relaţiei de subordonare a conceptului COPAC noţiune PĂDURE.

Pe de alta parte, PĂDURE este bun SET DE COPACI, nu există fără copaci (precum și GRĂDINĂ). Astfel conceptul PĂDURE ar trebui să depindă de concept COPAC. Pornind de la o analiză a nevoilor sarcinilor aplicate specifice, am ajuns la concluzia că este important să descriem proprietățile profunde ale relațiilor care anterior se reflectau foarte nesemnificativ în resursele lingvistice, dar care sunt de o importanță capitală pentru sarcinile de prelucrare automată a colecții mari de texte și, eventual, pentru multe alte sarcini.

Acum modelăm descrierea proprietăților cuantificatoare și existențiale ale conceptelor printr-un set de relații tradiționale de tezaur SUS-JOS (66% din toate conexiunile), PARTEA-Întreg (30% din conexiuni), ASOCIARE (4%), în combinație cu un set de modificatori suplimentari (20% din relații sunt etichetate ). Rețineți că relațiile PARTE-Întreg și ASOCIARE sunt interpretate conform regulii (*). În total, sunt descrise aproximativ 160 de mii de conexiuni directe între concepte, ceea ce, ținând cont de tranzitivitatea relațiilor, oferă un număr total de conexiuni diferite de peste 1350 de mii de conexiuni, adică, în medie, fiecare concept este conectat cu alte 30. .

  1. Tezaur RuThes: Structura generală

Tezaurul RuThes este o rețea ierarhică de concepte corespunzătoare semnificațiilor cuvintelor individuale, expresiilor textuale sau serii sinonime. Astfel, elementele principale ale tezaurului sunt conceptele, expresiile limbajului, relațiile, expresia limbajului - concept, relațiile dintre concepte.

În tezaur, atât cunoștințele lingvistice - descrieri ale lexemelor, idiomurilor și conexiunile acestora, legate în mod tradițional de cunoștințele lexicale, semantice, cât și cunoștințele despre termeni și relații din cadrul domeniilor, în mod tradițional legate de domeniul de activitate al terminologiștilor, descrise în tezaururile de regăsire a informațiilor. , sunt colectate într-un singur sistem. Ca astfel de subdomenii de subiecte, tezaurul descrie domenii precum economie, legislație, finanțe, relații internaționale, care sunt atât de importante pentru viața de zi cu zi a unei persoane încât au o reprezentare lexicală semnificativă în dicționarele explicative tradiționale. În ele, lexicale și terminologice sunt puternic interconectate și interacționează puternic între ele.

Expresiile limbajului sunt lexeme separate (substantive, adjective și verbe), grupuri nominale și verbale. Astfel, tezaurul nu include acum adverbe și cuvinte auxiliare ca expresii lingvistice. Grupurile cu mai multe cuvinte pot include termeni, idiomuri, funcții lexicale ( influență e).

Pentru fiecare expresie de limbă, sunt descrise următoarele:

Ambiguitatea sa este conexiunea cu unul sau mai multe concepte, ceea ce înseamnă că o anumită expresie lingvistică poate servi ca expresie textuală a acestui concept. Atribuirea unei expresii lingvistice unor concepte diferite este, de asemenea, un indiciu implicit al ambiguității acesteia;

Compoziția sa morfologică (parte de vorbire, număr, caz);

Caracteristicile scrisului (de exemplu, cu majuscule) etc.

Fiecare concept de tezaur are un nume unic, o listă de expresii lingvistice prin care acest concept poate fi exprimat în text, o listă de relații cu alte concepte.

Ca denumire unică pentru un concept, este de obicei aleasă una dintre expresiile sale textuale fără ambiguitate. Dar numele conceptului poate fi format și dintr-o pereche de expresii textuale ambigue - sinonime scrise cu virgulă și care îl definesc în mod unic (de exemplu, conceptul GRASĂ, GRASĂ). O expresie textuală ambiguă a numelui unui concept poate fi, de asemenea, furnizată cu o etichetă sau cu un fragment de interpretare scurtat, de exemplu, conceptul MULTIME (GRUPUL DE OAMENI).

  1. Exemplu de intrare de dicționar

Am ales ca exemplu intrarea din dicționar a conceptului PĂDURE corespunzând unuia dintre sensurile cuvântului pădure. Această intrare din dicționar este interesantă deoarece include diferite tipuri de cunoștințe denumite în mod tradițional cunoștințe lexicale (semantice) și cunoștințe enciclopedice (cunoștințe despre domeniul subiectului, terminologie).

Sinonime pentru concept PĂDURE(total 13):

pădure(M), zonă de pădure, mediu forestier,

pădure, cartier forestier, peisaj forestier,

zonă de pădure, pădure, împădurită,

zonă brută de pădure, pădure,

șir de păduri.

Următorii termeni cu sinonime:

JUNGLĂ(junglă);

PARCUL PĂDURILOR(gradina orasului, zona verde,

masiv verde, parc forestier,

silvicultură, silvicultură

centura, parcM), zona parc);

VÂNATOARE PĂDURĂ;

pădure de foioase(pădure de rasinoase, foioase

pădure);

DUMBRAVĂ(pădure de stejar);

PĂDURĂ DE CONIFERE (masiv de conifere, pădure de conifere întunecată)

Concepte-părți cu sinonime:

BORELOM (bloc de vânt, de vânt);

cădere(zona de tăiere);

CULTURA PĂDURILOR(specii forestiere, silvicultură

cultură);

PĂDURĂ (terenuri ale fondului forestier; terenuri acoperite cu

pădure; teren forestier, suprafata de padure;

teren împădurit, împădurit

zonă,);

PĂDURE(plantații forestiere, plantații forestiere,

împădurire);

MIZIA PĂDURII(margine, margine);

TUPOF (tufăr);

PROSECA;

TEREN USCAT(uscat).

Aici simbolurile (M) reflectă semnul ambiguității introducerii textului.

concept PĂDURE are și alte relații, așa-numitele relații de dependență (în versiunea modernă se numesc ASC 2 - asociere asimetrică): INCENDIU DE PĂDURE(incendiu de pădure, incendiu în pădure; GESTIONAREA PĂDURILOR (folosirea pădurilor, utilizarea parcelelor fondului forestier); PROPRIETATEA PĂDURII; ȘTIINȚA PĂDURILOR (știința pădurilor). După cum sa menționat deja în paragraful 2, conceptul de PĂDURE depinde de conceptul de ARBOR, care în tezaur este notat cu relația ASC 1 .

Întregul concept PĂDURE este direct legată de alte 28 de concepte, ținând cont de tranzitivitatea relațiilor - cu 235 de concepte (mai mult de 650 de intrări de text în total).

  1. Evaluarea stadiului tehnicii

Tezaur al limbii ruse RuThez

5.1. Compoziția lexicală

În prezent, în rețeaua tezaurului sunt incluse peste 95 de mii de expresii lingvistice, dintre care 61 de mii sunt cu un singur cuvânt.

Această cantitate de muncă ne-a făcut să decidem ce cuvinte și expresii lingvistice ar trebui incluse în descrierile Tezaurului. Dorința firească a fost de a vedea cum cele mai frecvente cuvinte ale limbii ruse sunt reprezentate în tezaur. Pentru aceasta s-a folosit colecția de texte a Sistemului Informațional Universitar RUSIA (400 mii documente). Colecția conține documente oficiale ale diferitelor organisme ale Federației Ruse (55 de mii de documente din 1992), precum și materiale de presă din 1999 (ziare Izvestia, Nezavisimaya Gazeta, Komsomolskaya Pravda, Argumente și fapte, revista Expert și altele), materiale științifice. reviste (Buletinul Universității din Moscova, Jurnalul de Sociologie). S-a făcut comparația între lista de leme incluse în Tezaur și lista celor mai frecvente 100.000 de leme din colecția de texte (frecvență mai mare de 25).

Marcarea lexicală a listei a arătat că dintre aceste o sută de mii de leme, 35 de mii sunt descrise în RuThes, doar aproximativ 7 mii de lexeme merită să fie incluse în Tezaur, restul sunt variante lematice ale diferitelor nume proprii. Prin urmare, reaprovizionarea a încetat să fie o prioritate și se realizează treptat, începând cu cuvintele cele mai frecvente. Se presupune că, de îndată ce această listă este practic epuizată, se va efectua următoarea comparație cu matricea de text a sistemului informațional, vor fi selectate noi jetoane cu o frecvență mai mare de 25. În plus, pragul de vizualizare ar trebui să fie redus. Prezența în colecția de texte a unui număr mare de exemple de text vă permite să răspundeți rapid la „noutățile lexicale” (de exemplu, instalare,blockbuster, monde frumos, thriller) și să le includă în locurile corespunzătoare din sistemul ierarhic al tezaurului.

Lucrul constant cu colecția actuală de texte oferă oportunități unice de a testa semnificația și calitatea descrierilor lexicale oferite în dicționare. De exemplu, o frecvență neobișnuit de mare de utilizare a cuvântului Mama Vezi(de peste 400 de ori). Verificarea față de matrice a arătat că cuvântul este într-adevăr adesea folosit ca sinonim pentru cuvânt Moscova, în timp ce dicționarele explicative marchează adesea acest cuvânt ca fiind învechit. Un alt exemplu de cuvânt folosit frecvent (de peste 300 de ori) marcat ca învechit în dicționare este cuvântul fericită.

5.2 Descrierea semnificațiilor cuvintelor

O comparație cu colecția de text arată că multe dintre cuvintele de frecvență din matrice sunt bine reprezentate în tezaur în cel puțin una dintre valorile lor (de obicei de bază). A afla în ce măsură gamă de semnificații ale cuvintelor polisemantice ale limbii ruse este reprezentată în tezaur este sarcina noastră principală în prezent.

După cum știți, diferite surse de dicționar oferă adesea un set diferit de semnificații pentru cuvintele polisemantice, disting nuanțe de semnificații și același tip de polisemie poate fi descris diferit pentru cuvinte diferite chiar și în același dicționar. Prin urmare, sarcina unei descrieri consistente și reprezentative a semnificațiilor lexemelor este o sarcină importantă pentru creatorii oricărei resurse de dicționar.

Cu toate acestea, dacă resursa este destinată procesării automate, atunci sarcina de descriere echilibrată a valorilor devine mult mai importantă. Umflarea excesivă a valorilor poate face ca sistemul informatic să nu poată selecta valoarea dorită, ceea ce duce, la rândul său, la o scădere semnificativă a eficienței sistemului automat de procesare a textului. Deci, unul dintre dezavantajele resursei WordNet ca resursă pentru procesarea automată a textului este un număr excesiv de valori descrise pentru unele cuvinte (în WordNet 1.6: 53 de valori pentru alerga.47 pentru Joacași așa mai departe.). Aceste semnificații sunt greu de distins chiar și pentru o persoană atunci când adnotează semantic texte. Este clar că și sistemul informatic nu poate face față alegerii unei valori adecvate. Prin urmare, diferiți autori propun diferite modalități de combinare a valorilor pentru a îmbunătăți calitatea prelucrării.

În același timp, factorul opus acționează: dacă valorile diferă într-adevăr în setul lor de legături de vocabular (în cazul nostru, legături de tezaur) - nu pot fi lipite într-o singură unitate (un singur concept) - acest lucru va duce, de asemenea, la un deteriorarea calității prelucrării automate.

Luați în considerare, de exemplu, cuvintele şcoalăȘi biserică, fiecare dintre acestea putând fi considerată ca o organizație și ca o clădire.

Fiecare organizație școlară are o clădire (cel mai adesea una). Toate părțile clădirii școlii (săli de clasă, tabele) sunt legate de şcoală ca organizatie. Nu există tipuri specifice de clădiri școlare. Prin urmare descrierea scoli ca clădiri, este nepotrivit să se identifice ca un concept separat. Cu toate acestea, descrierea unui astfel de concept cumulativ ŞCOALĂ ca organizaţie şi ca clădire trebuie să aibă o relaţie special concepută cu conceptul CLĂDIREA. Când descrieți astfel de relații în tezaur, se folosește un semn pe relație - modificatorul „A” („aspect”, în analiza automată, pentru a ține cont de această relație, este necesară „confirmarea” de către alte concepte).

ŞCOALĂ

SUPERIOR INSTITUȚIE EDUCAȚIONALĂ

SUS A CLĂDIRE PUBLICĂ

Sensuri relevante ale cuvintelor biserică nu atât de aproape. biserici Cum o organizație poate avea un număr mare de clădiri bisericești în diferite locații și, de asemenea, să aibă multe alte clădiri. biserica-cladire strâns asociat cu religia și confesiunea, dar poate schimba apartenența la organizarea bisericilor. biserica-organizatieȘi biserica-cladire au subspecii diferite. De aceea BISERICA (ORGANIZARE) Și BISERICA (CLĂDIREA) sunt prezentate în RuThes ca concepte diferite.

Divergența semnificativă în relațiile tezaurului se corelează într-un mod interesant cu capacitatea denotațiilor corespunzătoare semnificațiilor de a exista separat unele de altele. Astfel, clădirea bisericii nu încetează să existe și chiar să fie numită biserică chiar și atunci când se schimbă uzul, spre deosebire de clădirea școlii.

Procesul de reconciliere a reprezentării valorilor în tezaur se desfășoară constant, începând cu cele mai frecvente leme. Pentru fiecare simbol de frecvență, se verifică cum sunt descrise valorile sale în dicționarele explicative, ce valori sunt utilizate în colecție și cum sunt prezentate în tezaur. Ca urmare, s-a format o listă de 10.000 de lexeme, a căror ambiguitate necesită încă fie o analiză suplimentară, fie o descriere suplimentară. Lista se bazează pe 30 de mii dintre cele mai frecvente leme.

De remarcat că în Tezaur problema ambiguității este parțial înlăturată datorită faptului că relațiile de tezaur pot fi descrise între diferitele sensuri ale unui cuvânt și, prin urmare, cel mai înalt concept din ierarhie poate fi ales implicit. Cu siguranță s-a discutat în text. De exemplu, cuvântul fotografie are trei semnificații: fotografia ca domeniu de activitate, fotografia ca fotografie, fotografia ca studio foto:

FOTOGRAFIE(fotografiend, fotografie, ..., fotografie )

PARTE IMAGINE FOTOGRAFICA

(fotografie, fotografie, fotografie )

PARTE STUDIO FOTOGRAFIC (fotografie ).

Astfel, dacă nu a fost posibil să ne dăm seama ce sens este folosit cuvântul fotografie, valoarea implicită este considerată a fi o fotografie (proces, rezultat sau locație), ceea ce este suficient pentru multe aplicații automate de procesare a textului.

  1. Aplicarea tezaurului RuThes

pentru procesarea automată a textului

Din 1995, terminologia socio-politică RuThes (tezaurul socio-politic) a fost utilizată în mod activ și cu succes pentru diverse aplicații de prelucrare automată a textului, precum indexarea conceptuală automată, clasificarea automată folosind mai multe rubricatoare, adnotarea automată a textelor, inclusiv în limba engleză.. Tezaurul socio-politic (27.000 de concepte, 62.000 de intrări de text) este instrumentul de căutare de bază în sistemul de căutare UIS RUSSIA (www.cir.ru).

Întregul vocabular al tezaurului RuThes este utilizat în procedurile de rubricare automată a textelor după titluri ierarhice complexe. În tehnologia existentă, fiecare rubrică este descrisă ca o expresie booleană a termenilor, după care formula originală este extinsă de-a lungul ierarhiei tezaurului. Expresia booleană rezultată poate include deja sute și mii de conjuncții și clauze.

Să dăm ca exemplu un fragment al descrierii prin tezaur concepte (și expresii de limbă după extinderea formulei) a rubricii „Imaginea unei femei” a rubricatorului SOFIST 2 folosit de VTsIOM pentru a clasifica chestionarele de opinie publică:

(FEMEIE[N]

|| FATA[N]

|| RADA[L] (bunica, nepoata, verisoara,

fiica, cumnata, mama, mama vitrega, nora, fiica vitrega, ...))

(TRASĂTĂ DE CARACTER[L] (economisitor, lipsit de inimă, uituc,

frivol, batjocoritor, intolerant, sociabil, ...)

|| IMAGINE[E] (reprezentare, aspect, aspect,

aspect, formă, imagine, aspect)

|| PLĂCUT[L] (..., interesant, frumos, drăguț,

atrăgător, atrăgător, drăgător, ...)

|| NEPLĂCUT[L] (nesimpatic, nepoliticos, urât, ...)

|| VALOARE [L] (respecta, idolatrizează, adoră,

închinare, închinare, ...)

|| PREFER[N]

Simbolul „E” indică extinderea completă de-a lungul ierarhiei tezaurului, simbolul „L” - în funcție de relațiile dintre specii („DE JOS”), simbolul „N” - nu se extind.

Se efectuează cercetări privind dezvoltarea unei tehnologii combinate pentru clasificarea automată a textului, care combină cunoștințele tezaurului și procedurile de învățare automată.

Problemele de utilizare a unui tezaur pentru a extinde o interogare formulată în limbaj natural (acum doar partea socio-politică a tezaurului este folosită pentru a extinde interogarea terminologică în sistemul de regăsire a informațiilor al UIS RUSSIA), căutarea răspunsurilor la întrebări în larg culegeri de texte.

7. Concluzie

Lucrarea prezintă principiile de bază ale dezvoltării resurselor lingvistice pentru prelucrarea automată a colecțiilor mari de texte. Resursa lingvistică creată - RuThes Russian Thesaurus - este destinată utilizării în astfel de aplicații de procesare automată a textului, cum ar fi indexarea conceptuală a documentelor, rubricarea automată prin titluri ierarhice complexe, extinderea automată a interogărilor în limbaj natural.

Această lucrare este susținută parțial de Fundația Rusă pentru Științe Umaniste, grant nr. 00-04-00272a.

Literatură

  1. Lukashevich N.V., Saliy A.D., Reprezentarea cunoștințelor în procesarea automată a textului //NTI, Ser.2. 1997. Nr 3. S. 1-6.
  2. Zhuravlev S.V., Yudina T.N., Sistemul informatic RUSIA //NTI, Ser.2. 1995. Nr 3. S. 18‑20.
  3. Winston M., Chaffin R., Herman D., A Taxonomie of Part-Whole Relations // Știința cognitivă. 1987. nr. 11. P. 417-444.
  4. Priss U.E., The Formalization of WordNet by Methods of Relational Concept Analysis // WordNet. O bază de date lexicală electronică / Ed. de C. Fellbaum. Cambridge, Massachusetts, Londra, Anglia.: The MIT Press 1998. P. 179-196.
  5. Guarino N., Welty C., O ontologie formală a proprietăților // Proceedings of the ECAI-00 Workshop on Applications of ontologies and Problem Solving Methods. Berlin: 2000. P. 121-128. (http://citeseer.nj.nec.com/guarino00formal.html).

Câteva principii ontologice pentru proiectarea resurselor lexicale de nivel superior // First Int. Conf. privind resursele lingvistice și evaluarea. 1998.

  1. LukashevichN.V., Dobrov B.V., Modificatori ai relațiilor conceptuale în tezaurul pentru indexare automată // NTI, Ser.2. 2000, nr. 4, S. 21-28.
  2. Marele Dicționar explicativ al limbii ruse / Ed. S.A. Kuznetsova. Sankt Petersburg: Norint, 1998.
  3. Ozhegov S.I., Shvedova N.Yu., Dicționar explicativ al limbii ruse - ediția a III-a. M.: Az, 1996.
  4. Apresyan Yu.D., Lucrări alese, volumul I. Semantică lexicală: ed. a II-a. M.: Școala „Limbi ale culturii ruse”, Ed. Firma „Literatura Răsăriteană” RAS, 1995.
  5. G. Miller, R. Beckwith, C. Fellbaum, D. Gross și K. Miller, Five papers on WordNet, CSL Report 43. Cognitive Science Laboratory, Princeton University, 1990.
  6. Chugur, J. Gonzalo și F. Verdjeo, Sense distinctions in NLP applications // Proceedings of “OntoLex-2000”: Ontologies and Lexical Knowledge Bases. Sofia: OntoTextLab. 2000.
  7. Loukachevitch N., Dobrov B., Rezumat tematic structural bazat pe tezaur în sistemele informaționale multilingve // ​​Revizuirea traducerii automate. 2000 nr. 11. P. 10-20. (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm).

Tezaurul limbii ruse pentru procesarea limbajului natural

de colecții mari de texte

Natalia V. Loukacevici, Boris V. Dobrov

Cuvinte cheie: tezaur, procesare a limbajului natural, regăsire informațională

În prezentarea noastră, luăm în considerare principiile principale ale dezvoltării resurselor lexicale pentru procesarea automată a colecțiilor mari de texte și descriem structura tezaurului limbii ruse, care este dezvoltat din 1997 special ca instrument pentru procesarea automată a textului. Acum Tezaurul este o rețea ierarhică de 42 de mii de concepte. Descriem stadiul actual al Tezaurului dezvoltând în comparație cu 100.000 de leme cele mai frecvente ale colecției de texte a Sistemului Informațional Universitar RUSIA (www.cir.ru), inclusiv 400 de mii de documente. De asemenea, avem în vedere utilizarea Tezaurului în diferite aplicații de procesare automată a textului.