Tezaurus predstavlja. Thesauri. lingvistički principi izgradnje tezaurusa. Novi objašnjavajući i derivacioni rečnik ruskog jezika, T. F. Efremova

Odsjek TAOY KemGUKI

Tezaurus za pronalaženje informacija:

struktura, namjena i postupak izrade

1. Tezaurus kao način sistematizovanog predstavljanja znanja i

svojevrsni ideografski rečnik.

2. Tezaurus za pronalaženje informacija: suština i svrha

3. Struktura IPT-a

4. Postupak za razvoj, ispitivanje, registraciju i održavanje IPT-a.

Bibliografija

1. GOST 7.74 - 96. Jezici za pronalaženje informacija. Termini i definicije [Tekst]. - Unos. 1997-07-01. - Minsk: Međudržavno vijeće za standardizaciju, mjeriteljstvo i, 1997. - 34 str. (Sistem standarda za informisanje, bibliotekarstvo i izdavaštvo) TC 191.

2. GOST 7.25-2001. Jednojezično traženje informacija u tezaurusu. Pravila razvoja, struktura i oblik prezentacije [Tekst]. – GOST 7.25-80; Uvod 2002-07-01. - M.: IPK Izdavačka kuća standarda, 2001. - 16 str. MTK 191.

3. GOST 7.24-2007 Tezaurus za višejezično pretraživanje informacija. Sastav, struktura i osnovni zahtjevi za izgradnju. - Umjesto GOST 7.24-90; unos. 2008-07-01. / Međudržavno vijeće za standardizaciju, mjeriteljstvo i sertifikaciju. - M.: Standardinform, 2008. - 7 str. (Sistem standarda za informiranje, bibliotekarstvo i izdavaštvo)

4. Baranov, O. S. Ideografski rečnik ruskog jezika / O. S. Baranov. - M.: Izdavačka kuća ETS, 1995. - 820 s

5. Zhmailo, S. V. O definiciji tezaurusa [Tekst] / S. V. // NTI. Ser. 1 Organizacijski i informacioni rad. - 2003. - br. 12. – Str.20 – 25.

6. Zhmailo, S. V. Razvoj modernog tezaurusa za pronalaženje informacija [Tekst] / S. V. Zhmailo // NTI. Ser. 1 Organizacija i metodologija informatičkog rada. -2004. - br. 1. – Str.23 – 31.

Dakle, u ideografskom rječniku ruskog jezika O. S. Baranova (4) izdvaja se 12 viših odjeljaka ideografskog rječnika, među kojima su: "red, priroda, aktivnost, kultura" itd., Od kojih je svaki podijeljen na grupe, podgrupe, odjele, odjele. Sve riječi u ovom rječniku grupirane su u gnijezda prema svom značenju i grupisane su prema određenom pojmu s kojim se najčešće povezuju po vrstama. Gnijezda su grupirana u podsekcije i tako dalje. Trenutno se u rječniku nalaze 5923 gnijezda, 7 nivoa podjela (prema www.rifmovnik.ru/thesaurus.htm od 16. februara 2010.). Evo primjera rječničkog unosa iz ovog rječnika:

178.4.7 aroma ▲ - prijatan miris (na primjer, miris cvijeća, trave, sijena. nježan #. opojan #). aromatizacija. . . ambre. tamjan.

Šifra riječi "aroma" odražava ideografsku klasifikaciju prihvaćenu u ovoj datoj riječi, posebno korelaciju ove riječi sa kategorijom "178-Osjećaji".

Dakle, pojmovi "tezaurus", "ideografski rečnik", "rečnik tipa tezaurus" prvenstveno znače da je u njima celokupnost reči jezika predstavljena na način da jedna grupa reči obuhvata reči koje su slične po značenju. Osnovna svrha ideografskih rječnika je zbirka leksičkih jedinica ujedinjenih zajedničkim konceptom; ovo olakšava čitaocu da pronađe najprikladnije sredstvo za adekvatno izražavanje misli i promoviše aktivno vladanje jezikom.

Iz istorije tezaurusa

JAKNE 2302

u Suits

Kaput proizvodi

Proizvodi za šivanje

n Dvostruki sako

Kombinovana jakna

Sportska jakna

u mjerama pakovanja

Preostali materijal

Otpadni materijal

Leksička napomena;

Akriptori ili deskriptori-sinonimi;

Superiorni deskriptori;

Nizvodni deskriptori;

Asocijativni deskriptori;

Deskriptori povezani drugim vrstama odnosa.

Unutar svake grupe LU povezanih sa glavnim deskriptorom jednom vrstom paradigmatskog odnosa, mora postojati abecedni redoslijed rasporeda. Na primjer:

ALGORITAMSKI JEZICI

sa algoritamskim jezicima

mašinski orijentisani jezici

domenski specifični jezici

u SOFTVERU

FORMALNI JEZICI

n AUTO KODOVI

a ALGORITMI

PROGRAMIRANJE up. umjetni jezici

Unos askriptora se sastoji od askriptora i deskriptora ili kombinacije deskriptora koji ga zamjenjuju prilikom obrade i traženja informacija. Evo primjera askriptorskih članaka:

Alfanumerički znakovi

Španski FORMALNI JEZICI

PRIRODNI JEZICI

vidi ALGORITAMSKI JEZICI

Unos u rječnik također može uključivati:

Koliko često se deskriptor koristi;

Broj koda deskriptora;

Deskriptorski kod prema sistematskom indeksu;

Klasifikacioni indeksi;

Dodatne semantičke i leksikografske oznake;

strani ekvivalenti.

Kvaliteta leksičko-semantičkog indeksa određena je potpunošću leksičkih jedinica koje su u njemu uključene. se podrazumijeva kao vjerovatnoća da se u tezaurus unese bilo koja informativno značajna riječ za datu predmetnu oblast. Kompletnost leksiko-semantičkog indeksa, a samim tim i čitavog tezaurusa, značajno utiče na rezultate indeksiranja dokumenata i upita.

Dodatni dijelovi mogu uključivati ​​sistematske, permutacijske, hijerarhijske i druge indekse i liste posebnih kategorija leksičkih jedinica.

Sistematski indeks je indeks u kojem su deskriptori grupirani prema naslovima prihvaćenim u IPT-u. Sistematski indeks definira tematski smjer tezaurusa, otkriva njegov sadržaj i odražava one grane nauke i tehnologije koje se mogu pretraživati ​​s jednom ili drugom dubinom detalja. Potreba za njim kao dijelom IPT-a proizlazi iz činjenice da daje vizualni prikaz općeg stanja terminologije u određenom području znanja, omogućava vam da izgradite koherentan terminološki model i, ako je moguće, sve termine i koncepte koji bi trebali naći mjesto u tezaurusu. Namjera mu je olakšati pretragu pojmova pri sastavljanju slika pretraživanja dokumenata i upita namještanjem skupa deskriptora i akriptora po predmetu.

Sistematski indeks je, u suštini, klasifikaciona šema za popunjavanje tezaurusa terminologijom, budući da se gradi naređivanjem skupa deskriptora prema predmetnim oblastima.

Sistematski indeksi IPT-a podijeljeni su u tri tipa:

tematski,

Miješano.

Ova podjela odražava princip izgradnje klasifikacione šeme sistematskog indeksa.

Glavne funkcije koje obavlja sistematski indeks IPT:

Koristi se kao pomoćno sredstvo u indeksiranju, pružajući, ukupno, traženje deskriptora za koncepte indeksiranja koji nisu eksplicitno predstavljeni u tezaurusu (funkcija pretraživanja);

Upotreba u procesu održavanja tezaurusa (funkcija održavanja IPT-a);

Koristiti kao strukturnu osnovu IPT-a, kao upravljanje njegovim razvojem (konstruktivna funkcija).

U skladu sa GOST 7.25-2001 (2), pri izradi sistematskog indeksa tematskih i mješovitih tipova u njegovom tematskom dijelu treba koristiti rubrike Međudržavnog NTI rubrikatora ili specifičnog ASNTI rubrikatora kompatibilnog sa Međudržavnim NTI rubrikatorom. Prilikom konstruisanja sistematskog indeksa kategoričkih i mešovitih tipova, u njegovom kategorijalnom delu slede sledeće opšte kategorije:

Nazivi disciplina i grana djelatnosti;

Predmeti, materijali;

Metode, procesi, operacije, pojave;

Svojstva, vrijednosti, parametri, karakteristike;

Odnosi, strukture, modeli, zakoni, pravila, apstraktni koncepti.

Hijerarhijski indeks. Hijerarhijski indeks je indeks koji daje listu lista deskriptora, pri čemu svaka lista počinje deskriptorom koji nema roditelja. On odražava kompletnu strukturu hijerarhijskih odnosa u IPT-u. Nakon svakog deskriptora, deskriptori se daju direktno sa naznakom njihovog nivoa u hijerarhiji pomoću numeracije ili grafičke oznake nivoa:

Potreba za razvojem hijerarhijskog indeksa IPT-a uzrokovana je činjenicom da čitav sistem subordinacije pojmova nije fiksiran u rječniku IPT-a, jer to bi podrazumijevalo značajno povećanje leksiko-semantičkog indeksa. postoji potreba da se razvije nezavisna sekcija IPT-a - hijerarhijski indeks koji bi odražavao čitav hijerarhijski lanac podređenosti deskriptora dnu.

Indeks permutacije je indeks koji navodi abecednim redom sve pojedinačne riječi koje su dio komponenti fraza koje označavaju deskriptore i za svaku od njih su naznačeni svi deskriptori koji uključuju ove riječi. Stoga se svaki pojam pojavljuje u permutacijskom indeksu onoliko puta koliko sadrži značajne riječi. Svrha permutacionog indeksa je da omogući pretragu deskriptora-fraza prema bilo kojoj riječi uključenoj u njihov sastav, uključujući one koje se ne pojavljuju na početku leksičke jedinice. Omogućava vam da grupišete riječi s jednim korijenom na jednom mjestu.

Indeks permutacije se u pravilu sastavlja na automatiziran način i obično ima oblik indeksa tipa KWIC (Ključna riječ - U kontekstu - "Ključne riječi u kontekstu"), u kojem su sve značajne riječi - termini - raspoređene po abecednom redu. u indeksu permutacije nalazi se u sredini kolone koju čine mikrokonteksti elemenata pojma, a dio pojmova koji se ne uklapa prenosi se na lijevu stranu istog reda:

optički kvant

uzbuđenje

električni

sa zavisnom ekscitacijom

Generatori smetnji

SERIJSKI GENERATORI

DC GENERATORI

DC GENERATORI su se pokazali neophodnim.

4. Postupak za razvoj, ispitivanje, registraciju i održavanje IPT-a

Trenutno je postupak za razvoj, ispitivanje i registraciju IPT-a određen prema dva standarda: GOST 7.25-2001 „Jednojezični tezaurus za pronalaženje informacija. Pravila razvoja, struktura, sastav i oblik prezentacije” i GOST 7.24-2007 „Tezaurus za višejezično pretraživanje informacija. Sastav, struktura i osnovni zahtjevi za izgradnju. U skladu sa ovim standardima, funkcije ispitivanja i registracije IPT-a obavljaju nacionalni i međunarodni depozitni fondovi.

Nacionalni depozitni fond IPT-a na ruskom (uključujući IPT koji sadrži ekvivalente deskriptora na ruskom) nalazi se na adresi , u VINITI.

Postoje i dva međunarodna depozitarna IPT-a:

1) Međunarodni depozitni fond IPT na engleskom jeziku, uključujući IPT koji sadrži ekvivalente deskriptora na engleskom jeziku. Nalazi se u, u Torontu, u biblioteci Fakulteta informacionih nauka Univerziteta u Torontu (Thesaurus Clearinghouse - „settlement“, The Library, Faculty of Information Studies, University of Toronto, TORONTO, Canada);

2) Međunarodni depozitni fond IPT na svim jezicima osim engleskog. Nalazi se u , u Varšavi, u naučnim i tehničkim i ekonomskim informacijama (Instytut Informacji Naukowej, Technicznej i Ekonomicznej, Clearinghouse, WARSZAW A, Poljska.).

Pune adrese ovih organizacija date su u GOST 7.25-2001.

GOST 7.25-2001 i GOST 7.24-2007 definiraju radnje IPT programera na sljedeći način:

1. Prije početka rada na izradi IPT-a, programer se mora prijaviti odgovarajućem nacionalnom ili međunarodnom depozitnom fondu kako bi utvrdio dostupnost registrovanih tezaurusa na datu temu. U prisustvu takvih tezaurusa, vrši se procjena mogućnosti njihovog uvođenja u dati sistem. Ako se takvi tezaurusi ne pronađu, stvaranje IPT-a može biti moguće. Istovremeno, cjelokupna tehnologija za stvaranje IPT-a mora biti strogo u skladu sa GOST 7.25-2001 i GOST 7.24-2007

2. Završeni (razvijeni) IPT mora proći ispit za usklađenost sa GOST 7.25-2001. oni ispunjavaju standard, a zatim National izdaje programera. ovog IPT-a se deponuje (deponuje) u odgovarajući nacionalni ili u jedan od međunarodnih depozitnih fondova (u Torontu ili Varšavi).

Nacionalni depozitori šire informacije o sastavu fonda deponovanih IPT-a i daju ih kreatorima novih IPT-a kako bi posudili elemente i osigurali kompatibilnost jezičke podrške različitih informacionih sistema. Dakle, oni obavljaju funkcije ispitivanja, registracije, skladištenja IPT-a i informacija o dostupnim IPT-ovima.

mnoge operacije za upravljanje IPT-om);

Prelazak AIS-a iz samostalnog rada u mrežni rad (kada se koristi IPT u okviru jedinstvenog principa njihovog održavanja, moraju biti dogovoreni).

Proces održavanja IPT-a u funkciji naziva se održavanje ili prilagođavanje tezaurusa. Obično uključuje sljedeće:

Promjena leksičkog sastava IPT-a: uvođenje novih leksičkih jedinica, njihova, promjena statusa leksičkih jedinica (prevođenje ključne riječi u deskriptore i obrnuto);

Promjena paradigmatskih odnosa u IPT-u (jačanje, slabljenje);

Održavanje IPT-a uključuje obaveznu upotrebu alata za automatizaciju koji vam omogućuju brzo izvođenje tako napornih operacija kao što su abecedno sortiranje rječnika, vokabular, provjera reciprociteta i konzistentnosti referenci, uz pomoć kojih se paradigmatski odnosi fiksiraju u ITP-u itd.

Tezaurus(od grčkog thesauros - blago) u modernoj lingvistici - posebna vrsta rječnika opšteg ili specijalnog vokabulara, koji ukazuju na semantičke odnose (sinonimi, antonimi, paronimi, hiponimi, hipernimi, itd.) između leksičkih jedinica. Stoga su tezaurusi, posebno u elektronskom formatu, jedan od najefikasnijih alata za opisivanje pojedinih predmetnih oblasti.

Za razliku od eksplanatornog rječnika, tezaurus vam omogućava da identificirate značenje ne samo uz pomoć definicije, već i povezivanjem riječi s drugim konceptima i njihovim grupama, koji se mogu koristiti u sustavima umjetne inteligencije.

U prošlosti, termin tezaurus označavao je prvenstveno rječnike koji su maksimalno cjelovito predstavljali vokabular jezika s primjerima njegove upotrebe u tekstovima.

Paronimija- djelomična zvučna sličnost riječi sa njihovom semantičkom razlikom (potpuna ili djelomična). Paronimi su često izvor govornih grešaka.

Primjeri jednokorijenskih paronima: haljina - obući, ljudski - human, platiti - platiti - platiti.

Primjeri potpuno nepovezanih paronima: biologija - bryology, bujon - brilon, compote - complot, tekstura - fraktura.

Međutim, tezaurus je više od alata za pronalaženje informacija. Tezaurus se može smatrati univerzalnim modelom terminološkog sistema, a samim tim i formalnim sistemom znanja sadržanim u jeziku određene naučne oblasti.

Tezaurus opšte namene

Tezaurus u najopštijoj definiciji je rečnik sa semantičkim vezama između jedinica rečnika. Od kasnih 1950-ih, tezaurusi se koriste u sistemima za mašinsko prevođenje i sistemima za pronalaženje informacija (IPS).

Za razliku od semantičkih rječnika, koji su dizajnirani da detaljno opisuju opći vokabular, tezaurusi su dizajnirani da pohranjuju i klasifikuju izuzetno specifične riječi i fraze. Na primjer, riječ supstance nalazi se u ROSS rječniku (Ruski opći semantički rječnik), a sva imena hemijskih jedinjenja su već u tezaurusu.

Koji su odnosi opisani u tezaurusu? obično:

    rod-vrsta (AKO)

    dio-cjelina (POF)

    sinonimija/antonimija

    asocijativni.

Primjer odnosa rod-vrsta

Primjer semantičkog raščlanjivanja

Ovo paradigmatičan(stabilne veze koje postoje između riječi u jeziku). I to nije sve.

Sintagmatski(tekstualne) veze nisu predstavljene u tezaurusu.

Primjer: WORDNET - inteligentni kompjuterski tezaurus

http://wordnet.princeton.edu/perl/webwn

Napravljen na Univerzitetu Princeton i distribuiran besplatno.

Ključne karakteristike.

Riječi u njemu grupirane su u sinonimne grupe ( sinsetovi - sinsetovi). Podijeljeni su u 4 rječnika - imenice, pridevi, glagoli i prilozi.

Sinsetovi su ujedinjeni kako u hijerarhijskim odnosima (hiponimi i hipernimi), tako iu odnosu na antonimiju i takođe meronimiju (biti dio nečega ili se sastojati od dijelova).

Problem morfologije je također riješen - riječ nakon poziva na WN vraća se u izvornom obliku.

Tezaurus za pronalaženje informacija

U polju pronalaženja informacija, tezaurusi imaju koristi od prijelaza s teksta na deskriptore koji opisuju objekt iz stvarnog svijeta. Preskakanje na deskriptore omogućava prošireno (suvišno) indeksiranje.

U tezaurusu za pronalaženje informacija eksplicitno su izraženi PARADIGMATIČKI odnosi između deskriptora (ne svi, ali oni koji su najčešće važni za povećanje kompletnosti pronalaženja informacija). Eksperimentalno je utvrđeno da su najvažniji paradigmatski odnosi

    podređenosti

    sličnost

    vrsta-rod (rod-vrsta)

    uzrok-posledica

    dio-cjelina.

Primjer unosa u rječnik:

Agreecultural mašine.Agreecultural oprema

Syn. poljoprivredne mašine, poljoprivredne mašine,

Pogledaj: kombajn za krompir, sejalica itd.

Primjer suvišnog indeksiranja

Zahtjev "Agreecultural machines. Agreecultural equipment"

Primer: Socio-politički tezaurus informacionog sistema Univerziteta ruskog jezika RUSIJA

http://www.cir.ru/index.jsp

Razvijena od strane autonomne neprofitne organizacije "Centar za istraživanje informacija" (ANO TsII)

Tezaurus je terminološki resurs implementiran kao rečnik pojmova i pojmova sa vezama između njih. Glavna svrha tezaurusa je da pomogne u pronalaženju informacija: na osnovu veza tezaurusa, upit se proširuje, navigacija kroz veze tezaurusa pomaže da se jasnije formuliše sam upit.

Karakteristika hijerarhije Tezaurusa UIS "Rusija" je pluralitet klasifikacije, odnosno za većinu koncepata se ne traži ni jedan klasifikacioni koncept (veza IZNAD - DOLJE), već se opisuju različita gledišta na određeni koncept, na primjer, koncept RADNJA se može smatrati i kao ZGRADA i kao ORGANIZACIJA.

Tezaurus o društveno-političkim temama, obuhvata više od 26.000 pojmova, 62.000 pojmova, 100.000 direktnih i 700.000 naslijeđenih odnosa između pojmova. Trenutna verzija Tezaurusa opisuje terminologiju koja se koristi u društveno-političkom polju, uključujući ekonomske, političke, vojne, zakonodavne, društvene, međunarodne odnose i druga područja.

Puni naziv Tezaurusa je tezaurus za pronalaženje informacija o društveno-političkim temama za automatsko indeksiranje. Ovdje su važne sve definicije:

    "preuzimanje informacija" - jer je dizajnirano posebno za korištenje u pronalaženju informacija kako bi pomoglo korisniku u formiranju (razjašnjenju) zahtjeva i da automatski proširi termine zahtjeva tokom pretraživanja;

    „o društveno-političkim temama“ - jer pokriva 95-99% vokabulara i terminologije teksta na ruskom jeziku o društveno-političkim temama;

    “za automatsko indeksiranje” – jer je to osnova za proces automatskog određivanja predmeta dokumenata – grupisanje pojmova bliskih u hijerarhiji tezaurusa u tematske čvorove, automatska kategorizacija i automatsko označavanje.

Tezaurus - Zaključak

Za mnoge poznate tezauruse (WordNet, Roget, EuroWordNet), automatsko zaključivanje putem veza tezaurusa ostaje veliki problem – kada je proširenje na najbliže susjedstvo ispravno, ali nije potpuno, a pokušaji proširenja susjedstva dovode do grešaka.

Konceptualni sistem predmetne oblasti Osnovu svake predmetne oblasti je sistem pojmova ove oblasti. Definicija pojma: Pojam je misao koja odražava predmete i pojave stvarnosti u generaliziranom obliku fiksirajući njihova svojstva i odnose; potonje (svojstva i odnosi) pojavljuju se u pojmu kao opća i specifična obilježja u korelaciji s klasama predmeta i pojava (Lingvistički rječnik)


Koncepti i pojmovi Za izražavanje koncepta predmetne oblasti u tekstovima, koriste se riječi ili fraze koje se nazivaju termini. Skup pojmova predmetne oblasti čini njen terminološki sistem. Odnos konkretnog pojma sa drugim pojmovima pojmovnog sistema predmetne oblasti dat je definicijom


Definicije pojma? Riječ (ili kombinacija riječi) koja je tačna oznaka određenog pojma bilo koje posebne oblasti nauke, tehnologije, umjetnosti, društvenog života itd. || Posebna riječ ili izraz koji se koristi za označavanje nečega. u određenom okruženju, profesiji (Veliki objašnjavajući rečnik ruskog jezika)


Termini – tačni nazivi pojmova Obično svaki pojam područja odgovara barem jednom nedvosmisleno shvaćenom pojmu čije značenje je ovaj koncept. - termini, u smislu tradicionalne teorije terminologije Svojstva pojmova - tačni nazivi pojmova - termin se mora odnositi direktno na pojam, mora jasno izražavati pojam; - značenje pojma mora biti precizno i ​​ne smije se po značenju preklapati sa drugim pojmovima; - značenje pojma ne bi trebalo da zavisi od konteksta. Termini koji tačno imenuju pojam su predmet proučavanja teorije terminologije, terminologa


Tekstualni termini U stvarnim tekstovima predmetne oblasti, pored glavnih termina, za označavanje pojma mogu se koristiti i različiti jezički izrazi, koje nazivamo tekstualnim terminima: - sintaktičke i rečotvorne opcije: primalac budžetskih sredstava - primalac budžeta; - leksičke varijante - direktan otpis, neosporan otpis; - izrazi sa više vrijednosti, u zavisnosti od konteksta, koji služe kao referenca na različite koncepte regiona, na primjer, riječ valuta u različitim kontekstima može značiti nacionalnu valutu ili stranu valutu.














Označeni deskriptori Oznake - dio naziva deskriptora dizalice (oprema za dizanje) vs dizalice (ptice) školjke (strukture) - poređenje različitih tezaurusa Preferencije za fraze: – Gramofonske ploče vs. ploče (fonograf) Legla i množina: Drvo (materijal) Šume (šumovita područja)






Uključivanje deskriptora na osnovu višerečivih izraza Podela pojma povećava dvosmislenost: biljna hrana Značenje izraza zavisi od redosleda reči: informatika - naučne informacije Jedna od sastavnih reči je izvan opsega tezaurusa ili je previše opšta: odnosi deskriptora prve pomoći ne proizilaze iz njegove strukture: – veštački bubrezi, status izbeglice, semafor




Asocijativni odnosi Područje djelovanja - karakter - Matematika - matematičar Disciplina - predmet proučavanja - Neurologija - nervni sistem Djelovanje - agens ili oruđe - Lov - lovac Djelovanje - rezultat djelovanja - Tkanje - tkanina Djelovanje - cilj - Povez - knjiga Uzrok-posledica - Smrt - sahrana Vrijednost - jedinica mjere - Strujna snaga - kontraktorna droga - ampera itd.


Tezaurus za pronalaženje informacija: faze razvoja Prva faza: indekseri opisuju glavnu temu teksta proizvoljnim riječima i frazama. Izrazi dobijeni iz mnogih tekstova spojeni su. Među pojmovima koji su bliski po značenju, odabran je najreprezentativniji Neki od preostalih postaju uvjetni sinonimi, ostali se brišu. Specifični pojmovi obično nisu uključeni


Tezaurus za pronalaženje informacija: umjetnost dizajna Deskriptori su termini koji su potrebni da bi se izrazila glavna tema dokumenta Sinonimi su uključeni samo najpotrebniji (na primjer, započeti drugim slovom) kako ne bi ometali rad indeksatora Slične termine treba svesti na jedan termin kako bi se izbjegla subjektivnost indeksiranja Nivoi hijerarhije, uključivanje specifičnih pojmova je ograničeno


Tezaurus za pronalaženje informacija: umjetnost razvoja - 2 U složenim slučajevima deskriptori su snabdjeveni oznakama i komentarima -LIV: bombardiranje - bombardiranje -Dvosmisleni pojmovi: jedna vrijednost u tezaurusu (glavni dio), ne uklapaju se u tezaurus, oznake!!! Tradicionalni tezaurus za pronalaženje informacija - veštački jezik izgrađen na osnovu stvarnih termina




Tradicionalni IPT: aplikacija u automatskoj obradi Nedostatak znanja o stvarnom jeziku softvera Nepoznavanje pravog jezika softvera Rečnik zakonodavnog indeksiranja: Rečnik zakonodavnog indeksiranja: - u tekstu TROOPS - u tezaurusu VOJNE SNAGE - u tekstu GLAVNO SISTE - u tekstu KAPITAL - u glavnom gradu se upućuje samo na glavni pojam ili u glavnom gradu. Ali: polisemija ili odnos prema različitim deskriptorima. Rješavanje dvosmislenosti Rješavanje dvosmislenosti


Tradicionalni IPT: automatsko proširenje upita Problem s asocijacijama Predloženo: unesite težine unesite težine unesite nazive odnosa: objekt, svojstvo, itd. unesite nazive relacija: objekt, svojstvo, itd. ZAKLJUČAK: morate naučiti kako izgraditi jezičke resurse posebno za automatsku obradu zbirki teksta


Tezaurus EUROVOC – višejezični tezaurus Evropske zajednice Tezaurus na 9 jezika Ruska verzija EUROVOC –+5 hiljada koncepata koji odražavaju ruske specifičnosti Višejezični tezaurus – Deskriptor – imena na različitim jezicima – Akriptori – za neke jezike


Automatsko indeksiranje zasnovano na pravilima na EUROVOC tezaurusu (Hlava, Heinebach, 1996.) Primjer pravila: IF (u blizini "Tehnologija" I sa "Razvoj") KORISTI Program zajednice USE razvojnu pomoć ENDIF 40 hiljada pravila. Testiranje: 20 najčešćih deskriptora u tekstu, generiranih automatski - 42% potpunosti, u poređenju s ručnim rubrikiranjem


Automatsko indeksiranje zasnovano na uspostavljanju korespondencije težina između riječi i deskriptora (Steinberger et al., 2000.) Faza 1 - uspostavljanje korespondencije između tekstualnih riječi i dodijeljenih deskriptora na osnovu statističkih mjera (hi-kvadrat ili log vjerovatnoće) Deskriptor UPRAVLJANJA RIBOROM - sljedeće riječi (po opadajućem redoslijedu, redoslijedu riba, ribarstvu, težini itd.): Sama 2. faza indeksiranja - zbrajanje logaritama težina ili kao skalarni proizvod vektora


Kombinacija labavih i tezaurusnih upita za pronalaženje informacija Ručno indeksirana zbirka - korelacije Korisnički skupovi Upit prirodnog jezika Upit je proširen deskriptorima tezaurusa koji su najjače povezani sa upitom (Petras 2004; Petras 2005). Na primjer, na zahtjev nesolventnih preduzeća (Insolvent company) može se dobiti lista deskriptora likvidnost, zaduženost, preduzeće, firma, a upit je proširen.Tačnost u eksperimentu povećana je za 13%.



Odjeljak je vrlo jednostavan za korištenje. U predloženo polje samo unesite željenu riječ, a mi ćemo vam dati listu njenih značenja. Želio bih napomenuti da naša stranica pruža podatke iz različitih izvora - enciklopedijskih, objašnjavajućih, riječnika. Ovdje se također možete upoznati s primjerima upotrebe riječi koju ste unijeli.

Značenje riječi tezaurus

tezaurus u rječniku ukrštenih riječi

Objašnjavajući rečnik ruskog jezika. S.I.Ozhegov, N.Yu.Shvedova.

tezaurus

[te], -a, m. (poseban).

    Rječnik jezika, koji postavlja zadatak potpunog odraza cijelog njegovog rječnika.

    Rječnik ili skup podataka koji u potpunosti pokriva pojmove, koncepte neke vrste. posebno područje.

    adj. tezaurus, th, th.

Novi objašnjavajući i derivacioni rečnik ruskog jezika, T. F. Efremova.

tezaurus

    Bilo koji rječnik. jezika, predstavljajući njegov vokabular u potpunosti.

    Kompletan, sistematski skup podataka o a polje znanja koje omogućava osobi ili kompjuteru da se kreće u njemu (u informatici).

Enciklopedijski rečnik, 1998

tezaurus

TEZAURUS (od grčkog thesauros - blago)

    rečnik u kojem su reči jezika predstavljene što je moguće potpunije sa primerima njihove upotrebe u tekstu (u potpunosti je izvodljivo samo za mrtve jezike).

    Rječnik u kojem su riječi koje se odnose na bilo koju oblast znanja raspoređene prema tematskom principu i prikazani su semantički odnosi (rodovi, sinonimi, itd.) između leksičkih jedinica. U tezaurusima za pronalaženje informacija, leksičke jedinice teksta zamjenjuju se deskriptorima.

Tezaurus

(od grčkog thesaurós ≈ blago, riznica), skup semantičkih jedinica određenog jezika sa sistemom semantičkih (vidi Semantika) odnosa datim u njemu. T. zapravo određuje semantiku jezika (nacionalni jezik, jezik određene nauke ili formalizovani jezik za automatizovani sistem upravljanja). U početku se T. smatrao jednomjezičnim rječnikom, u kojem se semantičke relacije određuju grupisanjem riječi prema tematskim naslovima. Na primjer, engleski T. (autor P. M. Roget), objavljen 1962. (1. izdanje 1852.), sadrži 1040 naslova, među kojima je raspoređeno oko 240.000 riječi. Indeks (ključ) ovog T. sadrži abecednu listu riječi koja označava naslove i podnaslove kojima svaka riječ pripada. Postoje tradicionalni opšti jezici (opisi semantičkih sistema pojedinačnih jezika) za engleski, francuski i španski. Jednojezični rječnici koji definiraju izraze glavnih semantičkih parametara svake riječi vrlo su bliski T., na primjer, rječnik ruskog jezika S. I. Ozhegova.

70-ih godina. 20ti vijek Sveske za pronalaženje informacija postale su široko rasprostranjene.U njima su identifikovane posebne leksičke jedinice, ili deskriptori, koji se mogu koristiti za automatsku pretragu dokumentarnih informacija. Za svaku riječ takvog pojma pridružen je sinonimni deskriptor (vidi Sinonimija), a za deskriptore su eksplicitno naznačeni semantički odnosi: rod ≈ vrsta, dio ≈ cjelina, cilj ≈ sredstvo itd. Obično je uobičajeno da se odvoje rod-vrsta (hijerarhijski) i asocijativni odnosi. Tako, "Tezaurus za pronalaženje informacija u informatici", objavljen u SSSR-u 1973. godine, predviđa za svaki deskriptor unos u rječniku, koji posebno ukazuje na sinonimne ključne riječi, generičke, specifične i asocijativne deskriptore. Radi bolje orijentacije u asocijativnim vezama između deskriptora, ovom T. priložene su semantičke mape tematskih časova. U automatskom pronalaženju informacija traže se dokumenti čiji indeks ne sadrži samo deskriptore upita, već i one deskriptore koji su s njima u određenim semantičkim odnosima. Ponekad je korisno izdvojiti specifične asocijativne odnose specifične za datu tematsku oblast u T.: bolest ≈ uzročnik, sredstvo ≈ svrha (ili izmjerena vrijednost) itd. Položaj leksičke jedinice (riječi, fraze) u T. karakteriše njeno značenje u jeziku; poznavanje sistema semantičkih odnosa u koje određena riječ ulazi (uključujući rubrike u koje ulazi) omogućava prosuđivanje značenja ove riječi.

U širem smislu, tehnologija se tumači kao opis sistema znanja o stvarnosti koji posjeduje pojedinačni nosilac informacija ili grupa nosilaca. Ovaj nosilac može obavljati funkcije primaoca dodatnih informacija, usled čega se menja i njegov T. Početni T. određuje mogućnosti primaoca kada prima semantičke informacije. U psihologiji iu proučavanju sistema sa veštačkom inteligencijom razmatraju se svojstva T. pojedinaca, koja se manifestuju u percepciji i razumevanju informacija. U sociologiji i teoriji komunikacija proučavaju svojstva T. pojedinaca i grupa, koja pružaju mogućnost međusobnog razumijevanja na osnovu općenitosti T. U tim situacijama T. mora uključiti složene iskaze i njihove semantičke veze koje određuju zalihu informacija koje kompleksni sistem ima. T. zapravo sadrži ne samo informacije o stvarnosti, već i meta-informacije (informacije o informacijama), koje pružaju mogućnost primanja novih poruka.

Lit .: Cherny A.I., Opća metodologija za izradu tezaurusa, „Naučne i tehničke informacije. Ser. 2", 1968, ╧5; Varga D., Metodologija za izradu informacijskih tezaurusa, prev. [iz Hung.], M., 1970; Shreider Yu. A., Tezaurus u informatici i teorijskoj semantici, “Naučne i tehničke informacije. Ser. 2", 1971, ╧ Z.

Yu. A. Schreider.

Wikipedia

Tezaurus

Tezaurus, u opštem smislu – posebna terminologija, strožije i sadržajno – rečnik, zbirka informacija, korpus ili kod koji u potpunosti pokriva pojmove, definicije i pojmove posebne oblasti znanja ili oblasti delatnosti, što treba da doprinese pravilnoj leksičkoj, korporativnoj komunikaciji; u modernoj lingvistici posebna vrsta rječnika koji ukazuju na semantičke odnose (sinonimi, antonimi, paronimi, hiponimi, hipernimi itd.) između leksičkih jedinica. Tezauri su jedan od najefikasnijih alata za opisivanje pojedinačnih predmetnih oblasti.

Za razliku od eksplanatornog rječnika, tezaurus omogućava otkrivanje značenja ne samo uz pomoć definicije, već i povezivanjem riječi s drugim pojmovima i njihovim grupama, zbog čega se može koristiti za popunjavanje baza znanja sustava umjetne inteligencije.

U prošlosti, termin tezaurus Uglavnom su označeni rječnici koji predstavljaju rječnik jezika sa primjerima njegove upotrebe u tekstovima s maksimalnom potpunošću.

Takođe termin tezaurus koristi se u teoriji informacija da se odnosi na ukupnost svih informacija koje subjekt posjeduje.

U psihologiji, tezaurus pojedinca karakterizira percepciju i razumijevanje informacija. Teorija komunikacije također razmatra opći tezaurus složenog sistema kroz koji njegovi elementi međusobno djeluju.

Tezaurus (višeznačna odrednica)

Tezaurus:

  • Tezaurus - rečnik, zbirka informacija koje pokrivaju pojmove, definicije i termine posebne oblasti znanja ili oblasti delatnosti.
  • Rogerov tezaurus je jedan od prvih i najpoznatijih ideografskih rječnika u historiji.

Primjeri upotrebe riječi tezaurus u literaturi.

Za percepciju i sukreaciju, neke optimalne tezaurus Nije mala, ali ni prevelika.

Sa neograničenom količinom dolaznih informacija, značajno premašujući tezaurus, njegova vrijednost ne ovisi o ovoj količini i u potpunosti je određena tezaurus ohm.

Svestranost, sistemska priroda umjetnosti dovodi do neujednačenog sagledavanja djela u cjelini: za percepciju nekih aspekata stiha tezaurus optimalan, za druge, nedovoljan ili prevelik.

Jer tezaurus raste i mijenja se, ponovno upoznavanje s radom može značiti i dobijanje novih vrijednih informacija.

Razumljiva je želja djeteta da iznova čita bajku koja mu je zavoljela: njegovu tezaurus posebno je velika njegova sposobnost za zajedničko stvaralaštvo, za asocijativno maštanje.

Ova strana stvari je promjenljivija i subjektivnija od tezaurus, a u potrazi za objektivnom estetskom ocjenom rada, treba je svesti na minimum.

On prodire u tezaurus pjesnika i obraća se prijevodu tezaurus od stranog čitaoca.

Ova najvažnija stvar je da odredite koliko je vaš tezaurus, T.

Ne, samo je njegov vlastiti prtljag oskudan, on je nerazvijen, njegov tezaurus je u povojima, i ako to ne razumije tezaurus treba povećati, onda će, u svakom slučaju, ovoj ženi biti teško s njim.

Rich tezaurus, zasnovan na istinskom znanju, omogućava osobi u komunikaciji sa drugom osobom, uključujući i najbližu komunikaciju sa najbližom osobom, da pravilno odgovori na sve što se dešava.

Očigledno, pad vrijednosti informacija s rastom tezaurus treba da zavisi od odnosa tezaurus na količinu primljenih informacija.

Očigledno, optimalna vrijednost umjetničke informacije odgovara blizini tezaurusčitač i tezaurus pesnik.

Možemo reći da je za sukreaciju, kao i za kreativnost, potrebna inspiracija, odnosno inkluzija tezaurus u najširem smislu te riječi.

Takvo unutrašnje ponavljanje svijetle slike i svijetlog zvuka, koji ostaje unutar postojećeg tezaurus, obogaćuje ga istim estetskim momentom ponavljanja.

Na ovom mjestu tezaurus Nabokova i Prišvina treba smatrati antipodima Platonova, a Marina Cvetaeva može se prepoznati kao slična njemu.

N. V. Lukashevich

[email protected]

B. V. Dobrov

Istraživački računarski centar Moskovskog državnog univerziteta M.V. Lomonosov;

ANO Centar za informacijska istraživanja

[email protected]

Ključne riječi: tezaurus, pronalaženje informacija, automatska obrada teksta,

Velika većina tehnologija koje rade sa velikim zbirkama tekstova zasniva se na statističkim i probabilističkim metodama. To je zbog činjenice da bi leksički resursi koji bi se mogli koristiti za obradu zbirki teksta korištenjem lingvističkih metoda trebali imati volumen od nekoliko desetina hiljada rječničkih natuknica i imati niz važnih svojstava koje je potrebno posebno pratiti pri razvoju izvora. U izvještaju razmatramo osnovne principe razvoja leksičkih resursa za automatsku obradu velikih zbirki tekstova na primjeru tezaurusa ruskog jezika kreiranog od 1997. godine za kompjutersku obradu tekstova RuThez, koji je trenutno hijerarhijska mreža od više od 42 hiljade pojmova. Sadašnje stanje tezaurusa opisujemo na osnovu poređenja njegovog leksičkog sastava i korpusa teksta Univerzitetskog informacionog sistema RUSIJA (www.cir.ru) - 400 hiljada dokumenata. Razmatraju se primjeri korištenja tezaurusa u raznim aplikacijama za automatsku obradu teksta.

  1. Uvod

Trenutno su milioni dokumenata postali dostupni u elektronskom obliku, stvorene su hiljade informacionih sistema i elektronskih biblioteka. Istovremeno, informacioni sistemi koji koriste leksičke i terminološke resurse za pretraživanje izračunavaju se u delićima procenta. To je zbog ozbiljnih problema stvaranja ovakvih jezičkih resursa za automatsku obradu savremenih zbirki elektronskih dokumenata.

Prvo, ove kolekcije su obično veoma velike, resurs mora da sadrži opise hiljada reči i pojmova. Drugo, zbirke su skup dokumenata različite strukture sa različitim sintaksičkim konstrukcijama, što otežava automatsku obradu tekstualnih rečenica. Osim toga, važne informacije se često distribuiraju među različitim rečenicama teksta.

Sve ovo oštro postavlja pitanje kakav bi trebao biti jezički resurs koji bi, s jedne strane, bio koristan za automatsku obradu i pretraživanje u elektronskim zbirkama, s druge strane, mogao bi se stvoriti u dogledno vrijeme i održavati uz relativno malo truda.

U članku ćemo razmotriti osnovne principe razvoja leksičkih resursa za automatsku obradu velikih zbirki teksta. Ovi principi će se razmatrati na primjeru tezaurusa ruskog jezika koji je od 1997. godine kreirao ANO Centar za informatička istraživanja za kompjutersku obradu tekstova RuThez. RuThez je trenutno hijerarhijska mreža od više od 42 hiljade pojmova, koja uključuje više od 95 hiljada ruskih riječi, izraza, pojmova. Sadašnje stanje tezaurusa ćemo opisati na osnovu poređenja njegovog leksičkog sastava i leksikona korpusa teksta Univerzitetskog informacionog sistema RUSIJA, uz podršku Centra za istraživanje i razvoj Moskovskog državnog univerziteta. M.V. Lomonosov i ANO TsII. UIS RUSSIA (www.cir.ru) sadrži 400.000 dokumenata o društveno-političkim temama (oko 3 GB tekstova, 200 miliona upotrebe reči). U članku će se također pogledati primjeri korištenja tezaurusa u različitim aplikacijama za obradu teksta.

  1. Principi za razvoj jezičkog resursa

za zadatke pronalaženja informacija

Da bi se obezbijedila efikasna automatska obrada elektronskih dokumenata (automatsko indeksiranje, kategorizacija, poređenje dokumenata), potrebno je izgraditi osnovu za njihovo poređenje – listu onoga što je navedeno u dokumentu. Da bi takav indeks bio učinkovitiji od indeksa riječi, potrebno je prevazići leksičku raznolikost teksta: sinonime, polisemiju, dijelove govora, stil i svesti ga na invarijantu – koncept koji postaje osnova za poređenje različitih tekstova. Dakle, koncepti treba da postanu osnova jezičkog resursa, a jezički izrazi: riječi, pojmovi - postaju samo tekstualni ulazi koji inicijaliziraju odgovarajući koncept.

Da bi se mogli porediti različiti, ali bliski po značenju, koncepti, moraju se uspostaviti odnosi između njih. Tradicionalno su se u jezičkim resursima za automatsku obradu tekstova na prirodnom jeziku koristili određeni skupovi semantičkih odnosa, kao npr. dio, izvor, uzrok i tako dalje. Međutim, kada radimo sa velikim i heterogenim kolekcijama tekstova, moramo shvatiti da sa trenutnim stanjem tehnologije obrade teksta, kompjuterski sistem neće moći detektovati ove odnose u tekstu na bilo koji stabilan način kako bi izvršio procedure koje smo povezali sa određenim odnosima. Stoga bi odnosi između pojmova prije svega trebali opisati neka invarijantna svojstva koja ne zavise ili slabo zavise od teme određenog teksta u kojem se pojam spominje.

Glavna funkcija ovih odnosa je da odgovori na sljedeće pitanje:

ako se zna da je tekst posvećen raspravi o C1, a C2 je povezan

stavRsa C1, možemo li reći da je tema teksta(*)

ima veze sa C2?

Prilikom kreiranja jezičkog resursa za automatsku obradu, važno je odrediti koja svojstva koncepata C1 i C2 omogućavaju uspostavljanje ispravnih (*) odnosa između njih.

Tako, na primjer, o čemu god da se piše breze, uvek možemo reći da se radi o stihovima drveće. Ali uprkos popularnosti i čestim raspravama o vezi drvo kao dio šume, vrlo mali broj tekstova o drveću su tekstovi o šumama. Imajte na umu da problem nije povezan s imenom relacije. Dakle čistina je dio šume, a tekstovi o proplancima su tekstovi o šumi.

Invarijantnost relacija u odnosu na spektar mogućih tema tekstova predmetne oblasti u velikoj meri je određena dubljim svojstvima od onih koje reflektuju nazivi odnosa, odnosno njegovim kvantifikatorom i egzistencijalnim svojstvima. Dakle, svojstva kvantifikatora relacija opisuju da li sve instance koncepta imaju datu relaciju, da li je data relacija očuvana tokom cijelog životnog ciklusa primjera. Problem korištenja relacije drvošuma to je upravo povezano sa činjenicom da nije svako određeno drvo u šumi, ali čistina ne može biti izvan šume.

Primjer za opisivanje egzistencijalnih svojstava odnosa je da li postojanje koncepta C2 proizlazi iz postojanja koncepta C1 (na primjer, postojanje koncepta GARAŽA zahteva koncept AUTOMOBILE) ili postojanje primjera C1 ovisi o postojanju primjera C2 (dakle, određenog POPLAVA neodvojivo od konkretnog primjera RIJEKE). Rasprava u tekstu o zavisnom konceptu C2, posebno o primjeru zavisnom, sugerira da je tekst relevantan i za glavni koncept C1.

Razmotrite odnos između pojmova ŠUMA i DRVO u detaljima. U stvari, dio koncepta FOREST je DRVO U ŠUMI, dok postoje i STOJEĆE DRVO,DRVO U BAŠTU itd. U svakom slučaju, potrebno je prekinuti odnos subordinacije pojma DRVO pojam FOREST.

Na drugoj strani, FOREST je ljubazan SET DRVEĆA, ne postoji bez drveća (kao i VRT). Dakle koncept FOREST treba da zavisi od koncepta DRVO. Polazeći od analize potreba konkretnih primijenjenih zadataka, došli smo do zaključka da je važno opisati dubinska svojstva relacija koja su se ranije vrlo neznatno odražavala u jezičkim resursima, ali su od najveće važnosti za zadatke automatske obrade velikih zbirki tekstova, a moguće i za mnoge druge zadatke.

Sada modeliramo opis kvantifikatora i egzistencijalnih svojstava koncepata skupom tradicionalnih relacija tezaurusa IZNAD-ISPOD (66% svih veza), DEO-Celina (30% veza), ASOCIJACIJA (4%), u kombinaciji sa nekim skupom dodatnih modifikatora (20% relacija je označeno). Imajte na umu da se relacije DEL-CELINA i ASOCIJACIJA tumače prema pravilu (*). Ukupno je opisano oko 160 hiljada direktnih veza između pojmova, što, uzimajući u obzir tranzitivnost relacija, daje ukupan broj različitih veza od više od 1350 hiljada veza, odnosno u prosjeku je svaki pojam povezan sa 30 drugih.

  1. RuThes Thesaurus: Opća struktura

RuThes Thesaurus je hijerarhijska mreža koncepata koji odgovaraju značenjima pojedinih riječi, tekstualnih izraza ili sinonimnih nizova. Dakle, glavni elementi tezaurusa su pojmovi, jezički izrazi, odnosi, jezički izraz - koncept, odnosi među pojmovima.

U tezaurusu su oba lingvistička znanja – opisi leksema, idioma i njihovih veza, tradicionalno vezana za leksička, semantička znanja, i znanja o terminima i odnosima unutar predmetnih oblasti, tradicionalno vezana za područje djelovanja terminologa, opisana u tezaurusima za pronalaženje informacija, sakupljena u jedinstven sistem. Kao takve predmetne poddomene, tezaurus opisuje predmetne oblasti kao što su ekonomija, zakonodavstvo, finansije, međunarodni odnosi, koje su toliko važne za svakodnevni život osobe da imaju značajnu leksičku zastupljenost u tradicionalnim rječnicima s objašnjenjima. U njima su leksičko i terminološko snažno međusobno povezane i u snažnoj interakciji jedno s drugim.

Jezički izrazi su zasebne lekseme (imenice, pridjevi i glagoli), imenske i glagolske grupe. Dakle, tezaurus sada ne uključuje priloge i pomoćne riječi kao jezičke izraze. Grupe sa više riječi mogu uključivati ​​termine, idiome, leksičke funkcije ( uticaj e).

Za svaki jezički izraz opisano je sljedeće:

Njegova višeznačnost je veza sa jednim ili više pojmova, što znači da dati jezički izraz može poslužiti kao tekstualni izraz ovog pojma. Dodjeljivanje jezičkog izraza različitim konceptima također je implicitna indikacija njegove dvosmislenosti;

Njegov morfološki sastav (dio govora, broj, padež);

Karakteristike pisanja (na primjer, velikim slovom) itd.

Svaki koncept tezaurusa ima jedinstveno ime, listu jezičkih izraza pomoću kojih se ovaj koncept može izraziti u tekstu, listu odnosa sa drugim konceptima.

Kao jedinstveno ime za koncept obično se bira jedan od njegovih nedvosmislenih tekstualnih izraza. Ali naziv pojma može biti formiran i od para njegovih dvosmislenih tekstualnih izraza - sinonima napisanih zarezom i koji ga jedinstveno definiraju (na primjer, koncept DEBELO, DEBELO). Dvosmisleni tekstualni izraz naziva pojma može biti opremljen i oznakom ili skraćenim fragmentom interpretacije, na primjer, koncept GOMILA (KLASTER LJUDI).

  1. Primjer unosa u rječniku

Kao primjer odabrali smo rječničku stavku pojma FOREST odgovara jednom od značenja te riječi šuma. Ovaj rječnik je zanimljiv jer uključuje različite vrste znanja koje se tradicionalno nazivaju leksičko (semantičko) znanje i enciklopedijsko znanje (znanje o predmetnoj oblasti, terminologija).

Sinonimi za koncept FOREST(ukupno 13):

šuma(M), šumska zona, šumsko okruženje,

šuma, šumska četvrt, šumski pejzaž,

šumsko područje, šuma, pošumljeno,

šumsko sirovo područje, šuma,

niz šuma.

Sljedeći pojmovi sa sinonimima:

JUNGLE(džungla);

PARK ŠUMA(gradska bašta, zelena površina,

zeleni masiv, park šuma,

šumarstvo, šumarstvo

pojas, parkM), zona parka);

ŠUMSKI LOV;

listopadne šume(šuma mekog drveta, tvrdo drvo

šuma);

GROVE(hrastova šuma);

ČETINARSKA ŠUMA (četinarski masiv, tamna četinarska šuma)

Pojmovi-dijelovi sa sinonimima:

BORELOM (vjetrolom, vjetar);

FELLING(područje rezanja);

KULTURA ŠUMA(šumske vrste, šumarstvo

kultura);

ŠUMSKO ZEMLJIŠTE (zemljišta šumskog fonda; zemljišta pokrivena s

šuma; šumsko zemljište, šumsko područje;

šumovito zemljište, šumovito

područje,);

FOREST(šumski zasadi, šumski zasadi,

pošumljavanje);

FOREST EDGE(ivica, ivica);

PODrast (podrast);

PROSECA;

SUHA ZEMLJA(suho).

Ovdje simboli (M) odražavaju oznaku dvosmislenosti unosa teksta.

koncept FOREST ima i druge odnose, takozvane odnose zavisnosti (u modernoj verziji oni se zovu ASC 2 - asimetrična asocijacija): ŠUMSKI POŽAR(šumski požar, požar u šumi; UPRAVLJANJE ŠUMAMA (korištenje šuma, korištenje parcela šumskog fonda); VLASNIŠTVO ŠUMA; FOREST SCIENCE (nauka o šumama). Kao što je već napomenuto u paragrafu 2, koncept ŠUME zavisi od koncepta DRVETA, koje je u tezaurusu označeno relacijom ASC 1 .

Cijeli koncept FOREST direktno je povezan sa 28 drugih koncepata, uzimajući u obzir tranzitivnost relacija - sa 235 pojmova (ukupno više od 650 unosa teksta).

  1. Procjena stanja tehnike

Tezaurus ruskog jezika RuThez

5.1. Leksički sastav

Trenutno je više od 95 hiljada jezičkih izraza uključeno u mrežu tezaurusa, od čega je 61 hiljada izraza od jedne riječi.

Ova količina rada navela nas je da odlučimo koje riječi i jezičke izraze treba uključiti u opise Tezaurusa. Prirodna želja je bila da se vidi kako su najčešće reči ruskog jezika zastupljene u tezaurusu. Za to je korišćena zbirka tekstova Univerzitetskog informacionog sistema RUSIJA (400 hiljada dokumenata). Zbirka sadrži službene dokumente različitih organa Ruske Federacije (55.000 dokumenata od 1992.), kao i materijale za štampu od 1999. (novine Izvestia, Nezavisimaya Gazeta, Komsomolskaya Pravda, Arguments and Facts, Expert magazin i drugi), materijale iz naučnih časopisa (Bilten Moskovskog univerziteta, Sociološki časopis). Napravljeno je poređenje između liste lema uključenih u Tezaurus i liste od 100.000 najčešćih lema u zbirci tekstova (učestalost veća od 25).

Leksičko označavanje liste pokazalo je da je od ovih sto hiljada lema 35 hiljada opisano u RuThes-u, samo oko 7 hiljada leksema zaslužuje da bude uključeno u tezaurus, ostale su lematske varijante različitih vlastitih imena. Stoga je dopuna prestala biti prioritet i provodi se postepeno, počevši od najčešćih riječi. Pretpostavlja se da će se, čim se ova lista u osnovi iscrpi, izvršiti naredno poređenje sa tekstualnim nizom informacionog sistema, birati novi tokeni sa frekvencijom većom od 25. Nadalje, trebalo bi da se smanji prag gledanja. Prisutnost u zbirci teksta velikog broja tekstualnih primjera omogućava vam da brzo odgovorite na "leksičke novine" (npr. instalacija,blockbuster, beau monde, triler) i uključiti ih na odgovarajuća mjesta u hijerarhijskom sistemu Tezaurusa.

Konstantan rad sa trenutnom zbirkom tekstova pruža jedinstvene mogućnosti za testiranje značaja i kvaliteta leksičkih opisa ponuđenih u rječnicima. Na primjer, neobično visoka učestalost upotrebe riječi Mother See(više od 400 puta). Provjera niza je pokazala da se riječ zaista često koristi kao sinonim za riječ Moskva, dok rječnici s objašnjenjima ovu riječ često označavaju kao zastarjelu. Još jedan primjer često korištene riječi (više od 300 puta) označene kao zastarjele u rječnicima je riječ blažen.

5.2 Opis značenja riječi

Poređenje sa kolekcijom teksta pokazuje da su mnoge riječi frekvencije u nizu dobro predstavljene u Tezaurusu u barem jednoj od svojih (obično osnovnih) vrijednosti. Utvrditi u kojoj mjeri je raspon značenja polisemantičkih riječi ruskog jezika zastupljen u Tezaurusu, naš je primarni zadatak u ovom trenutku.

Kao što znate, različiti rječnički izvori često daju različit skup značenja za polisemantičke riječi, razlikuju nijanse značenja, a isti tip polisemije može se različito opisati za različite riječi čak i u istom rječniku. Stoga je zadatak dosljednog i reprezentativnog opisa značenja leksema važan zadatak za kreatore svakog rječnika.

Međutim, ako je resurs namijenjen za automatsku obradu, tada zadatak uravnoteženog opisa vrijednosti postaje mnogo važniji. Prekomjerno naduvavanje vrijednosti može dovesti do toga da kompjuterski sistem ne bude u mogućnosti da odabere željenu vrijednost, što zauzvrat dovodi do značajnog smanjenja efikasnosti sistema za automatsku obradu teksta. Dakle, kao jedan od nedostataka WordNet resursa kao resursa za automatsku obradu teksta je prevelik broj vrijednosti opisanih za neke riječi (u WordNet 1.6: 53 vrijednosti za trči.47 for igrati i tako dalje.). Ova značenja je teško razlikovati čak i za osobu kada semantički anotira tekstove. Jasno je da računarski sistem takođe ne može da se nosi sa izborom odgovarajuće vrednosti. Stoga različiti autori predlažu različite načine kombiniranja vrijednosti za poboljšanje kvalitete obrade.

Istovremeno, djeluje suprotan faktor: ako se vrijednosti zaista razlikuju u svom skupu rječnika (u našem slučaju, veze tezaurusa) - ne mogu se zalijepiti u jednu jedinicu (jedan koncept) - to će također dovesti do pogoršanja kvalitete automatske obrade.

Razmotrite na primjer riječi škola I crkva, od kojih se svaki može posmatrati kao organizacija i kao zgrada.

Svaka školska organizacija ima zgradu (najčešće jednu). Svi dijelovi školske zgrade (učionice, table) su u vezi škola kao organizacija. Ne postoje posebne vrste školskih zgrada. Stoga opis škole kao građevine neprikladno je izdvajati kao poseban koncept. Međutim, opis takvog kumulativnog koncepta ŠKOLA kao organizacija i kao zgrada mora imati posebno osmišljen odnos prema konceptu ZGRADA. Prilikom opisivanja takvih odnosa u Tezaurusu koristi se oznaka odnosa - modifikator "A" ("aspekt", u automatskoj analizi, da bi se ovaj odnos uzeo u obzir, potrebna je "potvrda" drugim konceptima).

ŠKOLA

VIŠE OBRAZOVNE USTANOVE

IZNAD A JAVNA ZGRADA

Relevantna značenja riječi crkva ne tako blizu. crkve Kako jedna organizacija može imati veliki broj crkvenih zgrada na različitim lokacijama, ali i mnoge druge zgrade. crkvenogradnja blisko povezan sa religijom i konfesijom, ali može promijeniti pripadnost organizacije crkava. crkva-organizacija I crkvenogradnja imaju različite podvrste. Zbog toga CRKVA (ORGANIZACIJA) I CRKVA (ZGRADA) su predstavljeni u RuThes-u kao različiti koncepti.

Značajna divergencija u odnosima tezaurusa korelira na zanimljiv način sa sposobnošću denotata koji odgovaraju značenjima da postoje odvojeno jedan od drugog. Dakle, crkva-zgrada ne prestaje da postoji i čak se naziva crkvom čak i kada se promijeni namjena, za razliku od školske zgrade.

Proces usaglašavanja predstavljanja vrijednosti u Tezaurusu se stalno provodi, počevši od najčešćih lema. Za svaki token frekvencije provjerava se kako su njegove vrijednosti opisane u rječnicima s objašnjenjima, koje vrijednosti se koriste u kolekciji i kako su predstavljene u Tezaurusu. Kao rezultat toga, formirana je lista od 10.000 leksema, čija višeznačnost još uvijek zahtijeva dodatnu analizu ili dodatni opis. Lista se zasniva na 30 hiljada najčešćih lema.

Treba napomenuti da je u Tezaurusu problem dvosmislenosti djelimično otklonjen zbog činjenice da se tezaurusne veze mogu opisati između različitih značenja riječi, te se stoga po defaultu može odabrati najviši pojam u hijerarhiji. O tome je svakako bilo reči u tekstu. Na primjer, riječ fotografija ima tri značenja: fotografija kao polje aktivnosti, fotografija kao fotografija, fotografija kao foto studio:

FOTOGRAFIJA(fotografisanje, fotografija, ..., fotografija )

PART FOTOGRAFSKA SLIKA

(fotografija, fotografija, fotografija )

PART FOTO STUDIO (fotografija ).

Dakle, ako nije bilo moguće odgonetnuti koje značenje je upotrijebljena riječ fotografija, podrazumevanim se smatra fotografija (proces, rezultat ili lokacija), što je dovoljno za mnoge aplikacije za automatsku obradu teksta.

  1. Primjena RuThes tezaurusa

za automatsku obradu teksta

Od 1995. godine društveno-politička terminologija RuThes (društveno-politički tezaurus) se aktivno i uspješno koristi za različite primjene automatske obrade teksta, kao što su automatsko konceptualno indeksiranje, automatska kategorizacija korištenjem nekoliko rubrikatora, automatsko označavanje tekstova, uključujući i engleske.. Društveno-politički tezaurus (27.000 pojmova, 62.000 tekstualnih unosa) je osnovni alat za pretraživanje u sistemu pretraživanja UIS RUSIJA (www.cir.ru).

Čitav vokabular RuThes tezaurusa koristi se u postupcima za automatsku rubraciju tekstova prema složenim hijerarhijskim naslovima. U postojećoj tehnologiji, svaka rubrika je opisana kao Boolean izraz pojmova, nakon čega se originalna formula proširuje duž hijerarhije tezaurusa. Rezultirajući Boolean izraz možda već uključuje stotine i hiljade veznika i klauzula.

Navedimo kao primjer fragment opisa pojmova tezaurusa (i jezičkih izraza nakon proširenja formule) rubrike „Imidž žene“ rubrikatora SOFIST 2 koji koristi VTsIOM za klasifikaciju upitnika istraživanja javnog mnijenja:

(ŽENA[N]

|| DJEVOJKA[N]

|| ROĐAK[L] (baka, unuka, sestrična,

ćerka, snaja, majka, maćeha, snaha, poćerka, ...))

( OSOBINA KARAKTERA [L] (štedljiv, bezdušan, zaboravan,

neozbiljan, podrugljiv, netolerantan, društven,...)

|| IMAGE[E] (reprezentacija, izgled, izgled,

izgled, oblik, slika, izgled)

|| PRIJETNO[L] (..., zanimljivo, lijepo, slatko,

privlačan, privlačan, simpatičan,...)

|| NEPRIJATNO[L] (nesimpatično, nepristojno, gadno, ...)

|| VRIJEDNOST [L] (poštovati, obožavati, obožavati,

obožavanje, obožavanje, ...)

|| PREFERA[N]

Simbol "E" označava punu ekspanziju duž hijerarhije tezaurusa, simbol "L" - prema odnosima vrsta ("ISPOD"), simbol "N" - ne širi se.

Istraživanja se provode na razvoju kombinovane tehnologije za automatsku kategorizaciju teksta koja kombinuje znanje tezaurusa i procedure mašinskog učenja.

Pitanja upotrebe tezaurusa za proširenje upita formulisanog na prirodnom jeziku (sada se samo društveno-politički dio tezaurusa koristi za proširenje terminološkog upita u sistemu za pronalaženje informacija UIS RUSIJA), traženje odgovora na pitanja u velikim zbirkama tekstova.

7. Zaključak

U radu su prikazani osnovni principi razvoja jezičkih resursa za automatsku obradu velikih zbirki tekstova. Kreirani lingvistički resurs - RuThes Russian Thesaurus - namijenjen je za korištenje u takvim aplikacijama automatske obrade teksta kao što su konceptualno indeksiranje dokumenata, automatsko rubriranje složenim hijerarhijskim naslovima, automatsko proširenje upita prirodnog jezika.

Ovaj rad je djelimično podržan od strane Ruske fondacije za humanističke nauke, grant br. 00-04-00272a.

Književnost

  1. Lukashevich N.V., Saliy A.D., Reprezentacija znanja u automatskoj obradi teksta //NTI, Ser.2. 1997. br. 3. S. 1-6.
  2. Zhuravlev S.V., Yudina T.N., Informacioni sistem RUSIJA //NTI, Ser.2. 1995. br. 3. S. 18‑20.
  3. Winston M., Chaffin R., Herman D., A Taksonomy of Part-Chole Relations // Cognitive Science. 1987. br. 11. P. 417-444.
  4. Priss U.E., The Formalization of WordNet by Methods of Relational Concept Analysis // WordNet. Elektronska leksička baza podataka / Ed. od C. Fellbauma. Cambridge, Massachusetts, London, Engleska.: The MIT Press 1998. P. 179-196.
  5. Guarino N., Welty C., Formalna ontologija svojstava // Proceedings of the ECAI-00 Workshop on Applications of Ontology and Problem Solving Methods. Berlin: 2000. P. 121-128. (http://citeseer.nj.nec.com/guarino00formal.html).

Neki ontološki principi za dizajniranje leksičkih resursa višeg nivoa // First Int. Konf. o jezičkim resursima i evaluaciji. 1998.

  1. Lukashevich N.V., Dobrov B.V., Modifikatori konceptualnih odnosa u tezaurusu za automatsko indeksiranje // NTI, Ser.2. 2000, br. 4, s. 21-28.
  2. Veliki objašnjavajući rečnik ruskog jezika / Ed. S.A. Kuznetsova. Sankt Peterburg: Norint, 1998.
  3. Ozhegov S.I., Shvedova N.Yu., Objašnjavajući rečnik ruskog jezika - 3. izdanje. M.: Az, 1996.
  4. Apresyan Yu.D., Izabrana djela, tom I. Leksička semantika: 2. izd. M.: Škola "Jezici ruske kulture", Ed. Firma "Istočna književnost" RAN, 1995.
  5. G. Miller, R. Beckwith, C. Fellbaum, D. Gross i K. Miller, Pet radova o WordNetu, CSL izvještaj 43. Laboratorija za kognitivne nauke, Univerzitet Princeton, 1990.
  6. Chugur, J. Gonzalo i F. Verdjeo, Razlike čula u NLP aplikacijama // Proceedings of “OntoLex-2000”: Ontologies and Lexical Knowledge Bases. Sofija: OntoTextLab. 2000.
  7. Loukachevitch N., Dobrov B., Thesaurus-based Structural Thematic Summary in Multilingual Information Systems // Machine Translation Review. 2000 br. 11. str. 10-20. (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm).

Tezaurus ruskog jezika za obradu prirodnog jezika

velikih kolekcija tekstova

Natalia V. Loukachevitch, Boris V. Dobrov

ključne riječi: tezaurus, obrada prirodnog jezika, pronalaženje informacija

U našoj prezentaciji razmatramo glavne principe razvoja leksičkih resursa za automatsku obradu velikih zbirki tekstova i opisujemo strukturu Tezaurusa ruskog jezika, koji se od 1997. godine razvija posebno kao alat za automatsku obradu teksta. Sada je Tezaurus hijerarhijska mreža od 42 hiljade pojmova. Opisujemo trenutnu fazu razvoja Tezaurusa u poređenju sa 100.000 najčešćih lema zbirke tekstova Univerzitetskog informacionog sistema RUSIJA (www.cir.ru), uključujući 400 hiljada dokumenata. Takođe razmatramo upotrebu Tezaurusa u različitim aplikacijama automatske obrade teksta.