Tezaurus predstavuje. Thesauri. lingvistické princípy konštrukcie tezauru. Nový výkladový a odvodzovací slovník ruského jazyka, T. F. Efremova

Oddelenie TAOY KemGUKI

Tezaury na vyhľadávanie informácií:

štruktúru, účel a postup vývoja

1. Tezaurus ako spôsob systematizovanej reprezentácie poznatkov a

druh ideografického slovníka.

2. Tezaury na vyhľadávanie informácií: podstata a účel

3. Štruktúra IPT

4. Postup pri vývoji, skúšaní, registrácii a údržbe IPT.

Bibliografia

1. GOST 7.74 - 96. Jazyky na vyhľadávanie informácií. Termíny a definície [Text]. - Vstup. 1997-07-01. - Minsk: Medzištátna rada pre normalizáciu, metrológiu a, 1997. - 34 s. (Systém noriem pre informácie, knihovníctvo a publikovanie) TC 191.

2. GOST 7.25-2001. Jednojazyčné vyhľadávanie informácií tezauru. Pravidlá vývoja, štruktúra a forma prezentácie [Text]. - GOST 7.25-80; Úvod 2002-07-01. - M.: Vydavateľstvo noriem IPK, 2001. - 16 s. MTK 191.

3. GOST 7.24-2007 Viacjazyčný tezaurus na vyhľadávanie informácií. Zloženie, štruktúra a základné požiadavky na stavbu. - Namiesto GOST 7.24-90; vstup. 2008-07-01. / Medzištátna rada pre normalizáciu, metrológiu a certifikáciu. - M.: Standartinform, 2008. - 7 s. (Systém noriem pre informácie, knihovníctvo a publikovanie)

4. Baranov, O. S. Ideografický slovník ruského jazyka / O. S. Baranov. - M.: Vydavateľstvo ETS, 1995. - 820 s

5. Zhmailo, S. V. K definícii tezauru [Text] / S. V. // NTI. Ser. 1 Organizácia a informačná práca. - 2003. - Č. 12. – S.20 – 25.

6. Zhmailo, S. V. Rozvoj moderných tezaurov na vyhľadávanie informácií [Text] / S. V. Zhmailo // NTI. Ser. 1 Organizácia a metodika práce s informáciami. -2004. - č. 1. – S.23 – 31.

Takže v ideografickom slovníku ruského jazyka O. S. Baranova (4) sa rozlišuje 12 vyšších častí ideografického slovníka, medzi ktoré patria: „poriadok, povaha, činnosť, kultúra“ atď., z ktorých každá je rozdelená do skupín, podskupín, oddelení, sekcií. Všetky slová v tomto slovníku sú zoskupené do hniezd podľa ich významu a sú zoskupené podľa určitého pojmu, s ktorým sú najčastejšie spájané druhovými vzťahmi. Hniezda sú zoskupené do podsekcií atď. Momentálne je v slovníku 5923 hniezd, 7 úrovní delenia (podľa www.rifmovnik.ru/thesaurus.htm k 16. februáru 2010). Tu je príklad položky v slovníku z tohto slovníka:

178.4.7 aróma ▲ - príjemná vôňa (napríklad vôňa kvetov, trávy, sena. jemný #. opojný #). aromatizácia . . . ambre. kadidlo.

Kód slova "aróma" odráža ideografickú klasifikáciu prijatú v danom slove, najmä koreláciu tohto slova s ​​kategóriou "178-senzácií".

Pojmy „tezaurus“, „ideografický slovník“, „slovník typu tezaurus“ teda v prvom rade znamenajú, že súhrn slov jazyka je v nich prezentovaný takým spôsobom, že jedna skupina slov zahŕňa slová, ktoré sú si podobné. Hlavným účelom ideografických slovníkov je zbierka lexikálnych jednotiek spojených spoločným pojmom; to uľahčuje čitateľovi nájsť najvhodnejšie prostriedky na adekvátne vyjadrenie myšlienok a podporuje aktívne ovládanie jazyka.

Z histórie tezaurov

BUNDY 2302

v Oblekoch

Výrobky na kabáty

Šijacie výrobky

n Dvojradové sako

Kombinovaná bunda

Športová bunda

v opatreniach na balenie

Zvyšný materiál

Odpadový materiál

Lexikálna poznámka;

Ascriptory alebo deskriptory-synonymá;

vynikajúce deskriptory;

následné deskriptory;

Asociatívne deskriptory;

Deskriptory prepojené inými druhmi vzťahov.

V rámci každej skupiny LU spojených s deskriptorom hlavy jedným druhom paradigmatického vzťahu musí existovať abecedné poradie usporiadania. Napríklad:

ALGORITMICKÉ JAZYKY

s algoritmickými jazykmi

strojovo orientované jazyky

jazyky špecifické pre doménu

v SOFTWARE

FORMÁLNE JAZYKY

n AUTOKÓDY

a ALGORITHMY

PROGRAMOVANIE porovnaj umelé jazyky

Záznam ascriptoru pozostáva z ascriptoru a deskriptorov alebo kombinácie deskriptorov, ktoré ho nahrádzajú pri spracovaní a vyhľadávaní informácií. Tu sú príklady článkov ascriptor:

Alfanumerické znaky

Španielske FORMÁLNE JAZYKY

PRÍRODNÉ JAZYKY

pozri ALGORITMICKÉ JAZYKY

Záznam v slovníku môže tiež obsahovať:

Ako často sa deskriptor používa;

Číslo deskriptorového kódu;

Kód deskriptora podľa systematického indexu;

Klasifikačné indexy;

Doplnkové sémantické a lexikografické značky;

zahraničné ekvivalenty.

Kvalita lexikálno-sémantického indexu je určená úplnosťou lexikálnych jednotiek, ktoré sú v ňom zahrnuté. sa chápe ako pravdepodobnosť zadania akéhokoľvek informačne zmysluplného slova do tezauru pre danú tematickú oblasť. Úplnosť lexikálno-sémantického indexu a následne aj celého tezauru má významný vplyv na výsledky indexovania dokumentov a dopytov.

Ďalšie časti môžu zahŕňať systematické, permutačné, hierarchické a iné indexy a zoznamy špeciálnych kategórií lexikálnych jednotiek.

Systematický index je index, v ktorom sú deskriptory zoskupené podľa nadpisov akceptovaných v IPT. Systematický register vymedzuje tematické smerovanie tezauru, odhaľuje jeho obsah a odráža tie odvetvia vedy a techniky, ktoré možno vyhľadávať s takou či onakou hĺbkou detailov. Jeho potreba ako súčasť IPT je spôsobená tým, že poskytuje vizuálnu reprezentáciu všeobecného stavu terminológie v konkrétnej oblasti poznania, umožňuje vám zostaviť koherentný terminologický model a ak je to možné, všetky termíny a pojmy, ktoré by mali nájsť miesto v tezaure. Je určený na uľahčenie vyhľadávania výrazov pri zostavovaní vyhľadávacích obrázkov dokumentov a dopytov zoradením súboru deskriptorov a askriptorov podľa predmetu.

Systematický index je v podstate klasifikačnou schémou na naplnenie tezauru terminológiou, pretože je zostavený zoradením súboru deskriptorov podľa tematických oblastí.

Systematické indexy IPT sú rozdelené do troch typov:

tematické,

Zmiešané.

Toto rozdelenie odráža princíp konštrukcie klasifikačnej schémy systematického indexu.

Hlavné funkcie vykonávané systematickým indexom IPT:

Využitie ako pomocné pri indexovaní, poskytujúce celkovo hľadanie deskriptorov pre indexačné koncepty, ktoré nie sú explicitne zastúpené v tezaure (funkcia vyhľadávania);

Použitie v procese udržiavania tezauru (funkcia udržiavania IPT);

Využitie ako štrukturálny základ IPT, ako riadenie jeho rozvoja (konštruktívna funkcia).

V súlade s GOST 7.25-2001 (2) by sa pri zostavovaní systematického indexu tematických a zmiešaných typov v jeho tematickej časti mali používať rubriky medzištátneho rubrikátora NTI alebo špecifického rubrikátora ASNTI kompatibilného s medzištátnym rubrikátorom NTI. Pri konštrukcii systematického indexu kategoriálnych a zmiešaných typov nasledujú v jeho kategoriálnej časti tieto všeobecné kategórie:

Názvy odborov a odvetví činnosti;

Položky, materiály;

Metódy, procesy, operácie, javy;

Vlastnosti, hodnoty, parametre, charakteristiky;

Vzťahy, štruktúry, modely, zákony, pravidlá, abstraktné pojmy.

Hierarchický index. Hierarchický index je index, ktorý poskytuje zoznam zoznamov deskriptorov, pričom každý zoznam začína deskriptorom, ktorý nemá žiadneho rodiča. Odráža úplnú štruktúru hierarchických vzťahov v IPT. Za každým deskriptorom sú priamo uvedené deskriptory s uvedením ich úrovne v hierarchii pomocou číslovania alebo grafického označenia úrovne:

Potreba vypracovať hierarchický index IPT je spôsobená tým, že celý systém podriadenosti pojmov nie je v slovníkových heslách IPT pevne stanovený, pretože znamenalo by to výrazné zvýšenie lexikálno-sémantického indexu. je potrebné vypracovať nezávislú sekciu IPT – hierarchický index, ktorý by odrážal celý hierarchický reťazec podriadenosti deskriptorov dnu.

Permutačný index je index, ktorý uvádza v abecednom poradí všetky jednotlivé slová, ktoré sú súčasťou komponentov fráz označujúcich deskriptory, a pre každé z nich sú uvedené všetky deskriptory, ktoré tieto slová obsahujú. Preto sa každý výraz objaví v permutačnom indexe toľkokrát, koľkokrát obsahuje významné slová. Účelom permutačného indexu je poskytnúť vyhľadávanie deskriptorov-fráz podľa ľubovoľného slova zahrnutého v ich zložení, vrátane tých, ktoré sa nenachádzajú na začiatku lexikálnej jednotky. Umožňuje vám zoskupiť slová s jedným koreňom na jednom mieste.

Permutačný index sa spravidla zostavuje automatizovaným spôsobom a má zvyčajne formu indexu typu KWIC (Key Word – In Context – „Kľúčové slová v kontexte“), v ktorom sú všetky významné slová – termíny – usporiadané v abecednom poradí. v permutačnom indexe je v strede stĺpca, ktorý je tvorený mikrokontextami prvkov výrazu, a časť výrazov, ktorá nesedí, sa prenesie na ľavú stranu toho istého riadku:

optické kvantum

vzrušenie

elektrické

so závislou excitáciou

Generátory rušenia

SÉRIOVÉ GENERÁTORY

GENERÁTORY DC

DC GENERÁTORY sa ukázali ako nevyhnutné.

4. Postup pri vývoji, skúšaní, registrácii a údržbe IPT

V súčasnosti je postup vývoja, skúmania a registrácie IPT určený dvoma normami: GOST 7.25-2001 „Jednojazyčný tezaurus na vyhľadávanie informácií. Pravidlá vývoja, štruktúra, zloženie a forma prezentácie“ a GOST 7.24-2007 „Viacjazyčný tezaurus na vyhľadávanie informácií. Zloženie, štruktúra a základné požiadavky na stavbu. V súlade s týmito štandardmi vykonávajú funkcie skúmania a registrácie IPT národné a medzinárodné depozitné fondy.

Národný depozitný fond IPT v ruštine (vrátane IPT obsahujúci ekvivalenty deskriptorov v ruštine) sa nachádza na adrese , vo VINITI.

Existujú tiež dva medzinárodné depozitné IPT:

1) IPT International Depository Fund v angličtine, vrátane IPT obsahujúceho ekvivalenty deskriptorov v angličtine. Nachádza sa v, v Toronte, v knižnici Fakulty informačných vied Torontskej univerzity (Thesaurus Clearinghouse – „sídlo“, The Library, Faculty of Information Studies, University of Toronto, TORONTO, Canada);

2) IPT International Depository Fund vo všetkých jazykoch okrem angličtiny. Nachádza sa v , vo Varšave, vo vedeckých, technických a ekonomických informáciách (Instytut Informacji Naukowej, Technicznej i Ekonomicznej, Clearinghouse, WARSZAW A, Poľsko).

Úplné adresy týchto organizácií sú uvedené v GOST 7.25-2001.

GOST 7.25-2001 a GOST 7.24-2007 definujú akcie vývojárov IPT takto:

1. Pred začatím prác na vytvorení IPT musí vývojár požiadať príslušný národný alebo medzinárodný depozitný fond o zistenie dostupnosti registrovaných tezaurov na danú tému. V prítomnosti takýchto tezaurov sa posudzuje možnosť ich zavedenia do daného systému. Ak sa takéto tezaury nenájdu, vytvorenie IPT môže byť možné. Zároveň musí celá technológia na vytváranie IPT prísne dodržiavať GOST 7.25-2001 a GOST 7.24-2007

2. Hotový (vyvinutý) IPT sa musí podrobiť skúške zhody s GOST 7.25-2001. spĺňajú normu, potom Národná vydá developer . tohto IPT je uložený (uložený) v príslušnom národnom alebo v niektorom z medzinárodných depozitných fondov (v Toronte alebo Varšave).

Národné depozitáre šíria informácie o zložení fondu uložených IPT a poskytujú ich vývojárom nových IPT za účelom zapožičania prvkov a zabezpečenia kompatibility jazykovej podpory rôznych informačných systémov. Vykonávajú teda funkcie vyšetrenia, registrácie, uchovávania IPT a informácií o dostupných IPT.

veľa operácií pre riadenie IPT);

Prechod AIS zo samostatnej prevádzky na sieťovú (pri využívaní IPT v rámci jednotného princípu ich údržby je potrebné ich dohodnúť).

Proces udržiavania IPT v prevádzke sa nazýva udržiavanie alebo úprava tezauru. Zvyčajne zahŕňa nasledovné:

Zmena lexikálneho zloženia IPT: zavádzanie nových lexikálnych jednotiek, ich, zmena stavu lexikálnych jednotiek (preklad kľúčového slova na deskriptory a naopak);

Zmena paradigmatických vzťahov v IPT (posilnenie, oslabenie);

Udržiavanie IPT zahŕňa povinné používanie automatizačných nástrojov, ktoré vám umožňujú rýchlo vykonávať také namáhavé operácie, ako je abecedné triedenie slovníka, slovnej zásoby, kontrola reciprocity a konzistentnosti odkazov, pomocou ktorých sa v ITP fixujú paradigmatické vzťahy atď.

Thesaurus(z gr. thesauros - poklad) v modernej lingvistike - špeciálny druh slovníkov všeobecnej alebo špeciálnej slovnej zásoby, ktoré označujú sémantické vzťahy (synonymá, antonymá, paronymá, hyponymá, hypernymá atď.) medzi lexikálnymi jednotkami. Tezaury, najmä v elektronickej podobe, sú teda jedným z najefektívnejších nástrojov na popis jednotlivých tematických okruhov.

Na rozdiel od vysvetľujúceho slovníka vám tezaurus umožňuje identifikovať význam nielen pomocou definície, ale aj koreláciou slova s ​​inými pojmami a ich skupinami, čo je možné použiť v systémoch umelej inteligencie.

Pod pojmom tezaurus sa v minulosti označovali predovšetkým slovníky, ktoré maximálne kompletne reprezentovali slovnú zásobu jazyka s príkladmi jeho použitia v textoch.

Paronymia- čiastočná zvuková podobnosť slov s ich významovou odlišnosťou (úplnou alebo čiastočnou). Paronymá sú často zdrojom rečových chýb.

Príklady jednokoreňových paroným: obliekať – obliecť, ľudský – humánny, platiť – platiť – platiť.

Príklady úplne nesúvisiacich paroným: biológia - bryológia, vývar - brillon, kompót - komplot, textúra - zlomenina.

Avšak tezaurus je viac ako len nástroj na vyhľadávanie informácií. Tezaurus možno považovať za univerzálny model terminologického systému, a teda - za formálny systém vedomostí obsiahnutých v jazyku konkrétneho vedného odboru.

Všeobecný tezaurus

Thesaurus v najvšeobecnejšej definícii je slovník so sémantickými väzbami medzi jednotkami slovnej zásoby. Od konca 50. rokov 20. storočia sa tezaury používajú v systémoch strojového prekladu a systémoch na vyhľadávanie informácií (IPS).

Na rozdiel od sémantických slovníkov, ktoré sú navrhnuté tak, aby podrobne popisovali všeobecnú slovnú zásobu, sú tezaury určené na ukladanie a klasifikáciu mimoriadne špecifických slov a fráz. Napríklad slovo látka je v slovníku ROSS (Russian General Semantic Dictionary) a všetky názvy chemických zlúčenín sú už v tezaure.

Aké vzťahy sú opísané v tezaure? Zvyčajne:

    rod-druh (AKO)

    časť-celok (POF)

    synonymia/antonymia

    asociatívne.

Príklad rodovo-druhového vzťahu

Príklad sémantickej analýzy

Toto paradigmatický(stabilné spojenia, ktoré existujú medzi slovami v jazyku). A to nie je všetko.

Syntagmatický(textové) odkazy nie sú v tezaure zastúpené.

Príklad: WORDNET - inteligentný počítačový tezaurus

http://wordnet.princeton.edu/perl/webwn

Vytvorené na Princetonskej univerzite a voľne distribuované.

Kľúčové vlastnosti.

Slová v ňom sú zoskupené do synonymných skupín ( synsets - synsety). Sú rozdelené do 4 slovníkov – podstatné mená, prídavné mená, slovesá a príslovky.

Synsety sú spojené tak v hierarchických vzťahoch (hyponymá a hypernymá), ako aj vo vzťahu k antonymii a tiež meronymii (byť súčasťou niečoho alebo pozostávať z častí).

Vyriešený je aj problém morfológie – slovo po volaní na WN sa vracia v pôvodnej podobe.

Tezaurus vyhľadávania informácií

V oblasti získavania informácií tezaury ťažia z prechodu od textu k deskriptorom, ktoré opisujú objekt reálneho sveta. Skok na deskriptory umožňuje rozšírenú (nadbytočnú) indexáciu.

V tezaure pre vyhľadávanie informácií sú explicitne vyjadrené PARADIGMATICKÉ vzťahy medzi deskriptormi (nie všetkými, ale tými, ktoré sú najčastejšie dôležité pre zvýšenie úplnosti vyhľadávania informácií). Experimentálne sa zistilo, že najdôležitejšie paradigmatické vzťahy sú

    podriadenosti

    podobnosť

    druh-rod (rod-druh)

    príčina-dôsledok

    časť-celok.

Príklad položky v slovníku:

Adokultúrne stroje.Dohodárske zariadenia

Syn. poľnohospodárska technika, poľnohospodárska technika,

Vyhliadka: kombajn na zemiaky, sejačka atď.

Príklad redundantného indexovania

Žiadosť "Dohodárske stroje. Dohodnuté kultúrne zariadenia"

Príklad: Sociálno-politický tezaurus Univerzitného informačného systému ruského jazyka RUSKO

http://www.cir.ru/index.jsp

Vyvinuté autonómnou neziskovou organizáciou „Centrum pre informačný výskum“ (ANO TsII)

Thesaurus je terminologický zdroj implementovaný ako slovník pojmov a termínov s prepojením medzi nimi. Hlavným účelom tezauru je pomôcť pri vyhľadávaní informácií: na základe odkazov tezauru sa dopyt rozširuje, navigácia cez odkazy tezauru pomáha jasnejšie formulovať samotný dopyt.

Charakteristickým znakom hierarchie tezauru UIS "Rusko" je pluralita klasifikácie, to znamená, že pre väčšinu pojmov sa nehľadá jeden klasifikačný pojem (spojenie NAD - POD), ale sú popísané rôzne pohľady na konkrétny pojem, napríklad pojem OBCHODU možno považovať aj za BUDOVU aj ako OBCHODNÚ ORGANIZÁCIU.

Tezaurus na spoločensko-politické témy obsahuje viac ako 26 000 pojmov, 62 000 pojmov, 100 000 priamych a 700 000 zdedených vzťahov medzi pojmami. Aktuálna verzia tezauru popisuje terminológiu používanú v spoločensko-politickej oblasti vrátane ekonomickej, politickej, vojenskej, legislatívnej, sociálnej, medzinárodných vzťahov a iných oblastí.

Celý názov tezauru je tezaurus na vyhľadávanie informácií o spoločensko-politických témach na automatické indexovanie. Tu sú dôležité všetky definície:

    "vyhľadávanie informácií" - pretože je špeciálne navrhnuté na použitie pri vyhľadávaní informácií, aby pomohol používateľovi pri vytváraní (objasňovaní) požiadavky a automaticky rozširoval podmienky požiadavky počas vyhľadávania;

    „o sociálno-politických témach“ – keďže pokrýva 95 – 99 % slovnej zásoby a terminológie ruskojazyčného textu o sociálno-politických témach;

    „pre automatickú indexáciu“ - keďže je základom pre proces automatického určovania predmetu dokumentov - zoskupovanie pojmov uzavretých v hierarchii tezauru do tematických uzlov, automatická kategorizácia a automatická anotácia.

Thesaury - Záver

Pre mnohé známe tezaury (WordNet, Roget, EuroWordNet) zostáva veľkým problémom automatické vyvodzovanie odkazov tezauru – keď je expanzia do najbližšieho okolia správna, ale nie úplná a pokusy o rozšírenie okolia vedú k chybám.

Koncepčný systém predmetnej oblasti Základom každého predmetu je systém pojmov tejto oblasti. Definícia pojmu: Pojem je myšlienka, ktorá odráža predmety a javy reality v zovšeobecnenej forme fixovaním ich vlastností a vzťahov; posledne menované (vlastnosti a vzťahy) sa v koncepte objavujú ako všeobecné a špecifické znaky korelujúce s triedami objektov a javov (Lingvistický slovník)


Pojmy a pojmy Na vyjadrenie pojmu predmetnej oblasti v textoch sa používajú slová alebo slovné spojenia nazývané pojmy. Súbor pojmov predmetnej oblasti tvorí jej terminologický systém. Vzťah konkrétneho pojmu s inými pojmami pojmového systému predmetnej oblasti je daný definíciou


Definície pojmu? Slovo (alebo spojenie slov), ktoré je presným označením určitého pojmu akejkoľvek špeciálnej oblasti vedy, techniky, umenia, spoločenského života a pod. || Špeciálne slovo alebo výraz používaný na označenie niečoho. v konkrétnom prostredí, profesii (Veľký vysvetľujúci slovník ruského jazyka)


Pojmy - presné názvy pojmov Zvyčajne každému pojmu oblasti zodpovedá aspoň jeden jednoznačne chápaný pojem, ktorého významom je tento pojem. - pojmy v zmysle tradičnej teórie terminológie Vlastnosti pojmov - presné názvy pojmov - pojem musí priamo odkazovať na pojem, musí pojem jasne vyjadrovať; - význam pojmu musí byť presný a nesmie sa významovo prekrývať s inými pojmami; - význam výrazu by nemal závisieť od kontextu. Pojmy, ktoré presne pomenúvajú pojem, sú predmetom štúdia teórie terminológie, terminológov


Textové pojmy V reálnych textoch predmetnej oblasti možno okrem hlavných pojmov použiť na označenie pojmu aj množstvo rôznych jazykových výrazov, ktoré nazývame textovými pojmami: - syntaktické a slovotvorné možnosti: prijímateľ rozpočtových prostriedkov - prijímateľ rozpočtu; - lexikálne varianty - priamy odpis, nespochybniteľný odpis; - viachodnotové výrazy v závislosti od kontextu slúžiace ako odkaz na rôzne pojmy regiónu, napríklad slovo mena v rôznych kontextoch môže znamenať národnú menu alebo cudziu menu.














Označené deskriptory Štítky - časť názvu deskriptora žeriavy (zdvíhacie zariadenie) vs. žeriavy (vtáky) škrupiny (konštrukcie) - porovnanie rôznych tezaurov Predvoľby pre frázy: –Zvukové záznamy vs. platne (fonograf) Vrhy a množné číslo: Drevo (materiál) Lesy (lesné plochy)






Zahrnutie deskriptorov založených na viacslovných výrazoch Rozdelenie pojmu zvyšuje nejednoznačnosť: rastlinná potrava Význam výrazu závisí od slovosledu: informačná veda - vedecké informácie Jedno zo zložkových slov je mimo rámca tezauru alebo je príliš všeobecné: prvá pomoc Vzťahy deskriptorov nevyplývajú z jeho štruktúry: –Umelé obličky, status utečenca, semafory




Asociačné vzťahy Oblasť činnosti - charakter - Matematika - matematik Disciplína - predmet štúdia - Neurológia - nervový systém Činnosť - prostriedok alebo nástroj - Poľovníctvo - lovec Činnosť - výsledok činnosti - Tkanie - tkanina Činnosť - cieľ - Väzba - kniha Príčina-účinok - Smrť - pohreb Hodnota - merná jednotka - Sila prúdu - ampér Účinok - protialergický liek - Alergén atď.


Tezaury na vyhľadávanie informácií: fázy vývoja Prvá fáza: indexátory opisujú hlavnú tému textu ľubovoľnými slovami a frázami Termíny získané z mnohých textov sú spojené Medzi termínmi, ktoré sú si blízke významom, vyberie sa najreprezentatívnejšie Niektoré zo zostávajúcich sa stanú podmienenými synonymami, ostatné sa vymažú Špecifické termíny zvyčajne nie sú zahrnuté


Tezaury na vyhľadávanie informácií: umenie dizajnu Deskriptory sú výrazy, ktoré sú potrebné na vyjadrenie hlavnej témy dokumentu Synonymá sú zahrnuté len to najnutnejšie (napríklad začínajúce iným písmenom), aby nebránili práci indexátora Podobné výrazy by sa mali zredukovať na jeden výraz, aby sa predišlo indexovaniu subjektivity Úrovne hierarchie, zahrnutie konkrétnych výrazov je obmedzené


Tezaurus na vyhľadávanie informácií: umenie vývoja - 2 V zložitých prípadoch sa deskriptory dodávajú s popiskami a komentármi -LIV: bombardovanie - bombardovanie -Nejednoznačné pojmy: jedna hodnota v tezaure (kapitál), nezmestia sa do tezauru, popisky!!! Tradičný tezaurus na vyhľadávanie informácií – umelý jazyk vybudovaný na základe reálnych termínov




Tradičné IPT: aplikácia v automatickom spracovaní Nedostatok znalostí o skutočnom jazyku softvéru Nedostatok znalosti skutočného jazyka softvéru Legislatívny indexovací slovník: Legislatívny indexovací slovník: - v texte vojaci - v tezaure VOJENSKÉ SILY - v texte CAPITAL - hlavné mesto, v tezaurusoch sa odvolávajú iba na hlavné mesto. Ale: polysémia alebo vzťah k rôznym deskriptorom. Riešenie nejednoznačnosti Riešenie nejednoznačnosti


Tradičné IPT: automatické rozšírenie dopytu Problém s asociáciami Odporúčané: zadajte váhy zadajte váhy zadajte názvy vzťahov: objekt, vlastnosť atď. zadajte názvy vzťahov: objekt, vlastnosť atď. ZÁVER: musíte sa naučiť zostavovať lingvistické zdroje špeciálne pre automatické spracovanie textových zbierok


Thesaurus EUROVOC – viacjazyčný tezaurus Európskeho spoločenstva Thesaurus v 9 jazykoch Ruská verzia EUROVOC –+5 tisíc pojmov odrážajúcich ruské špecifiká Viacjazyčný tezaurus – Deskriptor – názvy v rôznych jazykoch – Ascriptory – pre niektoré jazyky


Automatické indexovanie založené na pravidlách v tezaure EUROVOC (Hlava, Heinebach, 1996) Príklad pravidla: IF (blízko „Technológie“ A s „Vývojom“) POUŽÍVAJTE komunitárny program POUŽÍVAJTE rozvojovú pomoc ENDIF 40 tisíc pravidiel. Testovanie: 20 najčastejších deskriptorov v texte, generovaných automaticky - 42% úplnosť v porovnaní s manuálnou kategorizáciou


Automatické indexovanie založené na stanovení váh korešpondencie medzi slovami a deskriptormi (Steinberger et al., 2000) Fáza 1 – stanovenie súladu medzi textovými slovami a priradenými deskriptormi na základe štatistických meraní (pravdepodobnosť chí-kvadrát alebo logaritmu) deskriptor RIADENIA RYBOLOVU – nasledujúce slová (v zostupnom poradí podľa hmotnosti): rybolov, ochrana rýb, plavidlo atď. 2. stupeň samotnej indexácie - súčet logaritmov váh alebo ako skalárny súčin vektorov


Kombinácia voľných dopytov a dopytov tezauru na vyhľadávanie informácií Manuálne indexovaná kolekcia – korelácie Používateľ nastaví dopyt v prirodzenom jazyku Dotaz je rozšírený o deskriptory tezauru, ktoré najviac korelujú s dopytom (Petras 2004; Petras 2005). Napríklad na žiadosť Insolventných spoločností (Insolventné spoločnosti) je možné získať zoznam deskriptorov likvidita, zadlženosť, podnik, firma a dopyt sa rozšíri. Presnosť experimentu sa zvýšila o 13 %.



Sekcia sa používa veľmi jednoducho. Do navrhovaného poľa stačí zadať požadované slovo a my vám poskytneme zoznam jeho významov. Chcel by som poznamenať, že naša stránka poskytuje údaje z rôznych zdrojov - encyklopedických, výkladových, slovotvorných slovníkov. Tu sa môžete zoznámiť aj s príkladmi použitia vami zadaného slova.

Význam slova tezaurus

tezaurus v krížovkárskom slovníku

Výkladový slovník ruského jazyka. S.I. Ozhegov, N.Yu Shvedova.

tezaurus

[te], -a, m.(špeciálne).

    Slovník jazyka, ktorý si kladie za úlohu kompletnú reflexiu celej svojej slovnej zásoby.

    Slovník alebo súbor údajov, ktoré plne pokrývajú výrazy, koncepty nejakého druhu. špeciálna oblasť.

    adj. synonymický slovník, th, th.

Nový výkladový a odvodzovací slovník ruského jazyka, T. F. Efremova.

tezaurus

    Akýkoľvek slovník. jazyk, ktorý predstavuje jeho slovnú zásobu v plnom rozsahu.

    Úplný, systematický súbor údajov o a oblasť vedomostí, ktorá umožňuje človeku alebo počítaču sa v nej orientovať (v informatike).

Encyklopedický slovník, 1998

tezaurus

THESAURUS (z gréckeho thesauros - poklad)

    slovník, v ktorom sú slová daného jazyka prezentované čo najúplnejšie s príkladmi ich použitia v texte (je plne realizovateľný len pre mŕtve jazyky).

    Slovník, v ktorom sú slová súvisiace s ľubovoľnou oblasťou poznania usporiadané podľa tematického princípu a zobrazené sémantické vzťahy (rodovo špecifické, synonymické a pod.) medzi lexikálnymi jednotkami. V tezauroch na vyhľadávanie informácií sú lexikálne jednotky textu nahradené deskriptormi.

Thesaurus

(z gréckeho thesaurós ≈ poklad, pokladnica), súbor sémantických jednotiek určitého jazyka so systémom sémantických (pozri Sémantika) v ňom uvedených vzťahov. T. vlastne určuje sémantiku jazyka (národný jazyk, jazyk špecifickej vedy alebo formalizovaný jazyk pre automatizovaný riadiaci systém). Pôvodne sa T. považoval za jednojazyčný slovník, v ktorom sú sémantické vzťahy určené zoskupovaním slov podľa tematických okruhov. Napríklad anglický T. (autor P. M. Roget), vydaný v roku 1962 (1. vydanie 1852), obsahuje 1040 nadpisov, medzi ktorými je distribuovaných asi 240 000 slov. Index (kľúč) k tomuto T. obsahuje abecedný zoznam slov s uvedením nadpisov a podnadpisov, do ktorých každé slovo patrí. Existujú tradičné všeobecné jazykové jazyky (popisy sémantických systémov jednotlivých jazykov) pre angličtinu, francúzštinu a španielčinu. Jednojazyčné slovníky, ktoré definujú výrazy hlavných sémantických parametrov každého slova, sú veľmi blízke T., napríklad slovník ruského jazyka od S. I. Ozhegova.

V 70. rokoch. 20. storočie Rozšírili sa zväzky na vyhľadávanie informácií, v ktorých boli identifikované špeciálne lexikálne jednotky alebo deskriptory, ktoré možno použiť na automatické vyhľadávanie dokumentárnych informácií. S každým slovom takéhoto výrazu je spojený synonymický deskriptor (pozri Synonymia) a pre deskriptory sú výslovne uvedené sémantické vzťahy: rod ≈ druh, časť ≈ ​​celok, cieľ ≈ prostriedky atď. Zvyčajne je zvykom oddeľovať rodovo-druhové (hierarchické) a asociatívne vzťahy. „Tezaurus získavania informácií v informatike“, vydaný v ZSSR v roku 1973, teda poskytuje pre každý deskriptor slovníkové heslo, ktoré samostatne označuje synonymické kľúčové slová, generické, špecifické a asociatívne deskriptory. Pre lepšiu orientáciu v asociatívnych väzbách medzi deskriptormi sú k tomuto T pripojené sémantické mapy tematických tried. Pri automatizovanom vyhľadávaní informácií sa vyhľadávajú dokumenty, ktorých index obsahuje nielen deskriptory dotazov, ale aj tie deskriptory, ktoré sú s nimi v určitých sémantických vzťahoch. Niekedy je užitočné vyčleniť špecifické asociatívne vzťahy špecifické pre daný tematický okruh v T.: choroba ≈ pôvodca, zariadenie ≈ účel (alebo nameraná hodnota) atď. Pozícia lexikálnej jednotky (slova, frázy) v T. charakterizuje jej význam v jazyku; znalosť systému sémantických vzťahov, do ktorých dané slovo vstupuje (vrátane rubrík, kam vstupuje), umožňuje posúdiť význam tohto slova.

V širšom zmysle sa technológia interpretuje ako popis systému vedomostí o realite, ktorý vlastní individuálny nosič informácie alebo skupina nosičov. Táto nosná môže vykonávať funkcie prijímača dodatočnej informácie, v dôsledku čoho sa mení aj jej T. Počiatočná T. určuje schopnosti prijímača, keď prijíma sémantickú informáciu. V psychológii a pri štúdiu systémov s umelou inteligenciou sa uvažuje o vlastnostiach T. jednotlivcov, ktoré sa prejavujú vo vnímaní a chápaní informácií. V sociológii a teórii komunikácie študujú vlastnosti T. jednotlivcov a skupín, ktoré poskytujú možnosť vzájomného porozumenia na základe všeobecnosti T. V týchto situáciách musí T. zahŕňať komplexné tvrdenia a ich sémantické súvislosti, ktoré určujú zásobu informácií, ktorými komplexný systém disponuje. T. v skutočnosti obsahuje nielen informácie o realite, ale aj metainformácie (informácie o informáciách), ktoré poskytujú možnosť prijímania nových správ.

Lit .: Cherny A.I., Všeobecná metodológia na vytváranie tezaurov, „Vedecké a technické informácie. Ser. 2", 1968, ╧5; Varga D., Metodika prípravy informačných tezaurov, prekl. [z Maďarska], M., 1970; Shreider Yu. A., Thesauri v informatike a teoretickej sémantike, „Vedecké a technické informácie. Ser. 2", 1971, ╧ Z.

Yu.A. Schreider.

Wikipedia

Thesaurus

Thesaurus, vo všeobecnom zmysle - špeciálna terminológia, prísnejšie a obsahovo - slovník, zbierka informácií, korpus alebo kód, ktorý plne pokrýva pojmy, definície a termíny špeciálnej oblasti poznania alebo oblasti činnosti, čo má prispieť k správnej lexikálnej, podnikovej komunikácii; v modernej lingvistike osobitný druh slovníkov, ktoré označujú sémantické vzťahy (synonymá, antonymá, paronymá, hyponymá, hypernymá atď.) medzi lexikálnymi jednotkami. Tezaury sú jedným z najúčinnejších nástrojov na popis jednotlivých tematických okruhov.

Na rozdiel od výkladového slovníka, tezaurus umožňuje odhaliť význam nielen pomocou definície, ale aj koreláciou slova s ​​inými pojmami a ich skupinami, vďaka čomu môže byť použitý na naplnenie bázy znalostí systémov umelej inteligencie.

V minulosti termín tezaurus boli určené najmä slovníky reprezentujúce slovnú zásobu jazyka s ukážkami jeho použitia v textoch s maximálnou úplnosťou.

Tiež termín tezaurus používa sa v teórii informácie na označenie súhrnu všetkých informácií, ktoré subjekt vlastní.

V psychológii tezaurus jednotlivca charakterizuje vnímanie a chápanie informácií. Teória komunikácie berie do úvahy aj všeobecný tezaurus komplexného systému, prostredníctvom ktorého sa vzájomne ovplyvňujú jeho prvky.

tezaurus (zjednoznačnenie)

Thesaurus:

  • Thesaurus - slovník, zbierka informácií pokrývajúcich pojmy, definície a termíny špeciálnej oblasti vedomostí alebo oblasti činnosti.
  • Rogerov tezaurus je jedným z prvých a najznámejších ideografických slovníkov v histórii.

Príklady použitia slova tezaurus v literatúre.

Pre vnímanie a spolutvorbu nejaké optimálne tezaurus Nie malý, ale ani príliš veľký.

S neobmedzeným množstvom prichádzajúcich informácií výrazne prevyšuje tezaurus, jeho hodnota nezávisí od tejto veličiny a je úplne určená tezaurus ohm.

Všestrannosť, systémová povaha umenia vedie k nerovnomernému vnímaniu diela ako celku: pre vnímanie niektorých aspektov verša tezaurus optimálne, pre ostatných nedostatočné alebo príliš veľké.

Pretože tezaurus rastie a mení, opätovné oboznámenie sa s prácou môže znamenať získanie nových cenných informácií.

Túžba dieťaťa opakovane si prečítať rozprávku, ktorú si obľúbilo, je pochopiteľná: jeho tezaurus jeho schopnosť spolutvorby, asociatívneho fantazírovania je obzvlášť veľká.

Táto stránka veci je premenlivejšia a subjektívnejšia ako tezaurus, a pri hľadaní objektívneho estetického zhodnotenia diela ho treba zredukovať na minimum.

Preniká do tezaurus básnik a adresuje preklad tezaurus od zahraničného čitateľa.

Najdôležitejšou vecou je určiť, aký veľký je váš tezaurus, T.

Nie, len jeho vlastná batožina je mizivá, je nevyvinutá, jeho tezaurus je v plienkach a ak tomu nerozumie tezaurus treba zvysit, tak v kazdom pripade to ta zena bude mat s nim tazke.

Bohatý tezaurus, na základe pravdivého poznania, umožňuje osobe v komunikácii s inou osobou, a to aj v najbližšej komunikácii s najbližšou osobou, správne reagovať na všetko, čo sa deje.

Je zrejmé, že s rastom klesá hodnota informácií tezaurus malo by závisieť od vzťahu tezaurus k množstvu prijatých informácií.

Je zrejmé, že optimálna hodnota umeleckej informácie zodpovedá blízkosti tezaurusčitateľ a tezaurus básnik.

Môžeme povedať, že spolutvorba, podobne ako kreativita, si vyžaduje inšpiráciu, teda inklúziu tezaurus v najširšom zmysle slova.

Takéto vnútorné opakovanie jasného obrazu a jasného zvuku, zostávajúce v rámci existujúceho tezaurus, obohacuje o rovnaký estetický moment opakovania.

V tomto bode tezaurus Nabokov a Prishvin by mali byť považovaní za protinožcov Platonova a Marina Cvetaeva môže byť uznaná ako podobná jemu.

N. V. Lukaševič

[e-mail chránený]

B. V. Dobrov

Výskumné výpočtové centrum Moskovskej štátnej univerzity M.V. Lomonosov;

Centrum pre informačný výskum ANO

[e-mail chránený]

Kľúčové slová: tezaurus, vyhľadávanie informácií, automatické spracovanie textu,

Prevažná väčšina technológií, ktoré pracujú s veľkými zbierkami textov, je založená na štatistických a pravdepodobnostných metódach. Je to spôsobené tým, že lexikálne prostriedky, ktoré by sa dali použiť na spracovanie textových zbierok pomocou lingvistických metód, by mali mať objem desaťtisícov slovníkových hesiel a mať množstvo dôležitých vlastností, ktoré je potrebné pri vývoji zdroja špeciálne sledovať. V správe sa zaoberáme základnými princípmi vývoja lexikálnych zdrojov na automatické spracovanie veľkých textových zbierok na príklade tezauru ruského jazyka vytvoreného od roku 1997 na počítačové spracovanie textov RuThez, ktorý je v súčasnosti hierarchickou sieťou viac ako 42 tisíc konceptov. Aktuálny stav tezauru popisujeme na základe porovnania jeho lexikálneho zloženia a textového korpusu Univerzitného informačného systému RUSKO (www.cir.ru) - 400 tisíc dokumentov. Diskutuje sa o príkladoch použitia tezauru v rôznych aplikáciách automatického spracovania textu.

  1. Úvod

V súčasnosti sa sprístupnili milióny dokumentov v elektronickej podobe, vznikli tisíce informačných systémov a elektronických knižníc. Informačné systémy, ktoré na vyhľadávanie využívajú lexikálne a terminologické zdroje, sa zároveň počítajú v zlomkoch percent. Je to spôsobené vážnymi problémami vytvárania takýchto lingvistických zdrojov na automatické spracovanie moderných zbierok elektronických dokumentov.

Po prvé, tieto zbierky sú zvyčajne veľmi veľké, zdroj musí obsahovať popisy tisícok slov a výrazov. Po druhé, zbierky sú súborom dokumentov rôznej štruktúry s rôznymi syntaktickými konštrukciami, čo sťažuje automatické spracovanie textových viet. Okrem toho sú dôležité informácie často rozdelené medzi rôzne vety textu.

To všetko ostro nastoľuje otázku, aký by to mal byť jazykový zdroj, ktorý by bol na jednej strane užitočný na automatické spracovanie a vyhľadávanie v elektronických zbierkach, na druhej strane by sa dal v dohľadnom čase vytvoriť a udržiavať s relatívne malým úsilím.

V článku sa budeme zaoberať základnými princípmi vývoja lexikálnych zdrojov na automatické spracovanie veľkých textových zbierok. Tieto princípy budú uvažované na príklade tezauru ruského jazyka vytvoreného od roku 1997 Centrom pre informačný výskum ANO pre počítačové spracovanie textov RuThez. RuThez je v súčasnosti hierarchická sieť viac ako 42 tisíc pojmov, ktorá zahŕňa viac ako 95 tisíc ruských slov, výrazov, termínov. Aktuálny stav tezauru opíšeme na základe porovnania jeho lexikálneho zloženia a lexiky textového korpusu Univerzitného informačného systému RUSKO, podporovaného Výskumným a vývojovým centrom Moskovskej štátnej univerzity. M.V. Lomonosov a ANO TsII. UIS RUSSIA (www.cir.ru) obsahuje 400 000 dokumentov so sociálno-politickými témami (asi 3 GB textov, 200 miliónov slovných použití). Článok sa tiež pozrie na príklady použitia tezauru v rôznych aplikáciách na spracovanie textu.

  1. Zásady rozvoja jazykového zdroja

pre úlohy získavania informácií

Pre zabezpečenie efektívneho automatického spracovania elektronických dokumentov (automatická indexácia, kategorizácia, porovnávanie dokumentov) je potrebné vybudovať základ pre ich porovnávanie – zoznam toho, čo bolo v dokumente uvedené. Aby bol takýto index efektívnejší ako index slov, je potrebné prekonať lexikálnu rôznorodosť textu: synonymá, polysémiu, slovné druhy, štýl a zredukovať ho na invariant – pojem, ktorý sa stáva základom pre porovnávanie rôznych textov. Pojmy by sa teda mali stať základom lingvistického zdroja a jazykové výrazy: slová, termíny - sa stanú iba textovými vstupmi, ktoré inicializujú zodpovedajúci koncept.

Aby bolo možné porovnávať rôzne, ale významovo blízke pojmy, musia sa medzi nimi vytvoriť vzťahy. Tradične sa v lingvistických prostriedkoch na automatické spracovanie textov v prirodzenom jazyku používali určité súbory sémantických vzťahov, ako napr. časť, zdroj, príčina a tak ďalej. Pri práci s veľkými a heterogénnymi zbierkami textov však musíme pochopiť, že pri súčasnom stave technológie spracovania textu nebude počítačový systém schopný tieto vzťahy v texte žiadnym stabilným spôsobom odhaliť, aby mohol vykonávať procedúry, ktoré máme spojené s určitými vzťahmi. Preto by vzťahy medzi pojmami mali v prvom rade popisovať niektoré invariantné vlastnosti, ktoré nezávisia alebo len slabo závisia od témy konkrétneho textu, v ktorom sa pojem spomína.

Hlavnou funkciou týchto vzťahov je odpovedať na nasledujúcu otázku:

ak je známe, že text je venovaný diskusii o C1 a C2 súvisí

postojRs C1, môžeme povedať, že predmet textu(*)

má to spoločné s C2?

Pri vytváraní lingvistického zdroja na automatické spracovanie je dôležité určiť, ktoré vlastnosti pojmov C1 a C2 umožňujú vytvoriť medzi nimi správne (*) vzťahy.

Čiže napríklad akékoľvek texty, o ktorých sa píše brezy, vždy môžeme povedať, že ide o texty o stromy. Ale napriek obľúbenosti a častým diskusiám o vzťahu strom ako časť lesov, veľmi malý počet textov o stromoch sú texty o lesoch. Všimnite si, že problém nesúvisí s názvom vzťahu. Takže čistinka je súčasťou lesa, a texty o čistinkách sú texty o lese.

Invariantnosť vzťahov vzhľadom na spektrum možných tém textov predmetnej oblasti je do značnej miery determinovaná hlbšími vlastnosťami, než aké odzrkadľujú názvy vzťahov, a to ich kvantifikátorom a existenciálnymi vlastnosťami. Vlastnosti kvantifikátorov vzťahov teda popisujú, či všetky inštancie konceptu majú daný vzťah, či je daný vzťah zachovaný počas celého životného cyklu príkladu. Problém s použitím vzťahu stromles súvisí to s tým, že nie každý konkrétny strom je v lese, ale čistinka nemôže byť mimo lesa.

Príkladom opisu existenčných vlastností vzťahov je, či existencia pojmu C2 vyplýva z existencie pojmu C1 (napr. existencia pojmu GARÁŽ vyžaduje koncepciu AUTOMOBIL) alebo existencia príkladov C1 závisí od existencie príkladov C2 (teda konkrétne POVODEŇ neoddeliteľné od konkrétneho príkladu RIEKY). Diskusia v texte o závislom koncepte C2, najmä o príklade závislom, naznačuje, že text je relevantný aj pre hlavný koncept C1.

Zvážte vzťah medzi pojmami LES a DREVO detailne. V skutočnosti súčasť konceptu LES je STROM V LESE, kým existujú a STOJAJÚCI STROM,STROM V ZÁHRADE atď. V každom prípade je potrebné prerušiť vzťah podriadenosti pojmu STROM pojem LES.

Na druhej strane, LES je láskavý SADA STROMOV, neexistuje bez stromov (rovnako ako GARDEN). Teda koncept LES by malo závisieť od koncepcie STROM. Počnúc analýzou potrieb konkrétnych aplikovaných úloh sme dospeli k záveru, že je dôležité popísať hlboké vlastnosti vzťahov, ktoré sa predtým veľmi nevýrazne odrážali v lingvistických zdrojoch, ale ktoré majú prvoradý význam pre úlohy automatického spracovania veľkých textových zbierok, prípadne aj pre mnohé ďalšie úlohy.

Teraz modelujeme popis kvantifikátora a existenciálnych vlastností pojmov pomocou súboru tradičných vzťahov tezauru NAD-POD (66 % všetkých spojení), ČASŤ-Celok (30 % spojení), ASOCIÁCIA (4 %), v kombinácii s nejakou sadou ďalších modifikátorov (20 % vzťahov je označených). Všimnite si, že vzťahy ČASŤ-Celok a ASOCIÁCIA sa interpretujú podľa pravidla (*). Celkovo je opísaných asi 160 tisíc priamych spojení medzi pojmami, čo pri zohľadnení tranzitívnosti vzťahov dáva celkový počet rôznych spojení viac ako 1350 tisíc spojení, to znamená, že v priemere je každý koncept spojený s 30 ďalšími.

  1. RuThes Thesaurus: Všeobecná štruktúra

Thesaurus RuThes je hierarchická sieť pojmov zodpovedajúcich významom jednotlivých slov, textových výrazov alebo synonymických sérií. Hlavnými prvkami tezauru sú teda pojmy, jazykové výrazy, vzťahy, jazykový prejav – pojem, vzťahy medzi pojmami.

V tezaure sa v jednom systéme zhromažďujú ako jazykové poznatky - opisy lexém, frazémy a ich spojenia, tradične súvisiace s lexikálnymi, sémantickými poznatkami, tak aj poznatky o pojmoch a vzťahoch v rámci tematických okruhov, tradične súvisiace s oblasťou činnosti terminológov, popisované v tezauroch na vyhľadávanie informácií. Ako také predmetové subdomény tezaurus popisuje také tematické oblasti ako ekonómia, legislatíva, financie, medzinárodné vzťahy, ktoré sú pre každodenný život človeka také dôležité, že majú významné lexikálne zastúpenie v tradičných výkladových slovníkoch. Lexikálne a terminologické sú v nich silne prepojené a silne sa vzájomne ovplyvňujú.

Jazykové výrazy sú samostatné lexémy (podstatné mená, prídavné mená a slovesá), nominálne a slovesné skupiny. Slovník teda teraz nezahŕňa príslovky a pomocné slová ako jazykové výrazy. Viacslovné skupiny môžu zahŕňať výrazy, idiómy, lexikálne funkcie ( vplyv e).

Pre každý jazykový výraz je popísané nasledovné:

Jeho nejednoznačnosťou je súvislosť s jedným alebo viacerými pojmami, čo znamená, že daný jazykový výraz môže slúžiť ako textové vyjadrenie tohto pojmu. Priradenie jazykového výrazu k rôznym pojmom je tiež implicitným znakom jeho nejednoznačnosti;

Jeho morfologické zloženie (vecný druh, číslo, pád);

Vlastnosti písania (napríklad s veľkým písmenom) atď.

Každý pojem tezauru má jedinečný názov, zoznam jazykových výrazov, ktorými možno tento pojem v texte vyjadriť, zoznam vzťahov s inými pojmami.

Ako jedinečný názov pre pojem sa zvyčajne volí jeden z jeho jednoznačných textových výrazov. Ale názov pojmu môže byť tvorený aj dvojicou jeho nejednoznačných textových výrazov - synonymá napísané s čiarkou a jednoznačne ho definujúce (napr. pojem TUČNÝ, TUČNÝ). Nejednoznačné textové vyjadrenie názvu pojmu môže byť tiež opatrené štítkom alebo skráteným fragmentom výkladu, napríklad pojem DAV (Zhluk ĽUDÍ).

  1. Príklad položky v slovníku

Ako príklad sme vybrali slovníkové heslo pojmu LES zodpovedajúce jednému z významov slova les. Toto slovníkové heslo je zaujímavé, pretože zahŕňa rôzne typy poznatkov tradične označovaných ako lexikálne (sémantické) poznatky a encyklopedické poznatky (vedomosti o predmete, terminológia).

Synonymá pre pojem LES(celkom 13):

les(M), lesná zóna, lesné prostredie,

les, lesná štvrť, lesná krajina,

lesná oblasť, les, zalesnený,

lesná surová oblasť, les,

rad lesov.

Nasledujúce výrazy so synonymami:

DŽUNGLA(džungľa);

LESNÝ PARK(mestská záhrada, zeleň,

zelený masív, lesopark,

lesníctvo, lesníctvo

pás, parkM), parková zóna);

LESNÉ LOV;

listnatý les(ihličnatý les, tvrdé drevo

les);

GROVE(dubový les);

Ihličnatý les (ihličnatý masív, tmavý ihličnatý les)

Pojmy-časti so synonymami:

BORELOM (vetrolam, vetrolam);

FELLING(oblasť rezu);

LESNÁ KULTÚRA(lesné druhy, lesníctvo

kultúra);

LESNÉ PÔDY (pozemky lesného fondu; pozemky zakryté

les; lesná pôda, lesná plocha;

zalesnená zem, zalesnená

oblasť,);

LES(lesné plantáže, lesné plantáže,

zalesňovanie);

OKRAJ LESA(obruba, obruba);

PODGROWTH (podrast);

PROSECA;

SUCHÁ ZEM(suché).

Tu symboly (M) odrážajú značku nejednoznačnosti zadávania textu.

koncepcie LES má aj ďalšie vzťahy, takzvané závislosti závislosti (v modernej verzii sa nazývajú ASC 2 - asymetrická asociácia): LESNÝ POŽIAR(lesný požiar, požiar v lese; LESNÉ HOSPODÁRSTVO (využívanie lesa, využívanie pozemkov lesného fondu); VLASTNÍCTVO LESA; LESNÁ VEDA (lesná veda). Ako už bolo uvedené v odseku 2, pojem LES závisí od pojmu STROM, ktorý je v tezaure označený vzťahom ASC 1 .

Celý koncept LES priamo súvisí s 28 ďalšími pojmami, berúc do úvahy tranzitívnosť vzťahov - s 235 pojmami (spolu viac ako 650 textových vstupov).

  1. Hodnotenie stavu techniky

Tezaurus ruského jazyka RuThez

5.1. Lexikálna kompozícia

V súčasnosti je v sieti tezaurov zaradených viac ako 95 tisíc jazykových výrazov, z toho 61 tisíc jednoslovných.

Toto množstvo práce nás prinútilo rozhodnúť sa, aké slová a jazykové výrazy by mali byť zahrnuté v popisoch tezauru. Prirodzenou túžbou bolo vidieť, ako sú v tezaure zastúpené najčastejšie slová ruského jazyka. Na to bola použitá textová zbierka Univerzitného informačného systému RUSKO (400 tisíc dokumentov). Zbierka obsahuje oficiálne dokumenty rôznych orgánov Ruskej federácie (55 000 dokumentov od roku 1992), ako aj tlačové materiály od roku 1999 (noviny Izvestija, Nezavisimaya gazeta, Komsomolskaja pravda, Argumenty a fakty, odborný časopis a iné), materiály z vedeckých časopisov (Bulletin Moskovskej univerzity, Sociologický časopis). Porovnanie bolo uskutočnené medzi zoznamom lém zahrnutých do tezauru a zoznamom najčastejších 100 000 lém v zbierke textov (frekvencia viac ako 25).

Lexikálne označenie zoznamu ukázalo, že spomedzi týchto stotisíc lém je 35 tisíc opísaných v RuThese, len asi 7 tisíc lexém si zaslúži zaradenie do tezauru, zvyšok sú lematické varianty rôznych vlastných mien. Preto doplňovanie prestalo byť prioritou a vykonáva sa postupne, počnúc najfrekventovanejšími slovami. Predpokladá sa, že akonáhle bude tento zoznam v podstate vyčerpaný, vykoná sa ďalšie porovnanie s textovým poľom informačného systému, vyberú sa nové tokeny s frekvenciou vyššou ako 25. Ďalej sa predpokladá zníženie prahu prezerania. Prítomnosť veľkého množstva textových príkladov v zbierke textov vám umožňuje rýchlo reagovať na „lexikálne novinky“ (napr. inštalácia,trhák, beau monde, thriller) a zaradiť ich na príslušné miesta v hierarchickom systéme tezauru.

Neustála práca s aktuálnou zbierkou textov poskytuje jedinečné možnosti testovania významu a kvality lexikálnych opisov ponúkaných v slovníkoch. Napríklad nezvyčajne vysoká frekvencia používania slova Matka Vidieť(viac ako 400-krát). Kontrola proti poli ukázala, že slovo sa skutočne často používa ako synonymum slova Moskva, pričom výkladové slovníky často označujú toto slovo za zastarané. Ďalším príkladom často používaného slova (viac ako 300-krát) označeného ako zastarané v slovníkoch je slovo blažený.

5.2 Popis významov slov

Porovnanie so zbierkou textov ukazuje, že mnohé z frekvenčných slov v poli sú v tezaure dobre zastúpené aspoň v jednej zo svojich (zvyčajne základných) hodnôt. Našou prvoradou úlohou v súčasnosti je zistiť, do akej miery je v tezaure zastúpený rozsah významov polysémantických slov ruského jazyka.

Ako viete, rôzne zdroje slovníkov často dávajú rôzne významy pre polysémantické slová, rozlišujú odtiene významov a ten istý typ polysémie môže byť pre rôzne slová opísaný odlišne aj v tom istom slovníku. Preto je úloha dôsledného a reprezentatívneho opisu významov lexém dôležitou úlohou pre tvorcov akéhokoľvek slovníkového zdroja.

Ak je však zdroj určený na automatické spracovanie, úloha vyváženého opisu hodnôt sa stáva oveľa dôležitejšou. Nadmerné nafukovanie hodnôt môže spôsobiť, že počítačový systém nebude schopný vybrať požadovanú hodnotu, čo následne vedie k výraznému zníženiu účinnosti automatického systému na spracovanie textu. Jednou z nevýhod zdroja WordNet ako zdroja na automatické spracovanie textu je teda nadmerný počet hodnôt opísaných pre niektoré slová (vo WordNet 1.6: 53 hodnôt pre behať,47 za hrať a tak ďalej.). Tieto významy sú ťažko rozlíšiteľné aj pre človeka pri sémantickom anotovaní textov. Je jasné, že ani počítačový systém si nevie poradiť s výberom vhodnej hodnoty. Preto rôzni autori navrhujú rôzne spôsoby kombinovania hodnôt na zlepšenie kvality spracovania.

Zároveň pôsobí opačný faktor: ak sa hodnoty skutočne líšia v súbore väzieb slovníka (v našom prípade odkazov tezauru) - nemožno ich zlepiť do jedného celku (jedného konceptu) - povedie to aj k zhoršeniu kvality automatického spracovania.

Zvážte napríklad slová školy A kostol, z ktorých každý môže byť považovaný za organizáciu a za budovu.

Každá školská organizácia má budovu (najčastejšie jednu). Všetky časti budovy školy (učebne, tabule) súvisia s školy ako organizácia. Neexistujú žiadne špecifické typy školských budov. Preto ten popis školy ako budovy je nevhodné vyčleniť ako samostatný koncept. Avšak popis takéhoto kumulatívneho konceptu ŠKOLA ako organizácia a ako budova musí mať špeciálne navrhnutý vzťah s konceptom BUDOVA. Pri opise takýchto vzťahov v tezaure sa používa značka vzťahu - modifikátor „A“ („aspekt“, v automatickej analýze sa na zohľadnenie tohto vzťahu vyžaduje „potvrdenie“ inými pojmami).

ŠKOLA

VYŠŠIE VZDELÁVACIA INŠTITÚCIA

VYŠŠIE A VEREJNÁ BUDOVA

Relevantné významy slov kostol nie tak blízko. kostoly Ako môže mať organizácia veľké množstvo cirkevných budov na rôznych miestach a tiež veľa iných budov. budovanie kostolaúzko spojené s náboženstvom a vyznaním, ale môže zmeniť príslušnosť k organizácie cirkvi. cirkev-organizácia A budovanie kostola majú rôzne poddruhy. Preto CIRKEV (ORGANIZÁCIA) A KOSTOL (STAVBA) sú prezentované v RuThes ako rôzne koncepty.

Výrazná divergencia vo vzťahoch tezauru zaujímavým spôsobom koreluje so schopnosťou denotátov zodpovedajúcich významom existovať oddelene od seba. Budova kostola tak na rozdiel od budovy školy neprestáva existovať a dokonca sa nazývať kostolom ani pri zmene využitia.

Proces zosúlaďovania reprezentácie hodnôt v tezaure sa neustále uskutočňuje, počnúc najčastejšími lemami. Pre každý frekvenčný token sa kontroluje, ako sú jeho hodnoty opísané vo vysvetľujúcich slovníkoch, aké hodnoty sa používajú v kolekcii a ako sú prezentované v tezaure. V dôsledku toho sa vytvoril zoznam 10 000 lexém, ktorých nejednoznačnosť si stále vyžaduje dodatočnú analýzu alebo dodatočný popis. Zoznam je založený na 30 tisícoch najčastejších lemm.

Je potrebné poznamenať, že v tezaure je problém nejednoznačnosti čiastočne odstránený z dôvodu, že vzťahy v tezauroch možno opísať medzi rôznymi význammi slova, a preto je možné štandardne zvoliť najvyšší pojem v hierarchii. V texte sa to určite rozoberalo. Napríklad slovo fotografiu má tri významy: fotografia ako oblasť činnosti, fotografia ako fotografia, fotografia ako fotoateliér:

FOTOGRAFOVANIE(fotografovanie, fotografovanie, ..., fotografiu )

ČASŤ FOTOGRAFICKÝ OBRÁZOK

(fotografiu, fotografia, fotografiu )

ČASŤ FOTOATELIÉR (fotografiu ).

Ak teda nebolo možné zistiť, aký význam sa slovo používa fotografiu, za predvolenú hodnotu sa považuje fotografia (proces, výsledok alebo miesto), ktorá je dostatočná pre mnohé aplikácie na automatické spracovanie textu.

  1. Aplikácia tezauru RuThes

pre automatické spracovanie textu

Od roku 1995 sa spoločensko-politická terminológia RuThes (spoločensko-politický tezaurus) aktívne a úspešne používa na rôzne aplikácie automatického spracovania textov, ako je automatická pojmová indexácia, automatická kategorizácia pomocou viacerých rubrikátorov, automatická anotácia textov vrátane anglických.. Sociálno-politický tezaurus (27 000 konceptov, 62 000 textových záznamov) je základným vyhľadávacím nástrojom vo vyhľadávači UIS RUSSIA (www.cir.ru).

V postupoch automatickej rubrikácie textov podľa zložitých hierarchických nadpisov sa používa celá slovná zásoba tezauru RuThes. V existujúcej technológii je každá rubrika opísaná ako boolovské vyjadrenie výrazov, po ktorých sa pôvodný vzorec rozšíri pozdĺž hierarchie tezauru. Výsledný booleovský výraz už môže obsahovať stovky a tisíce spojok a klauzúl.

Uveďme ako príklad fragment opisu pojmov tezauru (a jazykových výrazov po rozšírení vzorca) rubriky „Obraz ženy“ rubrikátora SOFIST 2, ktorý používa VTsIOM na klasifikáciu dotazníkov prieskumu verejnej mienky:

(ŽENA[N]

|| DIEVČA[N]

|| PRÍBUZNÝ[L] (babička, vnučka, sesternica,

dcéra, švagriná, matka, nevlastná matka, nevesta, nevlastná dcéra, ...))

(VLASTNÁ VLASTNOSŤ[L] (šetrný, bezcitný, zábudlivý,

ľahkomyseľný, posmešný, netolerantný, spoločenský, ...)

|| IMAGE[E] (zobrazenie, vzhľad, vzhľad,

vzhľad, tvar, obraz, vzhľad)

|| PLEASANT[L] (..., zaujímavé, krásne, milé,

príťažlivý, príťažlivý, milý, ...)

|| NEPÍJEMNÝ[L] (nesympatický, hrubý, škaredý, ...)

|| HODNOTA [L] (ctiť, zbožňovať, zbožňovať,

uctievanie, uctievanie, ...)

|| PREFEROVAŤ[N]

Symbol "E" označuje úplnú expanziu pozdĺž hierarchie tezauru, symbol "L" - podľa druhových vzťahov ("DOLE"), symbol "N" - nerozširuje sa.

Uskutočňuje sa výskum vývoja kombinovanej technológie na automatickú kategorizáciu textu, ktorá kombinuje znalosti tezauru a postupy strojového učenia.

Problematika použitia tezauru na rozšírenie dopytu formulovaného v prirodzenom jazyku (teraz sa na rozšírenie terminologického dotazu v informačnom systéme UIS RUSKO používa len spoločensko-politická časť tezauru), hľadanie odpovedí na otázky vo veľkých zbierkach textov.

7. Záver

Príspevok prezentuje základné princípy vývoja lingvistických prostriedkov pre automatické spracovanie rozsiahlych textových zbierok. Vytvorený lingvistický zdroj - RuThes Russian Thesaurus - je určený na použitie v takých aplikáciách automatického spracovania textu, ako je koncepčné indexovanie dokumentov, automatická rubrikácia podľa zložitých hierarchických nadpisov, automatické rozširovanie dopytov v prirodzenom jazyku.

Táto práca je čiastočne podporovaná Ruskou nadáciou pre humanitné vedy, grant č. 00-04-00272a.

Literatúra

  1. Lukashevich N.V., Saliy A.D., Reprezentácia znalostí v automatickom spracovaní textu //NTI, Ser.2. 1997. Číslo 3. S. 1‑6.
  2. Zhuravlev S.V., Yudina T.N., Informačný systém RUSKO //NTI, Ser.2. 1995. Číslo 3. S. 18‑20.
  3. Winston M., Chaffin R., Herman D., Taxonomy of Part-Whole Relations // Kognitívna veda. 1987. č. 11. str. 417-444.
  4. Priss U.E., Formalizácia WordNet metódami analýzy relačných konceptov // WordNet. Elektronická lexikálna databáza / Ed. od C. Fellbauma. Cambridge, Massachusetts, Londýn, Anglicko.: The MIT Press 1998. S. 179-196.
  5. Guarino N., Welty C., Formálna ontológia vlastností // Zborník z workshopu ECAI-00 o aplikáciách ontológií a metód riešenia problémov. Berlín: 2000. S. 121-128. (http://citeseer.nj.nec.com/guarino00formal.html).

Niektoré ontologické princípy pre navrhovanie lexikálnych zdrojov vyššej úrovne // First Int. Conf. o jazykových zdrojoch a hodnotení. 1998.

  1. LukashevichN.V., Dobrov B.V., Modifikátory konceptuálnych vzťahov v tezaure pre automatické indexovanie // NTI, Ser.2. 2000, č. 4, S. 21-28.
  2. Veľký výkladový slovník ruského jazyka / Ed. S.A. Kuznecovová. Petrohrad: Norint, 1998.
  3. Ozhegov S.I., Shvedova N.Yu., Vysvetľujúci slovník ruského jazyka - 3. vydanie. M.: Az, 1996.
  4. Apresyan Yu.D., Vybrané práce, zväzok I. Lexikálna sémantika: 2. vyd. M.: Škola "Jazyky ruskej kultúry", Ed. Firma "Východná literatúra" RAS, 1995.
  5. G. Miller, R. Beckwith, C. Fellbaum, D. Gross a K. Miller, Five papers on WordNet, CSL Report 43. Cognitive Science Laboratory, Princeton University, 1990.
  6. Chugur, J. Gonzalo a F. Verdjeo, Zmyslové rozdiely v aplikáciách NLP // Proceedings of “OntoLex-2000”: Ontologies and Lexical Knowledge Bases. Sofia: OntoTextLab. 2000.
  7. Loukachevitch N., Dobrov B., Thesaurus-Based Structurus Thematic Summary in Multilingual Information Systems // Machine Translation Review. 2000 č. 11. S. 10-20. (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm).

Tezaurus ruského jazyka na spracovanie prirodzeného jazyka

veľkých textových zbierok

Natália V. Loukačevitch, Boris V. Dobrov

Kľúčové slová: tezaurus, spracovanie prirodzeného jazyka, vyhľadávanie informácií

V našej prezentácii sa zaoberáme hlavnými princípmi vývoja lexikálnych prostriedkov na automatické spracovanie veľkých textových zbierok a popisujeme štruktúru tezauru ruského jazyka, ktorý sa od roku 1997 vyvíja špeciálne ako nástroj na automatické spracovanie textu. Teraz je tezaurus hierarchickou sieťou 42 tisíc konceptov. Popisujeme súčasnú fázu vývoja tezauru v porovnaní so 100 000 najčastejšími lemami textovej zbierky Univerzitného informačného systému RUSKO (www.cir.ru), vrátane 400 000 dokumentov. Tiež uvažujeme o použití tezauru v rôznych aplikáciách automatického spracovania textu.