Thesaurus paraqet. Tezaurët. parimet gjuhësore të ndërtimit të thesaurusit. Fjalor i ri shpjegues dhe derivativ i gjuhës ruse, T. F. Efremova

Departamenti i TAOY KemGUKI

Tezaurët e marrjes së informacionit:

struktura, qëllimi dhe procedura e zhvillimit

1. Thesaurus si mënyrë e përfaqësimit të sistemuar të njohurive dhe

lloj fjalori ideografik.

2. Tezaurët e marrjes së informacionit: thelbi dhe qëllimi

3. Struktura e IPT-së

4. Procedura për zhvillimin, ekzaminimin, regjistrimin dhe mirëmbajtjen e IPT.

Bibliografi

1. GOST 7.74 - 96. Gjuhët e marrjes së informacionit. Termat dhe përkufizimet [Tekst]. - Input. 1997-07-01. - Minsk: Këshilli Ndërshtetëror për Standardizim, Metrologji dhe, 1997. - 34 f. (Sistemi i standardeve për informacion, bibliotekari dhe botim) TC 191.

2. GOST 7.25-2001. Marrja e informacionit të thesarit në një gjuhë. Rregullat e zhvillimit, struktura dhe forma e prezantimit [Tekst]. - GOST 7.25-80; Prezantimi 2002-07-01. - M.: Shtëpia botuese e standardeve IPK, 2001. - 16 f. MTK 191.

3. GOST 7.24-2007 Tesaurus shumëgjuhësh për marrjen e informacionit. Përbërja, struktura dhe kërkesat themelore për ndërtim. - Në vend të GOST 7.24-90; hyrje. 2008-07-01. / Këshilli Ndërshtetëror për Standardizim, Metrologji dhe Certifikimi. - M.: Standartinform, 2008. - 7 f. (Sistemi i standardeve për informacionin, bibliotekarinë dhe botimin)

4. Baranov, O. S. Fjalor ideografik i gjuhës ruse / O. S. Baranov. - M.: Shtëpia Botuese ETS, 1995. - 820 s

5. Zhmailo, S. V. Mbi përkufizimin e tezaurit [Teksti] / S. V. // NTI. Ser. 1 Organizimi dhe puna informative. - 2003. - Nr. 12. – Fq.20 – 25.

6. Zhmailo, S. V. Zhvillimi i tezaurëve modernë të rikthimit të informacionit [Tekst] / S. V. Zhmailo // NTI. Ser. 1 Organizimi dhe metodologjia e punës informative. -2004. - Nr. 1. – Fq.23 – 31.

Pra, në fjalorin ideografik të gjuhës ruse nga O. S. Baranov (4), dallohen 12 seksione më të larta të fjalorit ideografik, ndër të cilat janë: "rendi, natyra, veprimtaria, kultura", etj., Secila prej të cilave ndahet në grupe, nëngrupe, departamente, seksione. Të gjitha fjalët në këtë fjalor janë grupuar në fole sipas kuptimit të tyre dhe grupohen sipas ndonjë koncepti me të cilin më së shpeshti shoqërohen nga marrëdhëniet e specieve. Foletë grupohen në nënseksione dhe kështu me radhë. Për momentin, ka 5923 fole në fjalor, 7 nivele ndarjesh (sipas www.rifmovnik.ru/thesaurus.htm nga 16 shkurt 2010). Këtu është një shembull i një hyrjeje fjalori nga ky fjalor:

178.4.7 aroma ▲ - një erë e këndshme (për shembull, aroma e luleve, barit, sanës. e butë #. dehëse #). aromatizimi . . . qelibar. temjan.

Kodi i fjalës "aroma" pasqyron klasifikimin ideografik të pranuar në këtë fjalë, në veçanti, lidhjen e kësaj fjale me kategorinë "178-Sensations".

Kështu, termat "thesaurus", "fjalor ideografik", "fjalor i tipit thesaurus" kryesisht nënkuptojnë se tërësia e fjalëve të gjuhës është paraqitur në to në atë mënyrë që një grup fjalësh përfshin fjalë që janë të ngjashme në kuptim. . Qëllimi kryesor i fjalorëve ideografikë është një përmbledhje e njësive leksikore të bashkuara nga një koncept i përbashkët; kjo e bën më të lehtë për lexuesin gjetjen e mjeteve më të përshtatshme për shprehjen adekuate të mendimit dhe kontribuon në përdorimin aktiv të gjuhës.

Nga historia e tezaurëve

xhaketa 2302

në kostume

Produkte pallto

Produkte qepëse

n Xhaketë me dy krahë

Xhaketë e kombinuar

Xhaketë sportive

në Masat e paketimit

Materiali i mbetur

Materiali i mbeturinave

Shënim leksikor;

Akriptorët ose përshkruesit-sinonime;

Përshkruesit superior;

Përshkruesit e poshtëm;

Përshkruesit asociativë;

Përshkruesit e lidhur nga lloje të tjera marrëdhëniesh.

Brenda çdo grupi të NJ-ve të lidhura me një përshkrues të kokës sipas një lloj marrëdhënie paradigmatike, duhet të ketë një renditje alfabetike të renditjes. Për shembull:

GJUHËT ALGORITMIKE

me gjuhë algoritmike

gjuhët e orientuara nga makina

gjuhë specifike për domenin

në SOFTWARE

GJUHËT FORMALE

n AUTOKODET

një ALGORITME

PROGRAMIMI krh.gjuhët artificiale

Një hyrje ascriptor përbëhet nga një përshkrues dhe përshkrues ose një kombinim i përshkruesve që e zëvendësojnë atë gjatë përpunimit dhe kërkimit të informacionit. Këtu janë shembuj të artikujve të atributorit:

Karaktere alfanumerike

GJUHË FORMALE spanjolle

GJUHËT NATYRORE

shih GJUHËT ALGORITMIKE

Një hyrje në fjalor mund të përfshijë gjithashtu:

Sa shpesh përdoret përshkruesi;

Numri i kodit të përshkruesit;

Kodi përshkrues sipas indeksit sistematik;

Indekset e klasifikimit;

Shenja semantike dhe leksikografike shtesë;

ekuivalentët e huaj.

Cilësia e një indeksi leksiko-semantik përcaktohet nga plotësia e njësive leksikore të përfshira në të. kuptohet si probabiliteti për të futur në thesaurus ndonjë fjalë me kuptim informativ për një fushë të caktuar lëndore. Plotësia e indeksit leksiko-semantik dhe, rrjedhimisht, i të gjithë tezaurit ka një efekt të rëndësishëm në rezultatet e indeksimit të dokumenteve dhe pyetjeve.

Pjesët shtesë mund të përfshijnë indekse dhe lista të kategorive të veçanta të njësive leksikore sistematike, ndërruese, hierarkike dhe të tjera.

Një indeks sistematik është një indeks në të cilin përshkruesit grupohen sipas titujve të pranuar në IPT. Një indeks sistematik përcakton drejtimin tematik të thesarit, zbulon përmbajtjen e tij dhe pasqyron ato degë të shkencës dhe teknologjisë që mund të kërkohen me një ose një tjetër thellësi detajesh. Nevoja për të si pjesë e IPT-së është për faktin se ai jep një paraqitje vizuale të gjendjes së përgjithshme të terminologjisë në një fushë të caktuar të njohurive, ju lejon të ndërtoni një model terminologjik koherent dhe, nëse është e mundur, të gjitha termat dhe termat dhe koncepte që duhet të gjejnë vend në thesaurus. Ai synon të lehtësojë kërkimin e termave gjatë përpilimit të imazheve të kërkimit të dokumenteve dhe pyetjeve duke renditur një grup përshkruesish dhe akriptuesish sipas subjektit.

Indeksi sistematik, në thelb, është një skemë klasifikimi për plotësimin e terminologjisë së thesarit, pasi ndërtohet duke renditur një grup përshkruesish sipas fushave lëndore.

Indekset sistematike të IPT ​​ndahen në tre lloje:

Tematike,

Të përziera.

Kjo ndarje pasqyron parimin e ndërtimit të skemës së klasifikimit të një indeksi sistematik.

Funksionet kryesore të kryera nga indeksi sistematik i IPT:

Përdorni si një mjet ndihmës në indeksimin, duke siguruar, në total, kërkimin e përshkruesve për indeksimin e koncepteve që nuk janë të përfaqësuara në mënyrë eksplicite në thesaurus (funksioni i kërkimit);

Përdorimi në procesin e mbajtjes së një thesaurus (funksioni i mbajtjes së IPT);

Përdorimi si bazë strukturore e IPT-së, si një menaxhim i zhvillimit të tij (funksioni konstruktiv).

Në përputhje me GOST 7.25-2001 (2), kur ndërtohet një indeks sistematik i llojeve tematike dhe të përziera në pjesën e tij tematike, duhet të përdoren rubrikat e rubrikatit Ndërshtetëror NTI ose një rubrikatori specifik ASNTI i pajtueshëm me rubrikatorin NTI Ndërshtetëror. Kur ndërtohet një indeks sistematik i llojeve kategorike dhe të përziera, në pjesën e tij kategorike vijojnë këto kategori të përgjithshme:

Emrat e disiplinave dhe degëve të veprimtarisë;

Artikuj, materiale;

Metodat, proceset, operacionet, dukuritë;

Vetitë, vlerat, parametrat, karakteristikat;

Marrëdhëniet, strukturat, modelet, ligjet, rregullat, konceptet abstrakte.

Indeksi hierarkik. Një indeks hierarkik është një indeks që jep një listë të listave të përshkruesve, secila listë fillon me një përshkrues që nuk ka prind. Ai pasqyron strukturën e plotë të marrëdhënieve hierarkike në IPT. Pas çdo përshkruesi, përshkruesit jepen drejtpërdrejt me një tregues të nivelit të tyre në hierarki duke përdorur numërimin ose një përcaktim grafik të nivelit:

Nevoja për të zhvilluar një indeks hierarkik të IPT ​​është shkaktuar nga fakti se i gjithë sistemi i nënrenditjes së koncepteve nuk është i fiksuar në hyrjet e fjalorit të IPT, sepse kjo do të sillte një rritje të ndjeshme të indeksit leksiko-semantik. ekziston nevoja për të zhvilluar një seksion të pavarur të IPT ​​- një indeks hierarkik që do të pasqyronte të gjithë zinxhirin hierarkik të vartësisë së përshkruesve deri në fund.

Një indeks i ndërrimit është një indeks që rendit sipas rendit alfabetik të gjitha fjalët individuale që janë pjesë e përbërësve të frazave që tregojnë përshkrues dhe për secilën prej tyre tregohen të gjithë përshkruesit që përfshijnë këto fjalë. Prandaj, çdo term shfaqet në indeksin e ndërrimit aq herë sa përmban fjalë domethënëse. Qëllimi i indeksit të ndërrimit është të sigurojë një kërkim të përshkruesve-frazave me çdo fjalë të përfshirë në përbërjen e tyre, duke përfshirë ato që nuk janë në fillim të një njësie leksikore. Kjo ju lejon të gruponi fjalë me një rrënjë në një vend.

Si rregull, një indeks i ndërrimit përpilohet në një mënyrë të automatizuar dhe zakonisht ka formën e një indeksi të llojit KWIC (Fjala kyçe - Në kontekst - "Fjalë kyçe në kontekst"), në të cilën renditen të gjitha fjalët kuptimplota - termat. sipas rendit alfabetik. në indeksin e ndërrimit është në qendër të kolonës, e cila formohet nga mikrokontekstet e elementeve të termit, dhe pjesa e termave që nuk përshtatet transferohet në anën e majtë të së njëjtës rresht:

kuantike optike

zgjimin

elektrike

me ngacmim të varur

Gjeneratorët e ndërhyrjeve

GJENERATORË SERIAL

GJENERATORE DC

GJENERATORËT DC provohen të jenë të nevojshëm.

4. Procedura për zhvillimin, ekzaminimin, regjistrimin dhe mirëmbajtjen e IPT

Aktualisht, procedura për zhvillimin, ekzaminimin dhe regjistrimin e IPT-së përcaktohet nga dy standarde: GOST 7.25-2001 "Tezaur njëgjuhësh për rikthimin e informacionit. Rregullat e zhvillimit, struktura, përbërja dhe forma e prezantimit" dhe GOST 7.24-2007 "Tezaur i rikthimit të informacionit shumëgjuhësh". Përbërja, struktura dhe kërkesat themelore për ndërtim. Në përputhje me këto standarde, funksionet e ekzaminimit dhe regjistrimit të IPT-së kryhen nga fondet depozituese kombëtare dhe ndërkombëtare.

Fondi Kombëtar Depozitues i IPT-së në Rusisht (përfshirë IPT-në që përmban ekuivalentët e përshkruesve në Rusisht) ndodhet në , në VINITI.

Ekzistojnë gjithashtu dy IPT-të e depozitimit ndërkombëtar:

1) Fondi Ndërkombëtar i depozitimit IPT në anglisht, duke përfshirë IPT ​​që përmban ekuivalentët e përshkruesve në anglisht. Ndodhet në, në Toronto, në bibliotekën e Fakultetit të Shkencave të Informacionit në Universitetin e Torontos (Thesaurus Clearinghouse - “calculated”, The Library, Faculty of Information Studies, University of Toronto, TORONTO, Kanada);

2) Fondi Ndërkombëtar i Depozitimit IPT në të gjitha gjuhët përveç anglishtes. Ajo është e vendosur në , në Varshavë, në informacionin shkencor, teknik dhe ekonomik (Instytut Informacji Naukowej, Technicznej i Ekonomicznej, Clearinghouse, WARSZAW A, Poloni.).

Adresat e plota të këtyre organizatave janë dhënë në GOST 7.25-2001.

GOST 7.25-2001 dhe GOST 7.24-2007 përcaktojnë veprimet e zhvilluesve të IPT ​​si më poshtë:

1. Përpara fillimit të punës për krijimin e një IPT, zhvilluesi duhet të aplikojë në fondin e duhur të depozitimit kombëtar ose ndërkombëtar për të përcaktuar disponueshmërinë e thesaurëve të regjistruar për një temë të caktuar. Në prani të tezaurëve të tillë, bëhet një vlerësim i mundësisë së futjes së tyre në një sistem të caktuar. Nëse nuk gjenden thesauri të tillë, krijimi i një IPT ​​mund të jetë i mundur. Në të njëjtën kohë, e gjithë teknologjia për krijimin e IPT duhet të përputhet rreptësisht me GOST 7.25-2001 dhe GOST 7.24-2007

2. IPT i përfunduar (i zhvilluar) duhet t'i nënshtrohet një ekzaminimi për pajtueshmërinë me GOST 7.25-2001. ata plotësojnë standardin, pastaj Kombëtarja nxjerr zhvilluesin . i këtij IPT depozitohet (depozitohet) në fondet përkatëse kombëtare ose në një nga fondet depozituese ndërkombëtare (në Toronto ose Varshavë).

Depozituesit kombëtarë shpërndajnë informacion mbi përbërjen e fondit të IPT-ve të depozituara dhe ua ofrojnë zhvilluesve të IPT-ve të reja, me qëllim që të huazojnë elementë dhe të sigurojnë përputhshmërinë e mbështetjes gjuhësore të sistemeve të ndryshme të informacionit. Kështu, ata kryejnë funksionet e ekzaminimit, regjistrimit, ruajtjes së IPT-ve dhe informacionit rreth IPT-ve të disponueshme.

shumë operacione për menaxhimin e IPT-së);

Kalimi i AIS nga funksionimi i pavarur në funksionimin e rrjetit (kur përdorni IPT brenda kornizës së një parimi të vetëm të mirëmbajtjes së tyre, ato duhet të bien dakord).

Procesi i mbajtjes dhe funksionimit të IPT-së quhet mirëmbajtja ose rregullimi i thesaurus-it. Zakonisht përfshin sa vijon:

Ndryshimi i përbërjes leksikore të IPT: prezantimi i njësive të reja leksikore, ndryshimi i tyre, statusi i njësive leksikore (përkthimi i një fjale kyçe në përshkrues dhe anasjelltas);

Ndryshimi i marrëdhënieve paradigmatike në IPT ​​(forcim, dobësim);

Ruajtja e IPT përfshin përdorimin e detyrueshëm të mjeteve të automatizimit që ju lejojnë të kryeni shpejt operacione të tilla të mundimshme si renditja alfabetike e fjalorit, fjalorit, kontrollimi i reciprocitetit dhe konsistencës së referencave, me ndihmën e të cilave fiksohen marrëdhëniet paradigmatike në ITP, etj. .

Thesaurus(nga greqishtja thesauros - thesar) në gjuhësinë moderne - një lloj i veçantë fjalorësh të fjalorit të përgjithshëm ose të veçantë, të cilët tregojnë marrëdhënie semantike (sinonime, antonime, paronime, hiponime, hipernime, etj.) midis njësive leksikore. Kështu, thesaurët, veçanërisht në format elektronik, janë një nga mjetet më efektive për përshkrimin e fushave të veçanta lëndore.

Ndryshe nga një fjalor shpjegues, një thesaurus ju lejon të identifikoni kuptimin jo vetëm me ndihmën e një përkufizimi, por edhe duke ndërlidhur një fjalë me koncepte të tjera dhe grupet e tyre, të cilat mund të përdoren në sistemet e inteligjencës artificiale.

Në të kaluarën, termi thesaurus nënkuptonte kryesisht fjalorë që përfaqësonin fjalorin e gjuhës me plotësinë maksimale me shembuj të përdorimit të tij në tekste.

Paronimi- ngjashmëri e pjesshme tingullore e fjalëve me dallimin semantik të tyre (të plotë ose të pjesshëm). Paronimet janë shpesh një burim i gabimeve në të folur.

Shembuj të paronimeve me një rrënjë: vishem - vish, njerëzore - humane, paguaj - paguaj - paguaj.

Shembuj të paronimeve krejtësisht të palidhura: biologji - bryologji, supë - brillon, komposto - komplot, teksturë - thyerje.

Sidoqoftë, një thesaurus është më shumë se një mjet për rikthimin e informacionit. Thesaurus mund të konsiderohet si një model universal i një sistemi terminologjik, dhe për këtë arsye - si një sistem formal i njohurive që përmbahet në gjuhën e një fushe të caktuar shkencore.

Tesaurus për qëllime të përgjithshme

Thesaurus në përkufizimin më të përgjithshëm është një fjalor me lidhje semantike midis njësive të fjalorit. Që nga fundi i viteve 1950, thesauri janë përdorur në sistemet e përkthimit të makinës dhe sistemet e rikthimit të informacionit (IPS).

Ndryshe nga fjalorët semantikë, të cilët janë krijuar për të përshkruar fjalorin e përgjithshëm në detaje, thesauri janë krijuar për të ruajtur dhe klasifikuar fjalë dhe fraza jashtëzakonisht specifike. Për shembull, fjala substancësështë në fjalorin ROSS (Fjalori i Përgjithshëm Semantik Rus), dhe të gjithë emrat e përbërjeve kimike janë tashmë në thesaurus.

Cilat marrëdhënie përshkruhen në tezaur? Zakonisht:

    gjini-specie (AKO)

    pjesërisht e plotë (POF)

    sinonimi/antonimi

    asociative.

Një shembull i një marrëdhënieje gjini-specie

Shembull i analizimit semantik

Kjo paradigmatike(lidhje të qëndrueshme që ekzistojnë midis fjalëve në një gjuhë). Dhe kjo nuk është e gjitha.

Sintagmatike(tekst) lidhjet nuk janë të përfaqësuara në thesaurus.

Shembull: WORDNET - thesaurus kompjuterik inteligjent

http://wordnet.princeton.edu/perl/webwn

Krijuar në Universitetin Princeton dhe shpërndahet lirisht.

Karakteristikat kryesore.

Fjalët në të grupohen në grupe sinonime ( synsets - sinsets). Ato ndahen në 4 fjalorë - emra, mbiemra, folje dhe ndajfolje.

Sinsetat janë të bashkuara si në marrëdhëniet hierarkike (hiponime dhe hipernime), ashtu edhe në lidhje me antoniminë dhe gjithashtu meroniminë (të jesh pjesë e diçkaje ose të përbëhen nga pjesë).

Problemi i morfologjisë është zgjidhur gjithashtu - fjala pas thirrjes në WN kthehet në formën e saj origjinale.

Tesaurus për marrjen e informacionit

Në fushën e marrjes së informacionit, thesarët përfitojnë nga kalimi nga teksti në përshkruesit që përshkruajnë një objekt të botës reale. Kërcimi te përshkruesit lejon indeksimin e zgjatur (të tepërt).

Në tezaurin e rikthimit të informacionit, marrëdhëniet PARADIGMATIKE ndërmjet përshkruesve shprehen në mënyrë eksplicite (jo të gjithë, por ato që janë më shpesh të rëndësishme për rritjen e plotësisë së rikthimit të informacionit). Eksperimentalisht është përcaktuar se marrëdhëniet paradigmatike më të rëndësishme janë

    vartësia

    ngjashmëri

    specie-gjini (gjini-specie)

    shkakton efekt

    pjesërisht e tërë.

Shembull i hyrjes në fjalor:

Makina agreekulturore.Pajisje agreekulturore

sin. makineri bujqësore, makineri bujqësore,

Pamje: vjelëse patate, mbjellëse etj.

Një shembull i indeksimit të tepërt

Kërkesë "Makinat akorduese. Pajisjet akorduese"

Shembull: Thesaurus socio-politik i Sistemit të Informacionit të Universitetit të Gjuhës Ruse RUSI

http://www.cir.ru/index.jsp

Zhvilluar nga organizata jofitimprurëse Autonome "Qendra për Kërkimin e Informacionit" (ANO TsII)

Thesaurus është një burim terminologjik i zbatuar si një fjalor konceptesh dhe termash me lidhje midis tyre. Qëllimi kryesor i thesarit është të ndihmojë në gjetjen e informacionit: bazuar në lidhjet e tezaurit, pyetja zgjerohet, lundrimi nëpër lidhjet e tezaurit ndihmon në formulimin më të qartë të vetë pyetjes.

Një tipar i hierarkisë së Thesaurus UIS "Rusia" është pluraliteti i klasifikimit, domethënë, për shumicën e koncepteve, nuk kërkohet një koncept i vetëm klasifikues (lidhja SIPER - POSHT), por janë pikëpamje të ndryshme për një koncept të veçantë. i përshkruar, për shembull, koncepti i një DYQANI mund të konsiderohet edhe si NDËRTIM edhe si ORGANIZIM TREGTAR.

Thesaurus mbi temat socio-politike, përfshin më shumë se 26,000 koncepte, 62,000 terma, 100,000 të drejtpërdrejta dhe 700,000 marrëdhënie të trashëguara midis koncepteve. Versioni aktual i Thesaurus-it përshkruan terminologjinë e përdorur në fushën socio-politike, duke përfshirë çështjet ekonomike, politike, ushtarake, legjislative, sociale, marrëdhëniet ndërkombëtare dhe fusha të tjera.

Emri i plotë i Thesaurus-it është një thesar i rikthimit të informacionit mbi tema socio-politike për indeksimin automatik. Këtu të gjitha përkufizimet janë të rëndësishme:

    "rikthimi i informacionit" - pasi është krijuar posaçërisht për përdorim në marrjen e informacionit për të ndihmuar përdoruesin në formimin (sqarimin) e kërkesës dhe për të zgjeruar automatikisht kushtet e kërkesës gjatë kërkimit;

    "Për tema socio-politike" - pasi mbulon 95-99% të fjalorit dhe terminologjisë së tekstit në gjuhën ruse për tema socio-politike;

    "për indeksimin automatik" - pasi është baza për procesin e përcaktimit automatik të subjektit të dokumenteve - grupimi i termave të afërt në hierarkinë e tezaurit në nyje tematike, kategorizim automatik dhe shënim automatik.

Thesauri - Përfundim

Për shumë tezaur të njohur (WordNet, Roget, EuroWordNet), përfundimi automatik nga lidhjet e thesaurus mbetet një problem i madh - kur zgjerimi në lagjen më të afërt është i saktë, por jo i plotë, dhe përpjekjet për të zgjeruar lagjen çojnë në gabime.

Sistemi konceptual i fushës lëndore Baza e çdo fushe lëndore është sistemi i koncepteve të kësaj fushe. Përkufizimi i një koncepti: Koncepti është një mendim që pasqyron objektet dhe dukuritë e realitetit në një formë të përgjithësuar duke rregulluar vetitë dhe marrëdhëniet e tyre; këto të fundit (vetitë dhe marrëdhëniet) shfaqen në koncept si tipare të përgjithshme dhe specifike të ndërlidhura me klasat e objekteve dhe dukurive (Fjalori gjuhësor)


Konceptet dhe termat Për të shprehur në tekst konceptin e një fushe lëndore, përdoren fjalë ose fraza të quajtura terma. Tërësia e termave të fushës lëndore formojnë sistemin e saj terminologjik. Marrëdhënia e një termi specifik me termat e tjerë të sistemit të termave të fushës lëndore jepet nga përkufizimi


Përkufizimet e termit? Një fjalë (ose kombinim fjalësh) që është një emërtim i saktë i një koncepti të caktuar të çdo fushe të veçantë të shkencës, teknologjisë, artit, jetës shoqërore etj. || Fjalë a shprehje e veçantë që përdoret për të treguar diçka. në një mjedis të caktuar, profesion (Fjalor i madh shpjegues i gjuhës ruse)


Termat - emrat e saktë të koncepteve Zakonisht, çdo koncept i zonës korrespondon me të paktën një term të kuptuar në mënyrë të qartë, kuptimi i të cilit është ky koncept. - termat, në kuptimin e teorisë tradicionale të terminologjisë Vetitë e termave - emrat e saktë të koncepteve - termi duhet t'i referohet drejtpërdrejt konceptit, ai duhet të shprehë qartë konceptin; - kuptimi i termit duhet të jetë i saktë dhe nuk duhet të mbivendoset në kuptim me termat e tjerë; - kuptimi i termit nuk duhet të varet nga konteksti. Termat që emërtojnë me saktësi një koncept janë objekt studimi i teorisë së terminologjisë, terminologëve


Termat e tekstit Në tekstet reale të fushës së temës, përveç termave kryesore, një larmi shprehjesh të ndryshme gjuhësore mund të përdoren për t'iu referuar një koncepti, të cilin ne e quajmë terma tekstualë: - opsionet sintaksore dhe fjalëformuese: marrësi i fondeve buxhetore. - marrësi buxhetor; - variante leksikore - shlyerje direkte, shlyerje e padiskutueshme; - shprehjet me shumë vlera, në varësi të kontekstit, që shërbejnë si referencë për koncepte të ndryshme të rajonit, për shembull, fjala monedhë në kontekste të ndryshme mund të nënkuptojë monedhë kombëtare ose monedhë të huaj.














Përshkruesit e etiketuar Etiketat - pjesë e emrit të vinçave përshkrues (pajisje ngritëse) kundrejt vinçave (zogjve) guaska (struktura) - krahasimi i tezaurëve të ndryshëm Preferencat për frazat: –Regjistrimet fonografi vs. pllaka (fonografi) Pjellë dhe shumës: Dru (material) Dru (zona të pyllëzuara)






Përfshirja e përshkruesve të bazuar në shprehje me shumë fjalë Ndarja e një termi rrit paqartësinë: ushqim bimor Kuptimi i shprehjes varet nga renditja e fjalëve: shkencë informacioni - informacion shkencor Një nga fjalët përbërëse është jashtë fushëveprimit të tezaurit ose shumë e përgjithshme: së pari Marrëdhëniet me përshkruesit e ndihmës nuk rrjedhin nga struktura e tij: – Veshkat artificiale, statusi i refugjatit, semaforët




Marrëdhëniet asociative Fusha e veprimtarisë - personazhi - Matematikë - matematikan Disiplina - objekt studimi - Neurologji - sistemi nervor Veprim - agjent apo mjet - Gjuetia - gjahtar Veprimi - rezultati i veprimit - Thurje - pëlhurë Veprimi - qëllimi - Lidhja - libër Shkak-pasojë - Vdekje - funeral Vlera - njësi matëse - Forca e rrymës - amper Veprimi - kundërpala - Alergjen - ilaç antialergjik etj.


Tezauri i marrjes së informacionit: fazat e zhvillimit Faza e parë: indeksuesit përshkruajnë temën kryesore të tekstit me fjalë dhe fraza arbitrare. Termat e përftuara nga shumë tekste janë bashkuar. sinonimet, pjesa tjetër fshihen Termat specifike zakonisht nuk përfshihen


Tezaurët e marrjes së informacionit: arti i dizajnit Përshkruesit janë terma që nevojiten për të shprehur temën kryesore të dokumentit Sinonimet janë të përfshira vetëm ato më të nevojshmet (për shembull, filloni me një shkronjë të ndryshme) për të mos penguar punën e indeksuesit. Terma të ngjashëm duhet të reduktohen në një term për të shmangur indeksimin e subjektivitetit Nivelet e hierarkisë, përfshirja e termave specifikë është e kufizuar


Tesaurus i marrjes së informacionit: arti i zhvillimit - 2 Në raste komplekse, përshkruesit furnizohen me etiketa dhe komente -LIV: bombardim - bombardim -Terma të paqartë: një vlerë në thesaurus (kapitale), nuk përshtaten në thesaurus, etiketa!! ! Tesaurus tradicional i marrjes së informacionit - një gjuhë artificiale e ndërtuar mbi bazën e termave realë




IPT tradicionale: aplikim në përpunimin automatik Mungesa e njohjes së gjuhës reale të softuerit Mungesa e njohjes së gjuhës reale të softuerit Fjalori i indeksimit legjislativ: Fjalori i indeksimit legjislativ: – në tekst TROOPS – në tezaur FORCAT Ushtarake – në tekst KAPITALI – kapitali, në thesaurus vetëm kapitali Sugjerohet: çdo shtesë përshkruesi me lista fjalësh dhe termash Sugjerohet: çdo përshkrues duhet të plotësohet me lista fjalësh dhe termash Por: polisemi ose të lidhur me përshkrues të ndryshëm. Por: polisemi ose që lidhet me përshkrues të ndryshëm. Zgjidhja e ambiguitetit Zgjidhja e dykuptimësisë


IPT tradicionale: zgjerim automatik i pyetjes Problem me shoqatat Sugjerohet: futni peshat futni peshat shkruani emrat e marrëdhënieve: objekt, pronë, etj. shkruani emrat e marrëdhënieve: objekt, pronë etj. KONKLUZION: ju duhet të mësoni se si të ndërtoni burime gjuhësore posaçërisht për përpunimin automatik të koleksioneve të teksteve


Thesaurus EUROVOC – thesaurus shumëgjuhësh i Komunitetit Evropian Thesaurus në 9 gjuhë Versioni rus i EUROVOC –+5 mijë koncepte që pasqyrojnë specifikat ruse Tezaur shumëgjuhësh – Përshkrues – emra në gjuhë të ndryshme – Akriptorë – për disa gjuhë


Indeksimi automatik i bazuar në rregulla në thesaurusin EUROVOC (Hlava, Heinebach, 1996) Shembull i rregullit: IF (pranë "Teknologjisë" DHE me "Zhvillimin") SHFRYTËZO programin e komunitetit PËRDOR ndihma për zhvillim ENDIF 40 mijë rregulla. Testimi: 20 përshkruesit më të shpeshtë në tekst, të krijuar automatikisht - 42% plotësi, krahasuar me rubrikimin manual


Indeksimi automatik i bazuar në vendosjen e peshave të korrespondencës ndërmjet fjalëve dhe përshkruesve (Steinberger et al., 2000) Faza 1 - vendosja e një korrespondence midis fjalëve të tekstit dhe përshkruesve të caktuar bazuar në masat statistikore (chi-katror ose log-gjasa) përshkruesi i MENAXHIMIT TË PESHKIMIT - si më poshtë fjalët (në rend zbritës të peshës): peshkim, peshk, aksion, peshkim, konservim, menaxhim, anije, etj. Vetë indeksimi i fazës së dytë - përmbledhja e logaritmeve të peshave ose si produkt skalar i vektorëve


Kombinimi i pyetjeve të thesarit të marrjes së lirë dhe informacionit Koleksioni i indeksuar manualisht - korrelacionet. Për shembull, me kërkesë të kompanive të falimentuara (kompani të falimentuara), mund të merret një listë e përshkruesve të likuiditetit, borxhit, ndërmarrjes, firmës dhe pyetja zgjerohet. Saktësia në eksperiment u rrit me 13%.



Seksioni është shumë i lehtë për t'u përdorur. Në fushën e propozuar, thjesht shkruani fjalën e dëshiruar dhe ne do t'ju japim një listë të kuptimeve të saj. Dëshiroj të vërej se faqja jonë ofron të dhëna nga burime të ndryshme - fjalorë enciklopedikë, shpjegues, fjalëformues. Këtu mund të njiheni edhe me shembuj të përdorimit të fjalës që keni futur.

Kuptimi i fjalës thesaurus

thesaurus në fjalorin e fjalëkryqit

Fjalor shpjegues i gjuhës ruse. S.I. Ozhegov, N.Yu.Shvedova.

thesaurus

[te], -a, m (i veçantë).

    Fjalori i gjuhës, i cili vendos detyrën e një pasqyrimi të plotë të të gjithë fjalorit të tij.

    Një fjalor ose grup të dhënash që mbulon plotësisht termat, konceptet e një lloji. zonë të veçantë.

    adj. thesaurus, th, th.

Fjalor i ri shpjegues dhe derivativ i gjuhës ruse, T. F. Efremova.

thesaurus

    Ndonjë fjalor. gjuhë, duke përfaqësuar plotësisht fjalorin e saj.

    Një grup i plotë, sistematik i të dhënave për a një fushë njohurish që lejon një person ose një kompjuter të lundrojë në të (në shkencën kompjuterike).

Fjalor Enciklopedik, 1998

thesaurus

THESAURUS (nga greqishtja thesauros - thesar)

    një fjalor në të cilin fjalët e gjuhës paraqiten sa më plotësisht të jetë e mundur me shembuj të përdorimit të tyre në tekst (është plotësisht i realizueshëm vetëm për gjuhët e vdekura).

    Një fjalor në të cilin fjalët që lidhen me çdo fushë të dijes janë renditur sipas parimit tematik dhe tregohen marrëdhëniet semantike (specifike për gjininë, sinonimike etj.) ndërmjet njësive leksikore. Në thesarin e marrjes së informacionit, njësitë leksikore të tekstit zëvendësohen me përshkrues.

Thesaurus

(nga greqishtja thesaurós ≈ thesar, thesar), një grup njësish semantike të një gjuhe të caktuar me një sistem marrëdhëniesh semantike (shih Semantikë) të dhëna në të. T. në fakt përcakton semantikën e një gjuhe (një gjuhë kombëtare, gjuha e një shkence specifike ose një gjuhë e formalizuar për një sistem kontrolli të automatizuar). Fillimisht T. u konsiderua si një fjalor njëgjuhësh, në të cilin marrëdhëniet semantike përcaktohen nga grupimi i fjalëve sipas titujve tematikë. Për shembull, anglishtja T. (autor P. M. Roget), botuar në vitin 1962 (botimi i parë 1852), përmban 1040 tituj, ndër të cilët janë shpërndarë rreth 240,000 fjalë. Indeksi (çelësi) i kësaj T. përmban një listë alfabetike fjalësh që tregojnë titujt dhe nëntitujt të cilëve u përket secila fjalë. Ekzistojnë gjuhë tradicionale të gjuhëve të përgjithshme (përshkrime të sistemeve semantike të gjuhëve individuale) për anglisht, frëngjisht dhe spanjisht. Fjalorët njëgjuhësh që përcaktojnë shprehjet e parametrave kryesorë semantikë të secilës fjalë janë shumë afër T., për shembull, fjalori i gjuhës ruse nga S. I. Ozhegov.

Në vitet 70. Shekulli 20 vëllimet e marrjes së informacionit u përhapën, në këto vëllime u identifikuan njësi të veçanta leksikore ose përshkrues, të cilët mund të përdoren për të kërkuar automatikisht informacion dokumentar. Çdo fjalë e një termi të tillë shoqërohet me një përshkrues sinonim (shih Sinonimin), dhe marrëdhëniet semantike tregohen në mënyrë eksplicite për përshkruesit: gjini ≈ specie, pjesa ≈ e tërë, qëllimi ≈ mjetet, etj. Zakonisht është zakon të ndahet gjini- marrëdhëniet e llojeve (hierarkike) dhe asociative. Kështu, "Information Retrieval Thesaurus in Informatics", botuar në BRSS në 1973, parashikon për çdo përshkrues një hyrje fjalori, i cili tregon veçmas fjalë kyçe sinonime, përshkrues gjenerikë, specifikë dhe shoqërues. Për një orientim më të mirë në lidhjet shoqëruese ndërmjet përshkruesve, kësaj T i janë bashkangjitur harta semantike të klasave tematike. Në marrjen e automatizuar të informacionit, kërkohen dokumente, indeksi i të cilëve përmban jo vetëm përshkruesit e pyetjeve, por edhe ata përshkrues që janë në marrëdhënie të caktuara semantike me ta. Ndonjëherë është e dobishme të veçohen marrëdhënie specifike shoqëruese në T. që janë specifike për një fushë tematike të caktuar: sëmundje ≈ shkaktar, mjet ≈ qëllim (ose vlerë e matur), etj. Pozicioni i një njësie leksikore (fjalë, frazë) ​​në T. karakterizon kuptimin e tij në gjuhë; njohja e sistemit të marrëdhënieve semantike në të cilën hyn një fjalë e caktuar (përfshi edhe rubrikat ku hyn) bën të mundur gjykimin e kuptimit të kësaj fjale.

Në një kuptim të gjerë, teknologjia interpretohet si një përshkrim i sistemit të njohurive për realitetin që zotëron një bartës individual i informacionit ose një grup transportuesish. Ky bartës mund të kryejë funksionet e një marrësi informacioni shtesë, si rezultat i të cilit ndryshon edhe T. e tij. T. fillestare përcakton aftësitë e marrësit kur ai merr informacion semantik. Në psikologji dhe në studimin e sistemeve me inteligjencë artificiale, merren parasysh vetitë e T. të individëve, të cilat manifestohen në perceptimin dhe kuptimin e informacionit. Në sociologji dhe teorinë e komunikimit, ata studiojnë vetitë e T. të individëve dhe grupeve, të cilat ofrojnë mundësinë e mirëkuptimit të ndërsjellë bazuar në përgjithësinë e T. Në këto situata, T. duhet të përfshijë pohime komplekse dhe lidhjet e tyre semantike që përcaktojnë stoku i informacionit që ka një sistem kompleks. T. në fakt përmban jo vetëm informacion për realitetin, por edhe meta-informacion (informacion rreth informacionit), i cili ofron mundësinë e marrjes së mesazheve të reja.

Lit .: Cherny A.I., Metodologjia e përgjithshme për ndërtimin e tezaurëve, "Informacion shkencor dhe teknik. Ser. 2", 1968, ╧5; Varga D., Metodologjia e përgatitjes së tezaurit informativ, përkth. [nga Hung.], M., 1970; Shreider Yu. A., Thezauri në informatikë dhe semantikë teorike, “Informacion shkencor dhe teknik. Ser. 2", 1971, ╧ Z.

Yu. A. Schreider.

Wikipedia

Thesaurus

Thesaurus, në kuptimin e përgjithshëm - terminologji e veçantë, në mënyrë më strikte dhe përmbajtësore - një fjalor, një përmbledhje informacioni, një korpus ose kod që mbulon plotësisht konceptet, përkufizimet dhe termat e një fushe të veçantë të njohurive ose fushës së veprimtarisë, e cila duhet të kontribuojë në komunikim korrekt leksikor, korporativ; në gjuhësinë moderne, një lloj i veçantë fjalorësh që tregojnë marrëdhënie kuptimore (sinonime, antonime, paronime, hiponime, hipernime etj.) midis njësive leksikore. Tezaurët janë një nga mjetet më efektive për përshkrimin e fushave të veçanta lëndore.

Ndryshe nga një fjalor shpjegues, një thesaurus bën të mundur zbulimin e kuptimit jo vetëm me ndihmën e një përkufizimi, por edhe duke ndërlidhur një fjalë me koncepte të tjera dhe grupet e tyre, për shkak të të cilave mund të përdoret për të mbushur bazat e njohurive artificiale. sistemet e inteligjencës.

Në të kaluarën, termi thesaurus u caktuan kryesisht fjalorë që përfaqësonin fjalorin e gjuhës me shembuj të përdorimit të tij në tekste me plotësinë maksimale.

Gjithashtu afat thesaurus përdoret në teorinë e informacionit për t'iu referuar tërësisë së të gjithë informacionit që posedon subjekti.

Në psikologji, thesaurus i një individi karakterizon perceptimin dhe kuptimin e informacionit. Teoria e komunikimit konsideron gjithashtu thesarin e përgjithshëm të një sistemi kompleks, përmes të cilit ndërveprojnë elementët e tij.

Thesaurus (paqartësi)

Thesaurus:

  • Thesaurus - një fjalor, një koleksion informacioni që mbulon konceptet, përkufizimet dhe termat e një fushe të veçantë të njohurive ose fushës së veprimtarisë.
  • Thesaurus i Roger është një nga fjalorët e parë dhe më të famshëm ideografikë në histori.

Shembuj të përdorimit të fjalës thesaurus në literaturë.

Për perceptimin dhe bashkë-krijimin, disa optimale thesaurus Jo i vogël, por as shumë i madh.

Me një sasi të pakufizuar informacioni hyrës, duke tejkaluar ndjeshëm thesaurus, vlera e tij nuk varet nga kjo sasi dhe përcaktohet tërësisht nga thesaurus ohm.

Shkathtësia, natyra sistematike e artit çon në perceptimin e pabarabartë të veprës në tërësi: për perceptimin e disa aspekteve të vargut thesaurus optimale, për të tjerët, e pamjaftueshme ose shumë e madhe.

Sepse thesaurus rritet dhe ndryshon, rinjohja me punën mund të nënkuptojë marrjen e informacionit të ri të vlefshëm.

Është e kuptueshme dëshira e fëmijës për të rilexuar në mënyrë të përsëritur përrallën që e ka dashuruar: thesaurus aftësia e tij për bashkëkrijim, për fantazim asociativ është veçanërisht e madhe.

Kjo anë e çështjes është më e ndryshueshme dhe subjektive sesa thesaurus, dhe në kërkim të një vlerësimi objektiv estetik të veprës, ai duhet të reduktohet në minimum.

Ai depërton në thesaurus poet dhe i drejtohet përkthimit thesaurus nga një lexues i huaj.

Gjëja më e rëndësishme është të përcaktoni se sa i madh është thesaurus, T.

Jo, thjesht bagazhi i tij është i pakët, ai është i pazhvilluar, i tij thesaurusështë në fillimet e tij dhe nëse nuk e kupton këtë thesaurus duhet të rritet, atëherë, në çdo rast, kjo grua do ta ketë të vështirë me të.

I pasur thesaurus, bazuar në njohuritë e vërteta, i lejon një personi në komunikim me një person tjetër, përfshirë në komunikimin më të afërt me personin më të afërt, t'i përgjigjet saktë gjithçkaje që ndodh.

Natyrisht, rënia e vlerës së informacionit me rritjen thesaurus duhet të varet nga marrëdhënia thesaurus për sasinë e informacionit të marrë.

Natyrisht, vlera optimale e informacionit artistik korrespondon me afërsinë thesaurus lexues dhe thesaurus poet.

Mund të themi se bashkëkrijimi, ashtu si krijimtaria, kërkon frymëzim, domethënë përfshirje thesaurus në kuptimin më të gjerë të fjalës.

Një përsëritje e tillë e brendshme e imazheve të ndritshme dhe tingullit të ndritshëm, duke mbetur brenda ekzistueses thesaurus, e pasuron me të njëjtin moment estetik të përsëritjes.

Në këtë pikë thesaurus Nabokov dhe Prishvin duhet të konsiderohen antipodë të Platonovit, dhe Marina Tsvetaeva mund të njihet si e ngjashme me të.

N. V. Lukashevich

[email i mbrojtur]

B. V. Dobrov

Qendra Kërkimore Kompjuterike e Universitetit Shtetëror të Moskës M.V. Lomonosov;

Qendra ANO për Kërkimin e Informacionit

[email i mbrojtur]

Fjalë kyçe: thesaurus, marrja e informacionit, përpunimi automatik i tekstit,

Shumica dërrmuese e teknologjive që punojnë me koleksione të mëdha tekstesh bazohen në metoda statistikore dhe probabiliste. Kjo për faktin se burimet leksikore që mund të përdoren për të përpunuar koleksionet e teksteve duke përdorur metoda gjuhësore duhet të kenë një vëllim prej dhjetëra mijëra hyrje fjalori dhe të kenë një numër karakteristikash të rëndësishme që duhet të monitorohen posaçërisht kur zhvillohet një burim. Në raport, ne konsiderojmë parimet themelore të zhvillimit të burimeve leksikore për përpunimin automatik të koleksioneve të mëdha tekstesh duke përdorur shembullin e tezaurit të gjuhës ruse të krijuar që nga viti 1997 për përpunimin kompjuterik të teksteve RuThez, i cili aktualisht është një rrjet hierarkik me më shumë se 42 mijë koncepte. . Ne përshkruajmë gjendjen aktuale të tezaurit bazuar në një krahasim të përbërjes së tij leksikore dhe korpusit të tekstit të Sistemit të Informacionit Universitar RUSSIA (www.cir.ru) - 400 mijë dokumente. Diskutohen shembuj të përdorimit të thesaurus-it në aplikacione të ndryshme të përpunimit automatik të tekstit.

  1. Prezantimi

Aktualisht, miliona dokumente janë bërë të disponueshme në formë elektronike, mijëra sisteme informacioni dhe biblioteka elektronike janë krijuar. Në të njëjtën kohë, sistemet e informacionit që përdorin burime leksikore dhe terminologjike për kërkim llogariten në fraksione të përqindjes. Kjo për shkak të problemeve serioze të krijimit të burimeve të tilla gjuhësore për përpunimin automatik të koleksioneve moderne të dokumenteve elektronike.

Së pari, këto koleksione janë zakonisht shumë të mëdha, burimi duhet të përfshijë përshkrime të mijëra fjalëve dhe termave. Së dyti, koleksionet janë një grup dokumentesh me strukturë të ndryshme me një larmi ndërtimesh sintaksore, gjë që e bën të vështirë përpunimin automatik të fjalive të tekstit. Përveç kësaj, informacione të rëndësishme shpesh shpërndahen midis fjalive të ndryshme të tekstit.

E gjithë kjo ngre ashpër pyetjen se çfarë lloj burimi gjuhësor duhet të jetë, i cili, nga njëra anë, do të ishte i dobishëm për përpunimin dhe kërkimin automatik në koleksionet elektronike, nga ana tjetër, mund të krijohej në një kohë të parashikueshme dhe të mirëmbahej me relativisht pak përpjekje.

Në artikull, ne do të shqyrtojmë parimet themelore të zhvillimit të burimeve leksikore për përpunimin automatik të koleksioneve të mëdha të teksteve. Këto parime do të konsiderohen në shembullin e tezaurit të gjuhës ruse të krijuar që nga viti 1997 nga Qendra ANO për Kërkimin e Informacionit për përpunimin kompjuterik të teksteve RuThez. RuThez aktualisht është një rrjet hierarkik me më shumë se 42 mijë koncepte, i cili përfshin më shumë se 95 mijë fjalë, shprehje, terma ruse. Ne do të përshkruajmë gjendjen aktuale të tezaurit bazuar në një krahasim të përbërjes së tij leksikore dhe leksikut të korpusit të tekstit të Sistemit të Informacionit Universitar RUSSIA, i mbështetur nga Qendra e Kërkimit dhe Zhvillimit të Universitetit Shtetëror të Moskës. M.V. Lomonosov dhe ANO TsII. UIS RUSSIA (www.cir.ru) përmban 400,000 dokumente mbi tema socio-politike (rreth 3 GB tekste, 200 milion përdorime fjalësh). Artikulli do të shikojë gjithashtu shembuj të përdorimit të thesarit në aplikacione të ndryshme të përpunimit të tekstit.

  1. Parimet për zhvillimin e një burimi gjuhësor

për detyrat e gjetjes së informacionit

Për të siguruar përpunimin efikas automatik të dokumenteve elektronike (indeksimi automatik, kategorizimi, krahasimi i dokumenteve), është e nevojshme të ndërtohet një bazë për krahasimin e tyre - një listë e asaj që u përmend në dokument. Që një indeks i tillë të jetë më efektiv se një indeks fjalësh, është e nevojshme të kapërcehet diversiteti leksikor i tekstit: sinonimet, polisemitë, pjesët e të folurit, stili dhe ta reduktojmë atë në një invariant - një koncept që bëhet bazë për krahasimin. tekste të ndryshme. Kështu, konceptet duhet të bëhen baza e një burimi gjuhësor, dhe shprehjet gjuhësore: fjalët, termat - të bëhen vetëm hyrje teksti që inicializojnë konceptin përkatës.

Për të qenë në gjendje të krahasoni koncepte të ndryshme, por të afërta në kuptim, duhet të krijohen marrëdhënie midis tyre. Tradicionalisht, në burimet gjuhësore për përpunimin automatik të teksteve në gjuhën natyrore, përdoreshin grupe të caktuara marrëdhëniesh semantike, si p.sh. pjesë, burim, shkak e kështu me radhë. Megjithatë, kur punojmë me koleksione të mëdha dhe heterogjene tekstesh, duhet të kuptojmë se me gjendjen aktuale të teknologjisë së përpunimit të tekstit, një sistem kompjuterik nuk do të jetë në gjendje t'i zbulojë këto marrëdhënie në tekst në asnjë mënyrë të qëndrueshme për të kryer procedurat që ne kanë lidhje me marrëdhënie të caktuara. Prandaj, marrëdhëniet ndërmjet koncepteve para së gjithash duhet të përshkruajnë disa veti të pandryshueshme që nuk varen ose varen dobët nga tema e një teksti të caktuar në të cilin përmendet koncepti.

Funksioni kryesor i këtyre marrëdhënieve është t'i përgjigjet pyetjes së mëposhtme:

nëse dihet se teksti i kushtohet diskutimit të C1, dhe C2 është i lidhur

qëndrimRme C1, a mund të themi se lënda e tekstit(*)

ka lidhje me C2?

Kur krijoni një burim gjuhësor për përpunim automatik, është e rëndësishme të përcaktoni se cilat veti të koncepteve C1 dhe C2 lejojnë vendosjen e marrëdhënieve të sakta (*) midis tyre.

Kështu, për shembull, për çfarëdo teksti që shkruhet thupër, mund të themi gjithmonë se këto janë tekste për të pemët. Por pavarësisht nga popullariteti dhe diskutimi i shpeshtë i marrëdhënies pemë si pjese pyjet, një numër shumë i vogël tekstesh për pemët janë tekste për pyjet. Vini re se problemi nuk lidhet me emrin e marrëdhënies. Kështu që pastrimi është pjesë e pyllit, dhe tekstet për pastrimet janë tekste për pyllin.

Pandryshueshmëria e marrëdhënieve në lidhje me spektrin e temave të mundshme të teksteve të fushës lëndore përcaktohet kryesisht nga vetitë më të thella se ato të pasqyruara nga emrat e marrëdhënieve, përkatësisht nga vetitë sasiore dhe ekzistenciale. Pra, vetitë sasiore të marrëdhënieve përshkruajnë nëse të gjitha rastet e një koncepti kanë një lidhje të caktuar, nëse një lidhje e caktuar ruhet gjatë gjithë ciklit jetësor të shembullit. Problem me përdorimin e relacionit pemëpyll lidhet pikërisht me faktin se jo çdo pemë e veçantë është në pyll, por pastrimi nuk mund të jetë jashtë pyllit.

Një shembull i përshkrimit të vetive ekzistenciale të marrëdhënieve është nëse ekzistenca e konceptit C2 rrjedh nga ekzistenca e konceptit C1 (për shembull, ekzistenca e konceptit GARAGE kërkon konceptin AUTOMOBILE) ose ekzistenca e shembujve të C1 varet nga ekzistenca e shembujve të C2 (pra një të veçantë PËRMBYTJE të pandashme nga një shembull konkret LUMET). Diskutimi në tekstin e konceptit të varur C2, veçanërisht ai i varur nga shembulli, sugjeron se teksti është i rëndësishëm edhe për konceptin kryesor C1.

Konsideroni marrëdhëniet midis koncepteve PYLI dhe DRURI ne detaje. Në fakt, pjesë e konceptit PYLLështë PEME NË PYLL, ndërsa ka dhe PEME NE QENDRIME,PEMA NË KOPSHT etj. Në çdo rast kërkohet prishja e raportit të vartësisë së konceptit PEME nocioni PYLL.

Ne anen tjeter, PYLLështë i sjellshëm SET PEMËRIVE, nuk ekziston pa pemë (si dhe KOPSHT). Kështu koncepti PYLL duhet të jetë i varur nga koncepti PEME. Duke filluar me një analizë të nevojave të detyrave specifike të aplikuara, arritëm në përfundimin se është e rëndësishme të përshkruhen vetitë e thella të marrëdhënieve që më parë ishin pasqyruar në mënyrë shumë të parëndësishme në burimet gjuhësore, por që kanë një rëndësi të madhe për detyrat e përpunimit automatik të koleksione të mëdha tekstesh dhe, ndoshta, për shumë detyra të tjera.

Tani ne po modelojmë përshkrimin e vetive sasiore dhe ekzistenciale të koncepteve nga një grup marrëdhëniesh tradicionale të tezaurit SIPER-POSHT (66% e të gjitha lidhjeve), PJESA-Të gjithë (30% e lidhjeve), SHOQËRI (4%), në kombinim me një grup modifikuesish shtesë (20% e marrëdhënieve janë etiketuar). Vini re se marrëdhëniet PJESË-Tërë dhe ASOCIACION interpretohen sipas rregullit (*). Në total, përshkruhen rreth 160 mijë lidhje të drejtpërdrejta midis koncepteve, të cilat, duke marrë parasysh kalueshmërinë e marrëdhënieve, japin një numër të përgjithshëm lidhjesh të ndryshme prej më shumë se 1350 mijë lidhjesh, domethënë mesatarisht çdo koncept lidhet me 30 të tjerë. .

  1. RuThes Thesaurus: Struktura e Përgjithshme

Thesaurus RuThes është një rrjet hierarkik konceptesh që korrespondojnë me kuptimet e fjalëve individuale, shprehjeve tekstuale ose serive sinonime. Kështu, elementët kryesorë të tezaurit janë konceptet, shprehjet gjuhësore, marrëdhëniet, shprehja gjuhësore - koncepti, marrëdhëniet ndërmjet koncepteve.

Në thesaurus, si njohuritë gjuhësore - përshkrimet e leksemave, idiomave dhe lidhjeve të tyre, tradicionalisht të lidhura me njohuritë leksikore, semantike, dhe njohuritë për termat dhe marrëdhëniet brenda fushave lëndore, tradicionalisht të lidhura me fushën e veprimtarisë së terminologëve, të përshkruara në tezaurët e marrjes së informacionit. , janë mbledhur në një sistem të vetëm. . Si nënfusha të tilla lëndore, thesaurus përshkruan fusha të tilla lëndore si ekonomia, legjislacioni, financat, marrëdhëniet ndërkombëtare, të cilat janë aq të rëndësishme për jetën e përditshme të një personi sa që kanë një përfaqësim leksikor të rëndësishëm në fjalorët shpjegues tradicionalë. Në to, leksikore dhe terminologjike janë të ndërlidhura fort dhe ndërveprojnë fort me njëra-tjetrën.

Shprehjet gjuhësore janë leksema të veçanta (emra, mbiemra dhe folje), grupe emërore dhe foljore. Kështu, thesaurus tani nuk përfshin ndajfoljet dhe fjalët ndihmëse si shprehje gjuhësore. Grupet me shumë fjalë mund të përfshijnë terma, idioma, funksione leksikore ( ndikim e).

Për çdo shprehje gjuhësore, përshkruhet si më poshtë:

Paqartësia e saj është lidhja me një ose më shumë koncepte, që do të thotë se një shprehje e caktuar gjuhësore mund të shërbejë si shprehje tekstuale e këtij koncepti. Caktimi i një shprehjeje gjuhësore koncepteve të ndryshme është gjithashtu një tregues i nënkuptuar i paqartësisë së saj;

Përbërja e tij morfologjike (pjesë e fjalës, numri, rasti);

Veçoritë e të shkruarit (për shembull, me shkronjë të madhe), etj.

Çdo koncept thesaurus ka një emër unik, një listë të shprehjeve gjuhësore me të cilat ky koncept mund të shprehet në tekst, një listë marrëdhëniesh me koncepte të tjera.

Si një emër unik për një koncept, zakonisht zgjidhet një nga shprehjet e tij tekstuale të paqarta. Por emri i konceptit mund të formohet gjithashtu nga një palë shprehje tekstuale të paqarta - sinonime të shkruara me presje dhe që e përcaktojnë atë në mënyrë unike (për shembull, koncepti YNDYRË, YNDYRË). Një shprehje tekstuale e paqartë e emrit të një koncepti mund të sigurohet gjithashtu me një etiketë ose një fragment të shkurtuar interpretimi, për shembull, koncepti TURMA (GRUP E NJEREZVE).

  1. Shembull i hyrjes në fjalor

Kemi zgjedhur si shembull hyrjen në fjalor të konceptit PYLL që i përgjigjet njërit prej kuptimeve të fjalës pyll. Kjo hyrje fjalori është interesante sepse përfshin lloje të ndryshme njohurish të referuara tradicionalisht si njohuri leksikore (semantike) dhe njohuri enciklopedike (njohuri rreth fushës lëndore, terminologji).

Sinonime për konceptin PYLL(gjithsej 13):

pyll (M), zona pyjore, mjedisi pyjor,

pyll, lagje pyjore, peizazh pyjor,

sipërfaqe pyjore, pyll, pyllëzuar,

zona e papërpunuar pyjore, pyll,

varg pyjesh.

Termat e mëposhtëm me sinonime:

XHUNGLE(xhungël);

PARK PYJOR(kopshti i qytetit, zona e gjelberuar,

masivi i gjelbër, park pyjor,

pylltaria, pylltaria

rrip, parkM), zona e parkut);

Gjuetia në PYJE;

pyll gjetherënës(pyll me dru të butë, drurë

pyll);

GROVE(pyll dushku);

PYLI HALORË (masiv halor, pyll i errët halor)

Koncepte-pjesë me sinonime:

BORELOM (erë, erë e papritur);

PRERJE(zona e prerjes);

KULTURA PYJORE(specie pyjore, pylltari

kultura);

TOKË PYJORE (toka të fondit pyjor; toka të mbuluara me

pyll; tokë pyjore, sipërfaqe pyjore;

tokë e pyllëzuar, e pyllëzuar

zona,);

PYLL(plantacione pyjore, plantacione pyjore,

pyllëzimi);

BUZI I PYLLIT(bordurë, bordurë);

NËNRRITJE (nën rritje);

PROSECA;

TOKË E THATË(thatë).

Këtu simbolet (M) pasqyrojnë shenjën e paqartësisë së futjes së tekstit.

koncept PYLL ka edhe marrëdhënie të tjera, të ashtuquajturat marrëdhënie varësie (në versionin modern ato quhen ASC 2 - shoqërim asimetrik): ZJARR në PYJ(zjarr në pyll, zjarr në pyll; MENAXHIMI I PYJEVE (shfrytëzimi i pyjeve, përdorimi i parcelave të fondit pyjor); PRONËSIA E PYJIT; SHKENCA PYJORE (shkenca pyjore). Siç u përmend tashmë në paragrafin 2, koncepti i PYLLIT varet nga koncepti i PEMËS, i cili në thesaurus shënohet me relacionin ASC 1 .

I gjithë koncepti PYLL lidhet drejtpërdrejt me 28 koncepte të tjera, duke marrë parasysh kalueshmërinë e marrëdhënieve - me 235 koncepte (më shumë se 650 futje teksti në total).

  1. Vlerësimi i gjendjes së artit

Tesaurus i gjuhës ruse RuThez

5.1. Përbërja leksikore

Aktualisht, më shumë se 95 mijë shprehje gjuhësore janë të përfshira në rrjetin e thesaurus, nga të cilat 61 mijë janë me një fjalë.

Kjo sasi pune na bëri të vendosim se cilat fjalë dhe shprehje gjuhësore duhet të përfshihen në përshkrimet e Tezaurit. Dëshira e natyrshme ishte për të parë se si fjalët më të shpeshta të gjuhës ruse përfaqësohen në thesaurus. Për këtë, u përdor koleksioni i tekstit të Sistemit të Informacionit Universitar RUSSIA (400 mijë dokumente). Koleksioni përmban dokumente zyrtare të organeve të ndryshme të Federatës Ruse (55 mijë dokumente që nga viti 1992), si dhe materiale shtypi që nga viti 1999 (gazetat Izvestia, Nezavisimaya Gazeta, Komsomolskaya Pravda, Argumente dhe Fakte, Revista Ekspert dhe të tjerë), materiale shkencore revista (Buletini i Universitetit të Moskës, Revista Sociologjike). Krahasimi u bë midis listës së lemave të përfshira në Thesaurus dhe listës së 100,000 lemave më të shpeshta në koleksionin e tekstit (frekuenca më shumë se 25).

Shënimi leksikor i listës tregoi se midis këtyre njëqind mijë lemave, 35 mijë përshkruhen në RuThes, vetëm rreth 7 mijë leksema meritojnë të përfshihen në Thesaurus, pjesa tjetër janë variante lematike të emrave të ndryshëm të përveçëm. Prandaj, rimbushja ka pushuar së qeni prioritet dhe kryhet gradualisht, duke filluar nga fjalët më të shpeshta. Supozohet se sapo kjo listë të jetë shteruar në thelb, do të kryhet krahasimi i radhës me grupin e teksteve të sistemit të informacionit, do të zgjidhen shenja të reja me një frekuencë prej më shumë se 25. Më tej, pragu i shikimit supozohet të jetë reduktuar. Prania në koleksionin e tekstit të një numri të madh shembujsh teksti ju lejon t'i përgjigjeni shpejt "risive leksikore" (për shembull, instalimi,bllokbuster, beau monde, thriller) dhe përfshijini ato në vendet e duhura në sistemin hierarkik të Thesaurus-it.

Puna e vazhdueshme me koleksionin aktual të teksteve ofron mundësi unike për të testuar rëndësinë dhe cilësinë e përshkrimeve leksikore të ofruara në fjalorë. Për shembull, një frekuencë jashtëzakonisht e lartë e përdorimit të fjalës Nënë Selia(më shumë se 400 herë). Kontrolli ndaj grupit tregoi se fjala me të vërtetë përdoret shpesh si sinonim për fjalën Moska, ndërsa fjalorët shpjegues shpesh e shënojnë këtë fjalë si të vjetëruar. Një shembull tjetër i një fjale të përdorur shpesh (më shumë se 300 herë) e shënuar si e vjetëruar në fjalorë është fjala i lumtur.

5.2 Përshkrimi i kuptimeve të fjalëve

Një krahasim me koleksionin e tekstit tregon se shumë nga fjalët e frekuencës në grup janë të përfaqësuara mirë në Thesaurus në të paktën një nga vlerat e tyre (zakonisht themelore). Zbulimi se në çfarë mase përfaqësohet gama e kuptimeve të fjalëve polisemantike të gjuhës ruse në Thesaurus është detyra jonë kryesore në kohën e tanishme.

Siç e dini, burime të ndryshme fjalori shpesh japin një grup kuptimesh të ndryshme për fjalët polisemantike, dallojnë nuancat e kuptimeve dhe i njëjti lloj polisemi mund të përshkruhet ndryshe për fjalë të ndryshme edhe në të njëjtin fjalor. Prandaj, detyra e një përshkrimi të qëndrueshëm dhe përfaqësues të kuptimeve të leksemave është një detyrë e rëndësishme për krijuesit e çdo burimi fjalori.

Sidoqoftë, nëse burimi është menduar për përpunim automatik, atëherë detyra e përshkrimit të ekuilibruar të vlerave bëhet shumë më e rëndësishme. Fryrja e tepërt e vlerave mund të bëjë që sistemi kompjuterik të mos jetë në gjendje të zgjedhë vlerën e dëshiruar, e cila nga ana tjetër çon në një ulje të ndjeshme të efikasitetit të sistemit automatik të përpunimit të tekstit. Pra, si një nga disavantazhet e burimit WordNet si një burim për përpunimin automatik të tekstit është një numër i tepërt vlerash të përshkruara për disa fjalë (në WordNet 1.6: 53 vlera për vraponi.47 për Luaj dhe kështu me radhë.). Këto kuptime janë të vështira për t'u dalluar edhe për një person kur shënon tekste semantike. Është e qartë se sistemi kompjuterik gjithashtu nuk mund të përballojë zgjedhjen e një vlere të përshtatshme. Prandaj, autorë të ndryshëm propozojnë mënyra të ndryshme të kombinimit të vlerave për të përmirësuar cilësinë e përpunimit.

Në të njëjtën kohë, faktori i kundërt vepron: nëse vlerat ndryshojnë vërtet në grupin e tyre të lidhjeve të fjalorit (në rastin tonë, lidhjet e thesaurusit) - ato nuk mund të ngjiten në një njësi (një koncept) - kjo gjithashtu do të çojë në një përkeqësimi i cilësisë së përpunimit automatik.

Merrni për shembull fjalët shkolla Dhe kishe, secila prej të cilave mund të konsiderohet si një organizatë dhe si një ndërtesë.

Çdo organizatë shkollore ka një ndërtesë (më shpesh një). Të gjitha pjesët e objektit të shkollës (klasat, dërrasat e zeza) janë të lidhura me shkolla si një organizatë. Nuk ka lloje të veçanta të ndërtesave shkollore. Prandaj përshkrimi shkollat si ndërtesa është e papërshtatshme të veçohen si koncept më vete. Megjithatë, përshkrimi i një koncepti të tillë kumulativ SHKOLLA si organizatë dhe si ndërtesë duhet të ketë një marrëdhënie të projektuar posaçërisht me konceptin NDERTESA. Kur përshkruhen marrëdhënie të tilla në Thesaurus, përdoret një shenjë në marrëdhënie - modifikuesi "A" ("aspekti", në analizën automatike, për të marrë parasysh këtë marrëdhënie, kërkohet "konfirmimi" nga konceptet e tjera).

SHKOLLA

MË LARTË INSTITUCION ARSIMOR

SIPER A NDËRTESA PUBLIKE

Kuptimi i fjalëve përkatëse kishe jo aq afër. kishat Si një organizatë mund të ketë një numër të madh të ndërtesave të kishave në vende të ndryshme dhe gjithashtu të ketë shumë ndërtesa të tjera. kishë-ndërtim i lidhur ngushtë me fenë dhe rrëfimin, por mund të ndryshojë përkatësinë organizimin e kishave. kishë-organizatë Dhe kishë-ndërtim kanë nëngrupe të ndryshme. Kjo është arsyeja pse KISHA (ORGANIZIMI) Dhe KISHA (NDËRTESA) janë paraqitur në RuThes si koncepte të ndryshme.

Divergjenca e konsiderueshme në marrëdhëniet e thesaurus lidhet në një mënyrë interesante me aftësinë e denotimeve që korrespondojnë me kuptimet për të ekzistuar veçmas nga njëri-tjetri. Kështu, ndërtesa kishtare nuk pushon së ekzistuari dhe madje quhet kishë edhe kur ndryshon përdorimi, ndryshe nga ndërtesa e shkollës.

Procesi i rakordimit të përfaqësimit të vlerave në Thesaurus po kryhet vazhdimisht, duke filluar nga lemat më të shpeshta. Për çdo shenjë frekuence, kontrollohet se si përshkruhen vlerat e tij në fjalorë shpjegues, cilat vlera përdoren në koleksion dhe si paraqiten ato në Thesaurus. Si rezultat, është formuar një listë prej 10.000 leksemash, paqartësia e të cilave kërkon ende ose analiza shtesë ose përshkrim shtesë. Lista bazohet në 30 mijë lemat më të shpeshta.

Duhet të theksohet se në Thesaurus problemi i paqartësisë hiqet pjesërisht për shkak të faktit se marrëdhëniet e thesarit mund të përshkruhen midis kuptimeve të ndryshme të një fjale, dhe për këtë arsye koncepti më i lartë në hierarki mund të zgjidhet si parazgjedhje. Është diskutuar patjetër në tekst. Për shembull, fjala Foto ka tre kuptime: fotografia si fushë veprimtarie, fotografia si fotografi, fotografia si studio fotografike:

FOTOGRAFIA(duke fotografuar, fotografisë, ..., Foto )

PJESA IMAZH FOTOGRAFIKE

(Foto, fotografi, Foto )

PJESA STUDIO FOTOGRAFIKE (Foto ).

Kështu, nëse nuk do të ishte e mundur të kuptohej se çfarë kuptimi përdoret fjala Foto, parazgjedhja konsiderohet të jetë një fotografi (proces, rezultat ose vendndodhje), e cila është e mjaftueshme për shumë aplikacione automatike të përpunimit të tekstit.

  1. Aplikimi i tezaurit RuThes

për përpunimin automatik të tekstit

Që nga viti 1995, terminologjia socio-politike e RuThes (thesaurus socio-political) është përdorur në mënyrë aktive dhe me sukses për aplikime të ndryshme të përpunimit automatik të tekstit, të tilla si indeksimi konceptual automatik, kategorizimi automatik duke përdorur disa rubrikatë, shënimi automatik i teksteve, përfshirë ato në anglisht.. Tesaurus socio-politik (27,000 koncepte, 62,000 hyrje në tekst) është mjeti bazë i kërkimit në sistemin e kërkimit UIS RUSSIA (www.cir.ru).

I gjithë fjalori i thesaurus RuThes përdoret në procedurat për rubrikim automatik të teksteve sipas titujve komplekse hierarkike. Në teknologjinë ekzistuese, çdo rubrikë përshkruhet si një shprehje Boolean e termave, pas së cilës formula origjinale zgjerohet përgjatë hierarkisë së thesarit. Shprehja Boolean që rezulton mund të përfshijë tashmë qindra e mijëra lidhëza dhe fjali.

Le të japim si shembull një fragment të përshkrimit nga konceptet e tezaurit (dhe shprehjet gjuhësore pas zgjerimit të formulës) të rubrikës "Imazhi i një gruaje" të rubrikatit SOFIST 2 të përdorur nga VTsIOM për të klasifikuar pyetësorët e anketimit të opinionit publik:

(GRUA[N]

|| VAJZË[N]

|| RELATIVE[L] (gjyshja, mbesa, kushëriri,

vajza, kunata, nëna, njerka, nusja, njerka, ...))

(TIPARI I KARAKTERIT[L] (i kursyer, i pashpirt, harrues,

joserioze, tallëse, intolerante, e shoqërueshme, ...)

|| IMAGE[E] (përfaqësimi, pamja, pamja,

pamja, forma, imazhi, pamja)

|| KEQESHT[L] (..., interesante, e bukur, e lezetshme,

tërheqëse, tërheqëse, tërheqëse, ...)

|| I PAKËNDSHËM[L] (i pasimpatik, i vrazhdë, i keq, ...)

|| VLERA [L] (ndero, idhull, adhuroj,

adhurim, adhurim, ...)

|| PREFEROJ[N]

Simboli "E" tregon zgjerimin e plotë përgjatë hierarkisë së tezaurit, simboli "L" - sipas marrëdhënieve të specieve ("POSHT"), simboli "N" - nuk zgjerohet.

Po kryhen kërkime mbi zhvillimin e një teknologjie të kombinuar për kategorizimin automatik të tekstit që kombinon njohuritë e thesarit dhe procedurat e mësimit të makinerive.

Çështjet e përdorimit të një thesaurus për të zgjeruar një pyetje të formuluar në gjuhë natyrore (tani vetëm pjesa socio-politike e tezaurit përdoret për të zgjeruar pyetjen terminologjike në sistemin e rikthimit të informacionit të UIS RUSSIA), duke kërkuar përgjigje për pyetjet në masë të madhe koleksionet e teksteve.

7. Përfundim

Punimi paraqet parimet bazë të zhvillimit të burimeve gjuhësore për përpunimin automatik të koleksioneve të mëdha tekstesh. Burimi gjuhësor i krijuar - RuThes Russian Thesaurus - është menduar për përdorim në aplikacione të tilla të përpunimit automatik të tekstit si indeksimi konceptual i dokumenteve, rubrikimi automatik sipas titujve kompleksë hierarkikë, zgjerimi automatik i pyetjeve të gjuhës natyrore.

Kjo punë mbështetet pjesërisht nga Fondacioni Rus për Shkenca Humane, granti nr. 00-04-00272a.

Letërsia

  1. Lukashevich N.V., Saliy A.D., Përfaqësimi i njohurive në përpunimin automatik të tekstit //NTI, Ser.2. 1997. Nr 3. S. 1-6.
  2. Zhuravlev S.V., Yudina T.N., Sistemi i informacionit RUSI //NTI, Ser.2. 1995. Nr. 3. S. 18-20.
  3. Winston M., Chaffin R., Herman D., Një Taksonomi e Marrëdhënieve Pjesërisht-Tërësore // Shkenca njohëse. 1987. nr. 11. Fq. 417-444.
  4. Priss U.E., Formalizimi i WordNet me Metodat e Analizës së Koncepteve Relacionale // WordNet. Një bazë e të dhënave leksikore elektronike / Ed. nga C. Fellbaum. Kembrixh, Masaçusets, Londër, Angli.: The MIT Press 1998. F. 179-196.
  5. Guarino N., Welty C., Një ontologji formale e vetive // ​​Procedurat e seminarit ECAI-00 mbi Aplikimet e Ontologjive dhe Metodat e Zgjidhjes së Problemeve. Berlin: 2000. F. 121-128. (http://citeseer.nj.nec.com/guarino00formal.html).

Disa parime ontologjike për hartimin e burimeve leksikore të nivelit të lartë // First Int. Konf. mbi Burimet dhe Vlerësimin Gjuhësor. 1998.

  1. LukashevichN.V., Dobrov B.V., Modifikuesit e marrëdhënieve konceptuale në thesarin për indeksimin automatik // NTI, Ser.2. 2000, nr 4, S. 21-28.
  2. Fjalor i madh shpjegues i gjuhës ruse / Ed. S.A. Kuznetsova. Shën Petersburg: Norint, 1998.
  3. Ozhegov S.I., Shvedova N.Yu., Fjalor shpjegues i gjuhës ruse - botimi i 3-të. M.: Az, 1996.
  4. Apresyan Yu.D., Vepra të zgjedhura, vëllimi I. Semantika leksikore: botimi i dytë. M.: Shkolla "Gjuhët e kulturës ruse", Ed. Firma "Letërsia Lindore" RAS, 1995.
  5. G. Miller, R. Beckwith, C. Fellbaum, D. Gross dhe K. Miller, Five papers on WordNet, CSL Report 43. Cognitive Science Laboratory, Princeton University, 1990.
  6. Chugur, J. Gonzalo dhe F. Verdjeo, Dallimet e kuptimit në aplikimet NLP // Procedura e "OntoLex-2000": Ontologjitë dhe bazat e njohurive leksikore. Sofje: OntoTextLab. 2000.
  7. Loukachevitch N., Dobrov B., Përmbledhje Tematike Strukturore e Bazuar në Thesaurus në Sistemet e Informacionit Shumëgjuhësh // Rishikimi i Përkthimit në Makinë. 2000 Nr. 11. F. 10-20. (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm).

Tesaurus i gjuhës ruse për përpunimin e gjuhës natyrore

koleksione të mëdha tekstesh

Natalia V. Loukachevitch, Boris V. Dobrov

fjalë kyçe: thesaurus, përpunimi i gjuhës natyrore, rikthimi i informacionit

Në prezantimin tonë, ne konsiderojmë parimet kryesore të zhvillimit të burimeve leksikore për përpunimin automatik të koleksioneve të mëdha të teksteve dhe përshkruajmë strukturën e Tezaurit të Gjuhës Ruse, i cili është zhvilluar që nga viti 1997 posaçërisht si një mjet për përpunimin automatik të tekstit. Tani Thesaurus është një rrjet hierarkik prej 42 mijë konceptesh. Ne përshkruajmë fazën aktuale të Thesaurus duke zhvilluar në krahasim me 100,000 lemat më të shpeshta të koleksionit të tekstit të Sistemit të Informacionit Universitar RUSSIA (www.cir.ru), duke përfshirë 400 mijë dokumente. Gjithashtu ne konsiderojmë përdorimin e Thesaurus në aplikacione të ndryshme të përpunimit automatik të tekstit.