Eş anlamlılar sözlüğü sunar. Eş anlamlılar sözlüğü Eş anlamlılar sözlüğü oluşturmanın dilbilimsel ilkeleri. Rus dilinin yeni açıklayıcı ve türetme sözlüğü, T. F. Efremova

TAOY KemGUKI Departmanı

Bilgi alma eş anlamlıları:

yapı, amaç ve geliştirme prosedürü

1. Bilginin sistematik bir şekilde temsil edilmesinin bir yolu olarak eşanlamlılar sözlüğü ve

bir tür ideografik sözlük.

2. Bilgi erişim eş anlamlıları: öz ve amaç

3. IPT'nin Yapısı

4. IPT'nin geliştirilmesi, incelenmesi, kaydedilmesi ve sürdürülmesine ilişkin prosedür.

Kaynakça

1. GOST 7.74 - 96. Bilgi alma dilleri. Terimler ve tanımlar [Metin]. - Giriş. 1997-07-01. - Minsk: Eyaletler Arası Standardizasyon, Metroloji Konseyi ve, 1997. - 34 s. (Bilgi, kütüphanecilik ve yayıncılık standartları sistemi) TC 191.

2. GOST 7.25-2001. Thesaurus bilgi alma tek dilli. Geliştirme kuralları, yapısı ve sunum formu [Metin]. – GOST 7.25-80; giriiş 2002-07-01. - M.: IPK Standartlar Yayınevi, 2001. - 16 s. MTK 191.

3. GOST 7.24-2007 Çok dilli bilgi alma eş anlamlıları. Kompozisyon, yapı ve inşaat için temel gereksinimler. - GOST 7.24-90 yerine; giriş. 2008-07-01. / Eyaletlerarası Standardizasyon, Metroloji ve Sertifikasyon Konseyi. - M.: Standartinform, 2008. - 7 s. (Bilgi, kütüphanecilik ve yayıncılık standartları sistemi)

4. Baranov, O. S. Rus dilinin ideografik sözlüğü / O. S. Baranov. - M.: ETS Yayınevi, 1995. - 820 s

5. Zhmailo, S. V. Eş anlamlılar sözlüğünün tanımı üzerine [Metin] / S. V. // NTI. Sör. 1 Organizasyon ve bilgi işleri. - 2003. - 12 numara. – S.20 – 25.

6. Zhmailo, S. V. Modern bilgi alma eş anlamlılar sözlüğünün geliştirilmesi [Metin] / S. V. Zhmailo // NTI. Sör. 1 Bilgi çalışmalarının organizasyonu ve metodolojisi. -2004. - 1 numara. – S.23 – 31.

Bu nedenle, O. S. Baranov'un (4) Rus dilinin ideografik sözlüğünde, ideografik sözlüğün 12 üst bölümü ayırt edilir; bunların arasında: "düzen, doğa, etkinlik, kültür" vb. her biri gruplara, alt gruplara, bölümlere, bölümlere ayrılmıştır. Bu sözlükteki tüm sözcükler, anlamlarına göre yuvalar halinde gruplanmıştır ve genellikle tür ilişkileriyle ilişkilendirildikleri bazı kavramlara göre gruplandırılmıştır. Yuvalar alt bölümlere ayrılır vb. Şu anda sözlükte 5923 yuva var, 7 bölüm seviyesi (16 Şubat 2010 itibariyle www.rifmovnik.ru/thesaurus.htm'ye göre). İşte bu sözlükten bir sözlük girişi örneği:

178.4.7 aroma ▲ - hoş bir koku (örneğin çiçek, çimen, saman kokusu. nazik #. sarhoş edici #). aromatizasyon . . kehribar tütsü.

"Aroma" kelimesinin kodu, bu kelimede kabul edilen ideografik sınıflandırmayı, özellikle bu kelimenin "178-Duyular" kategorisiyle ilişkisini yansıtır.

Bu nedenle, "eş anlamlılar sözlüğü", "ideografik sözlük", "eş anlamlılar sözlüğü" terimleri, öncelikle, dildeki sözcüklerin bütünlüğünün, bir grup sözcük anlam bakımından benzer sözcükleri içerecek şekilde içlerinde sunulduğu anlamına gelir. İdeografik sözlüklerin temel amacı, ortak bir kavramla birleştirilmiş sözcük birimlerinin bir koleksiyonudur; bu, okuyucunun düşünceyi yeterli bir şekilde ifade etmesi için en uygun araçları bulmasını kolaylaştırır ve dilin aktif kullanımına katkıda bulunur.

Eş anlamlılar sözlüğü tarihinden

CEKET 2302

takım elbiseli

Mont ürünleri

dikiş ürünleri

n Kruvaze ceket

Kombine ceket

Spor ceketi

Ambalaj ölçülerinde

kalan malzeme

Atık madde

Sözlük notu;

Atamalar veya tanımlayıcılar-eş anlamlılar;

Üstün tanımlayıcılar;

Alt tanımlayıcılar;

İlişkisel tanımlayıcılar;

Diğer ilişki türleri ile bağlantılı tanımlayıcılar.

Bir tür paradigmatik ilişkiyle bir baş tanımlayıcıyla ilişkilendirilen her bir LU grubu içinde, alfabetik bir düzenleme sırası olmalıdır. Örneğin:

ALGORİTMA DİLLER

algoritmik dillerle

makine yönelimli diller

etki alanına özgü diller

YAZILIM'da

RESMİ DİLLER

n OTO KODLAR

ALGORİTMALAR

PROGRAMLAMA, bkz. yapay diller

Bir tanımlayıcı girdisi, bilgi işlerken ve ararken onun yerini alan bir tanımlayıcı ve tanımlayıcılardan veya tanımlayıcıların bir kombinasyonundan oluşur. Ascriptor makalelerine örnekler:

Alfanümerik karakterler

İspanyolca RESMİ DİLLER

DOĞAL DİLLER

bkz. ALGORİTMA DİLLER

Bir sözlük girişi şunları da içerebilir:

Tanımlayıcının ne sıklıkta kullanıldığı;

Tanımlayıcı kod numarası;

Sistematik dizine göre tanımlayıcı kod;

Sınıflandırma indeksleri;

Ek anlamsal ve sözlüksel işaretler;

yabancı eşdeğerleri

Sözlüksel-anlamsal dizinin kalitesi, içerdiği sözcüksel birimlerin eksiksizliği ile belirlenir. belirli bir konu alanı için bilgilendirici olarak anlamlı herhangi bir kelimenin eşanlamlılar sözlüğüne girme olasılığı olarak anlaşılmaktadır. Sözlüksel-anlamsal dizinin ve sonuç olarak tüm eşanlamlılar sözlüğünün eksiksiz olması, belgelerin ve sorguların dizinlenmesinin sonuçları üzerinde önemli bir etkiye sahiptir.

Ek bölümler, sistematik, permütasyonel, hiyerarşik ve diğer dizinleri ve özel sözcük birimi kategorilerinin listelerini içerebilir.

Sistematik dizin, tanımlayıcıların IPT'de kabul edilen başlıklara göre gruplandırıldığı bir dizindir. Sistematik bir dizin, eş anlamlılar sözlüğünün tematik yönünü tanımlar, içeriğini ortaya koyar ve şu veya bu ayrıntı derinliğiyle aranabilecek bilim ve teknoloji dallarını yansıtır. IPT'nin bir parçası olarak buna duyulan ihtiyaç, belirli bir bilgi alanındaki terminolojinin genel durumunun görsel bir temsilini vermesi, tutarlı bir terminolojik model ve mümkünse eşanlamlılar sözlüğünde yer bulması gereken tüm terim ve kavramları oluşturmanıza izin vermesi gerçeğinden kaynaklanmaktadır. Konuya göre bir dizi tanımlayıcı ve tanımlayıcı sıralayarak belgelerin ve sorguların arama görüntülerini derlerken terim aramayı kolaylaştırmayı amaçlamaktadır.

Sistematik dizin, özünde, konu alanlarına göre bir dizi tanımlayıcı sıralayarak inşa edildiğinden, eş anlamlıları terminoloji ile doldurmak için bir sınıflandırma şemasıdır.

IPT'nin sistematik indeksleri üç türe ayrılır:

Konu ile ilgili,

Karışık.

Bu ayrım, sistematik bir indeksin sınıflandırma şemasını oluşturma ilkesini yansıtır.

IPT'nin sistematik indeksi tarafından gerçekleştirilen ana işlevler:

Eş anlamlılar sözlüğünde açıkça temsil edilmeyen dizin oluşturma kavramları için tanımlayıcıların toplamını aramayı sağlayan dizin oluşturmada bir yardımcı olarak kullanın (arama işlevi);

Eş anlamlılar sözlüğünü sürdürme sürecinde kullanım (IPT'yi sürdürme işlevi);

Gelişiminin yönetimi (yapıcı işlev) olarak IPT'nin yapısal temeli olarak kullanın.

GOST 7.25-2001 (2) uyarınca, tematik bölümünde tematik ve karışık türlerin sistematik bir indeksini oluştururken, Interstate NTI rubricator'ın değerlendirme listeleri veya Interstate NTI rubricator ile uyumlu belirli bir ASNTI rubricator kullanılmalıdır. Kategorik ve karma türlerin sistematik bir dizinini oluştururken, kategorik bölümünde aşağıdaki genel kategoriler izlenir:

Disiplin adları ve faaliyet dalları;

Öğeler, malzemeler;

Yöntemler, süreçler, işlemler, olgular;

Özellikler, değerler, parametreler, özellikler;

İlişkiler, yapılar, modeller, kanunlar, kurallar, soyut kavramlar.

Hiyerarşik dizin. Hiyerarşik bir dizin, her biri üst öğesi olmayan bir tanımlayıcıyla başlayan tanımlayıcı listelerinin bir listesini veren bir dizindir. IPT'deki hiyerarşik ilişkilerin tam yapısını yansıtır. Her tanımlayıcıdan sonra, tanımlayıcılar, seviyenin numaralandırılması veya grafiksel gösterimi kullanılarak hiyerarşideki seviyelerinin bir göstergesi ile doğrudan verilir:

Hiyerarşik bir IPT indeksi geliştirme ihtiyacı, kavramların tabi kılınmasına yönelik tüm sistemin IPT'nin sözlük girişlerinde sabit olmamasından kaynaklanır, çünkü bu, sözcüksel-anlamsal indekste önemli bir artışa yol açacaktır. IPT'nin bağımsız bir bölümünün geliştirilmesine ihtiyaç vardır - tanımlayıcıların tüm hiyerarşik sıralama zincirini en alta yansıtacak hiyerarşik bir indeks.

Bir permütasyon indeksi, tanımlayıcıları ifade eden tümcelerin bileşenlerinin bir parçası olan tüm tek tek kelimeleri alfabetik sırayla listeleyen bir indekstir ve her biri için bu kelimeleri içeren tüm tanımlayıcılar belirtilir. Bu nedenle, her terim, permütasyonel indekste, anlamlı kelimeler içerdiği kadar çok görünür. Permütasyonel indeksin amacı, bir sözcüksel birimin başında görünmeyenler de dahil olmak üzere, kompozisyonlarında yer alan herhangi bir kelimeye göre tanımlayıcı ifadeler için bir arama sağlamaktır. Tek köklü kelimeleri tek bir yerde gruplandırmanıza olanak tanır.

Kural olarak, bir permütasyon indeksi otomatik bir şekilde derlenir ve genellikle tüm önemli kelimelerin - terimlerin - alfabetik sırayla düzenlendiği KWIC tipi bir indeks formuna sahiptir (Anahtar Kelime - Bağlamda - "Bağlamda anahtar kelimeler"). permütasyon indeksinde terim elemanlarının mikro bağlamlarından oluşan sütunun merkezinde yer alır ve terimlerin uymayan kısmı aynı satırın sol tarafına aktarılır:

optik kuantum

uyarılma

elektriksel

bağımlı uyarım ile

Parazit Jeneratörleri

SERİ JENERATÖRLER

DC JENERATÖRLER

DC JENERATÖRLER gerekli olduğunu kanıtladı.

4. IPT'nin geliştirilmesi, incelenmesi, kaydedilmesi ve sürdürülmesine ilişkin prosedür

Şu anda, IPT'nin geliştirilmesi, incelenmesi ve tescili için prosedür iki standart tarafından belirlenir: GOST 7.25-2001 “Tek dilli bilgi alma eş anlamlılar sözlüğü. Geliştirme kuralları, yapı, kompozisyon ve sunum formu” ve GOST 7.24-2007 “Çok dilli bilgi alma eş anlamlılar sözlüğü. Kompozisyon, yapı ve inşaat için temel gereksinimler. Bu standartlara uygun olarak, IPT'nin incelenmesi ve tescili işlevleri, ulusal ve uluslararası saklama fonları tarafından yerine getirilmektedir.

Rusça IPT'nin Ulusal Depo Fonu (Rusça tanımlayıcıların eşdeğerlerini içeren IPT dahil), VINITI'de , adresinde bulunmaktadır.

Ayrıca iki uluslararası depoziter IPT vardır:

1) İngilizce tanımlayıcıların eşdeğerlerini içeren IPT dahil, İngilizce IPT Uluslararası Depozit Fonu. Toronto'da, Toronto Üniversitesi Bilgi Bilimleri Fakültesi kütüphanesinde yer almaktadır (Thesaurus Clearinghouse - “yerleşim”, Kütüphane, Bilgi Çalışmaları Fakültesi, Toronto Üniversitesi, TORONTO, Kanada);

2) İngilizce dışındaki tüm dillerde IPT International Depository Fund. Bilimsel ve teknik ve ekonomik bilgilerde (Instytut Informacji Naukowej, Technicznej i Ekonomicznej, Clearinghouse, WARSZAW A, Polonya.) Varşova'da yer almaktadır.

Bu kuruluşların tam adresleri GOST 7.25-2001'de verilmiştir.

GOST 7.25-2001 ve GOST 7.24-2007, IPT geliştiricilerinin eylemlerini şu şekilde tanımlar:

1. Bir IPT'nin oluşturulması üzerinde çalışmaya başlamadan önce, geliştiricinin belirli bir konuda kayıtlı eş anlamlılar sözlüğünün mevcudiyetini belirlemek için uygun ulusal veya uluslararası saklama fonuna başvurması gerekir. Bu tür eşanlamlılar söz konusu olduğunda, bunların belirli bir sisteme dahil edilme olasılığının bir değerlendirmesi yapılır. Böyle bir eşanlamlılar sözlüğü bulunamazsa, bir IPT'nin oluşturulması mümkün olabilir. Aynı zamanda, IPT oluşturma teknolojisinin tamamı kesinlikle GOST 7.25-2001 ve GOST 7.24-2007 ile uyumlu olmalıdır.

2. Bitmiş (geliştirilmiş) IPT, GOST 7.25-2001'e uygunluk açısından bir incelemeden geçmelidir. standardı karşılarlarsa Ulusal, geliştiriciyi yayınlar. bu IPT'nin ilgili ulusal veya uluslararası saklama fonlarından birine (Toronto veya Varşova'da) yatırılır (yatırılır).

Ulusal depolar, yatırılan IPT'lerin fonunun bileşimi hakkında bilgi yayar ve öğeleri ödünç almak ve çeşitli bilgi sistemlerinin dilsel desteğinin uyumluluğunu sağlamak için bunları yeni IPT'lerin geliştiricilerine sağlar. Böylece, IPT'lerin incelenmesi, kaydedilmesi, saklanması ve mevcut IPT'ler hakkında bilgi verilmesi işlevlerini yerine getirirler.

IPT'nin yönetimi için birçok operasyon);

AIS'nin bağımsız operasyondan ağ operasyonuna geçişi (IPT'yi tek bir bakım ilkesi çerçevesinde kullanırken, bunlar üzerinde anlaşmaya varılmalıdır).

IPT'yi çalışır durumda tutma süreci, eş anlamlıları koruma veya ayarlama olarak adlandırılır. Genellikle aşağıdakileri içerir:

IPT'nin sözcüksel bileşimini değiştirme: yeni sözcüksel birimlerin tanıtılması, bunların, sözcüksel birimlerin durumunun değiştirilmesi (bir anahtar kelimenin tanımlayıcılara çevrilmesi ve tersi);

IPT'de paradigmatik ilişkilerin değişimi (güçlenme, zayıflama);

IPT'nin bakımı, sözlüğün alfabetik olarak sıralanması, kelime dağarcığı, ITP'de paradigmatik ilişkilerin sabitlendiği referansların karşılıklılığını ve tutarlılığını kontrol etme vb.

eş anlamlılar sözlüğü(Yunanca eşanlamlılar sözlüğünden - hazine) modern dilbilimde - sözcüksel birimler arasındaki anlamsal ilişkileri (eş anlamlılar, zıt anlamlılar, paronimler, eş anlamlılar, hipernimler vb.) gösteren özel bir tür genel veya özel sözcük dağarcığı. Bu nedenle, özellikle elektronik formatta olan eş anlamlılar, bireysel konu alanlarını açıklamak için en etkili araçlardan biridir.

Açıklayıcı bir sözlükten farklı olarak eş anlamlılar, yalnızca bir tanım yardımıyla değil, aynı zamanda yapay zeka sistemlerinde kullanılabilen bir kelimeyi diğer kavramlar ve grupları ile ilişkilendirerek de anlam belirlemenizi sağlar.

Geçmişte eşanlamlılar terimi, öncelikle metinlerdeki kullanım örnekleriyle dilin söz varlığını maksimum eksiksizlikle temsil eden sözlükleri ifade ediyordu.

Paronimi- kelimelerin anlamsal farklarıyla (tam veya kısmi) kısmi ses benzerliği. Paronimler genellikle konuşma hatalarının kaynağıdır.

Tek köklü paronim örnekleri: elbise - giy, insan - insancıl, öde - öde - öde.

Tamamen ilgisiz paronim örnekleri: biyoloji - bryology, et suyu - brillon, komposto - komplot, doku - kırılma.

Ancak, bir eş anlamlılar bilgi erişim aracından daha fazlasıdır. Eş anlamlılar sözlüğü, bir terminolojik sistemin evrensel bir modeli olarak ve dolayısıyla - belirli bir bilimsel alanın dilinde yer alan resmi bir bilgi sistemi olarak düşünülebilir.

Genel amaçlı eş anlamlılar sözlüğü

Eş anlamlılar en genel tanımıyla kelime birimleri arasında anlamsal bağlantıların olduğu bir sözlüktür. 1950'lerin sonlarından bu yana, eş anlamlılar dizini makine çevirisi sistemlerinde ve bilgi alma sistemlerinde (IPS) kullanılmaktadır.

Genel kelime dağarcığını ayrıntılı olarak açıklamak için tasarlanan semantik sözlüklerin aksine, eşanlamlılar, son derece özel sözcükleri ve tümceleri depolamak ve sınıflandırmak için tasarlanmıştır. Örneğin, kelime madde ROSS sözlüğündedir (Rusça Genel Semantik Sözlük) ve kimyasal bileşiklerin tüm adları zaten eşanlamlılar sözlüğündedir.

Eş anlamlılar sözlüğünde hangi ilişkiler anlatılıyor? Genellikle:

    cins-tür (AKO)

    parça-bütün (POF)

    eşanlamlılık/zıt anlamlılık

    çağrışımsal.

Cins-tür ilişkisine bir örnek

Anlamsal ayrıştırma örneği

Bu paradigmatik(bir dildeki kelimeler arasında var olan sabit bağlantılar). Ve hepsi bu değil.

dizimsel(metin) bağlantıları eşanlamlılar sözlüğünde temsil edilmez.

Örnek: WORDNET - akıllı bilgisayar eş anlamlıları

http://wordnet.princeton.edu/perl/webwn

Princeton Üniversitesi'nde düzenlendi ve ücretsiz olarak dağıtıldı.

Ana Özellikler.

İçindeki kelimeler eşanlamlı gruplara ayrılmıştır ( sentezler - sentezler). 4 sözlüğe ayrılırlar - isimler, sıfatlar, fiiller ve zarflar.

Synsets, hem hiyerarşik ilişkilerde (hiponimler ve hipernimler) hem de zıtlık ve ayrıca meronymy (bir şeyin parçası olmak veya parçalardan oluşmak) ile ilgili olarak birleştirilir.

Morfoloji sorunu da çözüldü - WN çağrısından sonraki kelime orijinal haliyle geri döndü.

Bilgi alma eş anlamlıları

Bilgi alma alanında, eşanlamlılar metinden gerçek dünyadaki bir nesneyi tanımlayan tanımlayıcılara geçişten yararlanır. Tanımlayıcılara atlamak, genişletilmiş (yedek) indekslemeye izin verir.

Bilgi erişim eş anlamlılarında, tanımlayıcılar arasındaki PARADİGMATİK ilişkiler açıkça ifade edilir (hepsi değil, ancak bilgi erişiminin eksiksizliğini artırmak için en çok önemli olanlar). Deneysel olarak en önemli paradigmatik ilişkilerin olduğu tespit edilmiştir.

    itaat

    benzerlik

    tür-cins (cins-tür)

    sebep-sonuç

    parça-bütün.

Bir sözlük girişi örneği:

Anlaşmalı kültür makineleri Anlaşmalı kültür ekipmanları

Senkronizasyon tarım makineleri, tarım makineleri,

Görüş: patates biçerdöveri, ekme makinesi vb.

Yedek indekslemeye bir örnek

Rica etmek "Uyumlu makineler. Uzlaşmalı kültürlü donanım"

Örnek: Rus Dili Üniversite Bilgi Sistemi RUSYA'nın Sosyo-Politik Terimler Sözlüğü

http://www.cir.ru/index.jsp

Otonom kar amacı gütmeyen kuruluş "Bilgi Araştırma Merkezi" (ANO TsII) tarafından geliştirilmiştir.

Eş anlamlılar sözlüğü, aralarında bağlantılar bulunan kavramlar ve terimler sözlüğü olarak uygulanan terminolojik bir kaynaktır. Eş anlamlılar sözlüğünün temel amacı, bilgi alımına yardımcı olmaktır: eş anlamlılar sözlüğünün bağlantılarına dayanarak, sorgu genişletilir, eş anlamlılar sözlüğü bağlantıları arasında gezinme, sorgunun kendisinin daha net bir şekilde formüle edilmesine yardımcı olur.

Thesaurus UIS "Rusya" hiyerarşisinin bir özelliği, sınıflandırmanın çoğulluğudur, yani çoğu kavram için tek bir sınıflandırma kavramı aranmaz (YUKARIDA - AŞAĞIDAKİ bağlantı), ancak belirli bir konsepte ilişkin farklı bakış açıları açıklanır, örneğin, bir MAĞAZA kavramı hem BİNA hem de TİCARET ORGANİZASYONU olarak kabul edilebilir.

Sosyo-politik konulardaki eşanlamlılar sözlüğü, 26.000'den fazla kavram, 62.000 terim, 100.000 doğrudan ve kavramlar arasında 700.000 kalıtsal ilişki içerir. Thesaurus'un mevcut versiyonu, ekonomik, politik, askeri, yasama, sosyal, uluslararası ilişkiler ve diğer alanlar dahil olmak üzere sosyo-politik alanda kullanılan terminolojiyi açıklamaktadır.

Thesaurus'un tam adı, otomatik indeksleme için sosyo-politik konularda bir bilgi alma eşanlamlı sözlüğüdür. Burada tüm tanımlar önemlidir:

    "bilgi alma" - kullanıcıya talebin oluşturulmasında (açıklanmasında) yardımcı olmak ve arama sırasında talep şartlarını otomatik olarak genişletmek için bilgi alımında kullanılmak üzere özel olarak tasarlandığından;

    “sosyo-politik konularda” - sosyo-politik konularda Rusça metnin kelime dağarcığının ve terminolojisinin %95-99'unu kapsadığı için;

    "otomatik indeksleme için" - belgelerin konusunu otomatik olarak belirleme sürecinin temeli olduğu için - eş anlamlılar hiyerarşisinde yakın terimleri tematik düğümlerde gruplandırma, otomatik kategorileştirme ve otomatik açıklama.

Eş anlamlılar sözlüğü - Sonuç

Pek çok iyi bilinen eş anlamlılar sözlüğü (WordNet, Roget, EuroWordNet) için, eş anlamlılar bağlantılarıyla otomatik çıkarım büyük bir sorun olmaya devam ediyor - en yakın komşuluğa genişletme doğru ancak tamamlanmamışsa ve komşuluğu genişletme girişimleri hatalara yol açıyorsa.

Konu alanının kavramsal sistemi Herhangi bir konu alanının temeli, bu alanın kavramlar sistemidir. Bir kavramın tanımı: Bir kavram, nesneleri ve gerçeklik olgularını özelliklerini ve ilişkilerini sabitleyerek genelleştirilmiş bir biçimde yansıtan bir düşüncedir; ikincisi (özellikler ve ilişkiler), kavramda, nesne ve fenomen sınıfları ile ilişkili genel ve özel özellikler olarak görünür (Linguistic Dictionary)


Kavramlar ve Terimler Metinlerde bir konu alanı kavramını ifade etmek için terim adı verilen kelime veya tamlamalar kullanılır. Konu alanının terimleri kümesi, terminolojik sistemini oluşturur. Belirli bir terimin, konu alanındaki terim sisteminin diğer terimleriyle ilişkisi tanımla verilir.


Terimin tanımları? Herhangi bir özel bilim, teknoloji, sanat, sosyal yaşam vb. alanının belirli bir kavramının tam olarak tanımlanması olan bir kelime (veya kelimelerin birleşimi). || Bir şeyi belirtmek için kullanılan özel bir kelime veya ifade. belirli bir ortamda, meslek (Rus Dilinin Büyük Açıklayıcı Sözlüğü)


Terimler - kavramların tam adları Genellikle, alanın her kavramı, anlamı bu kavram olan, açık bir şekilde anlaşılan en az bir terime karşılık gelir. - terimler, geleneksel terminoloji teorisi anlamında Terimlerin özellikleri - kavramların tam adları - terim doğrudan kavrama atıfta bulunmalı, kavramı açıkça ifade etmelidir; - terimin anlamı kesin olmalı ve diğer terimlerle anlam olarak örtüşmemelidir; - terimin anlamı bağlama bağlı olmamalıdır. Bir kavramı doğru bir şekilde adlandıran terimler, terminoloji teorisinin, terminologların inceleme konusudur.


Metin terimleri Konu alanındaki gerçek metinlerde, ana terimlere ek olarak, bir kavramı ifade etmek için metin terimleri olarak adlandırdığımız çeşitli farklı dil ifadeleri kullanılabilir: - sözdizimsel ve sözcük oluşturma seçenekleri: bütçe fonlarının alıcısı - bütçe alıcısı; - sözcük varyantları - doğrudan silme, tartışılmaz silme; - bağlama bağlı olarak, bölgenin farklı kavramlarına referans görevi gören çok değerli ifadeler, örneğin, para birimi kelimesi farklı bağlamlarda ulusal para birimi veya yabancı para birimi anlamına gelebilir.














Etiketli tanımlayıcılar Etiketler - tanımlayıcının adının bir parçası vinçler (kaldırma ekipmanı) ve vinçler (kuşlar) kabuklar (yapılar) - farklı eş anlamlılar sözlüğünün karşılaştırılması İfadeler için tercihler: –Fonograf kayıtları vs. kayıtlar (fonograf) Çöpler ve çoğul: Ahşap (malzeme) Ormanlar (ormanlık alanlar)






Çok kelimeli ifadelere dayalı tanımlayıcıların dahil edilmesi Terimin bölünmesi belirsizliği artırır: bitki gıdası İfadenin anlamı kelime sırasına bağlıdır: bilgi bilim - bilimsel bilgi




İlişkisel ilişkiler Faaliyet alanı - karakter - Matematik - matematikçi Disiplin - çalışmanın nesnesi - Nöroloji - sinir sistemi Eylem - ajan veya araç - Avcılık - avcı Eylem - eylemin sonucu - Dokuma - kumaş Eylem - amaç - Bağlama - kitap Neden-sonuç - Ölüm - cenaze Değer - ölçü birimi - Mevcut güç - amper Eylem - yüklenici - Alerjen - anti-alerjik ilaç, vb.


Bilgiye erişim eşanlamlılar dizini: geliştirme aşamaları Birinci aşama: dizin oluşturucular metnin ana konusunu gelişigüzel sözcük ve ifadelerle tanımlar Birçok metinden elde edilen terimler bir araya getirilir Anlam bakımından yakın terimler arasından en temsili olan seçilir Kalanlardan bazıları koşullu eşanlamlı hale gelir, geri kalanı silinir Belirli terimler genellikle dahil edilmez


Bilgi erişim eş anlamlılar dizini: tasarım sanatı Tanımlayıcılar, belgenin ana konusunu ifade etmek için gerekli terimlerdir Dizin oluşturucunun çalışmasını engellememek için eş anlamlılar yalnızca en gerekli olanları içerir (örneğin, farklı bir harfle başlayın) Benzer terimler, dizinleme öznelliğini önlemek için bir terime indirilmelidir Hiyerarşi seviyeleri, belirli terimlerin dahil edilmesi sınırlıdır


Bilgi alma eş anlamlılar sözlüğü: geliştirme sanatı - 2 Karmaşık durumlarda, tanımlayıcılar etiketler ve yorumlarla sağlanır -LIV: bombardıman - bombalama -Muğlak terimler: eş anlamlılarda bir değer (büyük harf), eş anlamlılara sığmaz, etiketler!!! Geleneksel bilgi alma eş anlamlıları - gerçek terimler temelinde oluşturulmuş yapay bir dil




Geleneksel IPT: otomatik işlemede uygulama Yazılımın gerçek dili hakkında bilgi eksikliği Yazılımın gerçek dili hakkında bilgi eksikliği Yasama Dizinleme Sözlüğü:Yasama Dizinleme Sözlüğü: - ASKERLER metninde - eş anlamlılar sözlüğünde ASKERİ KUVVETLER - SERMAYE metninde - başkent, eş anlamlılar sözlüğünde yalnızca başkent: çok anlamlılık veya farklı tanımlayıcılara gönderme. Ancak: çok anlamlılık veya farklı tanımlayıcılarla ilgili. Belirsizliğin çözümü Belirsizliğin çözümü


Geleneksel IPT: otomatik sorgu genişletme İlişkilendirmelerle ilgili sorun Önerilen: ağırlıkları girin ağırlıkları girin ilişki adlarını girin: nesne, özellik, vb. ilişkilerin adlarını girin: nesne, özellik, vb. SONUÇ: özellikle metin koleksiyonlarının otomatik olarak işlenmesi için dilsel kaynakların nasıl oluşturulacağını öğrenmeniz gerekir.


Thesaurus EUROVOC – Avrupa Topluluğu'nun çok dilli eşanlamlılar sözlüğü 9 dilde Thesaurus EUROVOC'un Rusça versiyonu –+Rusya'nın özelliklerini yansıtan 5 bin kavram


EUROVOC eş anlamlılar sözlüğünde kural tabanlı otomatik indeksleme (Hlava, Heinebach, 1996) Kural örneği: IF ("Teknoloji" yanında VE "Geliştirme" ile birlikte) Topluluk programını KULLANIN geliştirme yardımını ENDIF 40 bin kural. Test: Metinde en sık kullanılan 20 tanımlayıcı, otomatik olarak oluşturuldu - manuel değerlendirmeye kıyasla %42 eksiksizlik


Kelimeler ve tanımlayıcılar arasında karşılık gelen ağırlıkların kurulmasına dayalı otomatik indeksleme (Steinberger ve diğerleri, 2000) Aşama 1 - istatistiksel ölçümlere (ki-kare veya log-olasılık) dayalı olarak metin kelimeleri ile atanmış tanımlayıcılar arasında bir yazışmanın oluşturulması 2. aşama indekslemenin kendisi - ağırlıkların logaritmalarının toplamı veya vektörlerin skaler ürünü olarak


Gevşek ve bilgi alma eş anlamlılar sorgularının kombinasyonu Manuel olarak dizinlenmiş koleksiyon - korelasyonlar Kullanıcı doğal dil sorgusu ayarlar Sorgu, sorguyla en güçlü şekilde ilişkilendirilen eş anlamlılar tanımlayıcıları tarafından genişletilir (Petras 2004; Petras 2005). Örneğin, Müflis Şirketlerin (İflas eden şirketler) talebi üzerine likidite, borçluluk, işletme, firma tanımlayıcılarının bir listesi alınabilir ve sorgu genişletilir.Denemedeki doğruluk %13 arttı.



Bölümün kullanımı oldukça kolaydır. Önerilen alana, sadece istediğiniz kelimeyi girin, size anlamlarının bir listesini vereceğiz. Sitemizin çeşitli kaynaklardan - ansiklopedik, açıklayıcı, kelime oluşturma sözlükleri - veri sağladığını belirtmek isterim. Burada, girdiğiniz kelimenin kullanım örnekleriyle de tanışabilirsiniz.

eş anlamlılar kelimesinin anlamı

bulmaca sözlüğünde eşanlamlılar sözlüğü

Rus dilinin açıklayıcı sözlüğü. S.I. Ozhegov, N.Yu.Shvedova.

eş anlamlılar sözlüğü

[te], -a, m.(özel).

    Tüm kelime dağarcığının tam bir yansıması görevini belirleyen dilin sözlüğü.

    Bir tür terimleri, kavramları tamamen kapsayan bir sözlük veya veri kümesi. özel alan.

    sıf. eş anlamlılar sözlüğü, th, th.

Rus dilinin yeni açıklayıcı ve türetme sözlüğü, T. F. Efremova.

eş anlamlılar sözlüğü

    Herhangi bir sözlük. kelime dağarcığını tam olarak temsil eden dil.

    hakkında eksiksiz, sistematik bir veri kümesidir. bir kişinin veya bilgisayarın içinde gezinmesine izin veren bir bilgi alanı (bilgisayar biliminde).

Ansiklopedik Sözlük, 1998

eş anlamlılar sözlüğü

THESAURUS (Yunanca eşanlamlılar sözlüğünden - hazine)

    dildeki kelimelerin mümkün olduğunca tam olarak metindeki kullanım örnekleriyle sunulduğu bir sözlük (sadece ölü diller için tamamen mümkündür).

    Herhangi bir bilgi alanı ile ilgili kelimelerin tematik ilkeye göre düzenlendiği ve kelime birimleri arasındaki anlam ilişkilerinin (cins-özgü, eşanlamlı vb.) gösterildiği bir sözlük. Bilgi erişim eş anlamlılarında, metnin sözcüksel birimlerinin yerini tanımlayıcılar alır.

eş anlamlılar sözlüğü

(Yunanca thesaurós ≈ hazine, hazine), içinde verilen bir anlamsal ilişkiler sistemi (bkz. Anlambilim) ile belirli bir dilin bir dizi anlamsal birimi. T. aslında bir dilin (ulusal bir dil, belirli bir bilimin dili veya otomatik bir kontrol sistemi için resmileştirilmiş bir dil) anlamını belirler. Başlangıçta T., anlamsal ilişkilerin, kelimelerin tematik başlıklara göre gruplandırılmasıyla belirlendiği tek dilli bir sözlük olarak kabul edildi. Örneğin, 1962'de (1. baskı 1852) yayınlanan İngilizce T. (yazar P. M. Roget), aralarında yaklaşık 240.000 kelimenin dağıtıldığı 1040 başlık içerir. Bu T.'nin dizini (anahtarı), her kelimenin ait olduğu başlıkları ve alt başlıkları gösteren alfabetik bir kelime listesi içerir. İngilizce, Fransızca ve İspanyolca için geleneksel genel dil dilleri (bireysel dillerin anlamsal sistemlerinin açıklamaları) vardır. Her kelimenin ana anlamsal parametrelerinin ifadelerini tanımlayan tek dilli sözlükler, örneğin S. I. Ozhegov'un Rus dili sözlüğü gibi T.'ye çok yakındır.

70'lerde. 20. yüzyıl bilgi erişim ciltleri yaygınlaştı ve bu ciltlerde otomatik olarak belgesel bilgi aramak için kullanılabilecek özel sözcüksel birimler veya tanımlayıcılar belirlendi. Eşanlamlı bir tanımlayıcı, böyle bir terimin her kelimesiyle ilişkilendirilir (bkz. Eşanlamlılık) ve tanımlayıcılar için anlamsal ilişkiler açıkça belirtilir: cins ≈ tür, parça ≈ ​​tüm, amaç ≈ anlamına gelir, vb. Genellikle cins-tür (hiyerarşik) ve ilişkisel ilişkileri ayırmak gelenekseldir. Bu nedenle, 1973'te SSCB'de yayınlanan "Bilişimde Bilgi Erişim Eş Anlamlı Sözlüğü", her tanımlayıcı için eşanlamlı anahtar kelimeleri, genel, özel ve çağrışımsal tanımlayıcıları ayrı ayrı gösteren bir sözlük girişi sağlar. Tanımlayıcılar arasındaki çağrışımsal bağlantılarda daha iyi yönlendirme için, tematik sınıfların semantik haritaları bu T'ye eklenmiştir. Otomatik bilgi almada, dizini yalnızca sorgu tanımlayıcılarını değil, aynı zamanda kendileriyle belirli anlamsal ilişkiler içinde olan tanımlayıcıları da içeren belgeler aranır. Bazen T.'deki belirli bir tematik alana özgü belirli çağrışımsal ilişkileri ayırmak yararlıdır: hastalık ≈ nedensel ajan, cihaz ≈ amaç (veya ölçülen değer), vb. T.'deki sözcük biriminin (kelime, deyim) konumu, dildeki anlamını karakterize eder; belirli bir kelimenin girdiği anlamsal ilişkiler sisteminin bilgisi (girdiği yerdeki değerlendirme listeleri dahil), bu kelimenin anlamını yargılamayı mümkün kılar.

Geniş anlamda teknoloji, bireysel bir bilgi taşıyıcısının veya bir grup taşıyıcının sahip olduğu gerçeklik hakkındaki bilgi sisteminin bir açıklaması olarak yorumlanır. Bu taşıyıcı, bir ek bilgi alıcısının işlevlerini yerine getirebilir, bunun sonucunda T.'si de değişir İlk T., anlamsal bilgi aldığında alıcının yeteneklerini belirler. Psikolojide ve yapay zekaya sahip sistemlerin incelenmesinde, bilginin algılanması ve anlaşılmasında ortaya çıkan bireylerin T.'sinin özellikleri dikkate alınır. Sosyoloji ve iletişim teorisinde, T.'nin genelliğine dayalı olarak karşılıklı anlayış olasılığını sağlayan bireylerin ve grupların T. özelliklerini incelerler. Bu durumlarda, T., karmaşık bir sistemin sahip olduğu bilgi stokunu belirleyen karmaşık ifadeleri ve bunların anlamsal bağlantılarını içermelidir. T. aslında yalnızca gerçeklik hakkında bilgi değil, aynı zamanda yeni mesajlar alma imkanı sağlayan meta-bilgi (bilgi hakkında bilgi) içerir.

Kaynak: Cherny A.I., Eş anlamlılar dizini oluşturmak için genel metodoloji, “Bilimsel ve teknik bilgiler. Sör. 2", 1968, ╧5; Varga D., Bilgi eş anlamlıları hazırlama metodolojisi, çev. [Hung'dan], M., 1970; Shreider Yu.A., Bilişim ve teorik anlambilimde Thesauri, “Bilimsel ve teknik bilgiler. Sör. 2", 1971, ╧ Z.

Yu A. Schreider.

Vikipedi

eş anlamlılar sözlüğü

eş anlamlılar sözlüğü, genel anlamda - özel terminoloji, daha kesin ve somut olarak - doğru sözcüksel, kurumsal iletişime katkıda bulunması gereken özel bir bilgi veya faaliyet alanının kavramlarını, tanımlarını ve terimlerini tam olarak kapsayan bir sözlük, bir bilgi koleksiyonu, bir külliyat veya kod; modern dilbilimde, sözcüksel birimler arasındaki anlamsal ilişkileri (eş anlamlılar, zıt anlamlılar, paronimler, eş anlamlılar, hipernimler vb.) gösteren özel bir sözlük türü. Eş anlamlılar, bireysel konu alanlarını tanımlamak için en etkili araçlardan biridir.

Açıklayıcı bir sözlükten farklı olarak, bir eş anlamlılar, yalnızca bir tanım yardımıyla değil, aynı zamanda bir kelimeyi diğer kavramlarla ve gruplarıyla ilişkilendirerek anlamı ortaya çıkarmayı mümkün kılar, bu nedenle yapay zeka sistemlerinin bilgi tabanlarını doldurmak için kullanılabilir.

Geçmişte, terim eş anlamlılar sözlüğü sözlükler, esas olarak, dilin kelime dağarcığını maksimum eksiksizlik ile metinlerde kullanımına ilişkin örneklerle temsil edecek şekilde belirlenmiştir.

Ayrıca terim eş anlamlılar sözlüğü bilgi teorisinde, öznenin sahip olduğu tüm bilgilerin toplamına atıfta bulunmak için kullanılır.

Psikolojide, bir bireyin eşanlamlılar sözlüğü, bilginin algılanmasını ve anlaşılmasını karakterize eder. İletişim teorisi aynı zamanda karmaşık bir sistemin elemanlarının etkileşime girdiği genel eşanlamlılar sözlüğünü de dikkate alır.

Eş anlamlılar sözlüğü (belirsizliği giderme)

eş anlamlılar sözlüğü:

  • Thesaurus - bir sözlük, özel bir bilgi alanı veya faaliyet alanı ile ilgili kavramları, tanımları ve terimleri kapsayan bir bilgi koleksiyonu.
  • Roger's thesaurus tarihteki ilk ve en ünlü ideografik sözlüklerden biridir.

Eş anlamlılar kelimesinin literatürdeki kullanım örnekleri.

Algılama ve birlikte yaratma için bazı optimal eş anlamlılar sözlüğü Küçük değil ama çok büyük de değil.

Sınırsız miktarda gelen bilgi ile önemli ölçüde aşan eş anlamlılar sözlüğü, değeri bu miktara bağlı değildir ve tamamen belirlenir. eş anlamlılar sözlüğü ohm.

Sanatın çok yönlülüğü, sistematik doğası, eserin bir bütün olarak eşit olmayan bir şekilde algılanmasına yol açar: ayetin bazı yönlerinin algılanması için eş anlamlılar sözlüğü optimal, diğerleri için yetersiz veya çok büyük.

Çünkü eş anlamlılar sözlüğü büyür ve değişir, işle yeniden tanışmak, yeni değerli bilgiler almak anlamına gelebilir.

Çocuğun sevmeye başladığı peri masalını tekrar tekrar okuma arzusu anlaşılabilir: onun eş anlamlılar sözlüğü birlikte yaratma, çağrışımsal fantezi kurma kapasitesi özellikle harikadır.

İşin bu tarafı, olduğundan daha değişken ve sübjektiftir. eş anlamlılar sözlüğü ve işin nesnel bir estetik değerlendirmesi arayışında, minimuma indirilmelidir.

içine nüfuz eder eş anlamlılar sözlüğüşair ve çeviriye hitap ediyor eş anlamlılar sözlüğü yabancı bir okuyucudan

Bu en önemli şey, ne kadar büyük olduğunuzu belirlemektir. eş anlamlılar sözlüğü, T.

Hayır, sadece kendi bagajı yetersiz, o gelişmemiş, eş anlamlılar sözlüğü emekleme döneminde ve eğer anlamıyorsa eş anlamlılar sözlüğü artırılmalı, o zaman her halükarda bu kadın onunla zor anlar yaşayacak.

Zengin eş anlamlılar sözlüğü, gerçek bilgiye dayanarak, en yakın kişiyle en yakın iletişim dahil olmak üzere başka bir kişiyle iletişim halinde olan bir kişinin olan her şeye doğru yanıt vermesini sağlar.

Açıkçası, büyüme ile birlikte bilginin değerindeki düşüş eş anlamlılar sözlüğü ilişkiye bağlı olmalı eş anlamlılar sözlüğü alınan bilgi miktarı kadar.

Açıkçası, sanatsal bilginin optimal değeri yakınlığa karşılık gelir. eş anlamlılar sözlüğü okuyucu ve eş anlamlılar sözlüğüşair.

Yaratıcılık gibi birlikte yaratmanın da ilham, yani kapsayıcılık gerektirdiğini söyleyebiliriz. eş anlamlılar sözlüğü kelimenin en geniş anlamıyla.

Var olanın içinde kalan, parlak görüntü ve parlak sesin böylesine içsel bir tekrarı. eş anlamlılar sözlüğü, onu aynı estetik tekrar anı ile zenginleştirir.

Bu noktada eş anlamlılar sözlüğü Nabokov ve Prishvin, Platonov'un antipotları olarak görülmelidir ve Marina Tsvetaeva'nın ona benzer olduğu kabul edilebilir.

N. V. Lukashevich

[e-posta korumalı]

BV Dobrov

Moskova Devlet Üniversitesi Araştırma Hesaplama Merkezi M.V. Lomonosov;

ANO Bilgi Araştırma Merkezi

[e-posta korumalı]

anahtar kelimeler: eşanlamlılar sözlüğü, bilgi alma, otomatik metin işleme,

Büyük metin koleksiyonlarıyla çalışan teknolojilerin büyük çoğunluğu istatistiksel ve olasılıksal yöntemlere dayanmaktadır. Bunun nedeni, dilbilimsel yöntemler kullanılarak metin koleksiyonlarını işlemek için kullanılabilecek sözcüksel kaynakların on binlerce sözlük girişi hacmine sahip olması ve bir kaynak geliştirirken özel olarak izlenmesi gereken bir dizi önemli özelliğe sahip olmasıdır. Raporda, şu anda 42 binden fazla kavramdan oluşan hiyerarşik bir ağ olan RuThez metinlerinin bilgisayarda işlenmesi için 1997'den beri oluşturulan Rus dili eş anlamlılar örneğini kullanarak büyük metin koleksiyonlarının otomatik işlenmesi için sözcüksel kaynaklar geliştirmenin temel ilkelerini ele alıyoruz. Eş anlamlılar sözlüğünün mevcut durumunu, sözlüksel bileşimi ile Üniversite Bilgi Sistemi RUSYA'nın (www.cir.ru) - 400 bin belge metin külliyatının karşılaştırmasına dayanarak açıklıyoruz. Eş anlamlılar sözlüğünün çeşitli otomatik kelime işlem uygulamalarında kullanımına ilişkin örnekler tartışılmaktadır.

  1. giriiş

Halihazırda milyonlarca belge elektronik ortamda kullanıma açılmış, binlerce bilgi sistemi ve elektronik kütüphane oluşturulmuştur. Aynı zamanda, arama için sözcüksel ve terminolojik kaynakları kullanan bilgi sistemleri, yüzdelik kesirler olarak hesaplanır. Bunun nedeni, modern elektronik belge koleksiyonlarının otomatik olarak işlenmesi için bu tür dilsel kaynaklar yaratmanın ciddi sorunlarından kaynaklanmaktadır.

İlk olarak, bu koleksiyonlar genellikle çok büyüktür, kaynak binlerce kelime ve terimin açıklamalarını içermelidir. İkincisi, koleksiyonlar, metin cümlelerinin otomatik olarak işlenmesini zorlaştıran çeşitli sözdizimsel yapılara sahip farklı yapıdaki bir dizi belgedir. Ek olarak, önemli bilgiler genellikle metnin farklı cümleleri arasında dağıtılır.

Bütün bunlar, bir yandan elektronik koleksiyonlarda otomatik işleme ve arama için yararlı olacak, diğer yandan öngörülebilir bir sürede oluşturulabilecek ve nispeten az çabayla sürdürülebilecek ne tür bir dil kaynağı olması gerektiği sorusunu keskin bir şekilde gündeme getiriyor.

Makalede, büyük metin koleksiyonlarının otomatik olarak işlenmesi için sözcüksel kaynaklar geliştirmenin temel ilkelerini ele alacağız. Bu ilkeler, RuThez metinlerinin bilgisayarda işlenmesi için ANO Bilgi Araştırma Merkezi tarafından 1997'den beri oluşturulan Rus dili eş anlamlıları örneğinde ele alınacaktır. RuThez şu anda 95 binden fazla Rusça kelime, ifade ve terim içeren 42 binden fazla kavramdan oluşan hiyerarşik bir ağdır. Eş anlamlılar sözlüğünün mevcut durumunu, Moskova Devlet Üniversitesi Araştırma ve Geliştirme Merkezi tarafından desteklenen RUSYA Üniversite Bilgi Sisteminin metin külliyatının sözcüksel bileşimi ile sözlüğünün karşılaştırmasına dayanarak açıklayacağız. M.V. Lomonosov ve ANO TsII. UIS RUSSIA (www.cir.ru), sosyo-politik konularda 400.000 belge içerir (yaklaşık 3 GB metin, 200 milyon kelime kullanımı). Makale ayrıca eşanlamlılar sözlüğünün çeşitli kelime işlem uygulamalarında kullanımına ilişkin örneklere de bakacaktır.

  1. Bir dilsel kaynağın geliştirilmesi için ilkeler

bilgi alma görevleri için

Elektronik belgelerin verimli otomatik işlenmesini sağlamak için (otomatik indeksleme, sınıflandırma, belgelerin karşılaştırılması), karşılaştırmaları için bir temel oluşturmak gerekir - belgede belirtilenlerin bir listesi. Böyle bir indeksin bir kelime indeksinden daha etkili olabilmesi için, metnin sözcük çeşitliliğinin üstesinden gelmek gerekir: eşanlamlılar, çok anlamlılık, konuşmanın bölümleri, üslup ve onu bir değişmeze indirgemek - farklı metinleri karşılaştırmanın temeli haline gelen bir kavram. Bu nedenle, kavramlar dilsel bir kaynağın temeli olmalı ve dil ifadeleri: kelimeler, terimler - yalnızca karşılık gelen kavramı başlatan metin girdileri haline gelmelidir.

Birbirinden farklı fakat anlamca birbirine yakın kavramların karşılaştırılabilmesi için bunlar arasında ilişkiler kurulmalıdır. Geleneksel olarak, doğal dildeki metinlerin otomatik olarak işlenmesi için dilbilimsel kaynaklarda, aşağıdakiler gibi belirli anlamsal ilişkiler kümeleri kullanılırdı: parça, kaynak, neden ve benzeri. Bununla birlikte, büyük ve heterojen metin koleksiyonlarıyla çalışırken, metin işleme teknolojisinin mevcut durumuyla, belirli ilişkilerle ilişkilendirdiğimiz prosedürleri gerçekleştirmek için bir bilgisayar sisteminin metindeki bu ilişkileri herhangi bir kararlı şekilde tespit edemeyeceğini anlamalıyız. Bu nedenle, kavramlar arasındaki ilişkiler her şeyden önce, kavramın geçtiği belirli bir metnin konusuna bağlı olmayan veya zayıf bir şekilde bağlı olan bazı değişmez özellikleri tanımlamalıdır.

Bu ilişkilerin temel işlevi şu soruyu yanıtlamaktır:

metnin C1 tartışmasına ayrıldığı ve C2'nin bağlantılı olduğu biliniyorsa

davranışRC1 ile metnin konusu diyebilir miyiz?(*)

C2 ile ilgisi var mı?

Otomatik işleme için bir dil kaynağı oluştururken, C1 ve C2 kavramlarının hangi özelliklerinin aralarında doğru (*) ilişkilerin kurulmasına izin verdiğini belirlemek önemlidir.

Yani, örneğin, hakkında yazılan metinler ne olursa olsun huş ağacı, hakkında şarkı sözleri olduğunu her zaman söyleyebiliriz. ağaçlar. Ancak ilişkinin popülaritesine ve sık sık tartışılmasına rağmen ağaç parçası olarak ormanlar, ağaçlarla ilgili metinlerin çok az bir kısmı ormanlarla ilgili metinlerdir. Sorunun ilişkinin adıyla ilgili olmadığını unutmayın. Bu yüzden açıklık ormanın bir parçasıdır ve açıklıklarla ilgili metinler, ormanla ilgili metinlerdir.

Konu alanındaki metinlerin olası konu yelpazesine göre ilişkilerin değişmezliği, büyük ölçüde ilişkilerin adlarının yansıttığı özelliklerden, yani onun niceleyici ve varoluşsal özelliklerinden daha derin özellikler tarafından belirlenir. Dolayısıyla, ilişkilerin niceleyici özellikleri, bir kavramın tüm örneklerinin belirli bir ilişkiye sahip olup olmadığını, belirli bir ilişkinin örneğin tüm yaşam döngüsü boyunca korunup korunmadığını açıklar. İlişkiyi kullanma sorunu ağaçorman her belirli ağacın ormanda olmadığı, ancak açıklığın ormanın dışında olamayacağı gerçeğiyle kesin olarak bağlantılıdır.

İlişkilerin varoluşsal özelliklerini tanımlamanın bir örneği, C2 kavramının varlığının C1 kavramının varlığından (örneğin, kavramın varlığından) kaynaklanıp kaynaklanmadığıdır. GARAJ kavramı gerektirir OTOMOBİL) veya C1 örneklerinin varlığı, C2 örneklerinin varlığına bağlıdır (bu nedenle belirli bir SEL BASMAK somut bir örnekten ayrılmaz NEHİRLER). Bağımlı kavram C2'nin metindeki tartışması, özellikle örnek bağımlı olan, metnin C1 ana kavramıyla da ilgili olduğunu düşündürür.

Kavramlar arasındaki ilişkiyi düşünün ORMAN ve AHŞAP Detaylarda. Aslında konseptin bir parçası ORMAN dır-dir ORMANDA AĞAÇ, varken ve dimdik ağaç,BAHÇEDEKİ AĞAÇ vs. her halükarda kavramın tabiiyet ilişkisini kırmak gerekir. AĞAÇ kavram ORMAN.

Diğer tarafta, ORMAN bir tür AĞAÇ SETİ, ağaçlar olmadan var olmaz (ayrıca BAHÇE). Böylece kavram ORMAN konsepte bağlı olmalı AĞAÇ. Belirli uygulamalı görevlerin ihtiyaçlarının analizinden başlayarak, daha önce dilsel kaynaklara çok önemsiz bir şekilde yansıyan, ancak büyük metin koleksiyonlarının otomatik işlenmesi görevleri ve muhtemelen diğer birçok görev için çok önemli olan ilişkilerin derin özelliklerini tanımlamanın önemli olduğu sonucuna vardık.

Şimdi, kavramların nicelik belirleyicisinin ve varoluşsal özelliklerinin açıklamasını, bir dizi ek değiştiriciyle birlikte (ilişkilerin %20'si etiketlenmiştir) YUKARI-AŞAĞI (tüm bağlantıların %66'sı), PARÇA-Bütün (bağlantıların %30'u), BİRLİK (%4) bir dizi geleneksel eş anlamlılar ilişkisi ile modelliyoruz. PARÇA-Bütün ve DERNEK ilişkilerinin (*) kuralına göre yorumlandığına dikkat edin. Toplamda, kavramlar arasında yaklaşık 160 bin doğrudan bağlantı açıklanmaktadır; bu, ilişkilerin geçişliliğini hesaba katarak, 1350 binden fazla bağlantıdan oluşan toplam farklı bağlantı sayısı verir, yani ortalama olarak her kavram 30 diğeriyle bağlantılıdır.

  1. RuThes Eş Anlamlılar Sözlüğü: Genel Yapı

RuThes Thesaurus, tek tek kelimelerin, metinsel ifadelerin veya eşanlamlı dizilerin anlamlarına karşılık gelen hiyerarşik bir kavramlar ağıdır. Böylece eşanlamlılar sözlüğünün ana unsurları kavramlar, dil ifadeleri, ilişkiler, dil anlatım - kavram, kavramlar arası ilişkilerdir.

Eş anlamlılar sözlüğünde, geleneksel olarak sözcüksel, anlamsal bilgiyle ilgili olan dil bilgisi - sözcük birimlerinin, deyimlerin ve bunların bağlantılarının açıklamaları ve bilgi alma eş anlamlılarında açıklanan terminologların faaliyet alanıyla geleneksel olarak ilgili olan konu alanlarındaki terimler ve ilişkiler hakkındaki bilgiler tek bir sistemde toplanır. Eş anlamlılar söz konusu alt alanlar olarak, geleneksel açıklayıcı sözlüklerde önemli bir sözcüksel temsile sahip olan ve bir kişinin günlük yaşamı için çok önemli olan ekonomi, mevzuat, finans, uluslararası ilişkiler gibi konu alanlarını tanımlar. Onlarda, sözcüksel ve terminolojik güçlü bir şekilde birbirine bağlıdır ve birbirleriyle güçlü bir şekilde etkileşime girer.

Dil ifadeleri, ayrı sözcük birimleri (isimler, sıfatlar ve fiiller), ad ve fiil gruplarıdır. Böylece eşanlamlılar sözlüğü artık zarfları ve yardımcı sözcükleri dilsel ifadeler olarak içermemektedir. Çok sözcüklü gruplar terimleri, deyimleri, sözcüksel işlevleri ( etkilemek e).

Her dil ifadesi için aşağıdakiler açıklanmıştır:

Belirsizliği, bir veya daha fazla kavramla bağlantısıdır; bu, belirli bir dilsel ifadenin, bu kavramın metinsel bir ifadesi olarak hizmet edebileceği anlamına gelir. Bir dilsel ifadenin farklı kavramlara atanması da onun muğlaklığının örtük bir göstergesidir;

Morfolojik bileşimi (konuşmanın bir kısmı, sayı, durum);

Yazma özellikleri (örneğin, büyük harfle), vb.

Her eşanlamlılar sözlüğü kavramının kendine özgü bir adı, bu kavramın metinde ifade edilebileceği dil ifadelerinin bir listesi, diğer kavramlarla olan ilişkilerinin bir listesi vardır.

Bir kavram için benzersiz bir ad olarak, genellikle onun açık metinsel ifadelerinden biri seçilir. Ancak kavramın adı, bir çift belirsiz metin ifadesinden de oluşturulabilir - virgülle yazılmış ve onu benzersiz bir şekilde tanımlayan eşanlamlılar (örneğin, kavram YAĞ, YAĞ). Bir kavramın adının belirsiz bir metinsel ifadesi, bir etiketle veya kısaltılmış bir yorum parçasıyla da sağlanabilir, örneğin kavram, KALABALIK (İNSANLAR TOPLAMI).

  1. Bir sözlük girişi örneği

Örnek olarak kavramın sözlük girişini seçtik. ORMAN kelimenin anlamlarından birine karşılık gelen orman. Bu sözlük girdisi ilginçtir çünkü geleneksel olarak sözlüksel (anlamsal) bilgi ve ansiklopedik bilgi (konu alanı hakkında bilgi, terminoloji) olarak adlandırılan farklı bilgi türlerini içerir.

kavram için eşanlamlılar ORMAN(toplam 13):

orman(M), orman bölgesi, orman ortamı,

orman, orman mahallesi, orman manzarası,

ormanlık alan, ormanlık, ormanlık,

orman ham alanı, orman,

orman dizisi.

Eşanlamlı aşağıdaki terimler:

ORMAN(orman);

ORMAN PARKI(şehir bahçesi, yeşil alan,

yeşil masif, orman parkı,

ormancılık, ormancılık

kemer, parkıM), park alanı);

ORMAN AVCILIĞI;

Yaprak döken orman(yumuşak ağaç ormanı, sert ağaç

orman);

KORU(meşe ormanı);

İĞNELİ ORMAN (iğne yapraklı masif, koyu iğne yapraklı orman)

Eşanlamlı kavramlar-parçalar:

BORELOM (rüzgâr siperi, beklenmedik);

YIKIM(kesim alanı);

ORMAN KÜLTÜRÜ(orman türleri, ormancılık

kültür);

ORMAN ARAZİSİ (orman fonuna ait araziler;

orman; orman arazisi, orman alanı;

ormanlık arazi, ağaçlık

alan,);

ORMAN(orman tarlaları, orman tarlaları,

ağaçlandırma);

ORMAN KENARI(kenar, kenar);

ÇALIŞMA (çalılık));

PROSECA;

KURAK ARAZİ(kuru).

Burada semboller (M), metin girişinin belirsizliğinin işaretini yansıtır.

kavram ORMAN ayrıca bağımlılık ilişkileri olarak adlandırılan başka ilişkilere de sahiptir (modern versiyonda bunlara ASC 2 - asimetrik ilişki denir): ORMAN YANGINI(orman yangını, ormanda yangın; ORMAN YÖNETİMİ (orman kullanımı, orman fonu arazilerinin kullanımı); ORMAN MÜLKİYETİ; ORMAN BİLİMİ (orman bilimi). 2. paragrafta belirtildiği gibi ORMAN kavramı, eşanlamlılar sözlüğünde ASC 1 ilişkisiyle gösterilen AĞAÇ kavramına bağlıdır.

Bütün konsept ORMAN 235 kavramla (toplamda 650'den fazla metin girişi) ilişkilerin geçişliliğini dikkate alarak 28 diğer kavramla doğrudan ilişkilidir.

  1. Tekniğin durumunun değerlendirilmesi

Rus dilinin eşanlamlılar sözlüğü RuThez

5.1. sözcük bileşimi

Eş anlamlılar ağında şu anda 95 binden fazla dil ifadesi yer almaktadır ve bunların 61 bini tek kelimeliktir.

Bu kadar çalışma, Thesaurus'un açıklamalarında hangi kelimelerin ve dil ifadelerinin yer alması gerektiğine karar vermemizi sağladı. Doğal arzu, Rus dilinin en sık kullanılan kelimelerinin eşanlamlılar sözlüğünde nasıl temsil edildiğini görmekti. Bunun için Üniversite Bilgi Sistemi RUSYA'nın metin koleksiyonu (400 bin belge) kullanıldı. Koleksiyon, Rusya Federasyonu'nun çeşitli organlarının resmi belgelerini (1992'den beri 55.000 belge), ayrıca 1999'dan beri basın malzemelerini (İzvestia gazeteleri, Nezavisimaya Gazeta, Komsomolskaya Pravda, Arguments and Facts, Expert dergisi ve diğerleri), bilimsel dergilerden malzemeleri (Moskova Üniversitesi Bülteni, Sociological Journal) içerir. Thesaurus'ta yer alan lemmalar listesi ile metin koleksiyonundaki en sık 100.000 lemma listesi arasında karşılaştırma yapıldı (sıklık 25'ten fazla).

Listenin sözlüksel işaretlemesi, bu yüz bin lemmanın 35 bininin RuThes'te tanımlandığını, sadece yaklaşık 7 bin lexemin Thesaurus'a dahil edilmeyi hak ettiğini, geri kalanının çeşitli özel isimlerin lemmatik varyantları olduğunu gösterdi. Bu nedenle, yenileme bir öncelik olmaktan çıkmıştır ve en sık kullanılan kelimelerden başlayarak kademeli olarak gerçekleştirilir. Bu liste temelde tükenir tükenmez, bilgi sisteminin metin dizisi ile bir sonraki karşılaştırmanın yapılacağı, 25'ten daha sık yeni jetonların seçileceği, ayrıca görüntüleme eşiğinin düşürülmesi gerektiği varsayılmaktadır. Çok sayıda metin örneğinin metin koleksiyonundaki varlığı, "sözcüksel yeniliklere" hızlı bir şekilde yanıt vermenizi sağlar (örneğin, kurulum,gişe rekorları kıran, güzel dünya, gerilim) ve onları Thesaurus'un hiyerarşik sisteminde uygun yerlere dahil edin.

Mevcut metin koleksiyonuyla sürekli çalışma, sözlüklerde sunulan sözlüksel tanımların önemini ve kalitesini test etmek için benzersiz fırsatlar sunar. Örneğin, kelimenin alışılmadık derecede yüksek kullanım sıklığı anne görmek(400'den fazla kez). Diziyi kontrol etmek, kelimenin gerçekten de kelimenin eşanlamlısı olarak kullanıldığını gösterdi. Moskova açıklayıcı sözlükler ise genellikle bu kelimeyi eskimiş olarak işaretler. Sık kullanılan bir kelimenin (300'den fazla kez) sözlüklerde geçersiz olarak işaretlenmesine bir başka örnek de kelimedir. mutlu.

5.2 Kelime anlamlarının açıklaması

Metin derlemesiyle bir karşılaştırma, dizideki sıklık sözcüklerinin birçoğunun (genellikle temel) değerlerinden en az birinde Thesaurus'ta iyi bir şekilde temsil edildiğini gösterir. Eş anlamlılar sözlüğünde Rus dilindeki çok anlamlı sözcüklerin anlam yelpazesinin ne ölçüde temsil edildiğini bulmak, şu anda birincil görevimizdir.

Bildiğiniz gibi, farklı sözlük kaynakları çoğu zaman çok anlamlı sözcükler için farklı anlamlar dizisi verir, anlam nüanslarını birbirinden ayırır ve aynı tür çok anlamlılık aynı sözlükte bile farklı sözcükler için farklı tarif edilebilir. Bu nedenle, sözlük birimlerinin anlamlarının tutarlı ve temsili bir açıklaması görevi, herhangi bir sözlük kaynağının yaratıcıları için önemli bir görevdir.

Bununla birlikte, kaynak otomatik işleme için tasarlanmışsa, değerlerin dengeli bir şekilde tanımlanması görevi çok daha önemli hale gelir. Değerlerin aşırı şişirilmesi bilgisayar sisteminin istenilen değeri seçememesine neden olabilmekte bu da otomatik kelime işlem sisteminin veriminin önemli ölçüde düşmesine yol açmaktadır. Dolayısıyla, otomatik kelime işleme için bir kaynak olarak WordNet kaynağının dezavantajlarından biri, bazı kelimeler için açıklanan aşırı sayıda değerdir (WordNet 1.6'da: 53 değer için). koşmak.47 için oynamak ve benzeri.). Metinlere anlamsal açıklama eklerken bu anlamları bir kişi için bile ayırt etmek zordur. Açıktır ki, bilgisayar sistemi de uygun bir değer seçimi ile başa çıkamaz. Bu nedenle, farklı yazarlar, işleme kalitesini artırmak için değerleri birleştirmenin farklı yollarını önerir.

Aynı zamanda, zıt faktör hareket eder: değerler, kelime dağarcığı bağlantı kümelerinde gerçekten farklıysa (bizim durumumuzda, eş anlamlılar sözlüğü bağlantıları) - bir birime (bir kavram) yapıştırılamazlar - bu aynı zamanda otomatik işleme kalitesinde bir bozulmaya yol açacaktır.

Örneğin kelimeleri düşünün okul Ve kilise, her biri bir organizasyon ve bir bina olarak değerlendirilebilir.

Her okul organizasyonunun bir binası vardır (çoğunlukla bir tane). Okul binasının tüm bölümleri (sınıflar, yazı tahtaları) okul bir organizasyon olarak. Belirli bir okul binası türü yoktur. bu nedenle açıklama okullar yapı olarak ayrı bir kavram olarak ayırmak doğru değildir. Bununla birlikte, böyle bir kümülatif kavramın tanımı OKUL bir organizasyon ve bir bina olarak konsept ile özel olarak tasarlanmış bir ilişkiye sahip olmalıdır. BİNA. Thesaurus'ta bu tür ilişkileri tanımlarken, ilişki üzerinde bir işaret kullanılır - "A" değiştiricisi (bu ilişkiyi hesaba katmak için otomatik analizde "boy", diğer kavramlar tarafından "onay" gereklidir).

OKUL

DAHA YÜKSEK EĞİTİM KURUMU

ÜSTÜNDE KAMU BİNASI

İlgili kelime anlamları kiliseçok yakın değil kiliseler Bir organizasyonun farklı yerlerde çok sayıda kilise binasına sahip olması ve ayrıca birçok başka binaya nasıl sahip olabileceği. kilise binası din ve itirafla yakından ilişkilidir, ancak ait olduklarında değişebilir. organizasyon kiliseleri. kilise organizasyonu Ve kilise binası farklı alt türleri var. Bu yüzden KİLİSE (Örgüt) Ve KİLİSE (BİNA) RuThes'de farklı kavramlar olarak sunulmaktadır.

Eş anlamlılar sözlüğü ilişkilerindeki önemli ayrışma, ilginç bir şekilde, anlamlara karşılık gelen düz anlamların birbirinden ayrı olarak var olma yeteneği ile ilişkilidir. Böylece kilise binası, okul binasının aksine kullanım değişse bile varlığını sürdürmez ve hatta kilise olarak anılır.

Thesaurus'taki değerlerin temsilinin uzlaştırılması süreci, en sık kullanılan lemmalardan başlayarak sürekli olarak yürütülmektedir. Her bir frekans belirteci için değerlerinin açıklayıcı sözlüklerde nasıl anlatıldığı, koleksiyonda hangi değerlerin kullanıldığı ve Eş Anlamlılar Sözlüğünde nasıl sunulduğu kontrol edilir. Sonuç olarak, belirsizliği hala ek analiz veya ek açıklama gerektiren 10.000 sözlükten oluşan bir liste oluşturulmuştur. Liste, en sık kullanılan 30 bin lemmaya dayanmaktadır.

Eşanlamlılar sözlüğünde, eşanlamlılar sözlüğünün ilişkilerinin bir kelimenin farklı anlamları arasında tanımlanabilmesi ve bu nedenle hiyerarşideki en yüksek kavramın varsayılan olarak seçilebilmesi nedeniyle belirsizlik sorununun kısmen ortadan kaldırıldığına dikkat edilmelidir. Metinde kesinlikle tartışıldı. Örneğin, kelime Fotoğrafüç anlamı vardır: faaliyet alanı olarak fotoğraf, fotoğraf olarak fotoğraf, fotoğraf stüdyosu olarak fotoğraf:

FOTOĞRAF(fotoğraf çekmek, fotoğrafçılık, ..., Fotoğraf )

PARÇA FOTOĞRAF GÖRÜNTÜ

(Fotoğraf, fotoğraf, Fotoğraf )

PARÇA FOTOĞRAF STÜDYOSU (Fotoğraf ).

Böylece kelimenin hangi anlamda kullanıldığını anlamak mümkün olmadıysa Fotoğraf, varsayılan, birçok otomatik kelime işlem uygulaması için yeterli olan bir fotoğraf (süreç, sonuç veya konum) olarak kabul edilir.

  1. RuThes eş anlamlılar sözlüğü uygulaması

otomatik sözcük işleme için

1995'ten beri, RuThes'in sosyo-politik terminolojisi (sosyo-politik eş anlamlılar), otomatik kavramsal indeksleme, çeşitli dereceli puanlama anahtarı kullanarak otomatik sınıflandırma, İngilizce olanlar da dahil olmak üzere metinlerin otomatik açıklamaları gibi çeşitli otomatik metin işleme uygulamalarında aktif ve başarılı bir şekilde kullanılmaktadır.. Sosyo-politik eş anlamlılar sözlüğü (27.000 kavram, 62.000 metin girişi), UIS RUSSIA arama motorundaki (www.cir.ru) temel arama aracıdır.

RuThes eş anlamlılar sözlüğünün tamamı, metinlerin karmaşık hiyerarşik başlıklara göre otomatik olarak sıralanması prosedürlerinde kullanılır. Mevcut teknolojide, her bir dereceli puanlama anahtarı, terimlerin bir Boole ifadesi olarak tanımlanır ve bundan sonra orijinal formül, eşanlamlılar hiyerarşisi boyunca genişletilir. Ortaya çıkan Boolean ifadesi zaten yüzlerce ve binlerce bağlaç ve yan tümce içerebilir.

VTsIOM tarafından kamuoyu anket anketlerini sınıflandırmak için kullanılan SOFIST 2 rubricator'un “Image of a Woman” başlığının eş anlamlılar kavramları (ve formülün genişletilmesinden sonraki dil ifadeleri) ile açıklamasının bir parçasını örnek olarak verelim:

(KADIN[N]

|| KIZ[N]

|| AKRABA[L] (büyükanne, torun, kuzen,

kızı, baldızı, annesi, üvey annesi, gelini, üvey kızı, ...))

(KARAKTER ÖZELLİĞİ[L] (tutumlu, kalpsiz, unutkan,

uçarı, alaycı, hoşgörüsüz, girişken, ...)

|| GÖRÜNTÜ[E] (temsil, görünüm, görünüm,

görünüm, şekil, görüntü, görünüm)

|| HOŞ[L] (..., ilginç, güzel, sevimli,

çekici, çekici, cana yakın, ...)

|| HOŞ OLMAYAN[L] (anlayışsız, kaba, iğrenç, ...)

|| DEĞER [L] (saygı gösterin, putlaştırın, tapın,

ibadet, ibadet, ...)

|| TERCİH[N]

"E" sembolü, eş anlamlılar hiyerarşisi boyunca tam genişlemeyi belirtir, "L" sembolü - tür ilişkilerine göre ("AŞAĞI"), "N" sembolü - genişlemez.

Eş anlamlılar bilgisini ve makine öğrenimi prosedürlerini birleştiren otomatik metin sınıflandırması için birleşik bir teknolojinin geliştirilmesi üzerine araştırmalar yürütülmektedir.

Doğal dilde formüle edilmiş bir sorguyu genişletmek için bir eş anlamlılar sözlüğü kullanma sorunları (artık eş anlamlıların yalnızca sosyo-politik kısmı, UIS RUSYA'nın bilgi alma sistemindeki terminolojik sorguyu genişletmek için kullanılıyor), büyük metin koleksiyonlarında soruların yanıtlarını arıyor.

7. Karar

Makale, büyük metin koleksiyonlarının otomatik olarak işlenmesi için dilsel kaynaklar geliştirmenin temel ilkelerini sunar. Oluşturulan dil kaynağı - RuThes Russian Thesaurus - belgelerin kavramsal indekslenmesi, karmaşık hiyerarşik başlıklarla otomatik değerlendirme, doğal dil sorgularının otomatik genişletilmesi gibi otomatik metin işleme uygulamalarında kullanılmak üzere tasarlanmıştır.

Bu çalışma kısmen Rus Beşeri Bilimler Vakfı tarafından desteklenmektedir, hibe No. 00-04-00272a.

Edebiyat

  1. Lukashevich N.V., Saliy A.D., Otomatik metin işlemede bilgi gösterimi //NTI, Ser.2. 1997. No. 3. S. 1‑6.
  2. Zhuravlev S.V., Yudina T.N., Bilgi sistemi RUSYA //NTI, Ser.2. 1995. No. 3. S. 18‑20.
  3. Winston M., Chaffin R., Herman D., Parça-Bütün İlişkilerinin Taksonomisi // Bilişsel Bilim. 1987. hayır. 11. S. 417-444.
  4. Priss U.E., WordNet'in İlişkisel Kavram Analizi Yöntemleriyle Biçimlendirilmesi // WordNet. Bir Elektronik Sözcük Veritabanı / Ed. C. Fellbaum tarafından. Cambridge, Massachusetts, Londra, İngiltere.: The MIT Press 1998. S. 179-196.
  5. Guarino N., Welty C., A Formal Ontology of Properties // Ontoloji Uygulamaları ve Problem Çözme Yöntemleri Üzerine ECAI-00 Çalıştayı Tutanakları. Berlin: 2000. S. 121-128. (http://citeseer.nj.nec.com/guarino00formal.html).

Üst Düzey Sözcüksel Kaynakları Tasarlamak İçin Bazı Ontolojik İlkeler // First Int. Konf. Dil Kaynakları ve Değerlendirme. 1998.

  1. LukashevichN.V., Dobrov B.V., Otomatik indeksleme için eş anlamlılar sözlüğündeki kavramsal ilişkilerin değiştiricileri // NTI, Ser.2. 2000, Sayı 4, S. 21-28.
  2. Rus Dilinin Büyük Açıklayıcı Sözlüğü / Ed. SA Kuznetsova. Petersburg: Norint, 1998.
  3. Ozhegov S.I., Shvedova N.Yu., Rus dilinin açıklayıcı sözlüğü - 3. baskı. M.: Az, 1996.
  4. Apresyan Yu.D., Seçilmiş eserler, cilt I. Sözcüksel anlambilim: 2. baskı. M.: Okul "Rus kültürünün dilleri", Ed. Firma "Doğu Edebiyatı" RAS, 1995.
  5. G. Miller, R. Beckwith, C. Fellbaum, D. Gross ve K. Miller, WordNet'te Beş makale, CSL Raporu 43. Bilişsel Bilim Laboratuvarı, Princeton Üniversitesi, 1990.
  6. Chugur, J. Gonzalo ve F. Verdjeo, NLP uygulamalarındaki Sense ayrımları // “OntoLex-2000” Bildiriler Kitabı: Ontolojiler ve Sözlüksel Bilgi Tabanları. Sofya: OntoTextLab. 2000.
  7. Loukachevitch N., Dobrov B., Çok Dilli Bilgi Sistemlerinde Eş Anlamlılar Tabanlı Yapısal Tematik Özet // Makine Çevirisi İncelemesi. 2000 Hayır 11. S. 10-20. (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm).

Doğal dil işleme için Rus dili eş anlamlıları

büyük metin koleksiyonlarından

Natalia V. Loukachevitch, Boris V. Dobrov

anahtar kelimeler: eşanlamlılar sözlüğü, doğal dil işleme, bilgi alma

Sunumumuzda, büyük metin koleksiyonlarının otomatik işlenmesi için sözlüksel kaynaklar geliştirmenin ana ilkelerini ele alıyoruz ve 1997'den beri özel olarak otomatik metin işleme aracı olarak geliştirilen Rus Dili Eş Anlamlılar Sözlüğü'nün yapısını açıklıyoruz. Şimdi Thesaurus, 42 bin kavramdan oluşan hiyerarşik bir ağdır. 400 bin belge de dahil olmak üzere RUSYA Üniversite Bilgi Sisteminin (www.cir.ru) metin koleksiyonunun en sık kullanılan 100.000 lemmasına kıyasla gelişen Eş Anlamlılar Sözlüğünün mevcut aşamasını açıklıyoruz. Ayrıca eş anlamlıların otomatik metin işlemenin farklı uygulamalarında kullanımını da ele alıyoruz.