동의어 사전을 제공합니다. 시소러스. 시소러스 구성의 언어적 원리. 러시아어의 새로운 설명 및 파생 사전, T. F. Efremova

TAOY KemGUKI학과

정보 검색 시소러스:

구조, 목적 및 개발 절차

1. 지식을 체계적으로 표현하는 방법으로서 시소러스와

표의어 사전의 일종.

2. 정보 검색 시소러스: 본질과 목적

3. IPT의 구조

4. IPT의 개발, 심사, 등록 및 유지 절차.

서지

1. GOST 7.74 - 96. 정보 검색 언어. 용어 및 정의 [텍스트]. - 입력. 1997-07-01. - 민스크: 표준화, 계측 및 1997년 주간 위원회. - 34p. (정보, 사서 및 출판을 위한 표준 체계) TC 191.

2. GOST 7.25-2001. 시소러스 정보 검색 단일 언어. 개발 규칙, 구조 및 프레젠테이션 형식 [텍스트]. – GOST 7.25-80; 소개 2002-07-01. - M.: IPK Publishing House of Standards, 2001. - 16p. MTK 191.

3. GOST 7.24-2007 다국어 정보 검색 시소러스. 건설을 위한 구성, 구조 및 기본 요구 사항. - GOST 7.24-90 대신; 입력. 2008-07-01. / 표준화, 계측 및 인증을 위한 주간 위원회. - M.: Standartinform, 2008. - 7p. (정보, 사서 및 출판에 관한 표준 체계)

4. Baranov, O. S. 러시아어 Ideographic 사전 / O. S. Baranov. - M.: ETS 출판사, 1995. - 820초

5. Zhmailo, S. V. 동의어 사전의 정의 [텍스트] / S. V. // NTI. Ser. 1 조직 및 정보 업무. - 2003. - 12호. – P.20 – 25.

6. Zhmailo, S. V. 현대 정보 검색 시소러스 개발 [텍스트] / S. V. Zhmailo // NTI. Ser. 1 정보 작업의 조직 및 방법론. -2004. - 1번. – P.23 – 31.

따라서 O. S. Baranov(4)의 러시아어 표의 문자 사전에서 표의 문자 사전의 상위 12개 섹션은 "질서, 자연, 활동, 문화" 등으로 구분되며 각 섹션은 다음과 같이 나뉩니다. 그룹, 하위 그룹, 부서, 섹션 . 이 사전의 모든 단어는 의미에 따라 둥지로 그룹화되고 종 관계에 의해 가장 자주 연관되는 특정 개념으로 그룹화됩니다. 둥지는 하위 섹션 등으로 그룹화됩니다. 현재 사전에는 5923개의 둥지가 있으며 7단계로 나뉩니다(2010년 2월 16일 기준 www.rifmovnik.ru/thesaurus.htm 기준). 다음은 이 사전의 사전 항목 예입니다.

178.4.7 아로마 ▲ -쾌적한 냄새 (예 : 꽃, 풀, 건초 냄새. 부드러운 #. 취한 #). 방향족화 . . . 앰버. 향.

"아로마"라는 단어의 코드는 이 주어진 단어에서 허용되는 표의 문자 분류, 특히 이 단어와 "178-Sensations" 범주의 상관 관계를 반영합니다.

따라서 "동의어 사전", "표의 사전", "동의어 사전"이라는 용어는 주로 한 그룹의 단어가 의미가 유사한 단어를 포함하는 방식으로 언어 단어의 총체가 표시됨을 의미합니다. . 표의 사전의 주요 목적은 공통 개념으로 통합된 어휘 단위 모음입니다. 이를 통해 독자는 생각을 적절하게 표현하기 위한 가장 적절한 수단을 쉽게 찾을 수 있고 언어를 능동적으로 구사할 수 있습니다.

시소러스의 역사에서

재킷 2302

...에서 정장

코트 제품

봉제 제품

n 더블 브레스티드 재킷

결합 재킷

스포츠 재킷

in 포장 조치

남은 재료

폐기물

어휘 참고;

설명자 또는 설명자-동의어

우수한 설명자;

다운스트림 디스크립터

연관 설명자

다른 종류의 관계로 연결된 설명자.

한 종류의 패러다임 관계에 의해 헤드 디스크립터와 연관된 각 LU 그룹 내에서 배열의 알파벳 순서가 있어야 합니다. 예를 들어:

알고리즘 언어

알고리즘 언어로

기계 지향 언어

도메인별 언어

소프트웨어에서

공식 언어

n 자동 코드

알고리즘

프로그래밍 cf. 인공 언어

ascriptor 항목은 정보를 처리하고 검색할 때 ascriptor와 descriptor 또는 이를 대체하는 descriptor의 조합으로 구성됩니다. 다음은 작가 기사의 예입니다.

영숫자 문자

스페인어 공식 언어

자연어

알고리즘 언어 참조

사전 항목에는 다음이 포함될 수도 있습니다.

디스크립터가 사용되는 빈도

설명자 코드 번호;

체계적 색인에 따른 설명자 코드;

분류지수;

추가 시맨틱 및 사전 편찬 마크

외국 등가물.

어휘 의미 색인의 품질은 여기에 포함된 어휘 단위의 완전성에 의해 결정됩니다. 주어진 주제 영역에 대해 정보적으로 의미 있는 단어를 동의어 사전에 입력할 확률로 이해됩니다. 어휘-의미적 색인의 완전성과 결과적으로 전체 시소러스의 완전성은 문서 및 쿼리 색인화 결과에 상당한 영향을 미칩니다.

추가 부분에는 체계적, 순열적, 계층적 및 기타 색인과 어휘 단위의 특수 범주 목록이 포함될 수 있습니다.

체계적 색인은 IPT에서 허용되는 표제에 따라 설명자가 그룹화되는 색인입니다. 체계적 색인은 시소러스 주제별 방향을 정의하고 내용을 밝히며 하나 또는 다른 깊이로 검색할 수 있는 과학 및 기술 분야를 반영합니다. IPT의 일부로서 이것이 필요한 이유는 특정 지식 분야에서 용어의 일반적인 상태를 시각적으로 표현하고 일관된 용어 모델을 구축할 수 있으며 가능한 경우 모든 용어와 동의어 사전에서 장소를 찾아야 하는 개념. 서술어와 서술어의 집합을 주제별로 정렬하여 문서 검색 이미지와 질의어를 취합할 때 용어 검색을 용이하게 하기 위함이다.

체계적 색인은 본질적으로 시소러스를 용어로 채우기 위한 분류 체계입니다. 주제 영역에 따라 일련의 설명어를 정렬하여 구성되기 때문입니다.

IPT의 체계적 지수는 세 가지 유형으로 나뉩니다.

어간 형성 모음,

혼합.

이러한 구분은 체계적 지표의 분류 체계를 구성하는 원리를 반영한 ​​것이다.

IPT의 체계적 색인이 수행하는 주요 기능:

시소러스(검색 기능)에 명시적으로 표현되지 않은 색인 개념에 대한 설명어 검색을 전체적으로 제공하여 색인화에서 보조로 사용합니다.

시소러스(IPT 유지 기능)를 유지하는 과정에서 사용

IPT의 구조적 기반으로 사용하여 개발 관리(건설적 기능)로 사용합니다.

GOST 7.25-2001 (2)에 따라 주제 부분에서 주제 및 혼합 유형의 체계적인 색인을 구성할 때 Interstate NTI 루브리케이터의 루브릭 또는 Interstate NTI 루브리케이터와 호환되는 특정 ASNTI 루브리케이터를 사용해야 합니다. 범주형 및 혼합형의 체계적 색인을 구성할 때 범주형 부분에는 다음 일반 범주가 따릅니다.

분야 및 활동 분야의 이름

품목, 재료;

방법, 프로세스, 작업, 현상

속성, 값, 매개변수, 특성

관계, 구조, 모델, 법칙, 규칙, 추상적 개념.

계층적 인덱스. 계층적 인덱스는 각 목록이 부모가 없는 설명자로 시작하는 설명자 목록 목록을 제공하는 인덱스입니다. IPT의 계층적 관계의 전체 구조를 반영합니다. 각 설명자 다음에는 번호 매기기 또는 수준의 그래픽 지정을 사용하여 계층 구조에서 수준 표시와 함께 설명자가 직접 제공됩니다.

IPT의 계층적 색인을 개발할 필요성은 전체 개념 종속 시스템이 IPT의 사전 항목에 고정되어 있지 않다는 사실에 기인합니다. 이는 어휘 의미 색인의 상당한 증가를 수반합니다. IPT의 독립적인 섹션을 개발할 필요가 있습니다. 이 섹션은 설명자가 맨 아래에 종속되는 전체 계층적 체인을 반영하는 계층적 인덱스입니다.

순열 색인은 설명자를 나타내는 구 구성 요소의 일부인 모든 개별 단어를 알파벳순으로 나열하고 각 단어에 대해 이러한 단어를 포함하는 모든 설명자를 표시하는 색인입니다. 따라서 각 용어는 중요한 단어를 포함하는 만큼 순열 색인에 나타납니다. 순열 색인의 목적은 어휘 단위의 시작 부분에 없는 단어를 포함하여 구성에 포함된 단어로 설명자 구를 검색하는 것입니다. 단일 루트 단어를 한 곳에 그룹화할 수 있습니다.

일반적으로 순열 색인은 자동화된 방식으로 컴파일되며 일반적으로 모든 중요한 단어(용어)가 정렬되는 KWIC 유형(키워드 - 컨텍스트 내 - "키워드 컨텍스트")의 색인 형식을 갖습니다. 알파벳순으로. 순열 인덱스에서 는 용어 요소의 마이크로컨텍스트에 의해 형성되는 열의 중앙에 있으며 맞지 않는 용어 부분은 같은 줄의 왼쪽으로 전송됩니다.

광학 양자

각성

전기 같은

종속 가진

간섭 발생기

직렬 생성기

DC 발전기

DC GENERATORS가 필요한 것으로 입증되었습니다.

4. IPT의 개발, 심사, 등록 및 유지 절차

현재 IPT의 개발, 심사 및 등록 절차는 GOST 7.25-2001 “정보 검색 시소러스 단일 언어. 개발 규칙, 구조, 구성 및 프레젠테이션 형식” 및 GOST 7.24-2007 “다국어 정보 검색 시소러스. 건설을 위한 구성, 구조 및 기본 요구 사항. 이 표준에 따라 IPT의 심사 및 등록 기능은 국내 및 국제 예탁 기금에 의해 수행됩니다.

러시아어로 된 IPT의 국가예탁기금(러시아어로 된 설명어와 동등한 IPT 포함)은 VINITI의 에 있습니다.

또한 두 개의 국제 기탁 IPT가 있습니다.

1) 영어로 된 설명어의 등가물을 포함하는 IPT를 포함하여 영어로 된 IPT International Depository Fund. 토론토 대학교 정보 과학부 도서관(Thesaurus Clearinghouse - "settlement", The Library, Faculty of Information Studies, University of Toronto, TORONTO, Canada)에 있습니다.

2) 영어 이외의 모든 언어로 된 IPT International Depository Fund. 바르샤바의 과학 및 기술 및 경제 정보(Instytut Informacji Naukowej, Technicznej i Ekonomicznej, Clearinghouse, WARSZAW A, 폴란드)에 있습니다.

이러한 조직의 전체 주소는 GOST 7.25-2001에 나와 있습니다.

GOST 7.25-2001 및 GOST 7.24-2007은 IPT 개발자의 조치를 다음과 같이 정의합니다.

1. IPT 생성 작업을 시작하기 전에 개발자는 주어진 주제에 대해 등록된 시소러스의 가용성을 결정하기 위해 적절한 국내 또는 국제 기탁 기금에 신청해야 합니다. 그러한 시소러스가 있는 경우 주어진 시스템에 시소러스를 도입할 가능성에 대한 평가가 이루어집니다. 그러한 시소러스가 발견되지 않으면 IPT 생성이 가능할 수 있습니다. 동시에 IPT 생성을 위한 전체 기술은 GOST 7.25-2001 및 GOST 7.24-2007을 엄격히 준수해야 합니다.

2. 완성된(개발된) IPT는 GOST 7.25-2001 준수 여부에 대한 검사를 받아야 합니다. 표준을 충족하면 National이 개발자에게 발행합니다. 이 IPT의 예치(예치)는 해당 국가 또는 국제 기탁 기금 중 하나(토론토 또는 바르샤바)에 예치(예치)됩니다.

국립기탁소는 요소를 차용하고 다양한 정보 시스템의 언어적 지원의 호환성을 보장하기 위해 기탁된 IPT의 자금 구성에 대한 정보를 전파하고 새로운 IPT 개발자에게 제공합니다. 따라서 검사, 등록, IPT 저장 및 사용 가능한 IPT에 대한 정보 기능을 수행합니다.

IPT 관리를 위한 많은 작업)

AIS를 독립 운영에서 네트워크 운영으로 전환(단일 유지 관리 원칙의 틀 내에서 IPT를 사용하는 경우 동의해야 함).

IPT를 유지하고 실행하는 프로세스를 시소러스 유지 또는 조정이라고 합니다. 일반적으로 다음이 포함됩니다.

IPT의 어휘 구성 변경: 새로운 어휘 단위 도입, 어휘 단위의 상태 변경(키워드를 설명자로 또는 그 반대로 변환)

IPT의 패러다임 관계 변화(강화, 약화);

IPT 유지 관리에는 ITP에서 패러다임 관계가 고정되는 도움을 받아 사전, 어휘의 알파벳순 정렬, 참조의 상호성 및 일관성 확인과 같은 힘든 작업을 신속하게 수행할 수 있는 자동화 도구의 필수 사용이 포함됩니다. .

시소러스(그리스 시소러스에서-보물) 현대 언어학에서-어휘 단위 사이의 의미 론적 관계 (동의어, 반의어, 동의어, 하위어, 상위어 등)를 나타내는 특수한 종류의 일반 또는 특수 어휘 사전. 따라서 특히 전자 형식의 시소러스는 개별 주제 영역을 설명하는 가장 효과적인 도구 중 하나입니다.

설명 사전과 달리 동의어 사전을 사용하면 정의의 도움을 받을 뿐만 아니라 인공 지능 시스템에서 사용할 수 있는 다른 개념 및 해당 그룹과 단어를 연관시켜 의미를 식별할 수 있습니다.

과거에 시소러스라는 용어는 주로 텍스트에서 사용된 예와 함께 최대한의 완성도로 언어의 어휘를 나타내는 사전을 나타냈습니다.

동의어- 의미론적 차이(전체 또는 부분)가 있는 단어의 부분적인 소리 유사성. 동의어는 종종 음성 오류의 원인입니다.

단일 루트 동의어의 예: dress - put on, human - humane, pay - pay - pay.

완전히 관련이없는 동의어의 예 : 생물학 - bryology, 국물 - brillon, 설탕에 절인 과일 - complot, 질감 - 골절.

그러나 동의어 사전은 정보 검색 도구 그 이상입니다. 동의어 사전은 용어 체계의 보편적인 모델로 간주될 수 있으므로 특정 과학 분야의 언어에 포함된 지식의 형식 체계로 간주될 수 있습니다.

범용 동의어 사전

가장 일반적인 정의의 동의어 사전은 어휘 단위 사이에 의미론적 연결이 있는 사전입니다. 1950년대 후반부터 동의어 사전은 기계 번역 시스템과 정보 검색 시스템(IPS)에서 사용되었습니다.

일반적인 어휘를 자세히 설명하도록 설계된 의미 사전과 달리 thesauri는 매우 구체적인 단어와 구문을 저장하고 분류하도록 설계되었습니다. 예를 들어, 단어 물질 ROSS 사전(Russian General Semantic Dictionary)에 있으며, 화합물의 모든 이름은 이미 시소러스에 있습니다.

시소러스에는 어떤 관계가 설명되어 있습니까? 대개:

    속 종 (AKO)

    부분-전체(POF)

    동의어/반의어

    연관.

속-종 관계의 예

시맨틱 파싱 예시

이것 패러다임의(언어의 단어 사이에 존재하는 안정적인 연결). 그게 다가 아닙니다.

신타그매틱(텍스트) 링크는 동의어 사전에 표시되지 않습니다.

예: WORDNET - 지능형 컴퓨터 동의어 사전

http://wordnet.princeton.edu/perl/webwn

Princeton University에서 제작되어 자유롭게 배포됩니다.

주요 특징들.

그 안에 있는 단어는 동의어 그룹( synsets - synsets). 명사, 형용사, 동사, 부사의 4가지 사전으로 나뉩니다.

Synsets는 계층적 관계(하위어 및 상위어)와 반의어 및 중간어(어떤 것의 일부가 되거나 일부로 구성됨)와 관련하여 통합됩니다.

형태학 문제도 해결됩니다. WN 호출 후 단어가 원래 형식으로 반환됩니다.

정보 검색 시소러스

정보 검색 분야에서 시소러스는 텍스트에서 실제 개체를 설명하는 설명자로 전환하는 이점을 얻습니다. 설명자로 이동하면 확장(중복) 인덱싱이 가능합니다.

정보 검색 시소러스에서는 기술어 간의 PARADIGMATIC 관계가 명시적으로 표현됩니다(모두는 아니지만 정보 검색의 완성도를 높이는 데 가장 중요한 관계). 가장 중요한 패러다임 관계는 다음과 같다는 것이 실험적으로 결정되었습니다.

    종속

    유사

    종-속(속-종)

    원인 결과

    부분 전체.

사전 항목의 예:

농업 기계 농업 장비

동의어 농업 기계, 농업 기계,

보다: 감자 수확기, 파종기 등

중복 인덱싱의 예

요구 "농업 기계. 농기구"

예: 러시아어 대학 정보 시스템 RUSSIA의 사회-정치 시소러스

http://www.cir.ru/index.jsp

자율 비영리 조직 "정보 연구 센터"(ANO TsII)에서 개발

Thesaurus는 개념과 용어 사이에 링크가 있는 용어 사전으로 구현된 용어 리소스입니다. 시소러스의 주요 목적은 정보 검색을 돕는 것입니다. 시소러스의 링크를 기반으로 쿼리가 확장되고 시소러스의 링크를 통한 탐색은 쿼리 자체를 보다 명확하게 공식화하는 데 도움이 됩니다.

Thesaurus UIS "Russia" 계층 구조의 특징은 분류의 복수성입니다. 즉, 대부분의 개념에 대해 단일 분류 개념이 검색되지 않지만(ABOVE - BELOW 연결) 특정 개념에 대한 서로 다른 관점은 다음과 같습니다. 예를 들어 SHOP의 개념은 BUILDING과 TRADING ORGANIZATION 모두로 간주될 수 있습니다.

사회-정치적 주제에 대한 시소러스에는 26,000개 이상의 개념, 62,000개 이상의 용어, 100,000개의 직접적 관계 및 700,000개의 개념 간의 상속 관계가 포함됩니다. Thesaurus의 현재 버전은 경제, 정치, 군사, 입법, 사회, 국제 관계 및 기타 영역을 포함하여 사회 정치 분야에서 사용되는 용어를 설명합니다.

Thesaurus의 전체 이름은 자동 색인 생성을 위한 사회 정치적 주제에 대한 정보 검색 시소러스입니다. 여기서 모든 정의가 중요합니다.

    "정보 검색" - 사용자가 요청을 구성(설명)하는 데 도움을 주고 검색 중에 요청 용어를 자동으로 확장하기 위해 정보 검색에 사용하도록 특별히 설계되었습니다.

    "사회정치적 주제" - 사회정치적 주제에 관한 러시아어 텍스트의 어휘와 용어의 95-99%를 다루고 있습니다.

    "자동 인덱싱" - 문서의 주제를 자동으로 결정하는 프로세스의 기초이므로 시소러스 계층 구조에서 가까운 용어를 주제별 노드, 자동 분류 및 자동 주석으로 그룹화합니다.

동의어 사전 - 결론

많은 잘 알려진 시소러스(WordNet, Roget, EuroWordNet)의 경우 시소러스 링크에 의한 자동 추론은 가장 가까운 이웃으로의 확장이 정확하지만 완전하지 않고 이웃을 확장하려는 시도가 오류로 이어질 때 큰 문제로 남아 있습니다.

교과 영역의 개념 체계 모든 교과 영역의 기초는 이 영역의 개념 체계입니다. 개념의 정의: 개념은 현실의 대상과 현상을 속성과 관계를 고정시켜 일반화된 형태로 반영한 사상이다. 후자(속성 및 관계)는 개체 및 현상의 클래스와 상관 관계가 있는 일반 및 특정 기능으로 개념에 나타납니다(Linguistic Dictionary).


개념 및 용어 텍스트에서 주제 영역의 개념을 표현하기 위해 용어라는 단어나 구가 사용됩니다. 주제 영역의 용어 집합은 용어 체계를 형성합니다. 주제 영역의 용어 시스템의 다른 용어와 특정 용어의 관계는 정의에 의해 제공됩니다.


용어의 정의? 과학, 기술, 예술, 사회생활 등 어떤 특수한 분야의 어떤 개념을 정확히 가리키는 말(또는 말의 조합). || 어떤 것을 나타내기 위해 사용하는 특별한 단어나 표현. 특정 환경에서, 직업 (러시아어 큰 설명 사전)


용어 - 개념의 정확한 이름 일반적으로 영역의 각 개념은 적어도 하나의 명확하게 이해되는 용어에 해당하며 그 의미는 이 개념입니다. - 용어, 전통적인 용어 이론의 의미에서 용어의 속성 - 개념의 정확한 이름 - 용어는 개념을 직접 참조해야 하며 개념을 명확하게 표현해야 합니다. - 용어의 의미는 정확해야 하며 다른 용어와 의미가 중복되어서는 안 됩니다. - 용어의 의미는 문맥에 따라 달라지지 않아야 합니다. 개념을 정확하게 명명하는 용어는 용어론, 용어학자의 연구 대상이다.


텍스트 용어 주제 영역의 실제 텍스트에서 기본 용어 외에도 다양한 언어 표현을 사용하여 개념을 참조할 수 있으며 이를 텍스트 용어라고 합니다. - 구문 및 단어 형성 옵션: 예산 자금 수령인 - 예산 수신자 - 어휘 변형 - 직접 기각, 논쟁의 여지가 없는 기각; - 문맥에 따라 지역의 다른 개념에 대한 참조 역할을 하는 다중 값 표현. 예를 들어 다른 문맥에서 통화라는 단어는 국가 통화 또는 외화를 의미할 수 있습니다.














레이블이 지정된 설명자 레이블 - 설명자 이름의 일부 기중기(리프팅 장비) vs 기중기(새) 껍질(구조) - 다양한 시소러스 비교 구에 대한 기본 설정: –축음기 레코드 대 레코드(축음기) 쓰레기와 복수형: Wood(재료) Woods(숲이 우거진 지역)






여러 단어 표현에 기반한 기술어 포함 용어를 나누면 모호성이 증가합니다. 식물 식품 표현의 의미는 단어 순서에 따라 다릅니다. 정보 과학 - 과학 정보 구성 단어 중 하나가 시소러스의 범위를 벗어나거나 너무 일반적입니다. 원조 기술어 관계는 다음 구조를 따르지 않습니다. –인공 신장, 난민 지위, 신호등




연관 관계 활동 분야 - 캐릭터 - 수학자 - 수학자 분야 - 연구 대상 - 신경학 - 신경계 행동 - 에이전트 또는 도구 - 사냥 - 사냥꾼 행동 - 행동의 결과 - 직조 - 직물 행동 - 목표 - 바인딩 - 책 원인-결과 - 사망 - 장례가 - 측정단위 - 전류강도 - 암페어 작용 - 상대방 - 알레르겐 - 항알레르기제 등


정보 검색 시소러스: 개발 단계 1단계: 색인자는 텍스트의 주요 주제를 임의의 단어와 구문으로 기술합니다. 많은 텍스트에서 얻은 용어를 함께 가져옵니다. 의미가 가까운 용어 중에서 가장 대표적인 것을 선택합니다. 조건부 동의어, 나머지는 삭제됨 특정 용어는 일반적으로 포함되지 않음


Information retrieval thesauri: the art of design 기술어는 문서의 주요 주제를 표현하는 데 필요한 용어입니다. 동의어는 인덱서의 작업을 방해하지 않도록 가장 필요한 것만 포함합니다(예: 다른 문자로 시작). 유사한 용어는 주관성 색인화를 피하기 위해 한 용어로 줄여야 함 계층구조, 특정 용어 포함 제한


Information retrieval thesaurus: the art of development - 2 복잡한 경우에는 설명자가 레이블과 설명과 함께 제공됩니다. -LIV: 폭격 - 폭격 -모호한 용어: 시소러스(대문자)의 값 하나, 시소러스에 맞지 않음, 레이블!! ! 전통적인 정보 검색 시소러스 - 실제 용어를 기반으로 구축된 인공 언어




전통적인 IPT: 자동 처리에 적용 소프트웨어의 실제 언어에 대한 지식 부족 소프트웨어의 실제 언어에 대한 지식 부족 입법 색인 어휘: 입법 색인 어휘: – 본문에서 TROOPS – 동의어 사전 MILITARY FORCES – 본문에서 자본 – 대문자, 시소러스에서는 대문자만 제안됨: 각 설명자는 단어 및 용어 목록으로 보충 제안됨: 각 설명자는 단어 및 용어 목록으로 보완되어야 하지만: 다의어 또는 다른 설명자와 관련됨. 그러나: polysemy 또는 다른 기술어와 관련된. 모호함 해결 모호함 해결


기존 IPT: 자동 쿼리 확장 연결 문제 제안: 가중치 입력 가중치 입력 관계 이름 입력: 개체, 속성 등 개체, 속성 등의 관계 이름을 입력합니다. 결론: 텍스트 컬렉션의 자동 처리를 위해 특별히 언어 리소스를 구축하는 방법을 배워야 합니다.


EUROVOC 동의어 사전 – 유럽 공동체의 다국어 동의어 사전 EUROVOC의 러시아어 버전 9개 언어로 된 동의어 사전 – 러시아어 특성을 반영하는 +5,000개 개념


EUROVOC 시소러스(Hlava, Heinebach, 1996)의 규칙 기반 자동 인덱싱 규칙 예: IF("기술" 및 "개발" 근처) USE 커뮤니티 프로그램 USE 개발 지원 ENDIF 40,000개의 규칙. 테스트: 자동으로 생성된 텍스트에서 가장 빈번한 20개의 설명자 - 수동 윤활과 비교하여 42% 완성도


단어와 설명자 간의 일치 가중치 설정을 기반으로 하는 자동 색인화(Steinberger et al., 2000) 1단계 - 통계적 측정(카이제곱 또는 로그 가능성)을 기반으로 텍스트 단어와 할당된 설명자 간의 일치성 설정 FISHERY MANAGEMENT 설명자 - 다음 단어(무게 내림차순): 어업, 어류, 가축, 어업, 보존, 관리, 선박 등 2단계 인덱싱 자체 - 가중치의 로그 합계 또는 벡터의 스칼라 곱


느슨하고 정보 검색 시소러스 쿼리의 조합 수동으로 인덱싱된 컬렉션 - 상관관계 사용자가 자연어 쿼리를 설정합니다. 예를 들어 부실기업(부실기업)의 요청으로 유동성, 부채, 기업, 회사 등의 서술어 목록을 얻을 수 있고, 질의를 확장해 실험 정확도를 13% 높였다.



섹션은 사용하기 매우 쉽습니다. 제안된 필드에 원하는 단어를 입력하면 그 의미 목록을 제공합니다. 우리 사이트는 백과 사전, 설명, 단어 구성 사전과 같은 다양한 출처의 데이터를 제공한다는 점에 유의하고 싶습니다. 여기에서 입력한 단어의 사용 예를 알 수 있습니다.

동의어 사전의 의미

크로스워드 사전의 동의어 사전

러시아어의 설명 사전. S.I.Ozhegov, N.Yu Shvedova.

시소러스

[te], -a, m.(특수).

    모든 어휘를 완전히 반영하는 작업을 설정하는 언어 사전.

    어떤 종류의 용어, 개념을 완전히 다루는 사전 또는 데이터 집합입니다. 특별한 지역.

    조정 시소러스, th, th.

러시아어 T. F. Efremova의 새로운 설명 및 파생 사전.

시소러스

    모든 사전. 전체 어휘를 ​​나타내는 언어.

    데이터에 대한 완전하고 체계적인 데이터 세트 사람이나 컴퓨터가 탐색할 수 있도록 하는 지식 분야(컴퓨터 과학).

백과 사전, 1998

시소러스

Thesaurus (그리스 동의어 사전 - 보물)

    언어의 단어가 텍스트에서 사용된 예와 함께 가능한 한 완전하게 제시되는 사전(사어에 대해서만 완전히 가능함).

    어떤 지식 분야와 관련된 단어를 주제 원리에 따라 정리하고 어휘 단위 간의 의미적 관계(속별, 동의어 등)를 나타낸 사전. 정보 검색 시소러스에서 텍스트의 어휘 단위는 설명자로 대체됩니다.

시소러스

(그리스 테소로스 ≈ 보물, 재무부에서 유래), 의미론적(의미론 참조) 관계 시스템이 포함된 특정 언어의 의미론적 단위 집합. T. 실제로 언어의 의미론(국어, 특정 과학의 언어 또는 자동화 제어 시스템을 위한 공식 언어)을 결정합니다. 처음에 T. 는 주제별 표제에 따라 단어를 그룹화하여 의미 론적 관계가 결정되는 단일 언어 사전으로 간주되었습니다. 예를 들어, 1962년에 출판된 English T.(저자 P. M. Roget)(1852년 초판)에는 1040개의 제목이 포함되어 있으며 그 중 약 240,000개의 단어가 배포됩니다. 이 T.의 색인(키)에는 각 단어가 속한 표제와 소제목을 나타내는 단어의 알파벳순 목록이 포함되어 있습니다. 영어, 프랑스어 및 스페인어에 대한 전통적인 일반 언어 언어(개별 언어의 의미 체계에 대한 설명)가 있습니다. 예를 들어 S. I. Ozhegov의 러시아어 사전과 같이 각 단어의 주요 의미 매개 변수의 표현을 정의하는 단일 언어 사전은 T.와 매우 가깝습니다.

70년대에. 20 세기 정보 검색 자료가 널리 보급되었으며, 이러한 자료에서 문서 정보를 자동으로 검색하는 데 사용할 수 있는 특수 어휘 단위 또는 설명어가 식별되었습니다. 이러한 용어의 각 단어는 동의어 설명자(동의어 참조)와 연관되며 의미론적 관계는 설명자에 대해 명시적으로 표시됩니다: 속 ≈ 종, 부분 ≈ 전체, 목표 ≈ 수단 등 일반적으로 속을 분리하는 것이 일반적입니다. 종(계층적) 및 연관 관계. 따라서 1973년 소련에서 출판된 "Information Retrieval Thesaurus in Informatics"는 각 설명자에 대해 동의어 키워드, 일반, 특정 및 연관 설명자를 별도로 나타내는 사전 항목을 제공합니다. 디스크립터 사이의 연관 링크에서 더 나은 방향성을 위해 주제 클래스의 시맨틱 맵이 이 T에 첨부됩니다. 자동화된 정보 검색에서 인덱스에 쿼리 설명자뿐만 아니라 특정 의미 관계에 있는 설명자가 포함된 문서를 검색합니다. 때로는 주어진 주제 영역에 특정한 T.의 특정 연관 관계를 선택하는 것이 유용합니다: 질병 ≈ 원인 물질, 장치 ≈ 목적(또는 측정된 값) 등. 어휘 단위(단어, 구)의 위치 T. 언어의 의미를 특성화합니다. 주어진 단어가 들어가는 의미론적 관계 체계에 대한 지식(그 단어가 들어가는 루브릭 포함)은 이 단어의 의미를 판단할 수 있게 합니다.

넓은 의미에서 기술은 개별 정보 캐리어 또는 캐리어 그룹이 소유한 현실에 대한 지식 시스템에 대한 설명으로 해석됩니다. 이 캐리어는 추가 정보 수신기의 기능을 수행할 수 있으며 그 결과 T.도 변경되며 초기 T.는 의미 정보를 수신할 때 수신기의 기능을 결정합니다. 심리학과 인공 지능 시스템 연구에서 정보의 인식과 이해에서 나타나는 개인의 T. 속성이 고려됩니다. 사회학 및 커뮤니케이션 이론에서는 T의 일반성을 기반으로 상호 이해의 가능성을 제공하는 개인 및 집단의 T. 속성을 연구합니다. 이러한 상황에서 T.는 복잡한 진술과 의미적 연결을 포함해야 합니다. 복잡한 시스템이 가지고 있는 정보의 저장량. T.는 실제로 현실에 대한 정보뿐만 아니라 새로운 메시지를 받을 가능성을 제공하는 메타 정보(정보에 대한 정보)도 포함하고 있습니다.

Lit .: Cherny A.I., 시소러스 구성을 위한 일반적인 방법론, “과학 및 기술 정보. Ser. 2", 1968, ╧5; Varga D., 정보 시소러스 준비 방법론, trans. [Hung.에서], M., 1970; Shreider Yu.A., 정보학 및 이론적 의미론의 Thesauri, “과학적 및 기술 정보. Ser. 2", 1971, ╧ Z.

Yu. A. Schreider.

위키백과

시소러스

시소러스, 일반적인 의미에서-특수 용어,보다 엄격하고 실질적으로-사전에 기여해야하는 특수 지식 분야 또는 활동 분야의 개념, 정의 및 용어를 완전히 다루는 사전, 정보 모음, 말뭉치 또는 코드 올바른 어휘, 기업 커뮤니케이션; 현대 언어학에서 어휘 단위 사이의 의미 관계(동의어, 반의어, 동의어, 하위어, 상위어 등)를 나타내는 특별한 종류의 사전. 시소러스는 개별 주제 영역을 설명하는 가장 효과적인 도구 중 하나입니다.

설명 사전과 달리 동의어 사전은 정의의 도움을 받을 뿐만 아니라 단어를 다른 개념 및 해당 그룹과 연관시켜 의미를 밝힐 수 있으므로 인공 지식 기반을 채우는 데 사용할 수 있습니다. 지능 시스템.

과거에는 용어 시소러스최대 완전성을 가진 텍스트에서의 사용 예와 함께 언어의 어휘를 나타내는 사전이 주로 지정되었습니다.

또한 용어 시소러스정보 이론에서 주제가 소유한 모든 정보의 총체를 나타내는 데 사용됩니다.

심리학에서 개인의 동의어 사전은 정보에 대한 인식과 이해를 특징짓습니다. 커뮤니케이션 이론은 또한 요소가 상호 작용하는 복잡한 시스템의 일반적인 시소러스를 고려합니다.

동의어 사전(동음이의)

시소러스:

  • Thesaurus - 특정 지식 분야 또는 활동 분야의 개념, 정의 및 용어를 다루는 사전, 정보 모음.
  • Roger의 시소러스는 역사상 최초이자 가장 유명한 표의 사전 중 하나입니다.

문헌에서 시소러스 단어 사용의 예.

인식과 공동 창조를 위해 일부 최적 시소러스작지는 않지만 너무 크지도 않습니다.

들어오는 정보의 양이 무제한으로 시소러스, 그 가치는 이 수량에 의존하지 않으며 전적으로 다음에 의해 결정됩니다. 시소러스옴.

다양성, 예술의 체계적 특성은 전체 작품에 대한 고르지 않은 인식으로 이어집니다. 구절의 일부 측면에 대한 인식 시소러스최적, 다른 사람에게는 불충분하거나 너무 큽니다.

왜냐하면 시소러스성장하고 변화하기 때문에 작업을 다시 아는 것은 새로운 귀중한 정보를 얻는 것을 의미할 수 있습니다.

그가 좋아하게 된 동화를 반복해서 다시 읽고 싶은 아이의 욕망은 이해할 수 있습니다. 시소러스그의 공동 창작 능력, 연관 환상화 능력은 특히 뛰어납니다.

문제의 이 측면은 보다 변경 가능하고 주관적입니다. 시소러스, 그리고 작품에 대한 객관적인 미적 평가를 찾기 위해서는 최소한으로 줄여야 한다.

그는 침투 시소러스시인과 번역 주소 시소러스외국 독자로부터.

이 가장 중요한 것은 귀하의 시소러스, 티.

아니요, 자신의 짐이 부족하고 미개발 상태입니다. 시소러스아직 초기 단계이며, 그가 그것을 이해하지 못한다면 시소러스증가해야합니다. 그러면 어쨌든이 여자는 그와 함께 어려움을 겪을 것입니다.

부자 시소러스, 진정한 지식을 바탕으로 가장 가까운 사람과의 가장 가까운 의사 소통을 포함하여 다른 사람과 의사 소통하는 사람이 일어나는 모든 일에 올바르게 대응할 수 있습니다.

성장과 함께 정보의 가치가 떨어지는 것은 당연합니다. 시소러스관계에 의존해야 한다 시소러스받은 정보의 양만큼.

분명히 예술적 정보의 최적 가치는 근접성에 해당합니다. 시소러스독자와 시소러스시인.

창의성과 마찬가지로 공동 창작에는 영감, 즉 포용이 필요하다고 말할 수 있습니다. 시소러스가장 넓은 의미에서.

이러한 밝은 이미지와 밝은 사운드의 내적 반복은 기존의 시소러스, 동일한 미적 반복의 순간으로 그것을 풍부하게 합니다.

이 지점에서 시소러스 Nabokov와 Prishvin은 Platonov의 대척점으로 간주되어야 하며 Marina Tsvetaeva는 그와 유사한 것으로 인식될 수 있습니다.

N. V. 루카셰비치

[이메일 보호]

B. V. 도브로프

모스크바 주립 대학 연구 컴퓨팅 센터 M.V.로모노소프;

ANO 정보 연구 센터

[이메일 보호]

키워드:동의어 사전, 정보 검색, 자동 텍스트 처리,

대량의 텍스트 모음과 함께 작동하는 대부분의 기술은 통계 및 확률 방법을 기반으로 합니다. 이는 언어학적 방법을 사용하여 텍스트 모음을 처리하는 데 사용할 수 있는 어휘 자원은 수만 개의 사전 항목 볼륨을 가져야 하며 자원 개발 시 특별히 모니터링해야 하는 여러 중요한 속성을 가지고 있어야 한다는 사실 때문입니다. 보고서에서 우리는 현재 42,000개 이상의 개념으로 구성된 계층적 네트워크인 텍스트 RuThez의 컴퓨터 처리를 위해 1997년 이후 생성된 러시아어 시소러스의 예를 사용하여 대규모 텍스트 컬렉션의 자동 처리를 위한 어휘 리소스 개발의 기본 원칙을 고려합니다. . 어휘 구성과 University Information System RUSSIA(www.cir.ru)의 텍스트 코퍼스(400,000개 문서)의 비교를 기반으로 시소러스의 현재 상태를 설명합니다. 다양한 자동 워드 프로세싱 응용 프로그램에서 동의어 사전을 사용하는 예를 설명합니다.

  1. 소개

현재 수백만 개의 문서가 전자 형식으로 제공되고 수천 개의 정보 시스템과 전자 라이브러리가 생성되었습니다. 동시에 검색을 위해 어휘 및 용어 자원을 사용하는 정보 시스템은 퍼센트 단위로 계산됩니다. 이는 현대 전자 문서 컬렉션의 자동 처리를 위해 이러한 언어 리소스를 생성하는 데 심각한 문제가 있기 때문입니다.

첫째, 이러한 컬렉션은 일반적으로 매우 크며 리소스에는 수천 개의 단어 및 용어에 대한 설명이 포함되어야 합니다. 둘째, 컬렉션은 다양한 구문 구조를 가진 다양한 구조의 문서 집합으로, 텍스트 문장을 자동으로 처리하기 어렵습니다. 또한 중요한 정보는 종종 텍스트의 여러 문장에 분산되어 있습니다.

이 모든 것은 한편으로는 전자 컬렉션의 자동 처리 및 검색에 유용하고 다른 한편으로는 예측 가능한 시간에 생성되고 상대적으로 유지 관리되는 언어 자원의 종류에 대한 질문을 날카롭게 제기합니다. 약간의 노력.

이 기사에서는 대규모 텍스트 컬렉션의 자동 처리를 위한 어휘 리소스 개발의 기본 원칙을 고려할 것입니다. 이러한 원칙은 텍스트 RuThez의 컴퓨터 처리를 위해 ANO 정보 연구 센터에서 1997년 이후로 만든 러시아어 시소러스의 예에서 고려할 것입니다. RuThez는 현재 95,000개 이상의 러시아어 단어, 표현, 용어를 포함하는 42,000개 이상의 개념으로 구성된 계층적 네트워크입니다. 우리는 모스크바 주립 대학의 연구 개발 센터에서 지원하는 대학 정보 시스템 RUSSIA의 텍스트 코퍼스의 어휘 구성과 어휘의 비교를 기반으로 시소러스의 현재 상태를 설명합니다. MV Lomonosov 및 ANO TsII. UIS RUSSIA(www.cir.ru)에는 사회 정치적 주제에 관한 400,000개의 문서가 포함되어 있습니다(약 3GB의 텍스트, 2억 단어 사용). 이 기사에서는 다양한 워드 프로세싱 응용 프로그램에서 동의어 사전을 사용하는 예도 살펴봅니다.

  1. 언어 자원 개발을 위한 원칙

정보 검색 작업

전자 문서의 효율적인 자동 처리(자동 인덱싱, 분류, 문서 비교)를 보장하려면 문서에 언급된 내용의 목록인 비교 기반을 구축해야 합니다. 이러한 색인이 단어 색인보다 효과적이려면 동의어, 다의어, 품사, 스타일 등 텍스트의 어휘 다양성을 극복하고 불변으로 축소해야합니다. 이는 비교의 기초가되는 개념입니다. 다른 텍스트. 따라서 개념은 언어적 자원의 기반이 되어야 하며, 언어 표현(단어, 용어)은 해당 개념을 초기화하는 텍스트 입력일 뿐이다.

서로 다르지만 가까운 의미, 개념, 개념을 비교할 수 있으려면 그들 사이에 관계를 설정해야 합니다. 전통적으로 자연어로 된 텍스트의 자동 처리를 위한 언어 자원에서는 다음과 같은 특정 의미론적 관계 집합이 사용되었습니다. 부분, 근원, 원인등등. 그러나 규모가 크고 이질적인 텍스트 컬렉션으로 작업할 때 현재 텍스트 처리 기술 상태에서는 컴퓨터 시스템이 우리가 수행하는 절차를 수행하기 위해 안정적인 방식으로 텍스트에서 이러한 관계를 감지할 수 없다는 점을 이해해야 합니다. 특정 관계와 관련이 있습니다. 따라서 개념 간의 관계는 먼저 개념이 언급된 특정 텍스트의 주제에 의존하지 않거나 약하게 의존하는 일부 불변 속성을 설명해야 합니다.

이러한 관계의 주요 기능은 다음 질문에 답하는 것입니다.

텍스트가 C1의 논의에 할애되고 C2가 연결된 것으로 알려진 경우

태도아르 자형C1을 사용하면 텍스트의 주제가(*)

C2와 관련이 있습니까?

자동 처리를 위한 언어 리소스를 생성할 때 개념 C1 및 C2의 어떤 속성이 그들 사이의 올바른(*) 관계 설정을 허용하는지 결정하는 것이 중요합니다.

예를 들어 어떤 텍스트에 대해 쓰여 자작 나무,우리는 항상 이것이 가사라고 말할 수 있습니다. 나무.그러나 인기와 관계에 대한 빈번한 논의에도 불구하고 나무일부로 , 나무에 대한 아주 적은 수의 텍스트는 숲에 대한 텍스트입니다. 문제는 관계 이름과 관련이 없습니다. 그래서 개간은 숲의 일부입니다, 개간에 대한 텍스트는 숲에 대한 텍스트입니다.

주제 영역의 텍스트의 가능한 주제의 스펙트럼과 관련하여 관계의 불변성은 관계의 이름에 반영된 것보다 더 깊은 속성, 즉 양화 및 실존 속성에 의해 크게 결정됩니다. 따라서 관계의 수량화 속성은 개념의 모든 인스턴스가 주어진 관계를 갖는지 여부, 주어진 관계가 예제의 전체 수명 주기 동안 보존되는지 여부를 설명합니다. 관계 사용 문제 나무그것은 모든 특정 나무가 숲에 있는 것은 아니지만 개간지가 숲 밖에 있을 수 없다는 사실과 정확히 연결되어 있습니다.

관계의 실존적 속성을 설명하는 예는 개념 C2의 존재가 개념 C1의 존재로부터 파생되는지(예를 들어, 개념의 존재가 차고개념이 필요하다 자동차) 또는 C1의 예의 존재는 C2의 예의 존재에 따라 달라집니다(따라서 특정 홍수구체적인 예와 불가분의 관계 강하). 종속 개념 C2, 특히 예제 종속 개념에 대한 텍스트의 논의는 텍스트가 주 개념 C1과도 관련이 있음을 시사합니다.

개념 간의 관계를 고려하십시오. 숲과 나무자세히. 사실 컨셉 부분은 ~이다 숲 속의 나무, 있는 동안 및 입목,정원의 나무등 어떠한 경우에도 개념의 종속관계를 깨는 것이 요구된다. 나무개념 .

한편, 친절하다 나무 세트, 나무 없이는 존재하지 않습니다 (뿐만 아니라 정원). 따라서 개념 개념에 의존해야 한다 나무. 특정 응용 작업의 요구 사항 분석을 시작으로 이전에는 언어 자원에 거의 반영되지 않았지만 자동 처리 작업에 가장 중요한 관계의 깊은 속성을 설명하는 것이 중요하다는 결론에 도달했습니다. 많은 다른 작업을 위해 대량의 텍스트 모음을 사용할 수 있습니다.

이제 우리는 ABOVE-DOWN(모든 연결의 66%), PART-Whole(연결의 30%), ASSOCIATION(4%)과 같은 일련의 전통적인 시소러스 관계로 개념의 정량화 및 실존적 속성에 대한 설명을 모델링하고 있습니다. 몇 가지 추가 수정자 세트(관계의 20%가 로 표시됨). PART-Whole 및 ASSOCIATION 관계는 규칙(*)에 따라 해석됩니다. 전체적으로 약 160,000개의 개념 간의 직접 연결이 설명되며, 관계의 전이성을 고려하여 총 1350,000개 이상의 연결, 즉 평균적으로 각 개념은 30개의 다른 연결과 연결됩니다. .

  1. RuThes Thesaurus: 일반 구조

RuThes Thesaurus는 개별 단어, 텍스트 표현 또는 동의어 시리즈의 의미에 해당하는 개념의 계층적 네트워크입니다. 따라서 동의어 사전의 주요 요소는 개념, 언어 표현, 관계, 언어 표현-개념, 개념 간의 관계입니다.

시소러스에서 언어 지식 - 전통적으로 어휘, 의미 론적 지식과 관련된 어휘, 관용구 및 그 연결에 대한 설명, 주제 영역 내의 용어 및 관계에 대한 지식, 전통적으로 정보 검색 시소러스에 설명된 용어 학자의 활동 분야와 관련됨 , 단일 시스템에서 수집됩니다. . 이러한 주제 하위 도메인으로서 시소러스는 경제, 법률, 금융, 국제 관계와 같은 주제 영역을 설명하며, 이는 개인의 일상 생활에 매우 중요하여 전통적인 설명 사전에서 중요한 어휘 표현을 갖습니다. 그것들에서 어휘와 용어는 강하게 상호 연결되어 있으며 서로 강하게 상호 작용합니다.

언어 표현은 별도의 어휘(명사, 형용사 및 동사), 명사 및 언어 그룹입니다. 따라서 시소러스는 이제 부사 및 보조 단어를 언어 표현으로 포함하지 않습니다. 다중 단어 그룹에는 용어, 숙어, 어휘 기능( 영향이자형).

각 언어 표현에 대해 다음이 설명됩니다.

그 모호성은 하나 이상의 개념과의 연결이며, 이는 주어진 언어 표현이 이 개념의 텍스트 표현이 될 수 있음을 의미합니다. 언어 표현을 다른 개념에 할당하는 것도 그 모호성을 함축적으로 나타냅니다.

그것의 형태학적 구성(품사, 숫자, 대소문자);

쓰기 기능(예: 대문자 사용) 등

각 시소러스 개념에는 고유한 이름, 이 개념을 텍스트로 표현할 수 있는 언어 표현 목록, 다른 개념과의 관계 목록이 있습니다.

개념의 고유한 이름으로 모호하지 않은 텍스트 표현 중 하나가 일반적으로 선택됩니다. 그러나 개념의 이름은 한 쌍의 모호한 텍스트 표현, 즉 쉼표로 작성되고 이를 고유하게 정의하는 동의어(예: 개념 지방, 지방). 개념 이름의 모호한 텍스트 표현은 예를 들어 개념 군중(사람의 무리).

  1. 사전 항목의 예

우리는 개념의 사전 항목을 예로 선택했습니다. 단어의 의미 중 하나에 해당하는 . 이 사전 항목은 전통적으로 어휘(의미론) 지식과 백과사전 지식(주제 영역에 대한 지식, 용어)이라고 하는 다양한 유형의 지식을 포함하고 있기 때문에 흥미롭습니다.

개념의 동의어 (총 13개):

숲(), 삼림 지대, 삼림 환경,

숲, 숲 분기, 숲 풍경,

숲 지역, 숲, 숲이 우거진,

숲 원시 지역, 숲,

숲의 배열.

동의어가 있는 다음 용어:

밀림(밀림);

삼림 공원(도시 정원, 녹지,

녹색 대산 괴, 삼림 공원,

임업, 임업

벨트, 공원), 공원 구역);

숲 사냥;

낙엽 활엽수림(침엽수림, 활엽수

숲);

작은 숲(참나무 숲);

침엽수림(침엽수 대산괴, 어두운 침엽수림)

동의어가 포함된 개념 부분:

BORELOM(바람막이, 바람막이);

벌목(절단 영역);

산림문화(삼림 종, 임업

문화);

임지(삼림기금의 토지;

숲; 임지, 임지;

숲이 우거진 땅, 숲이 우거진

영역,);

(산림 재배지, 산림 재배지,

조림);

포레스트 엣지(테두리, 테두리);

UNDERGROWTH (덤불);

프로세카;

마른 땅(마른).

여기서 기호(M)는 텍스트 입력의 모호성 표시를 반영합니다.

개념 또한 소위 종속성 관계라고 하는 다른 관계도 있습니다(현대 버전에서는 ASC 2 - 비대칭 연결이라고 함). 산불(산불, 숲의 불; 산림 관리 (산림이용, 산림기금 토지이용); 산림 소유권; 산림과학 (산림과학). 단락 2에서 이미 언급한 바와 같이 FOREST의 개념은 동의어 사전에서 ASC 1 관계로 표시되는 TREE의 개념에 의존합니다.

전체 개념 235개의 개념(총 650개 이상의 텍스트 입력)으로 관계의 전이성을 고려하여 28개의 다른 개념과 직접 관련됩니다.

  1. 최신 기술에 대한 평가

러시아어 RuThez 동의어 사전

5.1. 어휘 구성

현재 시소러스 네트워크에는 95,000개 이상의 언어 표현이 포함되어 있으며 그 중 61,000개는 단일 단어입니다.

이 정도의 작업으로 우리는 Thesaurus의 설명에 어떤 단어와 언어 표현을 포함해야 하는지 결정했습니다. 자연스러운 욕구는 러시아어의 가장 빈번한 단어가 시소러스에서 어떻게 표현되는지 확인하는 것이었습니다. 이를 위해 University Information System RUSSIA의 텍스트 모음(400,000개의 문서)을 사용했습니다. 컬렉션에는 러시아 연방의 다양한 기관의 공식 문서(1992년 이후 55,000개 문서)와 1999년 이후 언론 자료(Izvestia, Nezavisimaya Gazeta, Komsomolskaya Pravda, Arguments and Facts, Expert 잡지 등 신문), 과학 자료가 포함되어 있습니다. 저널 (모스크바 대학교 게시판, 사회학 저널). Thesaurus에 포함된 기본형 목록과 텍스트 컬렉션에서 가장 빈번한 100,000개의 기본형 목록(빈도 25 이상)을 비교했습니다.

목록의 어휘 마크업은 이 10만 개의 기본형 중에서 RuThes에 35,000개가 설명되어 있고 약 7,000개의 어휘만이 Thesaurus에 포함될 자격이 있으며 나머지는 다양한 고유명사의 기본형 변형임을 보여주었습니다. 따라서 보충이 우선 순위가 아니며 가장 빈번한 단어부터 점차적으로 수행됩니다. 이 목록이 기본적으로 소진되는 즉시 정보 시스템의 텍스트 배열과의 다음 비교가 수행되고 빈도가 25 이상인 새로운 토큰이 선택된다고 가정합니다. 줄인. 많은 수의 텍스트 예제의 텍스트 컬렉션에 존재하면 "어휘적 참신함"(예: 설치,블록버스터, 보 몽드, 스릴러) 동의어 사전의 계층 구조 시스템의 적절한 위치에 포함합니다.

현재의 텍스트 컬렉션에 대한 지속적인 작업은 사전에서 제공되는 어휘 설명의 중요성과 품질을 테스트할 수 있는 고유한 기회를 제공합니다. 예를 들어 비정상적으로 높은 빈도의 단어 사용 어머니 참조(400회 이상). 배열을 확인하면 단어가 실제로 단어의 동의어로 자주 사용되는 것으로 나타났습니다. 모스크바, 설명 사전은 종종 이 단어를 구식으로 표시합니다. 자주 사용되는 단어(300회 이상)의 또 다른 예는 사전에서 구식으로 표시되는 단어입니다. 더없이 행복한.

5.2 단어 의미 설명

텍스트 컬렉션과 비교하면 배열의 많은 빈도 단어가 해당(일반적으로 기본) 값 중 하나 이상으로 Thesaurus에 잘 표현되어 있음을 알 수 있습니다. 러시아어의 다의어 단어의 의미 범위가 Thesaurus에 어느 정도 표현되는지 알아내는 것이 현재 우리의 주요 작업입니다.

아시다시피, 서로 다른 사전 소스는 종종 다의어 단어에 대해 서로 다른 의미 집합을 제공하고, 의미의 음영을 구분하며, 동일한 유형의 다의어가 동일한 사전에서도 서로 다른 단어에 대해 다르게 설명될 수 있습니다. 따라서 어휘소의 의미를 일관되고 대표적으로 기술하는 작업은 모든 사전 자원의 작성자에게 중요한 작업입니다.

그러나 리소스가 자동 처리를 위한 것이라면 값에 대한 균형 잡힌 설명 작업이 훨씬 더 중요해집니다. 값을 과도하게 부풀리면 컴퓨터 시스템이 원하는 값을 선택할 수 없게 되어 자동 워드 프로세싱 시스템의 효율성이 크게 떨어집니다. 그래서 워드넷 자원이 자동 워드 프로세싱을 위한 자원으로서의 단점 중 하나로 일부 단어에 대해 기술된 값이 너무 많다는 점이다(워드넷 1.6: 53개 값에 대해). 달리다.47 놀다등등.). 이러한 의미는 텍스트에 시맨틱 주석을 추가할 때 사람도 구별하기 어렵습니다. 컴퓨터 시스템도 적절한 값의 선택에 대처할 수 없다는 것이 분명합니다. 따라서 다른 저자는 처리 품질을 향상시키기 위해 값을 결합하는 다양한 방법을 제안합니다.

동시에 반대 요소가 작용합니다. 값이 어휘 링크 세트(이 경우 시소러스 링크)에서 실제로 다른 경우 - 하나의 단위(하나의 개념)에 붙일 수 없습니다. 자동 처리 품질 저하.

예를 들어 다음 단어를 고려하십시오. 학교그리고 교회, 각각은 조직 및 건물로 간주될 수 있습니다.

각 학교 조직에는 건물이 있습니다(대부분 하나). 학교 건물의 모든 부분(교실, 칠판)은 학교조직으로. 특정 유형의 학교 건물은 없습니다. 따라서 설명 학교건물로서 별도의 개념으로 골라내는 것은 부적절합니다. 그러나 이러한 누적 개념에 대한 설명은 학교조직 및 건물로서 개념과 특별히 설계된 관계가 있어야 합니다. 건물. 동의어 사전에서 이러한 관계를 설명할 때 관계에 대한 표시가 사용됩니다. 수정자 "A"(자동 분석에서 "측면"은 이 관계를 고려하기 위해 다른 개념에 의한 "확인"이 필요함)입니다.

학교

더 높은 교육 기관

A 위 공공 건물

관련 단어 의미 교회그렇게 가깝지 않습니다. 교회조직이 여러 위치에 많은 수의 교회 건물을 가질 수 있고 다른 많은 건물도 가질 수 있는 방법. 교회 건축종교 및 고백과 밀접하게 관련되어 있지만 소속이 바뀔 수 있습니다. 조직 교회. 교회 조직그리고 교회 건축다른 아종을 가지고 있습니다. 그래서 교회(조직) 그리고 교회(건물) RuThes에서는 다른 개념으로 제시됩니다.

시소러스 관계의 상당한 차이는 흥미로운 방식으로 의미에 해당하는 외연이 서로 별도로 존재할 수 있는 능력과 관련이 있습니다. 따라서 교회 건물은 학교 건물과 달리 용도가 바뀌어도 교회 건물은 없어지지 않고 교회라고 불리기도 한다.

동의어 사전의 값 표현을 조정하는 프로세스는 가장 빈번한 기본형부터 시작하여 지속적으로 수행됩니다. 각 빈도 토큰에 대해 해당 값이 설명 사전에 어떻게 설명되어 있는지, 컬렉션에 어떤 값이 사용되었는지, 동의어 사전에 어떻게 표시되어 있는지 확인합니다. 결과적으로 10,000개의 어휘 목록이 형성되었으며, 그 모호성은 여전히 ​​추가 분석 또는 추가 설명이 필요합니다. 이 목록은 가장 빈번한 기본형 30,000개를 기반으로 합니다.

시소러스에서 모호성의 문제는 시소러스 관계가 단어의 다른 의미 사이에서 설명될 수 있고 따라서 계층 구조에서 가장 높은 개념이 기본적으로 선택될 수 있다는 사실로 인해 부분적으로 제거된다는 점에 유의해야 합니다. 분명히 본문에서 다뤘습니다. 예를 들어, 단어 사진세 가지 의미가 있습니다: 활동 분야로서의 사진, 사진으로서의 사진, 사진 스튜디오로서의 사진:

사진술(촬영, 사진술, ..., 사진 )

부분 사진 이미지

(사진, 사진, 사진 )

부분 사진관 (사진 ).

따라서 단어가 사용된 의미를 파악할 수 없는 경우 사진, 기본값은 사진(프로세스, 결과 또는 위치)으로 간주되며 많은 자동 워드 프로세싱 응용 프로그램에 충분합니다.

  1. RuThes 동의어 사전의 적용

자동 워드 프로세싱을 위해

1995년부터 RuThes 사회-정치적 용어집(사회-정치 시소러스)은 자동 개념 색인, 여러 루브리케이터를 사용한 자동 분류, 영어를 포함한 텍스트 자동 주석과 같은 자동 텍스트 처리의 다양한 응용 프로그램에 적극적이고 성공적으로 사용되었습니다.. 사회-정치 시소러스(27,000개의 개념, 62,000개의 텍스트 항목)는 UIS RUSSIA 검색 엔진(www.cir.ru)의 기본 검색 도구입니다.

RuThes 시소러스의 전체 어휘는 복잡한 계층적 표제에 따라 텍스트를 자동 윤활 처리하는 절차에 사용됩니다. 기존 기술에서 각 루브릭은 용어의 부울 표현으로 기술된 후 원래 공식이 시소러스 계층 구조를 따라 확장됩니다. 결과 부울 식에는 이미 수백, 수천 개의 접속사와 절이 포함될 수 있습니다.

VTsIOM에서 여론 조사 설문지를 분류하기 위해 사용하는 SOFIST 2 루브리케이터의 "여성의 이미지" 루브릭의 동의어 사전 개념(및 공식 확장 후 언어 표현)에 의한 설명의 일부를 예로 들어 보겠습니다.

(여자[엔]

|| 소녀[N]

|| RELATIVE[L] (할머니, 손녀, 사촌,

딸, 시누이, 어머니, 계모, 며느리, 의붓딸, ...))

(캐릭터 특성[L] (검소함, 무정함, 건망증,

경솔하고, 조롱하고, 편협하고, 사교적이며, ...)

|| IMAGE[E] (표현, 외모, 외모,

외모, 모양, 이미지, 외관)

|| PLEASANT[L] (..., 흥미롭고, 아름답고, 귀엽고,

매력적이다, 매력적이다, 사랑스럽다, ...)

|| UNPLEASANT[L] (비공감, 무례, 역겨움, ...)

|| VALUE [L] (숭배하다, 우상화하다, 숭배하다,

예배, 예배, ...)

|| 선호[N]

기호 "E"는 시소러스 계층 구조에 따른 전체 확장을 나타내며 기호 "L"은 종 관계("BELOW")에 따라 기호 "N"은 확장되지 않습니다.

시소러스 지식과 기계 학습 절차를 결합한 자동 텍스트 분류 기술의 개발에 대한 연구를 수행하고 있습니다.

시소러스를 사용하여 자연어로 공식화된 쿼리를 확장하는 문제(이제 시소러스의 사회정치적 부분만 UIS RUSSIA의 정보 검색 시스템에서 용어 쿼리를 확장하는 데 사용됨), 대규모 질문에 대한 답변 검색 텍스트 모음.

7. 결론

이 논문은 대규모 텍스트 모음의 자동 처리를 위한 언어 자원 개발의 기본 원칙을 제시합니다. 생성된 언어 리소스인 RuThes Russian Thesaurus는 문서의 개념적 인덱싱, 복잡한 계층적 표제에 의한 자동 윤활 처리, 자연어 쿼리의 자동 확장과 같은 자동 텍스트 처리 애플리케이션에 사용하기 위한 것입니다.

이 작업은 인문학을 위한 러시아 재단의 보조금 번호 00-04-00272a에 의해 부분적으로 지원됩니다.

문학

  1. Lukashevich N.V., Saliy A.D., 자동 텍스트 처리의 지식 표현 //NTI, Ser.2. 1997. 3호. S. 1‑6.
  2. Zhuravlev S.V., Yudina T.N., 정보 시스템 RUSSIA //NTI, Ser.2. 1995. 3호. S. 18‑20.
  3. Winston M., Chaffin R., Herman D., 부분-전체 관계의 분류 // 인지 과학. 1987. 아니. 11. P.417-444.
  4. Priss U.E., 관계 개념 분석 방법에 의한 WordNet의 형식화 // WordNet. 전자 어휘 데이터베이스 / Ed. C. 펠바움. Cambridge, Massachusetts, London, England.: The MIT Press 1998. P. 179-196.
  5. Guarino N., Welty C., A Formal Ontology of Properties // 온톨로지 및 문제 해결 방법의 응용에 관한 ECAI-00 워크숍 절차. 베를린: 2000. P. 121-128. (http://citeseer.nj.nec.com/guarino00formal.html).

상위 레벨 어휘 자원 설계를 위한 일부 존재론적 원칙 // First Int. 회의 언어 자원 및 평가에. 1998.

  1. LukashevichN.V., Dobrov B.V., 자동 인덱싱을 위한 시소러스의 개념적 관계 수정자 // NTI, Ser.2. 2000, No. 4, S. 21-28.
  2. 러시아어의 큰 설명 사전 / Ed. S.A. Kuznetsova. 상트페테르부르크: 노린트, 1998.
  3. Ozhegov S.I., Shvedova N.Yu., 러시아어 설명 사전 - 3판. M.: Az, 1996.
  4. Apresyan Yu.D., 선정 작품, 볼륨 I. 어휘 의미론: 2판. M.: 학교 "러시아 문화의 언어", Ed. 회사 "동부 문학"RAS, 1995.
  5. G. Miller, R. Beckwith, C. Fellbaum, D. Gross 및 K. Miller, WordNet에 관한 5개의 논문, CSL 보고서 43. 프린스턴 대학교 인지 과학 연구소, 1990.
  6. Chugur, J. Gonzalo 및 F. Verdjeo, NLP 애플리케이션의 구분 구분 // "OntoLex-2000" 절차: 온톨로지 및 어휘 지식 기반. 소피아: OntoTextLab. 2000.
  7. Loukachevitch N., Dobrov B., 다국어 정보 시스템의 동의어 사전 기반 구조 주제 요약 // 기계 번역 검토. 2000호 11. P. 10-20. (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm).

자연어 처리를 위한 러시아어 시소러스

대규모 텍스트 컬렉션

나탈리아 V. 루카체비치, 보리스 V. 도브로프

키워드:시소러스, 자연어 처리, 정보 검색

프레젠테이션에서 우리는 대규모 텍스트 모음의 자동 처리를 위한 어휘 리소스 개발의 주요 원칙을 고려하고 특히 자동 텍스트 처리를 위한 도구로 1997년 이후 개발된 러시아어 유의어 사전의 구조를 설명합니다. 이제 Thesaurus는 42,000개 개념의 계층적 네트워크입니다. 우리는 400,000개의 문서를 포함하여 University Information System RUSSIA(www.cir.ru)의 텍스트 컬렉션의 가장 빈번한 기본형 100,000개와 비교하여 Thesaurus 개발의 현재 단계를 설명합니다. 또한 우리는 자동 텍스트 처리의 다른 응용 프로그램에서 Thesaurus의 사용을 고려합니다.