シソーラスがプレゼントします。 シソーラス。 シソーラス構築の言語原則。 ロシア語の新しい説明および派生辞書、T. F. Efremova

TAOYケムグキ科

情報検索シソーラス:

構造、目的、開発手順

1. 知識と情報を体系化して表現する方法としてのシソーラス

一種の表意文字辞典。

2. 情報検索シソーラス: 本質と目的

3. IPTの構造

4. IPT の開発、審査、登録および維持の手順。

参考文献

1. GOST 7.74 - 96。情報検索言語。 用語と定義 [テキスト]。 - 入力します。 1997 年 7 月 1 日。 - ミンスク: 標準化、計量に関する州間評議会、1997。 - 34 p。 (情報、図書館、出版に関する標準体系) TC 191。

2. GOST 7.25-2001。 シソーラス情報検索単一言語。 開発ルール、構造、プレゼンテーション形式[テキスト]。 – GOST 7.25-80; 序章 2002 年 7 月 1 日。 - M.: IPK 規格出版社、2001 年。 - 16 p. MTK191。

3. GOST 7.24-2007 多言語情報検索シソーラス。 構成、構造、および建設の基本要件。 - GOST 7.24-90の代わりに; 入力。 2008年7月1日。 / 標準化、計測および認証に関する州間評議会。 - M.: Standardinform、2008年。 - 7 p。 (情報、図書館、出版に関する基準体系)

4. Baranov、O. S. ロシア語の表意文字辞典 / O. S. Baranov。 - M.: ETS Publishing House、1995。 - 820 秒

5. Zhmailo, S. V. シソーラスの定義について [本文] / S. V. // NTI。 サー。 1 組織と情報の仕事。 - 2003年。 - 第12号。 – P.20 ~ 25

6. Zhmailo, S. V. 現代の情報検索シソーラスの開発 [本文] / S. V. Zhmailo // NTI。 サー。 1 情報作業の組織と方法論。 -2004年。 - 1 番。 – P.23 – 31

したがって、O. S. Baranovによるロシア語の表意文字辞書(4)では、表意文字辞書の12の上位セクションが区別されており、その中には「秩序、性質、活動、文化」などがあり、それぞれがグループ、サブグループ、部門、セクションに分割されています。 この辞書にあるすべての単語は、その意味に応じていくつかの入れ子にグループ化されており、種の関係によって最もよく関連付けられる特定の概念によってグループ化されています。 ネストはサブセクションなどにグループ化されます。 現在、辞書には 7 つの部門レベルで 5923 のネストがあります (2010 年 2 月 16 日現在の www.rifmovnik.ru/thesaurus.htm による)。 この辞書の辞書エントリの例を次に示します。

178.4.7 香り▲ - 心地よい香り(たとえば、花、草、干し草の香り。穏やかな#。中毒性のある#)。 芳香化。 。 。 アンバー。 お香。

「アロマ」という単語のコードは、この単語で受け入れられている表意文字の分類、特にこの単語とカテゴリ「178 感覚」の相関関係を反映しています。

したがって、「シソーラス」、「表意文字辞書」、「シソーラス型辞書」という用語は、主に、その言語の単語の全体が、1 つの単語グループに意味が似ている単語が含まれるような方法で提示されることを意味します。 表意文字辞書の主な目的は、共通の概念によって結合された語彙単位のコレクションです。 これにより、読者は思考を適切に表現するための最も適切な手段を見つけやすくなり、言語の積極的な操作が促進されます。

シソーラスの歴史から

ジャケット 2302

スーツ姿で

コート製品

縫製品

ダブルブレストジャケット

コンビジャケット

スポーツジャケット

梱包対策中

残りの材料

廃棄物

語彙メモ;

記述子または記述子の同義語。

優れた記述子。

ダウンストリーム記述子。

連想記述子。

他の種類の関係によってリンクされた記述子。

ある種のパラダイム関係によってヘッド記述子に関連付けられた LU の各グループ内には、アルファベット順の配置順序が存在する必要があります。 例えば:

アルゴリズム言語

アルゴリズム言語を使った

機械指向言語

ドメイン固有言語

ソフトウェアで

フォーマルな言語

n オートコード

アルゴリズム

プログラミング cf. 人工言語

アクリプタ エントリは、アクリプタと記述子、または情報の処理および検索時にそれを置き換える記述子の組み合わせで構成されます。 アクリプタ記事の例を次に示します。

英数字

スペイン語の公用語

自然言語

アルゴリズム言語を参照

辞書エントリには次のものも含まれる場合があります。

記述子が使用される頻度。

記述子コード番号。

体系的なインデックスに従った記述子コード。

分類インデックス。

追加の意味論的および辞書編集上のマーク。

外国の同等品。

語彙意味インデックスの品質は、それに含まれる語彙単位の完全性によって決まります。 は、特定の主題分野について有益な意味のある単語をシソーラスに入力する確率として理解されます。 語彙意味論的なインデックスの完全性、したがってシソーラス全体の完全性は、ドキュメントとクエリのインデックス作成の結果に大きな影響を与えます。

追加の部分には、体系的、順列的、階層的、その他のインデックスと、語彙単位の特別なカテゴリのリストが含まれる場合があります。

体系的なインデックスは、IPT で受け入れられる見出しに従って記述子がグループ化されているインデックスです。 体系的な索引は、シソーラスのテーマの方向性を定義し、その内容を明らかにし、さまざまな詳細度で検索できる科学技術の分野を反映します。 IPT の一部としてこれが必要なのは、特定の知識分野における用語の一般的な状態を視覚的に表現し、一貫した用語モデルを構築でき、可能であればシソーラスに掲載すべきすべての用語と概念を構築できるためです。 これは、一連の記述子と記述子を件名ごとに順序付けすることで、文書やクエリの検索画像を編集するときに用語の検索を容易にすることを目的としています。

体系的インデックスは、本質的には、主題分野に従って一連の記述子を順序付けすることによって構築されるため、シソーラスに用語を充填するための分類スキームです。

IPT の体系的なインデックスは 3 つのタイプに分類されます。

テーマ別、

混合。

この分割は、体系的なインデックスの分類スキームを構築する原則を反映しています。

IPT の体系的インデックスによって実行される主な機能:

索引付けの補助として使用し、シソーラスで明示的に表現されていない索引付けの概念の記述子の検索を全体として提供します (検索機能)。

シソーラスを維持するプロセスでの使用 (IPT を維持する機能)。

IPT の構造的基礎として、その開発 (建設的機能) の管理として使用します。

GOST 7.25-2001 (2) に従って、主題部分で主題および混合タイプの体系的なインデックスを作成する場合、州間高速道路 NTI ルブリケーターのルーブリック、または州間 NTI ルブリケーターと互換性のある特定の ASNTI ルブリケーターを使用する必要があります。 カテゴリ型および混合型の体系的なインデックスを構築する場合、そのカテゴリ部分には次の一般的なカテゴリが続きます。

分野および活動分野の名前。

アイテム、材料。

方法、プロセス、操作、現象。

プロパティ、値、パラメータ、特性。

関係、構造、モデル、法則、ルール、抽象的な概念。

階層インデックス。 階層インデックスは、記述子のリストのリストを与えるインデックスであり、各リストは親のない記述子で始まります。 これは、IPT の階層関係の完全な構造を反映しています。 各記述子の後に、番号付けまたはレベルのグラフィック指定を使用して、階層内のレベルを示す記述子が直接指定されます。

IPT の階層索引を開発する必要があるのは、概念の従属システム全体が IPT の辞書項目で固定されていないという事実によって引き起こされます。 これには、語彙意味インデックスの大幅な増加が伴います。 IPT の独立したセクション、つまり記述子の従属の階層チェーン全体を最下位に反映する階層インデックスを開発する必要があります。

順列インデックスは、記述子を表すフレーズの構成要素の一部であるすべての個々の単語をアルファベット順にリストするインデックスであり、それぞれの単語に対して、これらの単語を含むすべての記述子が示されます。 したがって、各用語は、重要な単語が含まれている回数だけ順列インデックスに表示されます。 順列インデックスの目的は、語彙単位の先頭に現れないものも含め、その構成に含まれる任意の単語による記述語句の検索を提供することです。 これにより、単一の語根の単語を 1 か所にグループ化できます。

原則として、順列インデックスは自動化された方法でコンパイルされ、通常はすべての重要な単語 (用語) がアルファベット順に配置された KWIC タイプ (キーワード - 文脈内 - 「文脈内のキーワード」) の形式をとります。 順列インデックスの は列の中央にあり、用語要素のマイクロコンテキストによって形成され、適合しない用語の部分は同じ行の左側に転送されます。

光量子

覚醒

電気

依存性興奮あり

干渉発生器

シリアルジェネレーター

直流発電機

DC ジェネレーターが必要であることが判明しました。

4. IPTの開発、審査、登録および維持の手順

現在、IPT の開発、審査、登録の手順は、次の 2 つの規格によって決定されています。GOST 7.25-2001「情報検索シソーラスの単一言語。 開発ルール、構造、構成およびプレゼンテーション形式」および GOST 7.24-2007 「多言語情報検索シソーラス。 構成、構造、および建設の基本要件。 これらの基準に従って、IPT の審査と登録の機能は国内および国際寄託基金によって実行されます。

ロシア語の IPT の国立寄託基金 (ロシア語の記述子に相当するものを含む IPT を含む) は、VINITI の にあります。

また、次の 2 つの国際寄託 IPT もあります。

1) 英語の IPT 国際寄託基金 (英語の記述子の同等物を含む IPT を含む)。 これは、トロントにある、トロント大学情報科学部の図書館内にあります (Thesaurus Clearinghouse - 「決済」、トロント大学情報学部図書館、トロント、カナダ)。

2) 英語以外のすべての言語による IPT 国際寄託基金。 これは、ワルシャワの科学的、技術的、経済的情報 (Instytut Informacji Naukowej、Technicznej i Ekonomicznej、Clearinghouse、WARSZAW A、ポーランド) にあります。

これらの組織の完全な住所は GOST 7.25-2001 に記載されています。

GOST 7.25-2001 および GOST 7.24-2007 では、IPT 開発者のアクションを次のように定義しています。

1. IPT の作成作業を開始する前に、開発者は、特定のトピックに関する登録シソーラスが利用可能かどうかを判断するために、適切な国内または国際寄託基金に申請する必要があります。 このようなシソーラスが存在する場合、それらを所定のシステムに導入する可能性について評価が行われます。 そのようなシソーラスが見つからない場合は、IPT の作成が可能である可能性があります。 同時に、IPT を作成するためのテクノロジー全体が GOST 7.25-2001 および GOST 7.24-2007 に厳密に準拠する必要があります。

2. 完成した(開発された)IPT は、GOST 7.25-2001 に準拠しているかどうかの検査を受けなければなりません。 基準を満たしていれば、国が開発者に発行します。 この IPT は、関連する国内または国際寄託基金の 1 つ (トロントまたはワルシャワ) に寄託 (寄託) されます。

各国の寄託機関は、寄託された IPT の資金構成に関する情報を広め、要素を借用してさまざまな情報システムの言語サポートの互換性を確保するために、新しい IPT の開発者に情報を提供します。 したがって、これらは、IPT および利用可能な IPT に関する情報の検査、登録、保管の機能を実行します。

IPT を管理するための多くの操作)。

AIS の独立運用からネットワーク運用への移行 (単一の維持原則の枠組み内で IPT を使用する場合は、両者の合意が必要です)。

IPT を稼働し続けるプロセスは、シソーラスの保守または調整と呼ばれます。 通常、これには次のものが含まれます。

IPT の語彙構成の変更: 新しい語彙単位の導入、語彙単位のステータスの変更 (キーワードを記述子に変換、またはその逆)。

IPTにおけるパラダイム関係の変化(強化、弱体化)。

IPT の維持には、自動化ツールの使用が必須です。自動化ツールを使用すると、辞書や語彙のアルファベット順の並べ替え、参照の相互関係や一貫性のチェックなどの面倒な操作を、ITP で固定されているパラダイム関係を利用して迅速に実行できます。

シソーラス(ギリシャ語シソーラス - 宝物から)現代言語学における - 一般語彙または特殊語彙の特殊な種類の辞書で、語彙単位間の意味関係(同義語、反意語、同義語、下位語、上位語など)を示します。 したがって、特に電子形式のシソーラスは、個々の主題分野を説明するための最も効果的なツールの 1 つです。

説明辞書とは異なり、シソーラスを使用すると、定義だけでなく、単語を他の概念やそのグループと関連付けることによって意味を特定でき、人工知能システムで使用できます。

以前は、シソーラスという用語は主に、テキスト内での使用例とともに言語の語彙を最大限の完全性で表現する辞書を指していました。

代名詞- 単語の部分的な音の類似性と意味上の違い(完全または部分的)。 代名詞は音声エラーの原因となることがよくあります。

単一ルートのパロニムの例: ドレス - 着る、人間 - 人道的、支払い - 支払い - 支払い。

完全に無関係な同義語の例: 生物学 - ブリオロジー、ブロス - ブリヨン、コンポート - コンプロット、テクスチャー - フラクチャ。

ただし、シソーラスは単なる情報検索ツールではありません。 シソーラスは用語体系の普遍的なモデル、つまり特定の科学分野の言語に含まれる正式な知識体系と考えることができます。

汎用シソーラス

最も一般的な定義におけるシソーラスは、語彙単位間の意味論的なリンクを持つ辞書です。 1950 年代後半以来、シソーラスは機械翻訳システムや情報検索システム (IPS) で使用されてきました。

一般的な語彙を詳細に説明するように設計された意味辞書とは異なり、シソーラスは非常に特殊な単語やフレーズを保存および分類するように設計されています。 たとえば、この言葉は、 物質は ROSS 辞書 (ロシア語一般意味辞書) に掲載されており、化合物の名前はすべてシソーラスにすでに登録されています。

シソーラスではどのような関係が説明されていますか? いつもの:

    属-種 (AKO)

    部分-全体 (POF)

    同義語/反意語

    連想的な。

属と種の関係の例

セマンティック解析の例

これ 模範的な(言語内の単語間に存在する安定したつながり)。 それだけではありません。

統語論的(テキスト) リンクはシソーラスには表示されません。

例: WORDNET - インテリジェントなコンピューター類義語辞典

http://wordnet.princeton.edu/perl/webwn

プリンストン大学で作成され、無料で配布されました。

主な機能。

その中の単語は同義語のグループにグループ化されます ( synsets - synsets)。 それらは、名詞、形容詞、動詞、副詞の 4 つの辞書に分かれています。

類語は、階層関係 (下位語と上位語) と、反意語および併義語 (何かの一部であること、または部分から構成されること) の両方において統合されています。

形態の問題も解決され、WN を呼び出した後の単語は元の形式に戻ります。

情報検索シソーラス

情報検索の分野では、シソーラスはテキストから現実世界のオブジェクトを記述する記述子への移行から恩恵を受けます。 記述子にジャンプすると、拡張 (冗長) インデックス作成が可能になります。

情報検索シソーラスでは、記述子間のパラディグマティックな関係が明示的に表現されます (すべてではありませんが、情報検索の完全性を高めるために最も重要な関係)。 最も重要なパラダイム関係は次のとおりであることが実験的に決定されています。

    従属

    類似性

    種-属 (属-種)

    因果関係

    部分全体。

辞書エントリの例:

農業機械、農業機械

シン。 農業機械、農業機械、

意見: ジャガイモ収穫機、播種機など

冗長インデックスの例

リクエスト 「農業機械。農業設備」

例: ロシア語大学情報システム RUSSIA の社会政治シソーラス

http://www.cir.ru/index.jsp

自主非営利団体「情報研究センター」(ANO TsII)が開発

シソーラスは、概念と用語の間にリンクがある辞書として実装された用語リソースです。 シソーラスの主な目的は、情報検索を支援することです。シソーラスのリンクに基づいてクエリが拡張され、シソーラスのリンクを介したナビゲーションにより、クエリ自体をより明確に定式化できます。

シソーラスUIS「ロシア」の階層の特徴は、複数の分類です。つまり、ほとんどの概念では、単一の分類概念が検索されません(上と下の接続)が、特定の概念について異なる視点が説明されます。たとえば、ショップの概念は、建物と貿易組織の両方として考えることができます。

社会政治的トピックに関するシソーラスには、26,000 を超える概念、62,000 の用語、概念間の直接的な関係 100,000 および継承された関係 700,000 が含まれています。 シソーラスの最新バージョンでは、経済、政治、軍事、立法、社会、国際関係、その他の分野を含む社会政治分野で使用される用語が説明されています。

シソーラスの正式名称は、自動インデックス作成のための社会政治的トピックに関する情報検索シソーラスです。 ここではすべての定義が重要です。

    「情報検索」 - ユーザーによるリクエストの作成 (明確化) を支援し、検索中にリクエストの条件を自動的に拡張するための情報検索での使用に特化して設計されています。

    「社会政治的トピックについて」 - 社会政治的トピックに関するロシア語テキストの語彙と用語の 95 ~ 99% をカバーしているため。

    「自動インデックス作成用」 - 文書の主題を自動的に決定するプロセスの基礎となるため、シソーラス階層内で近い用語を主題ノード、自動分類、および自動注釈にグループ化します。

シソーラス - 結論

多くのよく知られたシソーラス (WordNet、Roget、EuroWordNet) では、シソーラス リンクによる自動推論が依然として大きな問題となります。つまり、最も近い近傍への拡張は正しいが完全ではなく、近傍を拡張しようとするとエラーが発生する場合です。

主題領域の概念体系 あらゆる主題領域の基礎は、この領域の概念体系です。 概念の定義: 概念とは、現実の物体や現象を、それらの性質や関係を固定することによって一般化された形で反映する思考です。 後者(性質と関係)は、オブジェクトや現象のクラスと相関する一般的および特定の特徴として概念に現れます(言語辞書)


概念と用語 テキストで主題領域の概念を表現するには、用語と呼ばれる単語またはフレーズが使用されます。 主題領域の一連の用語がその用語体系を形成します。 特定の用語と、主題分野の用語体系の他の用語との関係は、次の定義によって与えられます。


用語の定義は? 科学、技術、芸術、社会生活などの特別な分野の特定の概念を正確に表す単語 (または単語の組み合わせ)。 || 何かを示すために使用される特別な単語または表現。 特定の環境、職業(ロシア語大解説辞典)


用語 - 概念の正確な名前 通常、この領域の各概念は、少なくとも 1 つの明確に理解された用語に対応しており、その意味はこの概念です。 - 伝統的な用語理論の意味での用語 用語の性質 - 概念の正確な名前 - 用語は概念を直接参照しなければならず、概念を明確に表現しなければなりません。 - 用語の意味は正確である必要があり、他の用語と意味が重複してはなりません。 - 用語の意味は文脈に依存すべきではありません。 概念を正確に命名する用語は、用語理論の研究対象です、用語学者


テキスト用語 主題分野の実際のテキストでは、主要な用語に加えて、さまざまな言語表現を使用して概念を参照することができます。これをテキスト用語と呼びます。 - 構文および語形成オプション: 予算資金の受領者 - 予算受領者。 - 字句の変形 - 直接の抹消、議論の余地のない抹消。 - 文脈に応じて、地域のさまざまな概念への参照として機能する複数の値の表現。たとえば、通貨という単語は、さまざまな文脈で自国通貨または外国通貨を意味することがあります。














ラベル付き記述子 ラベル - 記述子の名前の一部 クレーン (吊り上げ装置) とクレーン (鳥) 貝殻 (構造物) - さまざまなシソーラスの比較 フレーズの好み: –蓄音機レコード vs. レコード (蓄音機) ゴミと複数形: Wood (素材) Woods (森林地帯)






複数の単語の表現に基づく記述子の組み込み 用語を分割すると曖昧さが増します: 植物食品 表現の意味は語順に依存します: 情報科学 - 科学情報 構成単語の 1 つがシソーラスの範囲外であるか、一般的すぎます: 応急処置 記述子の関係がその構造から導き出されません: – 人工腎臓、難民認定、信号機




連想関係 活動分野 - 性格 - 数学 - 数学者 分野 - 研究の対象 - 神経学 - 神経系 行為 - 行為者または道具 - 狩猟 - 狩人 行為 - 行為の結果 - 織物 - 織物 行為 - 目標 - 製本 - 本 因果関係 - 死 - 葬儀 価値 - 測定単位 - 現在の強さ - アンペア 行為 - 請負業者 - アレルゲン - 抗アレルギー薬など


情報検索シソーラス: 開発段階 第 1 段階: インデクサーはテキストの主要なトピックを任意の語句で説明します 多数のテキストから得られた用語をまとめます 意味が近い用語のうち、最も代表的なものを選択します 残りの一部は条件付き同義語となり、残りは削除されます 特定の用語は通常は含まれません


情報検索シソーラス: デザインの芸術 記述子は、文書の主なトピックを表現するために必要な用語です。 インデクサーの作業を妨げないように、同義語は最も必要なものだけが含まれます (たとえば、別の文字で始まる) 索引付けの主観性を避けるために、類似した用語は 1 つの用語に減らす必要があります 階層レベル、特定の用語の含めるのは制限されています


情報検索シソーラス: 開発の技術 - 2 複雑な場合、記述子にはラベルとコメントが提供されます。 -LIV: 砲撃 - 爆撃 - あいまいな用語: シソーラス内の 1 つの値 (大文字)、シソーラスに適合しない、ラベル!!! 従来の情報検索シソーラス - 現実の用語に基づいて構築された人工言語




従来の IPT: 自動処理でのアプリケーション ソフトウェアの実際の言語についての知識の欠如 ソフトウェアの実際の言語についての知識の欠如 立法索引語彙: 立法索引語彙: - テキスト内 TROOPS - シソーラス内 MILITARY FORCES - テキスト内 CAPITAL - 首都、シソーラス内では大文字のみ : 多義性または異なる記述子を参照する。 ただし、多義性があるか、さまざまな記述子に関連しています。 曖昧さの解決 曖昧さの解決


従来の IPT: 自動クエリ拡張 関連に関する問題 推奨: 重みを入力 重みを入力 関係名を入力: オブジェクト、プロパティなど。 リレーションの名前を入力します: オブジェクト、プロパティなど。 結論: テキストコレクションの自動処理に特化した言語リソースを構築する方法を学ぶ必要があります。


シソーラス EUROVOC – 欧州共同体の多言語シソーラス 9 か国語のシソーラス EUROVOC のロシア語版 – ロシアの特性を反映した +5,000 の概念 多言語シソーラス – 記述子 – さまざまな言語の名前 – アスクリプト子 – 一部の言語用


EUROVOC シソーラスのルールベースの自動インデックス作成 (Hlava、Heinebach、1996 年) ルールの例: IF (「テクノロジー」の近く、かつ「開発」を持つ) USE コミュニティ プログラム USE 開発援助 ENDIF 40,000 ルール。 テスト: テキスト内で最も頻繁に使用される 20 個の記述子、自動的に生成 - 手動注釈と比較して完全性 42%


単語と記述子の間の対応重みの確立に基づく自動インデックス付け (Steinberger et al.、2000) ステージ 1 - 統計的尺度 (カイ二乗または対数尤度) に基づいて、テキストの単語と割り当てられた記述子の間の対応関係を確立します。 漁業管理記述子 - 次の単語 (重みの降順): 漁業、魚、資源、漁業、保全、管理、船舶など。 第 2 段階のインデックス付け自体 - 重みの対数の合計、またはベクトルのスカラー積として


緩いシソーラス クエリと情報検索シソーラス クエリの組み合わせ 手動でインデックス付けされたコレクション - 相関 ユーザーが設定した自然言語クエリ クエリは、クエリと最も強く相関するシソーラス記述子によって拡張されます (Petras 2004; Petras 2005)。 例えば、Insolvent Companies(破産企業)の要求に応じて、流動性、債務、企業、会社という記述子のリストを取得し、クエリを拡張すると、実験の精度が13%向上しました。



このセクションは非常に使いやすいです。 提案されたフィールドに目的の単語を入力するだけで、その意味のリストが表示されます。 私たちのサイトは、百科事典、説明辞書、単語構築辞書など、さまざまなソースからデータを提供していることに注意してください。 ここでは、入力した単語の使用例を知ることもできます。

言葉の意味シソーラス

クロスワード辞書のシソーラス

ロシア語の解説辞典。 S.I.オジェゴフ、N.Yu.シュベドワ。

シソーラス

[て]、-a、m. (特殊)。

    すべての語彙を完全に反映するというタスクを設定する言語の辞書。

    ある種の用語や概念を完全にカバーする辞書またはデータのセット。 特別なエリア。

    形容詞 シソーラス、th、th。

ロシア語の新しい説明および派生辞書、T. F. Efremova。

シソーラス

    どの辞書でも。 言語、その語彙を完全に表現したもの。

    あるものに関する完全で体系的なデータのセット。 (コンピューター サイエンスにおいて) 人間またはコンピューターがその中でナビゲートできるようにする知識の分野。

百科事典、1998

シソーラス

THESAURUS (ギリシャ語のシソーラス - 宝物から)

    言語の単語がテキスト内での使用例とともに可能な限り完全に示されている辞書(これは死んだ言語に対してのみ完全に実行可能です)。

    あらゆる知識分野に関係する単語を主題原則に従って配列し、語彙単位間の意味関係(類別、同義など)を示した辞書です。 情報検索シソーラスでは、テキストの語彙単位が記述子に置き換えられます。

シソーラス

(ギリシャ語の類語辞典 ≈ 宝物、宝庫から) 意味論的 (意味論を参照) 関係のシステムを備えた、特定の言語の意味論的単位のセット。 T. は実際に、言語 (国語、特定の科学の言語、または自動制御システム用に形式化された言語) の意味論を決定します。 当初、T. は単言語辞書と考えられており、意味関係は主題の見出しに従って単語をグループ化することによって決定されます。 たとえば、1962 年に出版された English T. (著者 P. M. Roget) (初版 1852 年) には 1,040 の見出しが含まれており、その中に約 240,000 の単語が含まれています。 この T. へのインデックス (キー) には、各単語が属する見出しと小見出しを示す単語のアルファベット順のリストが含まれています。 英語、フランス語、スペイン語には伝統的な一般言語(個々の言語の意味体系の説明)があります。 各単語の主要な意味パラメータの表現を定義する単言語辞書は、T. に非常に近いものです。たとえば、S. I. Ozhegov によるロシア語の辞書です。

70年代。 20世紀 情報検索ボリュームは広く普及し、これらのボリュームでは、文書情報を自動的に検索するために使用できる特別な語彙単位、つまり記述子が特定されました。 同義記述子はそのような用語の各単語に関連付けられており (同義語を参照)、記述子の意味関係は、属 ≈ 種、部分 ≈ 全体、目標 ≈ 手段などのように明示的に示されます。通常、属と種 (階層) および連想関係を分離するのが通例です。 したがって、1973 年にソ連で出版された「情報検索シソーラス」は、各記述子に辞書項目を提供し、同義のキーワード、一般的、特定的、および連想的な記述子を個別に示します。 記述子間の連想リンクの方向性を向上させるために、テーマ別クラスの意味マップがこの T に添付されます。 自動情報検索では、インデックスにクエリ記述子だけでなく、クエリ記述子と特定の意味関係にある記述子も含まれるドキュメントが検索されます。 場合によっては、T. の特定の主題領域に特有の特定の連想関係を選び出すと便利です。病気 ≈ 原因物質、デバイス ≈ 目的 (または測定値) などです。T の語彙単位 (単語、句) の位置は、言語におけるその意味を特徴づけます。 特定の単語が入る意味関係のシステム (その単語が入るルーブリックを含む) の知識により、この単語の意味を判断することが可能になります。

広い意味では、テクノロジーは、個々の情報伝達者または伝達者のグループが所有する現実に関する知識システムの記述として解釈されます。 このキャリアは追加情報の受信者の機能を実行でき、その結果、その T. も変化します。最初の T. は、セマンティック情報を受信するときの受信者の能力を決定します。 心理学や人工知能を備えたシステムの研究では、情報の知覚と理解に現れる個人の T. の特性が考慮されます。 社会学とコミュニケーション理論では、個人とグループの T. の特性が研究され、T. の一般性に基づいて相互理解の可能性が提供されます。このような状況では、T. には、複雑なシステムが持つ情報のストックを決定する複雑なステートメントとその意味論的なつながりが含まれなければなりません。 実はT.には現実に関する情報だけでなく、新たなメッセージを受け取る可能性をもたらすメタ情報(情報に関する情報)も含まれています。

直訳: Cherny A.I.、シソーラス構築のための一般的な方法論、「科学的および技術的な情報。 サー。 2」、1968、╧5; Varga D.、情報シソーラスを作成するための方法論、トランス。 [Hung より]、M.、1970 年。 Shreider Yu. A.、情報学および理論意味論のシソーラス、「科学および技術情報。 サー。 2」、1971 年、╧ Z.

ユウ・A・シュライダー。

ウィキペディア

シソーラス

シソーラス、一般的な意味では - 特別な用語、より厳密かつ実質的には - 正しい語彙や企業コミュニケーションに貢献する、特別な知識分野または活動分野の概念、定義、用語を完全にカバーする辞書、情報のコレクション、コーパスまたはコード。 現代言語学において、語彙単位間の意味関係 (同義語、反意語、同義語、下位語、上位語など) を示す特別な種類の辞書。 シソーラスは、個々の主題分野を説明するための最も効果的なツールの 1 つです。

説明辞書とは異なり、シソーラスは定義だけでなく、単語を他の概念やそのグループと関連付けることによって意味を明らかにすることができるため、人工知能システムの知識ベースを埋めるために使用できます。

過去には、この用語は、 シソーラス辞書は主に、その言語の語彙をテキスト内での使用例とともに最大限の完全性で表現するように指定されました。

また、用語 シソーラス情報理論において、被験者が所有するすべての情報の全体を指すために使用されます。

心理学では、個人のシソーラスは情報の認識と理解を特徴づけます。 コミュニケーション理論では、要素が相互作用する複雑なシステムの一般的なシソーラスも考慮します。

シソーラス (曖昧さ回避)

シソーラス:

  • シソーラス - 特別な知識分野または活動分野の概念、定義、用語を網羅する辞書、情報の集合体。
  • ロジャーのシソーラスは、歴史上最初で最も有名な表意文字辞書の 1 つです。

文献におけるシソーラスという単語の使用例。

知覚と共同創造のために、いくつかの最適な シソーラス小さくはありませんが、大きすぎません。

流入する情報量は無制限で、 シソーラス、その値はこの量には依存せず、完全に次の条件によって決定されます。 シソーラスオーム。

芸術の多様性と体系的な性質により、作品全体に対する不均一な認識がもたらされます。詩のいくつかの側面の認識については、 シソーラス最適な場合もあれば、他の人にとっては不十分または大きすぎる場合もあります。

なぜなら シソーラス成長し、変化していく中で、作品を再認識することは、新たな貴重な情報を受け取ることを意味します。

好きになったおとぎ話を繰り返し読みたいという子供の願望は理解できます。 シソーラス彼の共同創造能力、連想空想能力は特に優れています。

問題のこちら側はより変化しやすく主観的です シソーラス、そして作品の客観的な美的評価を求めて、それは最小限に抑えられるべきです。

彼は中に侵入します シソーラス詩人と翻訳者に宛てて シソーラス外国人読者より。

最も重要なことは、サイズを決定することです。 シソーラス、T.

いや、ただ彼自身の荷物が少なく、彼は未発達なだけだ。 シソーラスまだ初期段階にあり、彼がそれを理解していない場合は、 シソーラス増加する必要がある場合、いずれにせよ、この女性は彼と一緒に苦労するでしょう。

リッチ シソーラス、真の知識に基づいて、最も近い人との最も密接なコミュニケーションを含め、他の人とコミュニケーションをとる人が、起こるすべてのことに正しく反応できるようにします。

成長に伴って情報の価値が下がるのは明らかだ シソーラス関係に依存するはずです シソーラス受け取る情報量に応じて。

明らかに、芸術的情報の最適な値は近接性に対応します。 シソーラス読者と シソーラス詩人。

共創には創造性と同様、インスピレーション、つまりインクルージョンが必要であると言えます。 シソーラス言葉の最も広い意味で。

既存の枠の中に留まりながら、明るい映像と明るい音の内面的な繰り返し。 シソーラス、同じ美的瞬間の繰り返しでそれを豊かにします。

この時点で シソーラスナボコフとプリシュヴィンはプラトーノフの対蹠者とみなされるべきであり、マリーナ・ツヴェターエワはプラトーノフに似ていると認識できる。

NV・ルカシェヴィチ

[メールで保護されています]

B.V.ドブロフ

モスクワ州立大学リサーチ コンピューティング センター M.V.ロモノーソフ。

ANO情報研究センター

[メールで保護されています]

キーワード:シソーラス、情報検索、自動テキスト処理、

大規模なテキストのコレクションを処理するテクノロジーの大部分は、統計的および確率的手法に基づいています。 これは、言語的手法を使用してテキスト コレクションを処理するために使用できる語彙リソースには、数万の辞書エントリのボリュームがあり、リソースの開発時に特別に監視する必要がある多くの重要なプロパティが必要であるという事実によるものです。 この報告書では、テキストのコンピュータ処理のために 1997 年以来作成されているロシア語シソーラス RuThez の例を使用して、大規模なテキスト コレクションの自動処理のための語彙リソースを開発する基本原則を検討します。RuThez は、現在 42,000 を超える概念の階層ネットワークです。 シソーラスの語彙構成とロシア大学情報システム (www.cir.ru) のテキスト コーパス (40 万件の文書) の比較に基づいて、シソーラスの現状について説明します。 さまざまな自動文書処理アプリケーションでのシソーラスの使用例について説明します。

  1. 序章

現在、何百万もの文書が電子形式で利用できるようになり、何千もの情報システムや電子ライブラリが作成されています。 同時に、検索に語彙や用語のリソースを使用する情報システムは、パーセント単位で計算されます。 これは、最新の電子文書コレクションを自動処理するための言語リソースを作成する際の深刻な問題によるものです。

まず、これらのコレクションは通常非常に大きく、リソースには何千もの単語や用語の説明が含まれている必要があります。 第 2 に、コレクションはさまざまな構文構造を持つ異なる構造のドキュメントのセットであるため、テキスト文を自動的に処理することが困難になります。 さらに、重要な情報はテキストの異なる文に分散されることがよくあります。

これらすべてが、一方では電子コレクションの自動処理や検索に役立ち、他方では予見可能な時間内に作成でき、比較的少ない労力で維持できる言語リソースとはどのようなものであるべきなのかという疑問を鋭く提起します。

この記事では、大規模なテキスト コレクションを自動処理するための語彙リソースを開発する基本原則について検討します。 これらの原則は、テキストのコンピュータ処理のために ANO 情報研究センターによって 1997 年以降に作成されたロシア語のシソーラス RuThez を例にして検討されます。 RuThez は現在 42,000 を超える概念の階層ネットワークであり、これには 95,000 を超えるロシア語の単語、表現、用語が含まれています。 シソーラスの語彙構成と、モスクワ州立大学研究開発センターの支援による大学情報システムロシアのテキストコーパスの語彙集との比較に基づいて、シソーラスの現状について説明します。 M.V.ロモノーソフとANO TsII。 UIS RUSSIA (www.cir.ru) には、社会政治的トピックに関する 400,000 件の文書 (テキスト約 3 GB、使用単語数 2 億語) が含まれています。 この記事では、さまざまなワードプロセッサ アプリケーションでのシソーラスの使用例についても説明します。

  1. 言語資源開発の原則

情報検索タスク用

電子文書の効率的な自動処理 (文書の自動インデックス付け、分類、比較) を確実に行うには、文書内で言及されている内容のリストといった比較の基礎を構築する必要があります。 このような索引が単語索引よりも効果的であるためには、同義語、多義性、品詞、スタイルなどのテキストの語彙的多様性を克服し、それを不変式に還元する必要があります。これは、異なるテキストを比較するための基礎となる概念です。 したがって、概念は言語リソースの基礎となるべきであり、言語表現 (単語、用語) は、対応する概念を初期化するテキスト入力のみになります。

異なるが近い意味、概念、関係を比較できるようにするには、それらの間に確立する必要があります。 従来、自然言語によるテキストの自動処理のための言語リソースでは、次のような特定の意味関係のセットが使用されていました。 部分、ソース、原因等々。 ただし、大規模で異質なテキスト コレクションを扱う場合、現在のテキスト処理技術では、コンピュータ システムが特定の関係に関連付けた手順を実行するためにテキスト内のこれらの関係を安定した方法で検出できないことを理解する必要があります。 したがって、概念間の関係は、まず、その概念が言及されている特定のテキストのトピックに依存しない、または弱く依存するいくつかの不変特性を記述する必要があります。

これらの関係の主な機能は、次の質問に答えることです。

テキストが C1 の議論に専念しており、C2 が関連していることがわかっている場合

態度RC1 では、本文の主題と言えますか?(*)

C2と関係あるの?

自動処理用の言語リソースを作成する場合、概念 C1 と C2 のどのプロパティによってそれらの間に正しい (*) 関係を確立できるかを判断することが重要です。

たとえば、どんな文章について書かれていても、 白樺、これはについての歌詞だといつでも言えます。 木。しかし、人気があり、関係について頻繁に議論されているにもかかわらず、 一部として 森林、樹木に関するテキストのうち、森林に関するテキストはごく少数です。 この問題は関係の名前とは関係がないことに注意してください。 それで 伐採は森の一部です、開拓地に関するテキストは森に関するテキストです。

主題領域のテキストの考えられるトピックのスペクトルに関する関係の不変性は、主に、関係の名前によって反映されるものよりも深い性質、すなわちその数量詞と存在的性質によって決定されます。 したがって、関係の量指定子プロパティは、概念のすべてのインスタンスが特定の関係を持つかどうか、特定の関係が例のライフサイクル全体を通じて維持されるかどうかを記述します。 リレーションの使用に関する問題 それは、すべての特定の木が森の中にあるわけではないが、伐採は森の外ではできないという事実と正確に関係しています。

関係の存在特性を記述する例は、概念 C1 の存在から概念 C2 の存在が生じるかどうかです (たとえば、概念の存在) ガレージコンセプトが必要です 自動車) または C1 の例の存在は C2 の例の存在に依存します (つまり、特定の 洪水具体例から切り離せない 河川)。 従属概念 C2 のテキスト、特に従属例の説明は、テキストが主概念 C1 にも関連していることを示唆しています。

概念間の関係を考える 森と木詳細に。 実はコンセプトの一部 森の中の木、 と がありますが、 立ち木,庭の木など、いずれにしても概念の従属関係を断ち切る必要がある。 概念 .

反対側では、 は優しいです 木のセット、木なしでは存在しません(同様に) 公園)。 したがって、コンセプトは コンセプトに依存する必要があります 。 特定の応用タスクのニーズの分析から始めて、以前は言語リソースにほとんど反映されていなかったが、大規模なテキストコレクションの自動処理タスク、そしておそらく他の多くのタスクにとって最も重要な関係の深い特性を記述することが重要であるという結論に達しました。

現在、伝統的なシソーラス関係の ABOVE-BELOW (すべての接続の 66%)、PART-Whole (接続の 30%)、ASSOCIATION (4%) と追加の修飾子のセット (関係の 20% がラベル付けされている) の組み合わせによって、概念の数量詞と存在プロパティの記述をモデル化しています。 PART-Whole および ASSOCIATION 関係は規則 (*) に従って解釈されることに注意してください。 合計で約 160,000 の概念間の直接的な接続が記述されており、関係の推移性を考慮すると、異なる接続の総数は 1350,000 を超えます。つまり、平均して、各概念は 30 の他の概念と接続されています。

  1. RuThes シソーラス: 一般的な構造

RuThes シソーラスは、個々の単語、テキスト表現、または同義語シリーズの意味に対応する概念の階層ネットワークです。 したがって、シソーラスの主な要素は、概念、言語表現、関係、言語表現 - 概念、概念間の関係です。

シソーラスでは、言語知識、つまり伝統的に語彙、意味論的な知識に関連する語彙素、イディオム、およびそれらの接続の説明と、情報検索シソーラスで記述される伝統的に用語学者の活動分野に関連する主題領域内の用語と関係についての知識の両方が、単一のシステムに収集されます。 このような主題のサブドメインとして、シソーラスは経済、立法、金融、国際関係などの主題領域を記述します。これらは人の日常生活にとって非常に重要であるため、従来の説明辞書には重要な語彙表現が含まれています。 これらでは、語彙と用語が強く相互に関連しており、互いに強く相互作用します。

言語表現は、別々の語彙素 (名詞、形容詞、動詞)、名詞グループと動詞グループです。 したがって、シソーラスには言語表現としての副詞や補助語が含まれていません。 複数の単語のグループには、用語、イディオム、語彙機能 ( 影響 e)。

それぞれの言語表現について、次のように説明します。

その曖昧さは 1 つまたは複数の概念との関連性であり、これは、特定の言語表現がこの概念のテキスト表現として機能する可能性があることを意味します。 言語表現をさまざまな概念に割り当てることも、その曖昧性を暗黙的に示しています。

その形態学的構成 (品詞、番号、格)。

書き方の特徴(大文字など)など

各シソーラス概念には固有の名前、この概念をテキスト内で表現できる言語表現のリスト、他の概念との関係のリストがあります。

概念の一意の名前として、通常はその明確なテキスト表現の 1 つが選択されます。 しかし、概念の名前は、一対のあいまいなテキスト表現、つまりコンマで書かれ、それを一意に定義する同義語によって形成されることもあります (たとえば、概念 デブ、デブ)。 概念名のあいまいなテキスト表現には、ラベルまたは解釈の短縮された断片を付けることもできます。たとえば、「概念」 群衆(人の集まり)。

  1. 辞書項目の例

例として、概念の辞書項目を選択しました。 単語の意味のいずれかに対応する 。 この辞書の項目は、伝統的に語彙 (意味) 知識および百科事典的知識 (主題領域、用語に関する知識) と呼ばれるさまざまな種類の知識が含まれているため、興味深いです。

コンセプトの類義語 (合計 13):

森(M)、森林地帯、森林環境、

森林、森林地区、森林景観、

森林地帯、森林、森林、

森林原野、森林、

森林の配列。

以下の用語と同義語:

密林(密林);

森林公園(都市の庭園、緑地、

緑の山塊、森林公園、

林業、林業

ベルト、パークM)、公園ゾーン);

森林狩猟;

落葉樹林(針葉樹林、広葉樹林

森);

グローブ(オークの森);

CONIFEROUS FOREST(針葉樹山塊、暗い針葉樹林)

同義語を含む概念部分:

BORELOM(防風林、棚ぼた));

伐採(切断領域);

森林文化(森林種、林業

文化);

FOREST LAND(森林基金の土地、森林で覆われた土地)

森; 森林土地、森林地帯。

樹木が茂った土地、樹木が茂った土地

エリア、);

(森林プランテーション、森林プランテーション、

植林);

フォレストエッジ(縁取り、縁取り);

UNDERGROWTH(下草));

プロセカ;

乾燥地(ドライ).

ここで、記号 (M) はテキスト入力の曖昧さのマークを反映しています。

コンセプト 他の関係、いわゆる依存関係もあります (最新バージョンでは、これらは ASC 2 (非対称関連付けと呼ばれます))。 森林火災(森林火災、森林火災。 森林管理 (森林利用、森林基金区画の利用); 森林の所有権。 森林科学 (森林科学)。 段落 2 ですでに述べたように、FOREST の概念は、シソーラスでは関係 ASC 1 によって示される TREE の概念に依存します。

全体のコンセプト は、関係の推移性を考慮して、他の 28 の概念に直接関連しています。235 の概念 (合計 650 以上のテキスト入力) があります。

  1. 最先端技術の評価

ロシア語類語辞典 RuThez

5.1. 語彙構成

現在、95,000 を超える言語表現がシソーラス ネットワークに含まれており、そのうち 61,000 は単一単語のものです。

この作業量により、シソーラスの説明にどのような単語や言語表現を含めるべきかを決定することができました。 ロシア語の最も頻繁に使用される単語がシソーラスでどのように表現されているかを知りたいという当然の欲求がありました。 このために、ロシア大学情報システムのテキストコレクション(40万文書)が使用されました。 このコレクションには、ロシア連邦のさまざまな機関の公式文書 (1992 年以降 55,000 件の文書) のほか、1999 年以降の報道資料 (新聞イズベスチヤ、ネザヴィシマヤ ガゼタ、コムソモリスカヤ プラウダ、議論と事実、エキスパート誌など)、科学雑誌の資料 (モスクワ大学紀要、社会学ジャーナル) が含まれています。 比較は、シソーラスに含まれている補題のリストと、テキスト コレクション内で最も頻度の高い 100,000 個の補題 (頻度 25 を超える) のリストとの間で行われました。

リストの語彙マークアップにより、これらの 10 万個の見出し語のうち、3 万 5,000 個が RuThes で記述されており、シソーラスに含めるに値する語彙素は約 7,000 個だけで、残りはさまざまな固有名の見出し語の変形であることがわかりました。 したがって、補充は優先事項ではなくなり、最も頻繁に使用される単語から始めて徐々に実行されます。 このリストが基本的に使い尽くされるとすぐに、情報システムのテキスト配列との次の比較が実行され、頻度が 25 を超える新しいトークンが選択され、さらに閲覧閾値が引き下げられると想定されます。 テキスト コレクションには多数のテキスト例が含まれているため、「語彙の新規性」 (たとえば、 インストール,大ヒット作, ボーモンド, スリラー) をシソーラスの階層システムの適切な場所に含めます。

現在のテキスト コレクションを継続的に使用することで、辞書で提供される語彙の説明の重要性と品質をテストするまたとない機会が得られます。 たとえば、この単語の使用頻度が異常に高いなど、 マザー・シー(400回以上)。 配列と照合すると、その単語が実際にその単語の同義語としてよく使用されていることがわかりました。 モスクワ、説明的な辞書では、この単語が時代遅れであるとマークされていることがよくあります。 辞書で古いものとしてマークされている、頻繁に使用される (300 回以上) 単語のもう 1 つの例は、次のような単語です。 至福の.

5.2 単語の意味の説明

テキスト コレクションと比較すると、配列内の頻度単語の多くが、(通常は基本的な) 値の少なくとも 1 つでシソーラスで適切に表現されていることがわかります。 ロシア語の多意味単語の意味の範囲がシソーラスでどの程度表現されているかを調べることが、現時点での私たちの主な課題です。

ご存知のとおり、辞書ソースが異なると多義語の意味が異なることが多く、意味の濃淡が区別され、同じ辞書内であっても同じ種類の多義語が単語ごとに異なって記述されることがあります。 したがって、語彙素の意味を一貫して代表的に説明するという作業は、辞書リソースの作成者にとって重要な作業です。

ただし、リソースが自動処理を目的としている場合は、値のバランスの取れた記述のタスクがより重要になります。 値を過度にインフレートすると、コンピュータ システムが目的の値を選択できなくなり、自動ワードプロセッサ システムの効率が大幅に低下する可能性があります。 したがって、自動文書処理用のリソースとしての WordNet リソースの欠点の 1 つは、一部の単語に記述される値の数が多すぎることです (WordNet 1.6 では、53 個の値)。 走る.47用 遊ぶ等々。)。 これらの意味は、テキストに意味論的な注釈を付ける場合、人間にとってさえ区別するのが困難です。 コンピュータ システムも適切な値の選択に対応できないことは明らかです。 したがって、さまざまな作成者が、処理の品質を向上させるために値を組み合わせるさまざまな方法を提案しています。

同時に、反対の要因が働きます。語彙リンクのセット (この場合はシソーラスリンク) で値が実際に異なる場合、それらを 1 つのユニット (1 つの概念) に貼り付けることができません。これは自動処理の品質の低下にもつながります。

たとえば言葉を考えてみましょう 学校教会、それぞれは組織および建物として考えることができます。

各学校組織には建物 (ほとんどの場合は 1 つ) があります。 校舎のあらゆる部分(教室、黒板)は、 学校組織として。 特定の校舎の種類はありません。 したがって、説明は 学校建物として別個の概念として取り上げることは不適切です。 しかし、そのような累積的な概念の説明は、 学校組織として、そして建物として、コンセプトと特別に設計された関係がなければなりません。 建物。 シソーラスでそのような関係を記述する場合、関係に関するマーク、つまり修飾語「A」(「側面」、自動分析ではこの関係を考慮に入れるために、他の概念による「確認」が必要です)が使用されます。

学校

より高い 教育機関

Aの上 公共の建物

関連する単語の意味 教会それほど近くない。 教会組織がどのようにしてさまざまな場所に多数の教会の建物を持ち、また他の多くの建物も持つことができるのか。 教会建設宗教や告白と密接に関係していますが、所属が変わる可能性があります。 組織教会. 教会組織教会建設異なる亜種を持っています。 それが理由です 教会(組織)) と 教会(建物) RuThes ではさまざまな概念として提示されます。

シソーラスの関係における大きな相違は、意味に対応する表示が互いに別々に存在する能力と興味深い形で相関しています。 このように、教会の建物は、学校の建物とは異なり、用途が変わっても存在しなくなることはなく、教会とさえ呼ばれます。

シソーラス内の値の表現を調整するプロセスは、最も頻繁に使用される補題から始めて常に実行されます。 各周波数トークンについて、その値が説明辞書でどのように記述されているか、コレクションでどのような値が使用されているか、シソーラスでどのように表示されているかがチェックされます。 その結果、10,000 の語彙素のリストが作成されましたが、そのあいまいさには依然として追加の分析または追加の説明が必要です。 このリストは、最も頻繁に使用される 30,000 の補題に基づいています。

シソーラスでは、単語の異なる意味間のシソーラス関係を記述できるため、曖昧さの問題が部分的に解消され、したがって階層内の最上位の概念がデフォルトで選択できることに注意してください。 それは間違いなく本文で議論されました。 たとえば、この言葉は、 写真活動分野としての写真、写真としての写真、写真スタジオとしての写真という3つの意味があります。

写真(撮影, 写真撮影, ..., 写真 )

写真画像

(写真, 写真, 写真 )

フォトスタジオ (写真 ).

したがって、その単語がどのような意味で使用されているかを理解することができなかった場合は、 写真の場合、デフォルトは写真 (プロセス、結果、または場所) とみなされ、多くの自動ワープロ アプリケーションではこれで十分です。

  1. RuThes シソーラスの適用

自動ワープロ用

1995 年以来、RuThes の社会政治用語 (社会政治シソーラス) は、自動概念索引付け、複数のルブリケーターを使用した自動分類、英語を含むテキストの自動注釈など、自動テキスト処理のさまざまなアプリケーションに積極的に使用され、成功してきました。。 社会政治シソーラス (27,000 の概念、62,000 のテキスト エントリ) は、UIS RUSSIA 検索エンジン (www.cir.ru) の基本的な検索ツールです。

RuThes シソーラスの語彙全体は、複雑な階層見出しに従ってテキストを自動注釈する手順で使用されます。 既存の技術では、各ルーブリックは用語のブール表現として記述され、その後、元の式がシソーラス階層に沿って展開されます。 結果として得られるブール式には、すでに何百、何千もの接続詞と節が含まれている可能性があります。

例として、VTsIOM が世論調査アンケートを分類するために使用する SOFIST 2 ルブリケーターの「女性のイメージ」ルーブリックのシソーラス概念 (および公式の拡張後の言語表現) による説明の断片を挙げてみましょう。

(女性[N]

|| ガール[N]

|| 親戚[L] (祖母、孫娘、いとこ、

娘、義理の妹、母親、継母、義理の娘、継娘、...))

(性格特性[L] (倹​​約家、無情、忘れっぽい、

軽薄、嘲笑、不寛容、社交的、...)

|| IMAGE[E] (表現、外観、外観、

外観、形、イメージ、見た目)

|| PLEASANT[L] (...、面白い、美しい、かわいい、

魅力的、魅力的、愛らしい、...)

|| UNPLEASANT[L] (同情的でない、無礼な、意地悪な、...)

|| VALUE [L] (尊敬する、崇拝する、崇拝する、

礼拝、礼拝、...)

|| 優先[N]

記号「E」はシソーラス階層に沿った完全な展開を示し、記号「L」は種の関係(「BELOW」)に従って、記号「N」は展開しないことを示します。

シソーラスの知識と機械学習手順を組み合わせた自動テキスト分類技術の開発に関する研究が行われています。

自然言語で定式化されたクエリを拡張するためにシソーラスを使用する際の問題 (現在、UIS RUSSIA の情報検索システムの用語クエリを拡張するためにシソーラスの社会政治部分のみが使用されています)、大規模なテキスト コレクション内の質問に対する回答を検索する際の問題。

7. 結論

この論文では、大規模なテキスト コレクションを自動処理するための言語リソースを開発する基本原則を示します。 作成された言語リソース - RuThes Russian Thesaurus - は、文書の概念索引付け、複雑な階層見出しによる自動注釈付け、自然言語クエリの自動拡張などの自動テキスト処理アプリケーションでの使用を目的としています。

この研究は、ロシア人文科学財団 (助成金番号 00-04-00272a) によって部分的に支援されています。

文学

  1. Lukashevich N.V.、Saliy A.D.、自動テキスト処理における知識表現 //NTI、Ser.2。 1997. No. 3. S. 1-6。
  2. Zhuravlev S.V.、Yudina T.N.、情報システム RUSSIA //NTI、Ser.2。 1995. No. 3. S. 18-20。
  3. Winston M.、Chaffin R.、Herman D.、部分と全体の関係の分類 // 認知科学。 1987年。 11. P. 417-444。
  4. Priss U.E.、関係概念分析の方法による WordNet の形式化 // WordNet。 電子語彙データベース / 編 C.フェルバウム著。 ケンブリッジ、マサチューセッツ、ロンドン、イギリス: MIT Press 1998。P. 179-196。
  5. Guarino N.、Welty C.、プロパティの形式的オントロジー // オントロジーと問題解決方法のアプリケーションに関する ECAI-00 ワークショップの議事録。 ベルリン: 2000。P. 121-128。 (http://citeseer.nj.nec.com/guarino00formal.html)。

上位レベルの語彙リソースを設計するためのいくつかのオントロジー原則 // First Int. 会議 言語リソースと評価について。 1998年。

  1. LukashevichN.V.、Dobrov B.V.、自動インデックス作成のためのシソーラスの概念関係の修飾子 // NTI、Ser.2。 2000、No. 4、S. 21-28。
  2. ロシア語大解説辞典 / 編 SA クズネツォワ。 サンクトペテルブルク: ノリント、1998 年。
  3. Ozhegov S.I.、Shvedova N.Yu.、ロシア語解説辞典 - 第 3 版。 M.: アズ、1996 年。
  4. Apresyan Yu.D.、厳選作品、第 1 巻。語彙意味論: 第 2 版。 M.: 学校「ロシア文化の言語」、編。 『東洋文学』RAS社、1995年。
  5. G. ミラー、R. ベックウィズ、C. フェルバウム、D. グロスおよび K. ミラー、WordNet に関する 5 つの論文、CSL レポート 43。プリンストン大学認知科学研究所、1990 年。
  6. Chugur、J. Gonzalo、F. Verdjeo、NLP アプリケーションにおける区別の区別 // 「OntoLex-2000」の議事録: オントロジーと語彙知識ベース。 ソフィア: OntoTextLab。 2000年。
  7. Loukachevitch N.、Dobrov B.、多言語情報システムにおけるシソーラスベースの構造テーマの概要 // 機械翻訳レビュー。 2000年No. 11. P.10-20。 (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm)。

自然言語処理のためのロシア語のシソーラス

大規模なテキストコレクションの

ナタリア・V・ルカチェビッチ、ボリス・V・ドブロフ

キーワード:シソーラス、自然言語処理、情報検索

私たちのプレゼンテーションでは、大規模なテキストコレクションを自動処理するための語彙リソースを開発する主な原則を検討し、特に自動テキスト処理用のツールとして 1997 年以来開発されたロシア語シソーラスの構造について説明します。 現在、シソーラスは 42,000 の概念の階層的なネットです。 私たちは、シソーラス開発の現在の段階を、ロシア大学情報システム (www.cir.ru) のテキスト コレクション (40 万件の文書を含む) の最も頻繁に使用される 10 万件の見出し語と比較しながら説明します。 また、自動テキスト処理のさまざまなアプリケーションでのシソーラスの使用についても検討します。