Ο θησαυρός παρουσιάζει. Θησαυροί. γλωσσικές αρχές κατασκευής θησαυρού. Νέο επεξηγηματικό και παράγωγο λεξικό της ρωσικής γλώσσας, T. F. Efremova

Τμήμα TAOY KemGUKI

Θησαυροί ανάκτησης πληροφοριών:

δομή, σκοπός και διαδικασία ανάπτυξης

1. Ο θησαυρός ως τρόπος συστηματοποιημένης αναπαράστασης της γνώσης και

είδος ιδεογραφικού λεξικού.

2. Θησαυροί ανάκτησης πληροφοριών: ουσία και σκοπός

3. Δομή του ΙΠΤ

4. Η διαδικασία ανάπτυξης, εξέτασης, καταχώρισης και διατήρησης του IPT.

Βιβλιογραφία

1. GOST 7.74 - 96. Γλώσσες ανάκτησης πληροφοριών. Όροι και ορισμοί [Κείμενο]. - Εισαγωγή. 1997-07-01. - Μινσκ: Διακρατικό Συμβούλιο Τυποποίησης, Μετρολογίας και, 1997. - 34 σ. (Σύστημα προτύπων για πληροφορίες, βιβλιοθηκονομία και εκδόσεις) TC 191.

2. GOST 7.25-2001. Μονόγλωσσος ανάκτηση πληροφοριών θησαυρού. Κανόνες ανάπτυξης, δομή και φόρμα παρουσίασης [Κείμενο]. – GOST 7,25-80; Εισαγωγή 2002-07-01. - M.: IPK Publishing house of standards, 2001. - 16 p. ΜΤΚ 191.

3. GOST 7.24-2007 Πολυγλωσσικός θησαυρός ανάκτησης πληροφοριών. Σύνθεση, δομή και βασικές απαιτήσεις για την κατασκευή. - Αντί για GOST 7.24-90. εισαγωγή. 01-07-2008. / Διακρατικό Συμβούλιο Τυποποίησης, Μετρολογίας και Πιστοποίησης. - Μ.: Standartinform, 2008. - 7 σελ. (Σύστημα προτύπων για την πληροφόρηση, τη βιβλιοθηκονομία και τη δημοσίευση)

4. Baranov, O. S. Ιδεογραφικό λεξικό της ρωσικής γλώσσας / O. S. Baranov. - M.: ETS Publishing House, 1995. - 820 s

5. Zhmailo, S. V. Σχετικά με τον ορισμό του θησαυρού [Κείμενο] / S. V. // NTI. Ser. 1 Εργασία οργάνωσης και ενημέρωσης. - 2003. - Αρ. 12. – Σελ.20 – 25.

6. Zhmailo, S. V. Ανάπτυξη σύγχρονων θησαυρών ανάκτησης πληροφοριών [Κείμενο] / S. V. Zhmailo // NTI. Ser. 1 Οργάνωση και μεθοδολογία της πληροφοριακής εργασίας. -2004. - Νο. 1. – Σελ.23 – 31.

Έτσι, στο ιδεογραφικό λεξικό της ρωσικής γλώσσας του O. S. Baranov (4), διακρίνονται 12 ανώτερες ενότητες του ιδεογραφικού λεξικού, μεταξύ των οποίων είναι: "τάξη, φύση, δραστηριότητα, πολιτισμός" κ.λπ., καθένα από τα οποία χωρίζεται σε ομάδες, υποομάδες, τμήματα, τμήματα . Όλες οι λέξεις σε αυτό το λεξικό ομαδοποιούνται σε φωλιές ανάλογα με τη σημασία τους και ομαδοποιούνται με κάποια έννοια με την οποία συνδέονται συχνότερα με τις σχέσεις των ειδών. Οι φωλιές ομαδοποιούνται σε υποενότητες και ούτω καθεξής. Αυτή τη στιγμή, υπάρχουν 5923 φωλιές στο λεξικό, 7 επίπεδα διαίρεσης (σύμφωνα με το www.rifmovnik.ru/thesaurus.htm από τις 16 Φεβρουαρίου 2010). Ακολουθεί ένα παράδειγμα καταχώρισης λεξικού από αυτό το λεξικό:

178.4.7 άρωμα ▲ - μια ευχάριστη μυρωδιά (για παράδειγμα, η μυρωδιά των λουλουδιών, του γρασιδιού, του σανού. απαλό #. μεθυστικό #). αρωματοποίηση . . . κεχριμπάρι. θυμίαμα.

Ο κωδικός της λέξης "άρωμα" αντικατοπτρίζει την ιδεογραφική ταξινόμηση που γίνεται αποδεκτή σε αυτή τη δεδομένη λέξη, ειδικότερα, τη συσχέτιση αυτής της λέξης με την κατηγορία "178-Αισθήσεις".

Έτσι, οι όροι «θησαυρός», «ιδεογραφικό λεξικό», «λεξικό τύπου θησαυρού» σημαίνουν κατά κύριο λόγο ότι το σύνολο των λέξεων της γλώσσας παρουσιάζεται σε αυτά με τέτοιο τρόπο ώστε μια ομάδα λέξεων περιλαμβάνει λέξεις που έχουν παρόμοια σημασία. . Ο κύριος σκοπός των ιδεογραφικών λεξικών είναι μια συλλογή λεξιλογικών ενοτήτων που ενώνονται με μια κοινή έννοια. Αυτό διευκολύνει τον αναγνώστη να βρει τα καταλληλότερα μέσα για την επαρκή έκφραση της σκέψης και συμβάλλει στην ενεργό χρήση της γλώσσας.

Από την ιστορία των θησαυρών

ΜΠΟΥΦΑΝ 2302

σε Κοστούμια

Προϊόντα παλτών

Προϊόντα ραπτικής

n Διπλό σακάκι

Μικτό σακάκι

Αθλητικό μπουφάν

στα μέτρα συσκευασίας

Υπολειπόμενο υλικό

Απόβλητα

Λεξική σημείωση;

Περιγραφείς ή περιγραφείς-συνώνυμα.

Ανώτεροι περιγραφείς.

Μεταγενέστεροι περιγραφείς.

Συνειρμικοί περιγραφείς;

Περιγραφείς που συνδέονται με άλλα είδη σχέσεων.

Μέσα σε κάθε ομάδα LU που σχετίζεται με τον επικεφαλής περιγραφέα με ένα είδος παραδειγματικής σχέσης, πρέπει να υπάρχει μια αλφαβητική σειρά διάταξης. Για παράδειγμα:

ΑΛΓΟΡΙΘΜΙΚΕΣ ΓΛΩΣΣΕΣ

με αλγοριθμικές γλώσσες

Μηχανοκεντρικές γλώσσες

ειδικές γλώσσες τομέα

στο ΛΟΓΙΣΜΙΚΟ

ΕΠΙΣΗΜΕΣ ΓΛΩΣΣΕΣ

n ΑΥΤΟΚΩΔΙΚΟΙ

έναν ΑΛΓΟΡΙΘΜΟ

ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ πρβλ. τεχνητές γλώσσες

Μια καταχώρηση ascriptor αποτελείται από έναν ascriptor και περιγραφείς ή έναν συνδυασμό περιγραφέων που το αντικαθιστούν κατά την επεξεργασία και την αναζήτηση πληροφοριών. Ακολουθούν παραδείγματα άρθρων ascriptor:

Αλφαριθμητικοί χαρακτήρες

ΙΣΠΑΝΙΚΕΣ ΕΠΙΣΗΜΕΣ ΓΛΩΣΣΕΣ

ΦΥΣΙΚΕΣ ΓΛΩΣΣΕΣ

βλέπε ΑΛΓΟΡΙΘΜΙΚΕΣ ΓΛΩΣΣΕΣ

Μια καταχώρηση λεξικού μπορεί επίσης να περιλαμβάνει:

Πόσο συχνά χρησιμοποιείται ο περιγραφέας;

Κωδικός αριθμός περιγραφέα.

Κωδικός περιγραφής σύμφωνα με το συστηματικό ευρετήριο.

Δείκτες ταξινόμησης;

Πρόσθετα σημασιολογικά και λεξικογραφικά σημεία.

ξένα ισοδύναμα.

Η ποιότητα ενός λεξικοσημασιολογικού ευρετηρίου καθορίζεται από την πληρότητα των λεξικών ενοτήτων που περιλαμβάνονται σε αυτό. νοείται ως η πιθανότητα εισαγωγής στον θησαυρό οποιασδήποτε λέξης με πληροφοριακό νόημα για μια δεδομένη θεματική περιοχή. Η πληρότητα του λεξικοσημασιολογικού ευρετηρίου και, κατά συνέπεια, ολόκληρου του θησαυρού έχει σημαντική επίδραση στα αποτελέσματα της ευρετηρίασης εγγράφων και ερωτημάτων.

Πρόσθετα μέρη μπορεί να περιλαμβάνουν συστηματικά, μεταθετικά, ιεραρχικά και άλλα ευρετήρια και λίστες ειδικών κατηγοριών λεξιλογικών ενοτήτων.

Ένα συστηματικό ευρετήριο είναι ένας δείκτης στον οποίο οι περιγραφείς ομαδοποιούνται σύμφωνα με τις επικεφαλίδες που γίνονται αποδεκτές στο IPT. Ένα συστηματικό ευρετήριο ορίζει τη θεματική κατεύθυνση του θησαυρού, αποκαλύπτει το περιεχόμενό του και αντικατοπτρίζει εκείνους τους κλάδους της επιστήμης και της τεχνολογίας που μπορούν να αναζητηθούν με το ένα ή το άλλο βάθος λεπτομέρειας. Η ανάγκη για αυτό ως μέρος του IPT οφείλεται στο γεγονός ότι παρέχει μια οπτική αναπαράσταση της γενικής κατάστασης της ορολογίας σε ένα συγκεκριμένο γνωστικό πεδίο, σας επιτρέπει να δημιουργήσετε ένα συνεκτικό ορολογικό μοντέλο και, ει δυνατόν, όλους τους όρους και έννοιες που πρέπει να βρουν μια θέση στον θησαυρό. Αποσκοπεί στη διευκόλυνση της αναζήτησης όρων κατά τη σύνταξη εικόνων αναζήτησης εγγράφων και ερωτημάτων παραγγέλνοντας ένα σύνολο περιγραφέων και περιγραφέων ανά θέμα.

Το συστηματικό ευρετήριο, στην ουσία, είναι ένα σχήμα ταξινόμησης για την πλήρωση του θησαυρού με ορολογία, καθώς κατασκευάζεται με την παραγγελία ενός συνόλου περιγραφικών σημείων ανάλογα με τις θεματικές περιοχές.

Οι συστηματικοί δείκτες IPT χωρίζονται σε τρεις τύπους:

Θεματικός,

Μικτός.

Αυτή η διαίρεση αντανακλά την αρχή της κατασκευής του σχήματος ταξινόμησης ενός συστηματικού ευρετηρίου.

Οι κύριες λειτουργίες που εκτελεί ο συστηματικός δείκτης του IPT:

Χρήση ως βοηθητικό εργαλείο στην ευρετηρίαση, παρέχοντας, συνολικά, την αναζήτηση περιγραφικών παραμέτρων για έννοιες ευρετηρίασης που δεν αναπαρίστανται ρητά στον θησαυρό (συνάρτηση αναζήτησης).

Χρήση στη διαδικασία διατήρησης ενός θησαυρού (συνάρτηση διατήρησης IPT).

Χρήση ως δομική βάση του IPT, ως διαχείριση της ανάπτυξής του (δομική λειτουργία).

Σύμφωνα με το GOST 7.25-2001 (2), κατά την κατασκευή ενός συστηματικού ευρετηρίου θεματικών και μικτών τύπων στο θεματικό του μέρος, θα πρέπει να χρησιμοποιούνται ρουμπρίκες του διακρατικού διακόπτη NTI ή ενός συγκεκριμένου μηχανισμού ASNTI συμβατού με τον Διακρατικό rubricator NTI. Κατά την κατασκευή ενός συστηματικού ευρετηρίου κατηγορικών και μικτών τύπων, ακολουθούν οι ακόλουθες γενικές κατηγορίες στο κατηγορηματικό μέρος του:

Ονόματα κλάδων και κλάδους δραστηριότητας.

Είδη, υλικά.

Μέθοδοι, διαδικασίες, λειτουργίες, φαινόμενα.

Ιδιότητες, τιμές, παράμετροι, χαρακτηριστικά.

Σχέσεις, δομές, μοντέλα, νόμοι, κανόνες, αφηρημένες έννοιες.

Ιεραρχικό ευρετήριο. Ένα ιεραρχικό ευρετήριο είναι ένα ευρετήριο που δίνει μια λίστα με λίστες περιγραφέων, κάθε λίστα που ξεκινά με έναν περιγραφέα που δεν έχει γονικό. Αντανακλά την πλήρη δομή των ιεραρχικών σχέσεων στο IPT. Μετά από κάθε περιγραφέα, οι περιγραφείς δίνονται απευθείας με ένδειξη του επιπέδου τους στην ιεραρχία χρησιμοποιώντας αρίθμηση ή γραφικό προσδιορισμό του επιπέδου:

Η ανάγκη ανάπτυξης ενός ιεραρχικού ευρετηρίου του IPT προκαλείται από το γεγονός ότι ολόκληρο το σύστημα υποταγής των εννοιών δεν είναι σταθερό στα λήμματα του λεξικού του IPT, επειδή Αυτό θα συνεπαγόταν σημαντική αύξηση του λεξικοσημασιολογικού δείκτη. υπάρχει ανάγκη να αναπτυχθεί ένα ανεξάρτητο τμήμα του IPT - ένας ιεραρχικός δείκτης που θα αντικατοπτρίζει ολόκληρη την ιεραρχική αλυσίδα υποταγής των περιγραφικών παραγόντων προς τα κάτω.

Ένα ευρετήριο μετάθεσης είναι ένα ευρετήριο που παραθέτει με αλφαβητική σειρά όλες τις μεμονωμένες λέξεις που αποτελούν μέρος των συνιστωσών φράσεων που δηλώνουν περιγραφείς και για καθεμία από αυτές υποδεικνύονται όλοι οι περιγραφείς που περιλαμβάνουν αυτές τις λέξεις. Επομένως, κάθε όρος εμφανίζεται στο ευρετήριο μετάθεσης όσες φορές περιέχει σημαντικές λέξεις. Ο σκοπός του ευρετηρίου μετάθεσης είναι να παρέχει μια αναζήτηση για περιγραφείς-φράσεις από οποιαδήποτε λέξη περιλαμβάνεται στη σύνθεσή τους, συμπεριλαμβανομένων εκείνων που δεν βρίσκονται στην αρχή μιας λεξιλογικής ενότητας. Σας επιτρέπει να ομαδοποιήσετε λέξεις μιας ρίζας σε ένα μέρος.

Κατά κανόνα, ένα ευρετήριο μετάθεσης συντάσσεται με αυτοματοποιημένο τρόπο και συνήθως έχει τη μορφή ενός ευρετηρίου τύπου KWIC (Λέξη-κλειδί - In Context - «Λέξεις κλειδιά στο πλαίσιο»), στο οποίο είναι διατεταγμένες όλες οι λέξεις - όροι - με νόημα. σε αλφαβητική σειρά. στον δείκτη μετάθεσης βρίσκεται στο κέντρο της στήλης, η οποία σχηματίζεται από τα μικροπλαίσια των στοιχείων του όρου και το τμήμα των όρων που δεν ταιριάζει μεταφέρεται στην αριστερή πλευρά της ίδιας γραμμής:

οπτικό κβαντικό

εξέγερση

ηλεκτρικός

με εξαρτημένη διέγερση

Γεννήτριες παρεμβολών

ΣΕΙΡΙΑΚΕΣ ΓΕΝΝΗΤΡΙΕΣ

ΓΕΝΝΗΤΡΙΕΣ DC

Οι ΓΕΝΝΗΤΡΙΕΣ DC αποδεικνύονται απαραίτητες.

4. Η διαδικασία ανάπτυξης, εξέτασης, καταχώρισης και διατήρησης του IPT

Επί του παρόντος, η διαδικασία για την ανάπτυξη, την εξέταση και την καταχώριση του IPT καθορίζεται από δύο πρότυπα: GOST 7.25-2001 «Μονογλωσσικός θησαυρός ανάκτησης πληροφοριών. Κανόνες ανάπτυξης, δομή, σύνθεση και έντυπο παρουσίασης» και GOST 7.24-2007 «Πολυγλωσσικός θησαυρός ανάκτησης πληροφοριών. Σύνθεση, δομή και βασικές απαιτήσεις για την κατασκευή. Σύμφωνα με αυτά τα πρότυπα, οι λειτουργίες εξέτασης και καταχώρισης του IPT εκτελούνται από εθνικά και διεθνή αποθετήρια ταμεία.

Το Εθνικό Αποθεματικό Ταμείο του IPT στα ρωσικά (συμπεριλαμβανομένου του IPT που περιέχει τα ισοδύναμα περιγραφικών παραγόντων στα ρωσικά) βρίσκεται στη διεύθυνση , στο VINITI.

Υπάρχουν επίσης δύο διεθνής θεματοφύλακες IPT:

1) το IPT International Depository Fund στα αγγλικά, συμπεριλαμβανομένου του IPT που περιέχει τα ισοδύναμα περιγραφικών παραγόντων στα αγγλικά. Βρίσκεται στο Τορόντο, στη βιβλιοθήκη της Σχολής Επιστημών της Πληροφορίας στο Πανεπιστήμιο του Τορόντο (Thesaurus Clearinghouse - «υπολογίστηκε», The Library, Faculty of Information Studies, University of Toronto, TORONTO, Καναδάς).

2) IPT International Depository Fund σε όλες τις γλώσσες εκτός από τα αγγλικά. Βρίσκεται στο , στη Βαρσοβία, στις επιστημονικές και τεχνικές και οικονομικές πληροφορίες (Instytut Informacji Naukowej, Technicznej i Ekonomicznej, Clearinghouse, WARSZAW A, Πολωνία.).

Οι πλήρεις διευθύνσεις αυτών των οργανισμών δίνονται στο GOST 7.25-2001.

Το GOST 7.25-2001 και το GOST 7.24-2007 ορίζουν τις ενέργειες των προγραμματιστών IPT ως εξής:

1. Πριν από την έναρξη των εργασιών για τη δημιουργία ενός IPT, ο προγραμματιστής πρέπει να υποβάλει αίτηση στο κατάλληλο εθνικό ή διεθνές αποθεματικό ταμείο προκειμένου να προσδιορίσει τη διαθεσιμότητα καταχωρισμένων θησαυρών για ένα δεδομένο θέμα. Με την παρουσία τέτοιων θησαυρών, γίνεται αξιολόγηση της δυνατότητας εισαγωγής τους σε ένα δεδομένο σύστημα. Εάν δεν βρεθούν τέτοιοι θησαυροί, μπορεί να είναι δυνατή η δημιουργία ενός IPT. Ταυτόχρονα, ολόκληρη η τεχνολογία για τη δημιουργία IPT πρέπει να συμμορφώνεται αυστηρά με τα GOST 7.25-2001 και GOST 7.24-2007

2. Το ολοκληρωμένο (αναπτυγμένο) IPT πρέπει να υποβληθεί σε εξέταση για συμμόρφωση με το GOST 7.25-2001. πληρούν το πρότυπο, τότε η Εθνική εκδίδει τον προγραμματιστή . αυτού του IPT κατατίθεται (κατατίθεται) στο σχετικό εθνικό ή σε ένα από τα διεθνή αποθετήρια ταμεία (στο Τορόντο ή τη Βαρσοβία).

Οι εθνικοί θεματοφύλακες διαδίδουν πληροφορίες σχετικά με τη σύνθεση του ταμείου των κατατεθέντων IPT και τις παρέχουν στους προγραμματιστές νέων IPT προκειμένου να δανειστούν στοιχεία και να διασφαλίσουν τη συμβατότητα της γλωσσικής υποστήριξης διαφόρων πληροφοριακών συστημάτων. Έτσι, εκτελούν τις λειτουργίες εξέτασης, καταχώρισης, αποθήκευσης IPT και πληροφοριών σχετικά με τα διαθέσιμα IPT.

πολλές λειτουργίες για τη διαχείριση του IPT)·

Η μετάβαση του AIS από ανεξάρτητη λειτουργία σε λειτουργία δικτύου (κατά τη χρήση IPT στο πλαίσιο μιας ενιαίας αρχής της συντήρησής τους, πρέπει να συμφωνηθούν).

Η διαδικασία διατήρησης του IPT σε λειτουργία και λειτουργία ονομάζεται διατήρηση ή προσαρμογή του θησαυρού. Συνήθως περιλαμβάνει τα ακόλουθα:

Αλλαγή της λεξιλογικής σύνθεσης του IPT: εισαγωγή νέων λεξικών ενοτήτων, αλλαγή της κατάστασης των λεξιλογικών ενοτήτων (μεταφράζοντας μια λέξη-κλειδί σε περιγραφείς και αντίστροφα).

Αλλαγή παραδειγματικών σχέσεων στο IPT (ενίσχυση, αποδυνάμωση).

Η διατήρηση του IPT περιλαμβάνει την υποχρεωτική χρήση εργαλείων αυτοματισμού που σας επιτρέπουν να εκτελείτε γρήγορα τέτοιες επίπονες λειτουργίες όπως η αλφαβητική ταξινόμηση του λεξικού, το λεξιλόγιο, ο έλεγχος της αμοιβαιότητας και της συνέπειας των αναφορών, με τη βοήθεια των οποίων οι παραδειγματικές σχέσεις καθορίζονται στο ITP κ.λπ. .

Θησαυρός(από τα ελληνικά θησαυροί - θησαυρός) στη σύγχρονη γλωσσολογία - ένα ειδικό είδος λεξικών γενικού ή ειδικού λεξιλογίου, που υποδεικνύουν σημασιολογικές σχέσεις (συνώνυμα, αντώνυμα, παρώνυμα, υποώνυμα, υπερώνυμα κ.λπ.) μεταξύ λεξικών ενοτήτων. Έτσι, οι θησαυροί, ειδικά σε ηλεκτρονική μορφή, είναι ένα από τα πιο αποτελεσματικά εργαλεία για την περιγραφή επιμέρους θεματικών περιοχών.

Σε αντίθεση με ένα επεξηγηματικό λεξικό, ένας θησαυρός σάς επιτρέπει να προσδιορίσετε το νόημα όχι μόνο με τη βοήθεια ενός ορισμού, αλλά και συσχετίζοντας μια λέξη με άλλες έννοιες και τις ομάδες τους, που μπορούν να χρησιμοποιηθούν σε συστήματα τεχνητής νοημοσύνης.

Στο παρελθόν, ο όρος θησαυρός δήλωνε κυρίως λεξικά που αντιπροσώπευαν το λεξιλόγιο της γλώσσας με τη μέγιστη πληρότητα με παραδείγματα χρήσης του σε κείμενα.

Παρωνυμία- μερική ηχητική ομοιότητα των λέξεων με τη σημασιολογική τους διαφορά (πλήρη ή μερική). Τα παρώνυμα είναι συχνά πηγή σφαλμάτων ομιλίας.

Παραδείγματα μονόριζων παρωνύμων: φόρεμα - φόρεσε, ανθρώπινο - ανθρώπινο, πλήρωσε - πλήρωσε - πλήρωσε.

Παραδείγματα εντελώς άσχετων παρωνύμων: βιολογία - βρυολογία, ζωμός - μπρίλον, κομπόστα - κομπλότα, υφή - κάταγμα.

Ωστόσο, ένας θησαυρός είναι κάτι περισσότερο από ένα εργαλείο ανάκτησης πληροφοριών. Ο θησαυρός μπορεί να θεωρηθεί ως ένα καθολικό μοντέλο ενός ορολογικού συστήματος, και επομένως - ως ένα επίσημο σύστημα γνώσης που περιέχεται στη γλώσσα ενός συγκεκριμένου επιστημονικού πεδίου.

Θησαυρός γενικού σκοπού

Ο θησαυρός στον πιο γενικό ορισμό είναι ένα λεξικό με σημασιολογικούς δεσμούς μεταξύ λεξιλογικών μονάδων. Από τα τέλη της δεκαετίας του 1950, οι θησαυροί έχουν χρησιμοποιηθεί σε συστήματα μηχανικής μετάφρασης και συστήματα ανάκτησης πληροφοριών (IPS).

Σε αντίθεση με τα σημασιολογικά λεξικά, τα οποία έχουν σχεδιαστεί για να περιγράφουν λεπτομερώς το γενικό λεξιλόγιο, οι θησαυροί έχουν σχεδιαστεί για να αποθηκεύουν και να ταξινομούν εξαιρετικά συγκεκριμένες λέξεις και φράσεις. Για παράδειγμα, η λέξη ουσίαβρίσκεται στο λεξικό ROSS (Ρωσικό Γενικό Σημασιολογικό Λεξικό) και όλα τα ονόματα των χημικών ενώσεων βρίσκονται ήδη στον θησαυρό.

Ποιες σχέσεις περιγράφονται στον θησαυρό; Συνήθως:

    γένος-είδος (AKO)

    μέρος-ολόκληρο (POF)

    συνωνυμία/αντωνυμία

    προσεταιριστική.

Ένα παράδειγμα σχέσης γένους-είδους

Παράδειγμα σημασιολογικής ανάλυσης

Αυτό παραδειγματικός(σταθερές συνδέσεις που υπάρχουν μεταξύ λέξεων σε μια γλώσσα). Και δεν είναι μόνο αυτό.

Συνταγματική(κείμενο) οι σύνδεσμοι δεν αντιπροσωπεύονται στον θησαυρό.

Παράδειγμα: WORDNET - ευφυής θησαυρός υπολογιστή

http://wordnet.princeton.edu/perl/webwn

Δημιουργήθηκε στο Πανεπιστήμιο του Πρίνστον και διανέμεται ελεύθερα.

Βασικά χαρακτηριστικά.

Οι λέξεις σε αυτό ομαδοποιούνται σε συνώνυμες ομάδες ( synsets - συνετ). Χωρίζονται σε 4 λεξικά - ουσιαστικά, επίθετα, ρήματα και επιρρήματα.

Οι συνθέσεις ενώνονται τόσο σε ιεραρχικές σχέσεις (υπώνυμα και υπερώνυμα), όσο και σε σχέση με την αντωνυμία και επίσης τη μερωνυμία (να είναι μέρος κάτι ή να αποτελείται από μέρη).

Το πρόβλημα της μορφολογίας έχει επίσης λυθεί - η λέξη μετά την κλήση στο WN επιστρέφει στην αρχική της μορφή.

Θησαυρός ανάκτησης πληροφοριών

Στον τομέα της ανάκτησης πληροφοριών, οι θησαυροί επωφελούνται από τη μετάβαση από το κείμενο σε περιγραφείς που περιγράφουν ένα αντικείμενο του πραγματικού κόσμου. Η μετάβαση σε περιγραφείς επιτρέπει την εκτεταμένη (περιττή) ευρετηρίαση.

Στον θησαυρό ανάκτησης πληροφοριών, οι ΠΑΡΑΔΕΙΓΜΑΤΙΚΕΣ σχέσεις μεταξύ των περιγραφικών παραγόντων εκφράζονται ρητά (όχι όλες, αλλά αυτές που είναι πιο συχνά σημαντικές για την αύξηση της πληρότητας της ανάκτησης πληροφοριών). Έχει προσδιοριστεί πειραματικά ότι οι πιο σημαντικές παραδειγματικές σχέσεις είναι

    υποταγή

    ομοιότητα

    είδος-γένος (γένος-είδος)

    αιτία-αποτελέσματα

    μέρος-ολόκληρο.

Παράδειγμα καταχώρισης λεξικού:

Agreecultural μηχανές

Συν. γεωργικά μηχανήματα, γεωργικά μηχανήματα,

Θέα: πατατοθεριστής, σπαρτήρας κ.λπ.

Ένα παράδειγμα περιττής ευρετηρίασης

Αίτηση "Agreecultural μηχανές. Agreecultural εξοπλισμός"

Παράδειγμα: Κοινωνικοπολιτικός Θησαυρός του Πληροφοριακού Συστήματος Πανεπιστημίων Ρωσικής Γλώσσας ΡΩΣΙΑ

http://www.cir.ru/index.jsp

Αναπτύχθηκε από τον Αυτόνομο μη κερδοσκοπικό οργανισμό "Center for Information Research" (ANO TsII)

Ο θησαυρός είναι ένας ορολογικός πόρος που υλοποιείται ως λεξικό εννοιών και όρων με συνδέσμους μεταξύ τους. Ο κύριος σκοπός του θησαυρού είναι να βοηθήσει στην ανάκτηση πληροφοριών: με βάση τους συνδέσμους του θησαυρού, το ερώτημα επεκτείνεται, η πλοήγηση στους συνδέσμους του θησαυρού βοηθά στη διατύπωση του ίδιου του ερωτήματος με μεγαλύτερη σαφήνεια.

Ένα χαρακτηριστικό της ιεραρχίας του Thesaurus UIS "Russia" είναι η πολλαπλότητα της ταξινόμησης, δηλαδή, για τις περισσότερες έννοιες, δεν αναζητείται ούτε μία έννοια ταξινόμησης (σύνδεση ABOVE - BELOW), αλλά υπάρχουν διαφορετικές απόψεις για μια συγκεκριμένη έννοια. περιγράφεται, για παράδειγμα, η έννοια του ΚΑΤΑΣΤΗΜΑΤΟΣ μπορεί να θεωρηθεί τόσο ως ΚΤΙΡΙΟ όσο και ως ΕΜΠΟΡΙΚΟΣ ΟΡΓΑΝΙΣΜΟΣ.

Ο θησαυρός για κοινωνικοπολιτικά θέματα, περιλαμβάνει περισσότερες από 26.000 έννοιες, 62.000 όρους, 100.000 άμεσες και 700.000 κληρονομικές σχέσεις μεταξύ εννοιών. Η τρέχουσα έκδοση του Θησαυρού περιγράφει την ορολογία που χρησιμοποιείται στον κοινωνικοπολιτικό τομέα, συμπεριλαμβανομένων των οικονομικών, πολιτικών, στρατιωτικών, νομοθετικών, κοινωνικών, διεθνών σχέσεων και άλλων τομέων.

Το πλήρες όνομα του Θησαυρού είναι ένας θησαυρός ανάκτησης πληροφοριών για κοινωνικοπολιτικά θέματα για αυτόματη ευρετηρίαση. Εδώ όλοι οι ορισμοί είναι σημαντικοί:

    "ανάκτηση πληροφοριών" - καθώς έχει σχεδιαστεί ειδικά για χρήση στην ανάκτηση πληροφοριών για να βοηθήσει τον χρήστη στη διαμόρφωση (διευκρίνιση) του αιτήματος και να επεκτείνει αυτόματα τους όρους του αιτήματος κατά την αναζήτηση.

    "για κοινωνικοπολιτικά θέματα" - καθώς καλύπτει το 95-99% του λεξιλογίου και της ορολογίας του ρωσικού κειμένου για κοινωνικοπολιτικά θέματα.

    «για αυτόματη ευρετηρίαση» - καθώς αποτελεί τη βάση για τη διαδικασία αυτόματου προσδιορισμού του θέματος των εγγράφων - ομαδοποίηση όρων κοντά στην ιεραρχία του θησαυρού σε θεματικούς κόμβους, αυτόματη κατηγοριοποίηση και αυτόματο σχολιασμό.

Θησαυροί - Συμπέρασμα

Για πολλούς γνωστούς θησαυρούς (WordNet, Roget, EuroWordNet), η αυτόματη εξαγωγή συμπερασμάτων από συνδέσμους θησαυρού παραμένει μεγάλο πρόβλημα - όταν η επέκταση στην πλησιέστερη γειτονιά είναι σωστή, αλλά όχι πλήρης, και οι προσπάθειες επέκτασης της γειτονιάς οδηγούν σε σφάλματα.

Εννοιολογικό σύστημα της θεματικής περιοχής Η βάση κάθε θεματικής περιοχής είναι το σύστημα εννοιών αυτής της περιοχής. Ορισμός έννοιας: Έννοια είναι μια σκέψη που αντανακλά αντικείμενα και φαινόμενα της πραγματικότητας σε γενικευμένη μορφή, καθορίζοντας τις ιδιότητες και τις σχέσεις τους. τα τελευταία (ιδιότητες και σχέσεις) εμφανίζονται στην έννοια ως γενικά και ειδικά χαρακτηριστικά που συσχετίζονται με κατηγορίες αντικειμένων και φαινομένων (Γλωσσικό Λεξικό)


Έννοιες και όροι Για την έκφραση της έννοιας μιας θεματικής περιοχής σε κείμενα, χρησιμοποιούνται λέξεις ή φράσεις που ονομάζονται όροι. Το σύνολο των όρων της θεματικής περιοχής αποτελούν το ορολογικό της σύστημα. Η σχέση ενός συγκεκριμένου όρου με άλλους όρους του ορολογικού συστήματος της θεματικής περιοχής δίνεται από τον ορισμό


Ορισμοί του όρου; Λέξη (ή συνδυασμός λέξεων) που είναι ακριβής προσδιορισμός μιας συγκεκριμένης έννοιας οποιουδήποτε ειδικού τομέα της επιστήμης, της τεχνολογίας, της τέχνης, της κοινωνικής ζωής κ.λπ. || Μια ειδική λέξη ή έκφραση που χρησιμοποιείται για να δηλώσει κάτι. σε συγκεκριμένο περιβάλλον, επάγγελμα (Μεγάλο Επεξηγηματικό Λεξικό της Ρωσικής Γλώσσας)


Όροι - ακριβείς ονομασίες εννοιών Συνήθως, κάθε έννοια της περιοχής αντιστοιχεί σε τουλάχιστον έναν αδιαμφισβήτητα κατανοητό όρο, η έννοια του οποίου είναι αυτή η έννοια. - όροι, με την έννοια της παραδοσιακής θεωρίας της ορολογίας Ιδιότητες των όρων - τα ακριβή ονόματα των εννοιών - ο όρος πρέπει να αναφέρεται άμεσα στην έννοια, πρέπει να εκφράζει την έννοια καθαρά. - η έννοια του όρου πρέπει να είναι ακριβής και να μην επικαλύπτεται ως προς τη σημασία με άλλους όρους· - η έννοια του όρου δεν πρέπει να εξαρτάται από το πλαίσιο. Όροι που ονομάζουν με ακρίβεια μια έννοια αποτελούν αντικείμενο μελέτης της θεωρίας της ορολογίας, ορολόγοι


Όροι κειμένου Σε πραγματικά κείμενα της θεματικής περιοχής, εκτός από τους κύριους όρους, μπορεί να χρησιμοποιηθεί μια ποικιλία διαφορετικών γλωσσικών εκφράσεων για την αναφορά στην έννοια, την οποία ονομάζουμε όρους κειμένου: - συντακτικές και λεκτικές επιλογές: αποδέκτης κονδυλίων του προϋπολογισμού - αποδέκτης προϋπολογισμού· - λεξιλογικές παραλλαγές - άμεση διαγραφή, αδιαμφισβήτητη διαγραφή. - εκφράσεις πολλαπλών τιμών, ανάλογα με το πλαίσιο, που χρησιμεύουν ως αναφορά σε διαφορετικές έννοιες της περιοχής, για παράδειγμα, η λέξη νόμισμα σε διαφορετικά πλαίσια μπορεί να σημαίνει εθνικό νόμισμα ή ξένο νόμισμα.














Περιγραφείς ετικετών Ετικέτες - μέρος του ονόματος του περιγραφέα γερανοί (ανυψωτικός εξοπλισμός) έναντι γερανών (πουλιά) κελύφη (κατασκευές) - σύγκριση διαφορετικών θησαυρών Προτιμήσεις για φράσεις: –Εγγραφές φωνογράφου vs. δίσκοι (φωνογράφος) Απορρίμματα και πληθυντικός: Ξύλο (υλικό) Ξύλο (δασώδεις εκτάσεις)






Συμπερίληψη περιγραφών που βασίζονται σε εκφράσεις πολλών λέξεων Ο διαχωρισμός ενός όρου αυξάνει την ασάφεια: φυτική τροφή Η σημασία της έκφρασης εξαρτάται από τη σειρά των λέξεων: επιστήμη της πληροφορίας - επιστημονική πληροφόρηση Μία από τις λέξεις που συνιστώνται είναι εκτός του πεδίου εφαρμογής του θησαυρού ή πολύ γενική: πρώτα βοήθεια Οι σχέσεις περιγραφών δεν απορρέουν από τη δομή της: –Τεχνητοί νεφροί, καθεστώς πρόσφυγα, φωτεινοί σηματοδότες




Συνειρμικές σχέσεις Πεδίο δραστηριότητας - χαρακτήρας - Μαθηματικά - μαθηματικός Πειθαρχία - αντικείμενο μελέτης - Νευρολογία - νευρικό σύστημα Δράση - παράγοντας ή εργαλείο - Κυνήγι - κυνηγός Δράση - αποτέλεσμα δράσης - Ύφανση - ύφασμα Δράση - στόχος - Δέσμευση - βιβλίο Αιτία-αποτελέσματα - Θάνατος - κηδεία Αξία - μονάδα μέτρησης - Ρεύμα ισχύος - αμπέρ Δράση - αντισυμβαλλόμενος - Αλλεργιογόνο - αντιαλλεργικό φάρμακο κ.λπ.


Θησαυροί ανάκτησης πληροφοριών: στάδια ανάπτυξης Στάδιο πρώτο: οι ευρετηριαστές περιγράφουν το κύριο θέμα του κειμένου με αυθαίρετες λέξεις και φράσεις Οι όροι που προέρχονται από πολλά κείμενα συγκεντρώνονται Μεταξύ όρων που είναι κοντά σε νόημα, επιλέγεται ο πιο αντιπροσωπευτικός Ορισμένοι από τους υπόλοιπους γίνονται Συνώνυμα υπό όρους, τα υπόλοιπα διαγράφονται. Συνήθως δεν περιλαμβάνονται συγκεκριμένοι όροι


Θησαυροί ανάκτησης πληροφοριών: η τέχνη του σχεδιασμού Οι περιγραφείς είναι όροι που χρειάζονται για να εκφράσουν το κύριο θέμα του εγγράφου Τα συνώνυμα περιλαμβάνονται μόνο τα πιο απαραίτητα (για παράδειγμα, ξεκινήστε με διαφορετικό γράμμα) ώστε να μην παρεμποδίζεται η εργασία του ευρετηρίου Παρόμοιοι όροι θα πρέπει να μειωθούν σε έναν όρο για να αποφευχθεί η ευρετηρίαση της υποκειμενικότητας Επίπεδα ιεραρχίας, η συμπερίληψη συγκεκριμένων όρων είναι περιορισμένη


Θησαυρός ανάκτησης πληροφοριών: η τέχνη της ανάπτυξης - 2 Σε περίπλοκες περιπτώσεις, οι περιγραφείς παρέχονται με ετικέτες και σχόλια -LIV: βομβαρδισμός - βομβαρδισμός -Αμφισβήτητοι όροι: μία τιμή στον θησαυρό (κεφαλαίο), δεν χωρούν στον θησαυρό, ετικέτες!! ! Παραδοσιακός θησαυρός ανάκτησης πληροφοριών - μια τεχνητή γλώσσα που βασίζεται σε πραγματικούς όρους




Traditional IPT: εφαρμογή στην αυτόματη επεξεργασία Έλλειψη γνώσης της πραγματικής γλώσσας του λογισμικού Έλλειψη γνώσης της πραγματικής γλώσσας του λογισμικού Legislative Indexing Vocabulary:Legislative Indexing Vocabulary: – στο κείμενο TROOPS – στον θησαυρό MILITARY FORCES – στο κείμενο ΚΕΦΑΛΑΙΟ – κεφαλαίο, στον θησαυρό μόνο κεφαλαίο Προτεινόμενο: κάθε συμπλήρωμα περιγραφής με λίστες λέξεων και όρων Προτεινόμενο: κάθε περιγραφέας πρέπει να συμπληρωθεί με λίστες λέξεων και όρων Αλλά: πολυσημία ή που σχετίζεται με διαφορετικούς περιγραφείς. Αλλά: πολυσημία ή που σχετίζεται με διαφορετικούς περιγραφείς. Επίλυση ασάφειας Επίλυση αμφισημίας


Παραδοσιακό IPT: αυτόματη επέκταση ερωτήματος Πρόβλημα με συσχετισμούς Προτεινόμενο: εισαγάγετε βάρη εισαγάγετε βάρη εισαγάγετε ονόματα σχέσεων: αντικείμενο, ιδιοκτησία κ.λπ. εισάγετε τα ονόματα των σχέσεων: αντικείμενο, ιδιοκτησία κ.λπ. ΣΥΜΠΕΡΑΣΜΑ: πρέπει να μάθετε πώς να δημιουργείτε γλωσσικούς πόρους ειδικά για αυτόματη επεξεργασία συλλογών κειμένων


Θησαυρός EUROVOC – πολύγλωσσος θησαυρός της Ευρωπαϊκής Κοινότητας Θησαυρός σε 9 γλώσσες Ρωσική έκδοση του EUROVOC –+5 χιλιάδες έννοιες που αντικατοπτρίζουν τις ρωσικές ιδιαιτερότητες Πολύγλωσσος θησαυρός – Περιγραφέας – ονόματα σε διαφορετικές γλώσσες – Ascriptors – για ορισμένες γλώσσες


Αυτόματη ευρετηρίαση βάσει κανόνων στον θησαυρό EUROVOC (Hlava, Heinebach, 1996) Παράδειγμα κανόνα: IF (κοντά στην «Τεχνολογία» ΚΑΙ με «Ανάπτυξη») ΧΡΗΣΙΜΟΠΟΙΗΣΤΕ κοινοτικό πρόγραμμα ΧΡΗΣΗ αναπτυξιακής βοήθειας ENDIF 40 χιλιάδες κανόνες. Δοκιμή: οι 20 πιο συχνοί περιγραφείς στο κείμενο, που δημιουργούνται αυτόματα - 42% πληρότητα, σε σύγκριση με τη μη αυτόματη περιγραφική


Αυτόματη ευρετηρίαση με βάση τον καθορισμό βαρών αντιστοιχίας μεταξύ λέξεων και περιγραφικών παραγόντων (Steinberger et al., 2000) Στάδιο 1 - δημιουργία αντιστοιχίας μεταξύ λέξεων κειμένου και εκχωρημένων περιγραφέων με βάση στατιστικά μέτρα (chi-square ή log-lihood) Περιγραφέας FISHERY MANAGEMENT - τα ακόλουθα λέξεις (σε φθίνουσα σειρά βάρους): αλιεία, ψάρι, απόθεμα, αλιεία, διατήρηση, διαχείριση, σκάφος κ.λπ. Ευρετηρίαση 2ου σταδίου - άθροιση λογαρίθμων βαρών ή ως κλιμακωτό γινόμενο διανυσμάτων


Συνδυασμός ερωτημάτων θησαυρού με χαλαρή και ανάκτηση πληροφοριών Συλλογή - συσχετίσεις με μη αυτόματο ευρετήριο Σύνολα χρήστη Ερώτημα φυσικής γλώσσας Το ερώτημα επεκτείνεται από τους περιγραφείς θησαυρού που συσχετίζονται περισσότερο με το ερώτημα (Petras 2004; Petras 2005). Για παράδειγμα, κατόπιν αιτήματος αφερέγγυων εταιρειών (Αφερέγγυες εταιρείες), μπορεί να ληφθεί μια λίστα με περιγραφικούς παράγοντες ρευστότητα, χρέος, επιχείρηση, επιχείρηση και το ερώτημα επεκτείνεται. Η ακρίβεια στο πείραμα αυξήθηκε κατά 13%.



Το τμήμα είναι πολύ εύκολο στη χρήση. Στο προτεινόμενο πεδίο, απλώς εισάγετε την επιθυμητή λέξη και θα σας δώσουμε μια λίστα με τις έννοιές της. Θα ήθελα να σημειώσω ότι ο ιστότοπός μας παρέχει δεδομένα από διάφορες πηγές - εγκυκλοπαιδικά, επεξηγηματικά, λεξικά δημιουργίας λέξεων. Εδώ μπορείτε επίσης να εξοικειωθείτε με παραδείγματα χρήσης της λέξης που εισαγάγατε.

Έννοια της λέξης θησαυρός

θησαυρός στο λεξικό σταυρόλεξου

Επεξηγηματικό λεξικό της ρωσικής γλώσσας. S.I. Ozhegov, N.Yu. Shvedova.

θησαυρός

[τε], -α, μ. (ειδικό).

    Λεξικό της γλώσσας, που θέτει ως στόχο την πλήρη αντανάκλαση όλου του λεξιλογίου της.

    Λεξικό ή σύνολο δεδομένων που καλύπτει πλήρως τους όρους, τις έννοιες κάποιου είδους. ειδική περιοχή.

    επίθ. θησαυρός, ου, ου.

Νέο επεξηγηματικό και παράγωγο λεξικό της ρωσικής γλώσσας, T. F. Efremova.

θησαυρός

    Οποιοδήποτε λεξικό. γλώσσα, αντιπροσωπεύοντας πλήρως το λεξιλόγιό της.

    Ένα πλήρες, συστηματικό σύνολο δεδομένων για α ένα πεδίο γνώσης που επιτρέπει σε ένα άτομο ή έναν υπολογιστή να πλοηγηθεί σε αυτό (στην επιστήμη των υπολογιστών).

Εγκυκλοπαιδικό Λεξικό, 1998

θησαυρός

ΘΗΣΑΥΡΟΣ (από τα ελληνικά θησαυρός - θησαυρός)

    ένα λεξικό στο οποίο οι λέξεις της γλώσσας παρουσιάζονται όσο το δυνατόν πληρέστερα με παραδείγματα χρήσης τους στο κείμενο (είναι πλήρως εφικτό μόνο για νεκρές γλώσσες).

    Ένα λεξικό στο οποίο οι λέξεις που σχετίζονται με οποιοδήποτε γνωστικό πεδίο είναι διατεταγμένες σύμφωνα με τη θεματική αρχή και εμφανίζονται σημασιολογικές σχέσεις (ειδικά για το γένος, συνώνυμα κ.λπ.) μεταξύ λεξικών ενοτήτων. Στους θησαυρούς ανάκτησης πληροφοριών, οι λεξιλογικές μονάδες του κειμένου αντικαθίστανται από περιγραφείς.

Θησαυρός

(από το ελληνικό θησαυρός ≈ θησαυρός, θησαυροφυλάκιο), σύνολο σημασιολογικών ενοτήτων μιας ορισμένης γλώσσας με σύστημα σημασιολογικών (βλ. Σημασιολογία) σχέσεων που δίνονται σε αυτήν. Ο Τ. στην πραγματικότητα καθορίζει τη σημασιολογία μιας γλώσσας (μιας εθνικής γλώσσας, της γλώσσας μιας συγκεκριμένης επιστήμης ή μιας επίσημης γλώσσας για ένα αυτοματοποιημένο σύστημα ελέγχου). Αρχικά το Τ. θεωρήθηκε ως μονόγλωσσο λεξικό, στο οποίο οι σημασιολογικές σχέσεις καθορίζονται από την ομαδοποίηση των λέξεων σύμφωνα με θεματικές επικεφαλίδες. Για παράδειγμα, το αγγλικό T. (συγγραφέας P. M. Roget), που δημοσιεύτηκε το 1962 (πρώτη έκδοση 1852), περιέχει 1.040 επικεφαλίδες, στις οποίες κατανέμονται περίπου 240.000 λέξεις. Το ευρετήριο (κλειδί) αυτού του Τ. περιέχει έναν αλφαβητικό κατάλογο λέξεων που υποδεικνύουν τις επικεφαλίδες και τις υποεπικεφαλίδες στις οποίες ανήκει κάθε λέξη. Υπάρχουν παραδοσιακές γενικές γλωσσικές γλώσσες (περιγραφές των σημασιολογικών συστημάτων μεμονωμένων γλωσσών) για Αγγλικά, Γαλλικά και Ισπανικά. Τα μονόγλωσσα λεξικά που ορίζουν τις εκφράσεις των κύριων σημασιολογικών παραμέτρων κάθε λέξης είναι πολύ κοντά στο T., για παράδειγμα, το λεξικό της ρωσικής γλώσσας του S. I. Ozhegov.

Στη δεκαετία του '70. 20ος αιώνας Οι τόμοι ανάκτησης πληροφοριών έγιναν ευρέως διαδεδομένοι.Σε αυτούς τους τόμους εντοπίστηκαν ειδικές λεξιλογικές μονάδες ή περιγραφείς, οι οποίοι μπορούν να χρησιμοποιηθούν για την αυτόματη αναζήτηση πληροφοριών τεκμηρίωσης. Κάθε λέξη ενός τέτοιου όρου συσχετίζεται με έναν συνώνυμο περιγραφέα (βλ. Συνώνυμο) και οι σημασιολογικές σχέσεις υποδεικνύονται ρητά για τους περιγραφείς: γένος ≈ είδος, μέρος ≈ σύνολο, στόχος ≈ μέσα κ.λπ. Συνήθως είναι σύνηθες να διαχωρίζεται το γένος- ειδών (ιεραρχικές) και συνειρμικές σχέσεις. Έτσι, ο «Θησαυρός Ανάκτησης Πληροφοριών στην Πληροφορική», που δημοσιεύτηκε στην ΕΣΣΔ το 1973, παρέχει για κάθε περιγραφικό ένα λήμμα λεξικού, το οποίο υποδεικνύει ξεχωριστά συνώνυμες λέξεις-κλειδιά, γενικούς, ειδικούς και συνειρμικούς περιγραφείς. Για καλύτερο προσανατολισμό σε συσχετιστικούς δεσμούς μεταξύ περιγραφικών παραγόντων, επισυνάπτονται σημασιολογικοί χάρτες θεματικών τάξεων σε αυτό το Τ. Στην αυτοματοποιημένη ανάκτηση πληροφοριών, γίνεται αναζήτηση εγγράφων για τα οποία το ευρετήριο περιέχει όχι μόνο περιγραφείς ερωτημάτων, αλλά και εκείνους τους περιγραφείς που βρίσκονται σε ορισμένες σημασιολογικές σχέσεις μαζί τους. Μερικές φορές είναι χρήσιμο να ξεχωρίσουμε συγκεκριμένες συνειρμικές σχέσεις στο Τ. που είναι συγκεκριμένες για μια δεδομένη θεματική περιοχή: ασθένεια ≈ αιτιολογικός παράγοντας, συσκευή ≈ σκοπός (ή μετρούμενη τιμή) κ.λπ. Η θέση μιας λεξιλογικής μονάδας (λέξη, φράση) στο Ο Τ. χαρακτηρίζει τη σημασία του στη γλώσσα. Η γνώση του συστήματος σημασιολογικών σχέσεων στο οποίο εισέρχεται μια δεδομένη λέξη (συμπεριλαμβανομένων των ρουμπρίκων όπου μπαίνει) καθιστά δυνατή την κρίση της σημασίας αυτής της λέξης.

Με μια ευρεία έννοια, η τεχνολογία ερμηνεύεται ως μια περιγραφή του συστήματος γνώσης για την πραγματικότητα που διαθέτει ένας μεμονωμένος φορέας πληροφοριών ή μια ομάδα φορέων. Αυτός ο φορέας μπορεί να εκτελέσει τις λειτουργίες ενός δέκτη πρόσθετων πληροφοριών, με αποτέλεσμα να αλλάζει και το Τ. Το αρχικό Τ. καθορίζει τις δυνατότητες του δέκτη όταν λαμβάνει σημασιολογικές πληροφορίες. Στην ψυχολογία και στη μελέτη συστημάτων με τεχνητή νοημοσύνη εξετάζονται οι ιδιότητες του Τ. των ατόμων, που εκδηλώνονται στην αντίληψη και κατανόηση των πληροφοριών. Στην κοινωνιολογία και τη θεωρία της επικοινωνίας, μελετούν τις ιδιότητες του Τ. ατόμων και ομάδων, οι οποίες παρέχουν τη δυνατότητα αμοιβαίας κατανόησης με βάση τη γενικότητα του Τ. Σε αυτές τις περιπτώσεις, ο Τ. πρέπει να περιλαμβάνει σύνθετες δηλώσεις και τις σημασιολογικές τους συνδέσεις που καθορίζουν το απόθεμα πληροφοριών που διαθέτει ένα σύνθετο σύστημα. Ο Τ. περιέχει στην πραγματικότητα όχι μόνο πληροφορίες για την πραγματικότητα, αλλά και μετα-πληροφορίες (πληροφορίες για πληροφορίες), που παρέχουν τη δυνατότητα λήψης νέων μηνυμάτων.

Lit .: Cherny A.I., Γενική μεθοδολογία για την κατασκευή θησαυρών, «Επιστημονικές και τεχνικές πληροφορίες. Ser. 2", 1968, ╧5; Varga D., Μεθοδολογία προετοιμασίας πληροφοριακών θησαυρών, μτφρ. [από το Hung.], Μ., 1970; Shreider Yu. A., Θησαυροί στην πληροφορική και τη θεωρητική σημασιολογία, «Επιστημονικές και τεχνικές πληροφορίες. Ser. 2", 1971, ╧ Ζ.

Yu. A. Schreider.

Βικιπαίδεια

Θησαυρός

Θησαυρός, με τη γενική έννοια - ειδική ορολογία, πιο αυστηρά και ουσιαστικά - ένα λεξικό, μια συλλογή πληροφοριών, ένα σώμα ή κώδικας που καλύπτει πλήρως τις έννοιες, τους ορισμούς και τους όρους ενός ειδικού πεδίου γνώσης ή πεδίου δραστηριότητας, το οποίο θα πρέπει να συμβάλλει στην σωστή λεξιλογική, εταιρική επικοινωνία. στη σύγχρονη γλωσσολογία, ένα ειδικό είδος λεξικών που υποδεικνύουν σημασιολογικές σχέσεις (συνώνυμα, αντώνυμα, παρώνυμα, υποώνυμα, υπερώνυμα κ.λπ.) μεταξύ λεξικών ενοτήτων. Οι θησαυροί είναι ένα από τα πιο αποτελεσματικά εργαλεία για την περιγραφή μεμονωμένων θεματικών περιοχών.

Σε αντίθεση με ένα επεξηγηματικό λεξικό, ένας θησαυρός καθιστά δυνατή την αποκάλυψη του νοήματος όχι μόνο με τη βοήθεια ενός ορισμού, αλλά και συσχετίζοντας μια λέξη με άλλες έννοιες και τις ομάδες τους, λόγω των οποίων μπορεί να χρησιμοποιηθεί για να γεμίσει τις βάσεις γνώσεων του τεχνητού συστήματα πληροφοριών.

Στο παρελθόν ο όρος θησαυρόςορίστηκαν κυρίως λεξικά που αντιπροσώπευαν το λεξιλόγιο της γλώσσας με παραδείγματα χρήσης της σε κείμενα με μέγιστη πληρότητα.

Επίσης όρος θησαυρόςχρησιμοποιείται στη θεωρία της πληροφορίας για να αναφέρεται στο σύνολο όλων των πληροφοριών που κατέχει το υποκείμενο.

Στην ψυχολογία, ο θησαυρός ενός ατόμου χαρακτηρίζει την αντίληψη και την κατανόηση της πληροφορίας. Η θεωρία της επικοινωνίας εξετάζει επίσης τον γενικό θησαυρό ενός πολύπλοκου συστήματος, μέσω του οποίου αλληλεπιδρούν τα στοιχεία του.

Θησαυρός (αποσαφήνιση)

Θησαυρός:

  • Θησαυρός - ένα λεξικό, μια συλλογή πληροφοριών που καλύπτει τις έννοιες, τους ορισμούς και τους όρους ενός ειδικού πεδίου γνώσης ή πεδίου δραστηριότητας.
  • Ο θησαυρός του Ρότζερ είναι ένα από τα πρώτα και πιο διάσημα ιδεογραφικά λεξικά στην ιστορία.

Παραδείγματα χρήσης της λέξης θησαυρός στη βιβλιογραφία.

Για αντίληψη και συν-δημιουργία, κάποια βέλτιστα θησαυρόςΌχι μικρό, αλλά ούτε και πολύ μεγάλο.

Με απεριόριστο αριθμό εισερχόμενων πληροφοριών, που ξεπερνά σημαντικά θησαυρός, η αξία του δεν εξαρτάται από αυτή την ποσότητα και καθορίζεται εξ ολοκλήρου από θησαυρόςωμ.

Η πολυχρηστικότητα, η συστημική φύση της τέχνης οδηγεί σε άνιση αντίληψη του έργου στο σύνολό του: για την αντίληψη ορισμένων πτυχών του στίχου θησαυρόςβέλτιστη, για άλλους, ανεπαρκής ή πολύ μεγάλος.

Επειδή θησαυρόςμεγαλώνει και αλλάζει, η εκ νέου γνωριμία με την εργασία μπορεί να σημαίνει τη λήψη νέων πολύτιμων πληροφοριών.

Η επιθυμία του παιδιού να ξαναδιαβάσει επανειλημμένα το παραμύθι που έχει αγαπήσει είναι κατανοητή: θησαυρόςΗ ικανότητά του για συνδημιουργία, για συνειρμική φαντασίωση είναι ιδιαίτερα μεγάλη.

Αυτή η πλευρά του θέματος είναι πιο ευμετάβλητη και υποκειμενική παρά θησαυρός, και αναζητώντας μια αντικειμενική αισθητική αξιολόγηση του έργου, θα πρέπει να περιοριστεί στο ελάχιστο.

Διεισδύει σε θησαυρόςποιητής και απευθύνεται στη μετάφραση θησαυρόςαπό ξένο αναγνώστη.

Αυτό το πιο σημαντικό πράγμα είναι να καθορίσετε πόσο μεγάλο είναι θησαυρός, Τ.

Όχι, απλώς οι δικές του αποσκευές είναι ελάχιστες, είναι ανέπτυκτη, δική του θησαυρόςείναι στα σπάργανα και αν δεν το καταλάβει θησαυρόςθα πρέπει να αυξηθεί, τότε, σε κάθε περίπτωση, αυτή η γυναίκα θα δυσκολευτεί μαζί του.

Πλούσιος θησαυρός, με βάση την αληθινή γνώση, επιτρέπει σε ένα άτομο σε επικοινωνία με άλλο άτομο, συμπεριλαμβανομένης της στενότερης επικοινωνίας με το πιο κοντινό άτομο, να ανταποκρίνεται σωστά σε ό,τι συμβαίνει.

Προφανώς, η πτώση της αξίας της πληροφορίας με την ανάπτυξη θησαυρόςπρέπει να εξαρτάται από τη σχέση θησαυρόςστον όγκο των πληροφοριών που λαμβάνονται.

Προφανώς, η βέλτιστη αξία των καλλιτεχνικών πληροφοριών αντιστοιχεί στην εγγύτητα θησαυρόςαναγνώστης και θησαυρόςποιητής.

Μπορούμε να πούμε ότι η συνδημιουργία, όπως και η δημιουργικότητα, απαιτεί έμπνευση, δηλαδή την ένταξη θησαυρόςμε την ευρεία έννοια της λέξης.

Μια τέτοια εσωτερική επανάληψη φωτεινών εικόνων και λαμπερού ήχου, παραμένοντας μέσα στο υπάρχον θησαυρός, το εμπλουτίζει με την ίδια αισθητική στιγμή επανάληψης.

Σε αυτό το σημείο θησαυρόςΟ Ναμπόκοφ και ο Πρίσβιν πρέπει να θεωρούνται αντίποδες του Πλατόνοφ και η Μαρίνα Τσβετάεβα μπορεί να αναγνωριστεί ως παρόμοια με αυτόν.

N. V. Lukashevich

[email προστατευμένο]

B. V. Dobrov

Ερευνητικό Υπολογιστικό Κέντρο του Κρατικού Πανεπιστημίου της Μόσχας M.V. Lomonosov;

Κέντρο Έρευνας Πληροφοριών ΑΝΩ

[email προστατευμένο]

Λέξεις-κλειδιά:θησαυρός, ανάκτηση πληροφοριών, αυτόματη επεξεργασία κειμένου,

Η συντριπτική πλειοψηφία των τεχνολογιών που λειτουργούν με μεγάλες συλλογές κειμένων βασίζεται σε στατιστικές και πιθανολογικές μεθόδους. Αυτό οφείλεται στο γεγονός ότι οι λεξιλογικοί πόροι που θα μπορούσαν να χρησιμοποιηθούν για την επεξεργασία συλλογών κειμένων με χρήση γλωσσικών μεθόδων θα πρέπει να έχουν όγκο δεκάδων χιλιάδων καταχωρήσεων λεξικού και να έχουν μια σειρά από σημαντικές ιδιότητες που πρέπει να παρακολουθούνται ειδικά κατά την ανάπτυξη ενός πόρου. Στην έκθεση, εξετάζουμε τις βασικές αρχές της ανάπτυξης λεξιλογικών πόρων για αυτόματη επεξεργασία μεγάλων συλλογών κειμένων χρησιμοποιώντας το παράδειγμα του θησαυρού της ρωσικής γλώσσας που δημιουργήθηκε από το 1997 για την επεξεργασία κειμένων από υπολογιστή RuThez, το οποίο είναι επί του παρόντος ένα ιεραρχικό δίκτυο με περισσότερες από 42 χιλιάδες έννοιες . Περιγράφουμε την τρέχουσα κατάσταση του θησαυρού με βάση τη σύγκριση της λεξιλογικής του σύνθεσης και του σώματος κειμένου του Πανεπιστημιακού Πληροφοριακού Συστήματος ΡΩΣΙΑΣ (www.cir.ru) - 400 χιλιάδες έγγραφα. Συζητούνται παραδείγματα χρήσης του θησαυρού σε διάφορες εφαρμογές αυτόματης επεξεργασίας κειμένου.

  1. Εισαγωγή

Επί του παρόντος, εκατομμύρια έγγραφα έχουν γίνει διαθέσιμα σε ηλεκτρονική μορφή, χιλιάδες συστήματα πληροφοριών και ηλεκτρονικές βιβλιοθήκες έχουν δημιουργηθεί. Ταυτόχρονα, τα πληροφοριακά συστήματα που χρησιμοποιούν λεξιλογικούς και ορολογικούς πόρους για αναζήτηση υπολογίζονται σε κλάσματα ποσοστού. Αυτό οφείλεται στα σοβαρά προβλήματα δημιουργίας τέτοιων γλωσσικών πόρων για την αυτόματη επεξεργασία σύγχρονων συλλογών ηλεκτρονικών εγγράφων.

Πρώτον, αυτές οι συλλογές είναι συνήθως πολύ μεγάλες, ο πόρος πρέπει να περιλαμβάνει περιγραφές χιλιάδων λέξεων και όρων. Δεύτερον, οι συλλογές είναι ένα σύνολο εγγράφων διαφορετικής δομής με ποικίλες συντακτικές κατασκευές, γεγονός που καθιστά δύσκολη την αυτόματη επεξεργασία προτάσεων κειμένου. Επιπλέον, σημαντικές πληροφορίες συχνά διανέμονται μεταξύ διαφορετικών προτάσεων του κειμένου.

Όλα αυτά εγείρουν έντονα το ερώτημα τι είδους γλωσσικός πόρος θα έπρεπε να είναι, ο οποίος, αφενός, θα ήταν χρήσιμος για αυτόματη επεξεργασία και αναζήτηση σε ηλεκτρονικές συλλογές, αφετέρου, θα μπορούσε να δημιουργηθεί σε προβλέψιμο χρόνο και να διατηρηθεί με σχετικά λίγη προσπάθεια.

Στο άρθρο, θα εξετάσουμε τις βασικές αρχές της ανάπτυξης λεξιλογικών πόρων για την αυτόματη επεξεργασία μεγάλων συλλογών κειμένων. Αυτές οι αρχές θα εξεταστούν στο παράδειγμα του θησαυρού της ρωσικής γλώσσας που δημιουργήθηκε από το 1997 από το Κέντρο Έρευνας Πληροφοριών ANO για την επεξεργασία κειμένων από υπολογιστή RuThez. Το RuThez είναι επί του παρόντος ένα ιεραρχικό δίκτυο με περισσότερες από 42 χιλιάδες έννοιες, το οποίο περιλαμβάνει περισσότερες από 95 χιλιάδες ρωσικές λέξεις, εκφράσεις, όρους. Θα περιγράψουμε την τρέχουσα κατάσταση του θησαυρού με βάση τη σύγκριση της λεξιλογικής του σύνθεσης και του λεξικού του σώματος κειμένου του Πανεπιστημιακού Πληροφοριακού Συστήματος ΡΩΣΙΑΣ, που υποστηρίζεται από το Κέντρο Έρευνας και Ανάπτυξης του Κρατικού Πανεπιστημίου της Μόσχας. M.V. Lomonosov και ANO TsII. Το UIS RUSSIA (www.cir.ru) περιέχει 400.000 έγγραφα για κοινωνικοπολιτικά θέματα (περίπου 3 GB κειμένων, 200 εκατομμύρια χρήσεις λέξεων). Το άρθρο θα εξετάσει επίσης παραδείγματα χρήσης του θησαυρού σε διάφορες εφαρμογές επεξεργασίας κειμένου.

  1. Αρχές για την ανάπτυξη ενός γλωσσικού πόρου

για εργασίες ανάκτησης πληροφοριών

Για να διασφαλιστεί η αποτελεσματική αυτόματη επεξεργασία ηλεκτρονικών εγγράφων (αυτόματη ευρετηρίαση, κατηγοριοποίηση, σύγκριση εγγράφων), είναι απαραίτητο να δημιουργηθεί μια βάση για τη σύγκρισή τους - μια λίστα με όσα αναφέρθηκαν στο έγγραφο. Για να είναι ένα τέτοιο ευρετήριο πιο αποτελεσματικό από ένα ευρετήριο λέξεων, είναι απαραίτητο να ξεπεραστεί η λεξιλογική ποικιλομορφία του κειμένου: συνώνυμα, πολυσημία, μέρη του λόγου, ύφος και να αναχθεί σε αμετάβλητο - μια έννοια που γίνεται η βάση για τη σύγκριση διαφορετικά κείμενα. Έτσι, οι έννοιες θα πρέπει να γίνουν η βάση ενός γλωσσικού πόρου και οι γλωσσικές εκφράσεις: λέξεις, όροι - γίνονται μόνο εισαγωγές κειμένου που αρχικοποιούν την αντίστοιχη έννοια.

Για να μπορούμε να συγκρίνουμε διαφορετικές, αλλά κοντινές σε νόημα έννοιες, πρέπει να δημιουργηθούν σχέσεις μεταξύ τους. Παραδοσιακά, σε γλωσσικούς πόρους για αυτόματη επεξεργασία κειμένων σε φυσική γλώσσα, χρησιμοποιούνταν ορισμένα σύνολα σημασιολογικών σχέσεων, όπως π.χ. μέρος, πηγή, αιτίακαι ούτω καθεξής. Ωστόσο, όταν εργαζόμαστε με μεγάλες και ετερογενείς συλλογές κειμένου, πρέπει να κατανοήσουμε ότι με την τρέχουσα κατάσταση της τεχνολογίας επεξεργασίας κειμένου, ένα σύστημα υπολογιστή δεν θα είναι σε θέση να ανιχνεύσει αυτές τις σχέσεις στο κείμενο με κανένα σταθερό τρόπο, προκειμένου να εκτελέσει τις διαδικασίες που έχουν συνδεθεί με ορισμένες σχέσεις. Επομένως, οι σχέσεις μεταξύ των εννοιών θα πρέπει πρώτα απ' όλα να περιγράφουν ορισμένες αμετάβλητες ιδιότητες που δεν εξαρτώνται ή εξαρτώνται ασθενώς από το θέμα ενός συγκεκριμένου κειμένου στο οποίο αναφέρεται η έννοια.

Η κύρια λειτουργία αυτών των σχέσεων είναι να απαντήσουν στην ακόλουθη ερώτηση:

εάν είναι γνωστό ότι το κείμενο είναι αφιερωμένο στη συζήτηση του C1, και το C2 συνδέεται

στάσηRμε Γ1, μπορούμε να πούμε ότι το θέμα του κειμένου(*)

έχει να κάνει με το C2;

Κατά τη δημιουργία ενός γλωσσικού πόρου για αυτόματη επεξεργασία, είναι σημαντικό να καθοριστεί ποιες ιδιότητες των εννοιών C1 και C2 επιτρέπουν τη δημιουργία των σωστών (*) σχέσεων μεταξύ τους.

Έτσι, για παράδειγμα, για όσα κείμενα γράφονται σημύδες,μπορούμε πάντα να πούμε ότι πρόκειται για στίχους δέντρα.Όμως παρά τη δημοτικότητα και τη συχνή συζήτηση της σχέσης δέντροως μέρος δάση, ένας πολύ μικρός αριθμός κειμένων για τα δέντρα είναι κείμενα για τα δάση. Σημειώστε ότι το πρόβλημα δεν σχετίζεται με το όνομα της σχέσης. Έτσι το ξέφωτο είναι μέρος του δάσους, και τα κείμενα για τα ξέφωτα είναι κείμενα για το δάσος.

Το αμετάβλητο των σχέσεων σε σχέση με το φάσμα των πιθανών θεμάτων των κειμένων της θεματικής περιοχής καθορίζεται σε μεγάλο βαθμό από βαθύτερες ιδιότητες από εκείνες που αντικατοπτρίζονται στα ονόματα των σχέσεων, δηλαδή τις ποσοτικές και υπαρξιακές του ιδιότητες. Έτσι, οι ποσοτικές ιδιότητες των σχέσεων περιγράφουν εάν όλες οι περιπτώσεις μιας έννοιας έχουν μια δεδομένη σχέση, εάν μια δεδομένη σχέση διατηρείται σε ολόκληρο τον κύκλο ζωής του παραδείγματος. Πρόβλημα με τη χρήση σχέσης δέντροδάσοςσυνδέεται με το γεγονός ότι δεν είναι κάθε συγκεκριμένο δέντρο μέσα στο δάσος, αλλά το ξέφωτο δεν μπορεί να είναι έξω από το δάσος.

Ένα παράδειγμα περιγραφής των υπαρξιακών ιδιοτήτων των σχέσεων είναι εάν η ύπαρξη της έννοιας C2 προκύπτει από την ύπαρξη της έννοιας C1 (για παράδειγμα, η ύπαρξη της έννοιας ΓΚΑΡΑΖαπαιτεί την έννοια ΑΥΤΟΚΙΝΗΤΟ) ή η ύπαρξη παραδειγμάτων του C1 εξαρτάται από την ύπαρξη παραδειγμάτων του C2 (άρα ένα συγκεκριμένο ΠΛΗΜΜΥΡΑαναπόσπαστο από ένα συγκεκριμένο παράδειγμα ΠΟΤΑΜΙΑ). Η συζήτηση στο κείμενο της εξαρτημένης έννοιας Γ2, ειδικά της εξαρτημένης παραδείγματος, υποδηλώνει ότι το κείμενο είναι επίσης σχετικό με την κύρια έννοια Γ1.

Εξετάστε τη σχέση μεταξύ των εννοιών ΔΑΣΟΣ και ΞΥΛΟλεπτομερώς. Στην πραγματικότητα, μέρος του concept ΔΑΣΟΣείναι ΔΕΝΤΡΟ ΣΤΟ ΔΑΣΟΣ, ενώ υπάρχουν και ΟΡΘΙΟ ΔΕΝΤΡΟ,ΔΕΝΤΡΟ ΣΤΟΝ ΚΗΠΟκλπ. Σε κάθε περίπτωση απαιτείται διάρρηξη της σχέσης υποταγής της έννοιας ΔΕΝΤΡΟέννοια ΔΑΣΟΣ.

Στην άλλη πλευρά, ΔΑΣΟΣείναι ευγενικό ΣΕΤ ΔΕΝΤΡΑ, δεν υπάρχει χωρίς δέντρα (καθώς και ΚΗΠΟΣ). Έτσι η έννοια ΔΑΣΟΣθα πρέπει να εξαρτάται από την έννοια ΔΕΝΤΡΟ. Ξεκινώντας με μια ανάλυση των αναγκών συγκεκριμένων εφαρμοζόμενων εργασιών, καταλήξαμε στο συμπέρασμα ότι είναι σημαντικό να περιγράψουμε τις βαθιές ιδιότητες των σχέσεων που προηγουμένως αντικατοπτρίζονταν πολύ ασήμαντα στους γλωσσικούς πόρους, αλλά οι οποίες είναι υψίστης σημασίας για εργασίες αυτόματης επεξεργασίας μεγάλες συλλογές κειμένων και, ενδεχομένως, για πολλές άλλες εργασίες.

Τώρα μοντελοποιούμε την περιγραφή των ποσοτικών και υπαρξιακών ιδιοτήτων των εννοιών με ένα σύνολο παραδοσιακών σχέσεων θησαυρού ABOVE-DOWN (66% όλων των συνδέσεων), PART-Whole (30% των συνδέσεων), ASSOCIATION (4%), σε συνδυασμό με κάποιο σύνολο πρόσθετων τροποποιητών (20% των σχέσεων φέρουν ετικέτα). Σημειώστε ότι οι σχέσεις PART-Whole και ASSOCIATION ερμηνεύονται σύμφωνα με τον κανόνα (*). Συνολικά, περιγράφονται περίπου 160 χιλιάδες άμεσες συνδέσεις μεταξύ εννοιών, οι οποίες, λαμβάνοντας υπόψη τη μεταβατικότητα των σχέσεων, δίνουν έναν συνολικό αριθμό διαφορετικών συνδέσεων άνω των 1350 χιλιάδων συνδέσεων, δηλαδή, κατά μέσο όρο, κάθε έννοια συνδέεται με 30 άλλες .

  1. Θησαυρός RuThes: Γενική Δομή

Ο Θησαυρός RuThes είναι ένα ιεραρχικό δίκτυο εννοιών που αντιστοιχεί στις έννοιες μεμονωμένων λέξεων, εκφράσεων κειμένου ή συνώνυμων σειρών. Έτσι, τα κύρια στοιχεία του θησαυρού είναι έννοιες, γλωσσικές εκφράσεις, σχέσεις, γλωσσική έκφραση - έννοια, σχέσεις μεταξύ εννοιών.

Στον θησαυρό, τόσο γλωσσικές γνώσεις - περιγραφές λεξημάτων, ιδιωμάτων και οι συνδέσεις τους, παραδοσιακά σχετιζόμενες με λεξιλογικές, σημασιολογικές γνώσεις, όσο και γνώσεις σχετικά με όρους και σχέσεις εντός θεματικών πεδίων, που παραδοσιακά σχετίζονται με το πεδίο δραστηριότητας των ορρολόγων, που περιγράφονται στους θησαυρούς ανάκτησης πληροφοριών , συλλέγονται σε ένα ενιαίο σύστημα. Ως τέτοιοι υποτομείς θεμάτων, ο θησαυρός περιγράφει θεματικά πεδία όπως τα οικονομικά, η νομοθεσία, τα οικονομικά, οι διεθνείς σχέσεις, που είναι τόσο σημαντικά για την καθημερινή ζωή ενός ατόμου που έχουν σημαντική λεξική αναπαράσταση στα παραδοσιακά επεξηγηματικά λεξικά. Σε αυτά, η λεξιλογική και η ορολογική αλληλοσυνδέονται έντονα και αλληλεπιδρούν έντονα μεταξύ τους.

Οι γλωσσικές εκφράσεις είναι χωριστά λεξήματα (ουσιαστικά, επίθετα και ρήματα), ονομαστικές και λεκτικές ομάδες. Έτσι, ο θησαυρός δεν περιλαμβάνει πλέον επιρρήματα και βοηθητικές λέξεις ως γλωσσικές εκφράσεις. Οι ομάδες πολλών λέξεων μπορεί να περιλαμβάνουν όρους, ιδιωματισμούς, λεξιλογικές συναρτήσεις ( επιρροήμι).

Για κάθε γλωσσική έκφραση περιγράφονται τα εξής:

Η ασάφειά του είναι η σύνδεση με μία ή περισσότερες έννοιες, πράγμα που σημαίνει ότι μια δεδομένη γλωσσική έκφραση μπορεί να χρησιμεύσει ως κειμενική έκφραση αυτής της έννοιας. Η ανάθεση μιας γλωσσικής έκφρασης σε διαφορετικές έννοιες είναι επίσης σιωπηρή ένδειξη της αμφισημίας της.

Η μορφολογική του σύσταση (τμήμα λόγου, αριθμός, περίπτωση).

Χαρακτηριστικά γραφής (για παράδειγμα, με κεφαλαίο γράμμα) κ.λπ.

Κάθε έννοια του θησαυρού έχει ένα μοναδικό όνομα, μια λίστα γλωσσικών εκφράσεων με τις οποίες αυτή η έννοια μπορεί να εκφραστεί στο κείμενο, μια λίστα σχέσεων με άλλες έννοιες.

Ως μοναδικό όνομα για μια έννοια, επιλέγεται συνήθως μια από τις σαφείς κειμενικές εκφράσεις της. Αλλά το όνομα της έννοιας μπορεί επίσης να σχηματιστεί από ένα ζεύγος διφορούμενων κειμενικών εκφράσεων - συνώνυμα που γράφονται με κόμμα και την ορίζουν μοναδικά (για παράδειγμα, η έννοια ΠΑΧΟΣ, ΠΟΛΥ). Μια διφορούμενη κειμενική έκφραση του ονόματος μιας έννοιας μπορεί επίσης να παρέχεται με μια ετικέτα ή ένα συντομευμένο τμήμα ερμηνείας, για παράδειγμα, η έννοια ΠΛΗΘΟΣ (ΣΥΣΤΗΜΑ ΑΝΘΡΩΠΩΝ).

  1. Παράδειγμα καταχώρισης λεξικού

Επιλέξαμε ως παράδειγμα την καταχώρηση λεξικού της έννοιας ΔΑΣΟΣπου αντιστοιχεί σε μία από τις σημασίες της λέξης δάσος. Αυτό το λήμμα στο λεξικό είναι ενδιαφέρον επειδή περιλαμβάνει διαφορετικούς τύπους γνώσης που παραδοσιακά αναφέρονται ως λεξιλογικές (σημασιολογικές) γνώσεις και εγκυκλοπαιδικές γνώσεις (γνώσεις σχετικά με τη θεματική περιοχή, ορολογία).

Συνώνυμα της έννοιας ΔΑΣΟΣ(σύνολο 13):

δάσος(Μ), δασική ζώνη, δασικό περιβάλλον,

δάσος, δασική συνοικία, δασικό τοπίο,

δασική έκταση, δάσος, δασώδης,

δασική ακατέργαστη έκταση, δάσος,

μια σειρά από δάση.

Οι παρακάτω όροι με συνώνυμα:

ΖΟΥΓΚΛΑ(ζούγκλα);

ΔΑΣΙΚΟ ΠΑΡΚΟ(κήπος της πόλης, χώρος πρασίνου,

πράσινος ορεινός όγκος, δασικό πάρκο,

δασοπονία, δασοπονία

ζώνη, πάρκοΜ), ζώνη πάρκου)

ΔΑΣΙΚΟ ΚΥΝΗΓΙ;

φυλλοβόλο δάσος(μαλακό δάσος, σκληρό ξύλο

δάσος);

ΑΛΣΟΣ(δρυοδάσος);

ΚΩΝΟΦΟΡΟ ΔΑΣΟΣ (κωνοφόρος ορεινός όγκος, σκούρο κωνοφόρο δάσος)

Έννοιες-μέρη με συνώνυμα:

BORELOM (ανεμοφράκτη, απροσδόκητο);

ΚΟΨΙΜΟ(περιοχή κοπής).

ΔΑΣΙΚΟΣ ΠΟΛΙΤΙΣΜΟΣ(δασικά είδη, δασοπονία

Πολιτισμός);

ΔΑΣΙΚΗ ΓΗ (εδάφη του δασικού ταμείου· εκτάσεις που καλύπτονται με

δάσος; δασική γη, δασική έκταση.

δασώδης γη, δασώδης

περιοχή,);

ΔΑΣΟΣ(δασικές φυτείες, δασικές φυτείες,

αναδάσωση);

ΑΚΡΗ ΔΑΣΟΥΣ(μπορντούρα, μπορντούρα);

ΥΠΟΒλάστηση (υπό ανάπτυξη);

ΠΡΟΣΕΚΑ;

ΞΗΡΑ(ξηρός).

Εδώ τα σύμβολα (M) αντικατοπτρίζουν το σημάδι της ασάφειας της εισαγωγής κειμένου.

έννοια ΔΑΣΟΣέχει επίσης και άλλες σχέσεις, τις λεγόμενες σχέσεις εξάρτησης (στη σύγχρονη έκδοση ονομάζονται ASC 2 - ασύμμετρος συσχετισμός): ΦΩΤΙΑ ΔΑΣΟΥΣ(δασική πυρκαγιά, φωτιά στο δάσος. ΔΑΣΙΚΗ ΔΙΑΧΕΙΡΙΣΗ (δασική χρήση, χρήση αγροτεμαχίων δασικού ταμείου); ΔΑΣΙΚΗ ΙΔΙΟΚΤΗΣΙΑ; ΔΑΣΙΚΗ ΕΠΙΣΤΗΜΗ (δασική επιστήμη). Όπως αναφέρθηκε ήδη στην παράγραφο 2, η έννοια του ΔΑΣΟΥ εξαρτάται από την έννοια του ΔΕΝΤΡΟΥ, η οποία στον θησαυρό υποδηλώνεται με τη σχέση ASC 1 .

Ολόκληρη η έννοια ΔΑΣΟΣσχετίζεται άμεσα με 28 άλλες έννοιες, λαμβάνοντας υπόψη τη μεταβατικότητα των σχέσεων - με 235 έννοιες (περισσότερες από 650 εισαγωγές κειμένου συνολικά).

  1. Αξιολόγηση της κατάστασης της τέχνης

Θησαυρός της ρωσικής γλώσσας RuThez

5.1. Λεξική σύνθεση

Επί του παρόντος, περισσότερες από 95 χιλιάδες γλωσσικές εκφράσεις περιλαμβάνονται στο δίκτυο θησαυρών, εκ των οποίων οι 61 χιλιάδες είναι μονολεκτικές.

Αυτός ο όγκος εργασίας μας έκανε να αποφασίσουμε ποιες λέξεις και γλωσσικές εκφράσεις θα πρέπει να συμπεριληφθούν στις περιγραφές του Θησαυρού. Η φυσική επιθυμία ήταν να δούμε πώς αντιπροσωπεύονται οι πιο συχνές λέξεις της ρωσικής γλώσσας στον θησαυρό. Για αυτό, χρησιμοποιήθηκε η συλλογή κειμένων του Πανεπιστημιακού Πληροφοριακού Συστήματος ΡΩΣΙΑΣ (400 χιλιάδες έγγραφα). Η συλλογή περιέχει επίσημα έγγραφα διαφόρων φορέων της Ρωσικής Ομοσπονδίας (55 χιλιάδες έγγραφα από το 1992), καθώς και υλικό τύπου από το 1999 (εφημερίδες Izvestia, Nezavisimaya Gazeta, Komsomolskaya Pravda, Arguments and Facts, περιοδικό Expert και άλλα), υλικά επιστημονικών περιοδικά (Δελτίο του Πανεπιστημίου της Μόσχας, Κοινωνιολογική Εφημερίδα). Η σύγκριση έγινε μεταξύ της λίστας των λημμάτων που περιλαμβάνονται στον Θησαυρό και της λίστας με τα πιο συχνά 100000 λήμματα της συλλογής κειμένων (συχνότητα μεγαλύτερη από 25).

Η λεξική σήμανση της λίστας έδειξε ότι μεταξύ αυτών των εκατό χιλιάδων λημμάτων, 35 χιλιάδες περιγράφονται στο RuThes, μόνο περίπου 7 χιλιάδες λεξήματα αξίζουν να συμπεριληφθούν στον Θησαυρό, τα υπόλοιπα είναι λημματικές παραλλαγές διαφόρων ιδιαίτερων ονομάτων. Επομένως, η αναπλήρωση έχει πάψει να είναι προτεραιότητα και πραγματοποιείται σταδιακά, ξεκινώντας από τις πιο συχνές λέξεις. Υποτίθεται ότι μόλις εξαντληθεί βασικά αυτή η λίστα, θα πραγματοποιηθεί η επόμενη σύγκριση με τη διάταξη κειμένου του συστήματος πληροφοριών, θα επιλεγούν νέα διακριτικά με συχνότητα μεγαλύτερη από 25. Επιπλέον, το όριο προβολής υποτίθεται ότι είναι μειωμένος. Η παρουσία στη συλλογή κειμένων ενός μεγάλου αριθμού παραδειγμάτων κειμένου σάς επιτρέπει να απαντάτε γρήγορα σε "λεξικές καινοτομίες" (για παράδειγμα, εγκατάσταση,υπερπαραγωγή, beau monde, εντυπωσιακό έργο) και να τα εντάξουμε στις κατάλληλες θέσεις στο ιεραρχικό σύστημα του Θησαυρού.

Η συνεχής εργασία με την τρέχουσα συλλογή κειμένων παρέχει μοναδικές ευκαιρίες για τον έλεγχο της σημασίας και της ποιότητας των λεξικών περιγραφών που προσφέρονται στα λεξικά. Για παράδειγμα, μια ασυνήθιστα υψηλή συχνότητα χρήσης της λέξης Μητέρα Έδρα(πάνω από 400 φορές). Ο έλεγχος σε σχέση με τον πίνακα έδειξε ότι η λέξη χρησιμοποιείται πράγματι συχνά ως συνώνυμο της λέξης Μόσχα, ενώ τα επεξηγηματικά λεξικά συχνά επισημαίνουν αυτή τη λέξη ως ξεπερασμένη. Ένα άλλο παράδειγμα μιας λέξης που χρησιμοποιείται συχνά (πάνω από 300 φορές) που έχει επισημανθεί ως ξεπερασμένη στα λεξικά είναι η λέξη ευτυχισμένος.

5.2 Περιγραφή των σημασιών των λέξεων

Μια σύγκριση με τη συλλογή κειμένου δείχνει ότι πολλές από τις λέξεις συχνότητας στον πίνακα αντιπροσωπεύονται καλά στον Θησαυρό σε τουλάχιστον μία από τις (συνήθως βασικές) τιμές τους. Το να μάθουμε σε ποιο βαθμό το εύρος των σημασιών των πολυσηματικών λέξεων της ρωσικής γλώσσας αντιπροσωπεύεται στον Θησαυρό είναι το πρωταρχικό μας καθήκον αυτήν τη στιγμή.

Όπως γνωρίζετε, διαφορετικές πηγές λεξικών δίνουν συχνά ένα διαφορετικό σύνολο σημασιών για πολυσηματικές λέξεις, διακρίνουν αποχρώσεις σημασιών και ο ίδιος τύπος πολυσημίας μπορεί να περιγραφεί διαφορετικά για διαφορετικές λέξεις ακόμα και στο ίδιο λεξικό. Επομένως, το καθήκον μιας συνεπούς και αντιπροσωπευτικής περιγραφής των σημασιών των λεξικών είναι μια σημαντική αποστολή για τους δημιουργούς οποιουδήποτε πόρου λεξικού.

Ωστόσο, εάν ο πόρος προορίζεται για αυτόματη επεξεργασία, τότε το έργο της ισορροπημένης περιγραφής των τιμών γίνεται πολύ πιο σημαντικό. Η υπερβολική διόγκωση των τιμών μπορεί να προκαλέσει το σύστημα του υπολογιστή να μην μπορεί να επιλέξει την επιθυμητή τιμή, γεγονός που με τη σειρά του οδηγεί σε σημαντική μείωση της απόδοσης του αυτόματου συστήματος επεξεργασίας κειμένου. Έτσι, ως ένα από τα μειονεκτήματα του πόρου WordNet ως πόρου για αυτόματη επεξεργασία κειμένου είναι ο υπερβολικός αριθμός τιμών που περιγράφεται για ορισμένες λέξεις (στο WordNet 1.6: 53 τιμές για τρέξιμο.47 για παίζωκαι ούτω καθεξής.). Αυτές οι έννοιες είναι δύσκολο να διακριθούν ακόμη και για ένα άτομο όταν σημειώνονται σημασιολογικά κείμενα. Είναι σαφές ότι το σύστημα υπολογιστή δεν μπορεί επίσης να αντεπεξέλθει στην επιλογή μιας κατάλληλης τιμής. Ως εκ τούτου, διαφορετικοί συγγραφείς προτείνουν διαφορετικούς τρόπους συνδυασμού τιμών για τη βελτίωση της ποιότητας της επεξεργασίας.

Ταυτόχρονα, λειτουργεί ο αντίθετος παράγοντας: εάν οι τιμές διαφέρουν πραγματικά στο σύνολο των συνδέσμων λεξιλογίου (στην περίπτωσή μας, οι σύνδεσμοι θησαυρού) - δεν μπορούν να κολληθούν σε μια ενότητα (μία έννοια) - αυτό θα οδηγήσει επίσης σε επιδείνωση της ποιότητας της αυτόματης επεξεργασίας.

Σκεφτείτε για παράδειγμα τις λέξεις σχολείοΚαι Εκκλησία, καθένα από τα οποία μπορεί να θεωρηθεί ως οργανισμός και ως κτίριο.

Κάθε σχολικός οργανισμός έχει ένα κτίριο (τις περισσότερες φορές ένα). Όλα τα μέρη του σχολικού κτιρίου (τάξεις, μαυροπίνακες) σχετίζονται με σχολείοως οργανισμός. Δεν υπάρχουν συγκεκριμένοι τύποι σχολικών κτιρίων. Επομένως η περιγραφή σχολείαως κτίρια είναι ακατάλληλο να ξεχωρίσουμε ως ξεχωριστή έννοια. Ωστόσο, η περιγραφή μιας τέτοιας σωρευτικής έννοιας ΣΧΟΛΕΙΟως οργανισμός και ως κτίριο πρέπει να έχει μια ειδικά σχεδιασμένη σχέση με την έννοια ΚΤΙΡΙΟ. Κατά την περιγραφή τέτοιων σχέσεων στον Θησαυρό, χρησιμοποιείται ένα σημάδι στη σχέση - ο τροποποιητής "A" ("όψη", σε αυτόματη ανάλυση, για να ληφθεί υπόψη αυτή η σχέση, απαιτείται "επιβεβαίωση" από άλλες έννοιες).

ΣΧΟΛΕΙΟ

ΠΙΟ ΨΗΛΑ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ

ΠΑΝΩ Α ΔΗΜΟΣΙΟ ΚΤΗΡΙΟ

Σχετικές έννοιες λέξεων Εκκλησίαόχι τόσο κοντά. εκκλησίεςΠώς ένας οργανισμός μπορεί να έχει μεγάλο αριθμό εκκλησιών-κτισμάτων σε διαφορετικές τοποθεσίες και επίσης να έχει πολλά άλλα κτίρια. εκκλησιαστικήσυνδέονται στενά με τη θρησκεία και την ομολογία, αλλά μπορούν να αλλάξουν το ανήκουν οργάνωση εκκλησιών. εκκλησία-οργάνωσηΚαι εκκλησιαστικήέχουν διαφορετικά υποείδη. Να γιατί ΕΚΚΛΗΣΙΑ (ΟΡΓΑΝΙΣΜΟΣ) Και ΕΚΚΛΗΣΙΑ (ΚΤΙΡΙΟ)παρουσιάζονται στο RuThes ως διαφορετικές έννοιες.

Η σημαντική απόκλιση στις σχέσεις του θησαυρού συσχετίζεται με ενδιαφέροντα τρόπο με την ικανότητα των δηλώσεων που αντιστοιχούν σε έννοιες να υπάρχουν χωριστά η μία από την άλλη. Έτσι η εκκλησιαστική δεν παύει να υπάρχει και μάλιστα να λέγεται ναός ακόμα και όταν αλλάζει η χρήση, σε αντίθεση με το σχολικό.

Η διαδικασία συμφιλίωσης της αναπαράστασης αξιών στον Θησαυρό διεξάγεται συνεχώς, ξεκινώντας από τα πιο συχνά λήμματα. Για κάθε διακριτικό συχνότητας, ελέγχεται πώς περιγράφονται οι τιμές του σε επεξηγηματικά λεξικά, ποιες τιμές χρησιμοποιούνται στη συλλογή και πώς παρουσιάζονται στον Θησαυρό. Ως αποτέλεσμα, έχει σχηματιστεί μια λίστα με 10.000 λεξήματα, η ασάφεια των οποίων εξακολουθεί να απαιτεί είτε πρόσθετη ανάλυση είτε πρόσθετη περιγραφή. Η λίστα βασίζεται σε 30 χιλιάδες από τα πιο συχνά λήμματα.

Θα πρέπει να σημειωθεί ότι στον Θησαυρό το πρόβλημα της ασάφειας εξαλείφεται εν μέρει λόγω του γεγονότος ότι οι σχέσεις θησαυρού μπορούν να περιγραφούν μεταξύ των διαφορετικών σημασιών μιας λέξης και επομένως η υψηλότερη έννοια στην ιεραρχία μπορεί να επιλεγεί εξ ορισμού. Σίγουρα συζητήθηκε στο κείμενο. Για παράδειγμα, η λέξη φωτογραφίαέχει τρεις έννοιες: η φωτογραφία ως πεδίο δραστηριότητας, η φωτογραφία ως φωτογραφία, η φωτογραφία ως φωτογραφείο:

ΦΩΤΟΓΡΑΦΙΑ(φωτογραφίζοντας, φωτογραφία, ..., φωτογραφία )

ΜΕΡΟΣ ΦΩΤΟΓΡΑΦΙΚΗ ΕΙΚΟΝΑ

(φωτογραφία, φωτογραφία, φωτογραφία )

ΜΕΡΟΣ PHOTO STUDIO (φωτογραφία ).

Έτσι, αν δεν ήταν δυνατό να καταλάβουμε ποια σημασία χρησιμοποιείται η λέξη φωτογραφία, η προεπιλογή θεωρείται ότι είναι μια φωτογραφία (διαδικασία, αποτέλεσμα ή τοποθεσία), η οποία είναι επαρκής για πολλές εφαρμογές αυτόματης επεξεργασίας κειμένου.

  1. Εφαρμογή του θησαυρού RuThes

για αυτόματη επεξεργασία κειμένου

Από το 1995, η κοινωνικοπολιτική ορολογία RuThes (socio-political thesaurus) χρησιμοποιείται ενεργά και με επιτυχία για διάφορες εφαρμογές αυτόματης επεξεργασίας κειμένου, όπως αυτόματη εννοιολογική ευρετηρίαση, αυτόματη κατηγοριοποίηση με χρήση πολλών rubricators, αυτόματος σχολιασμός κειμένων, συμπεριλαμβανομένων των αγγλικών.. Ο κοινωνικοπολιτικός θησαυρός (27.000 έννοιες, 62.000 καταχωρήσεις κειμένου) είναι το βασικό εργαλείο αναζήτησης στο σύστημα αναζήτησης UIS RUSSIA (www.cir.ru).

Ολόκληρο το λεξιλόγιο του θησαυρού RuThes χρησιμοποιείται στις διαδικασίες αυτόματης ρουμπρικοποίησης κειμένων σύμφωνα με σύνθετες ιεραρχικές επικεφαλίδες. Στην υπάρχουσα τεχνολογία, κάθε ρουμπρίκα περιγράφεται ως μια Boolean έκφραση όρων, μετά την οποία ο αρχικός τύπος επεκτείνεται κατά μήκος της ιεραρχίας του θησαυρού. Η προκύπτουσα έκφραση Boole μπορεί ήδη να περιλαμβάνει εκατοντάδες και χιλιάδες συνδέσμους και προτάσεις.

Ας δώσουμε ως παράδειγμα ένα απόσπασμα της περιγραφής από τις έννοιες του θησαυρού (και τις γλωσσικές εκφράσεις μετά την επέκταση του τύπου) της ρουμπρίκας «Image of a Woman» του ρουμπρικανιστή SOFIST 2 που χρησιμοποιείται από το VTsIOM για την ταξινόμηση των ερωτηματολογίων έρευνας κοινής γνώμης:

(ΓΥΝΑΙΚΑ[Ν]

|| ΚΟΡΙΤΣΙ[N]

|| ΣΥΓΓΕΝΗ[L] (γιαγιά, εγγονή, ξαδέρφη,

κόρη, κουνιάδα, μητέρα, θετή μητέρα, νύφη, θετή κόρη, ...))

(ΧΑΡΑΚΤΗΡΙΣΤΙΚΟ ΧΑΡΑΚΤΗΡΑ[L] (οικονομικός, άκαρδος, ξεχασιάρης,

επιπόλαιος, χλευαστικός, μισαλλόδοξος, κοινωνικός, ...)

|| IMAGE[E] (αναπαράσταση, εμφάνιση, εμφάνιση,

εμφάνιση, σχήμα, εικόνα, εμφάνιση)

|| ΕΥΧΑΡΙΣΤΟ[L] (..., ενδιαφέρον, όμορφο, χαριτωμένο,

ελκυστικό, ελκυστικό, ελκυστικό, ...)

|| ΔΥΣΑΡΙΣΤΟ[L] (αντισυμπαθητικός, αγενής, άσχημος, ...)

|| ΑΞΙΑ [L] (σεβόμαστε, λατρεύω, λατρεύω,

λατρεία, λατρεία, ...)

|| ΠΡΟΤΙΜΗΣΗ[Ν]

Το σύμβολο "E" υποδηλώνει την πλήρη επέκταση κατά μήκος της ιεραρχίας του θησαυρού, το σύμβολο "L" - σύμφωνα με τις σχέσεις των ειδών ("ΚΑΤΩ"), το σύμβολο "N" - δεν επεκτείνονται.

Διεξάγεται έρευνα για την ανάπτυξη μιας συνδυασμένης τεχνολογίας για αυτόματη κατηγοριοποίηση κειμένων που συνδυάζει τη γνώση του θησαυρού και τις διαδικασίες μηχανικής μάθησης.

Τα ζητήματα της χρήσης ενός θησαυρού για την επέκταση ενός ερωτήματος διατυπωμένου σε φυσική γλώσσα (τώρα μόνο το κοινωνικοπολιτικό μέρος του θησαυρού χρησιμοποιείται για την επέκταση του ορολογικού ερωτήματος στο σύστημα ανάκτησης πληροφοριών του UIS RUSSIA), αναζητώντας απαντήσεις σε μεγάλες ερωτήσεις συλλογές κειμένων.

7. Συμπέρασμα

Η εργασία παρουσιάζει τις βασικές αρχές ανάπτυξης γλωσσικών πόρων για αυτόματη επεξεργασία μεγάλων συλλογών κειμένων. Ο δημιουργημένος γλωσσικός πόρος - RuThes Russian Thesaurus - προορίζεται για χρήση σε τέτοιες εφαρμογές αυτόματης επεξεργασίας κειμένου όπως η εννοιολογική ευρετηρίαση εγγράφων, η αυτόματη περιήγηση με σύνθετες ιεραρχικές επικεφαλίδες, η αυτόματη επέκταση των ερωτημάτων φυσικής γλώσσας.

Αυτή η εργασία υποστηρίζεται εν μέρει από το Ρωσικό Ίδρυμα για τις Ανθρωπιστικές Επιστήμες, επιχορήγηση αρ. 00-04-00272a.

Βιβλιογραφία

  1. Lukashevich N.V., Saliy A.D., Αναπαράσταση γνώσης στην αυτόματη επεξεργασία κειμένου //NTI, Ser.2. 1997. Αρ. 3. S. 1-6.
  2. Zhuravlev S.V., Yudina T.N., Information system RUSSIA //NTI, Ser.2. 1995. Αρ. 3. S. 18-20.
  3. Winston M., Chaffin R., Herman D., A Taxonomy of Part-Whole Relations // Cognitive Science. 1987. αρ. 11. Σ. 417-444.
  4. Priss U.E., The Formalization of WordNet by Methods of Relational Concept Analysis // WordNet. An Electronic Lexical Database / Εκδ. από τον C. Fellbaum. Cambridge, Massachusetts, London, England.: The MIT Press 1998. Σ. 179-196.
  5. Guarino N., Welty C., A Formal Ontology of Properties // Proceedings of the ECAI-00 Workshop on Applications of Ontologies and Problem Solving Methods. Βερολίνο: 2000. Σ. 121-128. (http://citeseer.nj.nec.com/guarino00formal.html).

Μερικές οντολογικές αρχές για τον σχεδιασμό λεξικών πόρων ανώτερου επιπέδου // First Int. Συνδ. για τους γλωσσικούς πόρους και την αξιολόγηση. 1998.

  1. LukashevichN.V., Dobrov B.V., Τροποποιητές εννοιολογικών σχέσεων στον θησαυρό για αυτόματη ευρετηρίαση // NTI, Ser.2. 2000, Νο. 4, S. 21-28.
  2. Μεγάλο επεξηγηματικό λεξικό της ρωσικής γλώσσας / Εκδ. ΑΝΩΝΥΜΗ ΕΤΑΙΡΙΑ. Κουζνέτσοβα. Αγία Πετρούπολη: Norint, 1998.
  3. Ozhegov S.I., Shvedova N.Yu., Επεξηγηματικό λεξικό της ρωσικής γλώσσας - 3η έκδοση. Μ.: Αζ, 1996.
  4. Apresyan Yu.D., Επιλεγμένα έργα, τόμος I. Lexical semantics: 2nd ed. Μ.: Σχολή "Γλώσσες του ρωσικού πολιτισμού", Εκδ. Εταιρεία "Eastern Literature" RAS, 1995.
  5. G. Miller, R. Beckwith, C. Fellbaum, D. Gross and K. Miller, Five papers on WordNet, CSL Report 43. Cognitive Science Laboratory, Princeton University, 1990.
  6. Chugur, J. Gonzalo και F. Verdjeo, Sense distinctions in NLP applications // Proceedings of “OntoLex-2000”: Ontologies and Lexical Knowledge Bases. Σόφια: OntoTextLab. 2000.
  7. Loukachevitch N., Dobrov B., Thesaurus-Based Structural Thematic Summary in Multilingual Information Systems // Επιθεώρηση Μηχανικής Μετάφρασης. 2000 Αρ. 11. Σ. 10-20. (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm).

Θησαυρός ρωσικής γλώσσας για επεξεργασία φυσικής γλώσσας

μεγάλων συλλογών κειμένων

Ναταλία Β. Λουκάτσεβιτς, Μπόρις Β. Ντομπρόφ

λέξεις-κλειδιά:θησαυρός, επεξεργασία φυσικής γλώσσας, ανάκτηση πληροφοριών

Στην παρουσίασή μας εξετάζουμε βασικές αρχές ανάπτυξης λεξιλογικών πόρων για αυτόματη επεξεργασία μεγάλων συλλογών κειμένου και περιγράφουμε τη δομή του Θησαυρού της Ρωσικής Γλώσσας, που αναπτύσσεται από το 1997 ειδικά ως εργαλείο αυτόματης επεξεργασίας κειμένου. Τώρα ο Θησαυρός είναι ένα ιεραρχικό δίχτυ 42 χιλιάδων εννοιών. Περιγράφουμε το τρέχον στάδιο του Θησαυρού που αναπτύσσει σε σύγκριση με 100.000 τα πιο συχνά λήμματα της συλλογής κειμένων του Πανεπιστημιακού Πληροφοριακού Συστήματος RUSSIA (www.cir.ru), συμπεριλαμβανομένων 400 χιλιάδων εγγράφων. Επίσης εξετάζουμε τη χρήση του Θησαυρού σε διάφορες εφαρμογές αυτόματης επεξεργασίας κειμένου.