Per aiutare uno scolaro / Sicurezza / Thesauri. Thesaurus: cos'è. Un dizionario dei thesaurus che è più di un dizionario Il comando thesaurus lo consente

Thesauri. Thesaurus: cos'è. Un dizionario dei thesaurus che è più di un dizionario Il comando thesaurus lo consente

08.01.2024

Uno dei nuovi concetti di base emersi a seguito dello sviluppo di metodi meccanici per l'elaborazione delle informazioni, in particolare, durante la traduzione da una lingua all'altra, la ricerca di informazioni scientifiche e tecniche e la creazione di un modello informativo di un'impresa in sistemi di controllo automatizzati , era il concetto di thesaurus del sistema informativo. Il termine "thesaurus" implica un insieme di conoscenze sul mondo esterno - questo è il cosiddetto thesaurus del mondo T. Tutti i concetti del mondo esterno, espressi utilizzando il linguaggio naturale, costituiscono un thesaurus, dal quale si possono distinguere i thesaurus privati mediante divisione gerarchica che tenga conto della subordinazione dei singoli concetti o isolando parti del thesaurus generale del mondo. Il thesaurus nei sistemi di recupero delle informazioni svolge un ruolo importante nel trovare il documento desiderato utilizzando parole chiave. Pertanto, costruire un thesaurus è un compito complesso e responsabile. Ma questo compito può anche essere automatizzato.

La classificazione nella sua definizione più generale è il partizionamento e l'ordinamento degli insiemi. Si chiama distribuzione degli oggetti in classi in base a una caratteristica comune inerente a questi fenomeni o oggetti e distinguendoli da oggetti e fenomeni che compongono altre classi. Se necessario, ogni classe può essere divisa in sottoclassi. Un rubricatore è un tipo speciale di classificazione. Pertanto, vengono creati sulla base di disposizioni generali:
 basi scientifiche per la costruzione della classificazione;
 riflesso dell'attuale livello di sviluppo della scienza;
 la presenza di un sistema di collegamenti e rinvii, nonché di un apparato di riferimento e riferimento (CCA).

Tuttavia, il rubricatore è una classificazione pragmatica creata sulla base dei flussi di informazioni e delle esigenze degli specialisti. Questa è la differenza rispetto alle classificazioni a priori, come UDC e IPC.

Le principali funzioni delle classificazioni e, in particolare, della rubricatrice sono le seguenti:
 differenziazione tematica dei sottosistemi informativi;
 formazione di matrici di informazioni basate su qualsiasi criterio;
 sistematizzazione dei materiali informativi e delle pubblicazioni;
 ricerca attuale e retrospettiva;
 indicizzazione di documenti e quesiti;
 collegamento con altri schemi di classificazione;
- funzioni normative.

Sono costruiti dividendo concetti - oggetti di classificazione sulla base di connessioni stabilite tra le caratteristiche di questi oggetti secondo determinati principi logici. La caratteristica in base alla quale viene effettuata la classificazione è chiamata base per dividere la classificazione. Le classificazioni utilizzano ampiamente metodi di deduzione e induzione per fissare gruppi, classi e identificare connessioni tra loro. Questo è tipico delle classificazioni gerarchiche. La profondità della classificazione (il numero di livelli gerarchici) può variare a seconda dello scopo. Uno dei rubricatori ampiamente utilizzati è il Rubricatore statale di informazione scientifica e tecnica (GRNTI).

Il rubricatore GRNTI è progettato in modo tale da poter essere utilizzato insieme ad altre classificazioni come UDC e IPC. La Classificazione Decimale Universale (UDC) esiste da più di 70 anni, ma non ha ancora eguali nella sua ampiezza di distribuzione ed è utilizzata in molti paesi del mondo. L'UDC copre l'intero universo della conoscenza e viene utilizzato con successo per la sistematizzazione e la successiva ricerca di un'ampia varietà di fonti di informazione.

Oltre all'UDC, nella pratica è ampiamente utilizzata la classificazione bibliotecaria e bibliografica (LBC). BBK si basa sui principi della subordinazione logica e rappresenta una classificazione del tipo di applicazione.
Nella Federazione Russa, per classificare le invenzioni e sistematizzare le raccolte nazionali di descrizioni di invenzioni, viene utilizzata la classificazione internazionale dei brevetti, una classificazione multi-aspetto piuttosto complessa costruita sul principio funzionale-industriale. Gli stessi concetti tecnici si possono ritrovare negli IPC o classi speciali (per settore) oppure nelle classi funzionali (per principio di funzionamento). Il principio settoriale di distribuzione dei concetti comporta la classificazione degli oggetti in base alla loro applicazione in un particolare ramo di attrezzature e tecnologia storicamente stabilito.

Le caratteristiche comparative dei rubricatori di SRNTI, UDC, BBK e IPC sono riportate nella Tabella 1.

Tabella 1
Caratteristiche del rubricatore di SRNTI, UDC, BBK e IPC

Nome	Struttura	Il principio del posizionamento delle divisioni	Schema di costruzione della partizione
	Gerarchico	Industria	Dal generale allo specifico
	Gerarchico	Tematico
	Gerarchico	Funzionale-settoriale	Dal generale allo specifico
LBC per le biblioteche scientifiche	Gerarchico	Industria	Dal generale allo specifico, per specie

Possiamo quindi evidenziare le principali caratteristiche distintive dei rubricatori e dei classificatori:
- sono caratterizzati da carattere applicativo e orientamento settoriale;
 si tratta di sistemi aperti che dipendono dallo sviluppo della scienza e della tecnologia, dai bisogni e dalle richieste degli specialisti;
- sistemi inorganici, poiché gli oggetti nascono e si sviluppano nell'ambiente e da esso entrano. Gli elementi sono in grado di esistere indipendentemente al di fuori del sistema. Questo tratto è strettamente correlato al secondo tratto;
- l'elemento minimo è il concetto associato all'ambiente. Un concetto rappresenta un sistema di definizioni;
 sorgono connessioni tra i concetti sia “verticalmente” (genere-tipo, intero-parte) che “orizzontalmente” (tipotipo, parte-parte), che indica la gerarchia dei sistemi.

Di conseguenza, la struttura e i principi di organizzazione delle classificazioni e dei rubricatori consentono di automatizzare il processo di costruzione dei thesauri per aree tematiche utilizzando il metodo della deduzione. L'algoritmo per costruire un thesaurus utilizzando il metodo della deduzione è mostrato in Fig. 1.

La base per la formazione di un thesaurus è un'immagine di ricerca di un documento, un'attività o un'applicazione per la ricerca di informazioni, compilata dall'operatore. Pertanto, il primo passo è ricercare e analizzare l'applicazione. Nella prima fase l'operatore indica l'argomento o il problema di interesse, le possibili parole chiave ed i loro sinonimi. Di conseguenza, otteniamo una comprensione superficiale dell'argomento.

Riso. 1. Algoritmo per la costruzione di un thesaurus utilizzando il metodo della deduzione

Inoltre, viene formato un thesaurus delle parole chiave KS utilizzando il metodo di detrazione, che richiede:
 array KS, specificato dall'utente stesso, indicato in Figura 1 come MP;
 Array KS estratto dall'attività di ricerca, rispettivamente MZ.

Tuttavia, per una comprensione più completa e approfondita della materia, utilizziamo rubricatori e schemi di classificazione esistenti (GRNTI, UDC, BBK, IPC). Per massimizzare la copertura dell'area tematica, è necessario rivedere tutti quelli disponibili. La serie di rubricatori rappresenta MR. L'algoritmo di ricerca della detrazione consiste di due passaggi:
1. Trovare concetti generici (Fig. 2);
2. Trovare termini specifici all'interno di concetti generici (Fig. 3).

Riso. 2. Elaborazione del concetto generico

Carichiamo il primo rubricatore dall'array e organizziamo un ciclo di verifica della presenza dei CS inseriti dall'utente nei rubricatori. Ogni KS viene cercato nella rubricatrice e confrontato con un concetto generico o “nido”, quindi viene controllata la condizione per vedere se esiste un collegamento a termini specifici. Se tale collegamento è disponibile, il KS viene confrontato con i termini specifici. Se non viene trovato alcun collegamento, passa al concetto generico successivo. Quando vengono visualizzate le parole chiave del SC inserite dall'operatore, si passa all'array di SC estratto dall'attività. La procedura di verifica è simile: cerchiamo i KS corrispondenti a concetti generici e quindi i loro collegamenti a termini specifici.

Riso. 3. Elaborazione di termini specifici

Si noti che all'interno di ciascun concetto generico è importante rivedere tutti i termini specifici disponibili per ottenere la massima comprensione dell'area problematica. Il risultato di queste azioni è la formazione di un array di parole chiave KS, ovvero un thesaurus completo corrispondente al compito di ricerca di informazioni o all'immagine di ricerca di un documento.

Sulla base di un set completo di immagini di ricerca di documenti (denotiamole), è possibile creare thesauri di settore e un classificatore di biblioteca unificato. Ovviamente, l'insieme completo di  rappresenta esso stesso un semplice thesaurus.

Tuttavia, utilizzando il criterio di selezione
, (1)
possiamo costruire thesauri di settore. In questo caso, l'insieme di tutti i thesaurus di settore costituisce un thesaurus completo
, (2)
le cui sezioni possono essere strutturate gerarchicamente in conformità con i requisiti di GOST secondo i principali classificatori (GRNTI, UDC, BBK, MPK) o secondo un classificatore unificato interno.

L'automazione del processo di costruzione di un thesaurus e di classificazione consente di semplificare il più possibile il lavoro di un operatore che lavora con risorse informative distribuite.

Oltre a costruire un thesaurus, basato su un'immagine di ricerca di un documento, l'approccio proposto può essere utilizzato per l'astrazione automatica dei documenti e il clustering del testo.

L'estrazione dei documenti è uno dei compiti volti a fornire agli specialisti esperti informazioni affidabili necessarie per prendere decisioni gestionali sul valore dei documenti ottenuti da Internet. L'astrazione è il processo di trasformazione delle informazioni documentarie, che culmina nella preparazione di un abstract, e un abstract è una presentazione semanticamente adeguata del contenuto principale del documento primario, caratterizzata da un design simbolico economico, costanza delle caratteristiche linguistiche e strutturali e destinata a svolgere una varietà di funzioni informative e comunicative nel sistema della comunicazione scientifica. L'algoritmo di astrazione del documento è presentato in Fig. 4.

Riso. 4. Algoritmo di astrazione del documento

In generale, l’algoritmo prevede le seguenti fasi principali.
1. Le frasi vengono estratte da un documento scaricato da Internet e collocato in un data warehouse selezionando i segni di punteggiatura e memorizzandoli in un array.
2. Ogni frase è divisa in parole selezionando i separatori e le salviamo in un array e l'array è diverso per ogni frase.
3. Per ogni frase, per ogni parola di questa frase, contiamo il numero di parole in altre frasi (prima e dopo). La somma delle ripetizioni di ogni parola (prima e dopo) costituirà il peso di questa frase.
4. Per l'abstract viene selezionato un determinato numero di frasi con un coefficiente di ponderazione massimo nell'ordine in cui compaiono nel testo.

Il modello proposto per la costruzione di un thesaurus e di cataloghi tematici di un sistema informativo rappresenta una base teorica per automatizzare la ricerca semantica e consente a un esperto non solo di svolgere lavori di ricerca, ma anche in modalità automatizzata, documenti astratti ottenuti come risultato della ricerca in sistemi informativi distribuiti su Internet.

Letteratura:
1. Barushkova R.I. Schemi di classificazione delle informazioni scientifiche e tecniche. Manuale indennità. - M., 1981. - 80 p.
2. Barushkova R.I. Rubricatore come schema di classificazione delle informazioni scientifiche e tecniche. Kit di strumenti. - M., 1980. - 38 p.
3. Trusov A.V., Babarykin E.P. Stima dei confini del dominio di una richiesta di informazione tematica nei sistemi informativi distribuiti. Materiali della conferenza tutta russa (con partecipazione internazionale) “Informazione, innovazione, investimenti”, 24-25 novembre 2004, Perm / Perm CSTI. - Perm, 2004. - P.76-79.
4. Yatsko V.A. Problemi logico-linguistici di analisi e sintesi di testi scientifici. - Abakan: casa editrice statale di Khakass. Università, 1996. - 128 p.

3.1. Concetto di dizionario dei sinonimi

Thesaurus (dal greco θήσαϋροξ - tesoro, magazzino) o dizionario ideografico (dal greco idea - concetto, rappresentazione, idea e grafo - scrivere, descrivere) - nella linguistica moderna: 1) un tipo speciale di dizionario di vocabolario generale o speciale, che contiene relazioni semantiche tra unità lessicali; 2) un dizionario per la ricerca di una parola in base alla sua connessione semantica con altre parole; 3) un certo modo di organizzare (sistemare) le parole nel dizionario; 4) un modo di organizzare la composizione lessicale, che permetta di “modellare economicamente il mondo”.

Nel primo significato originale: deposito, tesoro, il termine thesaurus fu usato da L.V. Shcherba nell'articolo "Esperienza di lessicografia generale" (terza opposizione: thesaurus - un dizionario ordinario (esplicativo o di traduzione)). Scrive lo scienziato: “Quando si dice thesaurus, oggi intendiamo più spesso “Thesaurus linguae latinae”, un'impresa di cinque accademie tedesche, iniziata nel 1900 e fino ad oggi portata con omissioni solo alla lettera M. Caratteristica Questo tipo di dizionario consiste nel fatto che contengono assolutamente tutte le parole che compaiono almeno una volta in una determinata lingua e che sotto ciascuna parola sono riportate assolutamente tutte le citazioni dei testi disponibili in una determinata lingua. La base dell'opposizione di cui sopra - il thesaurus - un dizionario ordinario (esplicativo o di traduzione) - è l'opposizione tra "materiale linguistico" e "sistema linguistico" - concetti che ho cercato di dimostrare nel mio articolo "Sul triplice aspetto dei fenomeni linguistici e sull'esperimento in linguistica."

Il secondo significato di questo termine è associato al dizionario-thesaurus ampiamente noto "Thesaurus of English Words and Expressions" di P.M. Roger (Thesaurus of English Words and Phrases di Roget, 1852) e la sua continuazione, il dizionario di O.V. Baranov.

In questa interpretazione, il termine thesaurus denota un certo modo di organizzare e disporre la composizione lessicale nel dizionario (vedi il terzo significato del termine).

Il quarto significato del termine thesaurus è associato al riconoscimento universale di questo metodo di organizzazione della composizione lessicale, che consente di “modellare il mondo” economicamente. Da questo punto di vista, un dizionario dei thesaurus è "un ordinamento sistematico del vocabolario di qualsiasi campo scientifico o tecnico e, nella forma più generale, del vocabolario letterario generale e, inoltre, dell'intero vocabolario di una determinata lingua".

Secondo Yu.N. Karaulova, un thesaurus linguistico generale, che fissa nella struttura e nelle relazioni dei suoi titoli, sezioni, zone, aree le ampie possibilità di connessione non verbale delle idee, fornisce un resoconto dei valori umani.

UN. Baranov e D.O. Dobrovolsky nella prefazione "Dagli editori" al suo "Dizionario-thesaurus degli idiomi russi moderni" fornisce al thesaurus la seguente definizione: un tipo speciale di dizionario che differisce dagli altri (in particolare, esplicativo, bilingue, ecc.) nel modo in cui di organizzare il materiale linguistico. In un dizionario dei sinonimi, le unità linguistiche non sono presentate in ordine alfabetico, come in un normale dizionario, ma sono raggruppate in base al loro significato.

L.P. Krysin chiama il thesaurus (dizionario ideografico) un tipo speciale di dizionario esplicativo, un dizionario “al contrario”. “Se in un dizionario esplicativo, scrive lo scienziato, la “voce” di una voce del dizionario è una parola, e il contenuto della voce del dizionario è l’interpretazione del significato di questa parola, allora in un dizionario ideografico la “voce” è il significato, l'idea (da cui il nome di questo tipo di dizionario - ideografico) e il contenuto di una voce del dizionario è un elenco di parole che esprimono un determinato significato. E se un dizionario esplicativo è uno strumento indispensabile per comprendere un testo, allora per generare un testo può essere utilizzato un dizionario ideografico: molto spesso una persona vuole esprimere un certo pensiero, ma non riesce a trovare le parole adatte a questo; un dizionario ideografico facilita queste ricerche. Esistono due tipi principali di thesauri:

thesaurus linguistico - un dizionario contenente un elenco di parole del linguaggio naturale selezionate come risultato di un'analisi significativa dei testi e sistematizzate secondo il sistema di classificazione accettato;

thesaurus statistico - un dizionario di recupero delle informazioni contenente un elenco di parole selezionate come risultato dell'analisi statistica di testi su un argomento specifico e raggruppate in voci del dizionario in base alla frequenza di co-occorrenza di queste parole negli stessi testi.

I thesauri di recupero delle informazioni (IRT) facilitano la ricerca di informazioni durante la sua elaborazione automatica. L'IPT rivela al massimo le relazioni semantiche tra le unità lessicali. Come affermato in GOST sull’IPT, “un thesaurus monolingue per il recupero delle informazioni è un dizionario controllato e mutevole di unità lessicali, basato sul vocabolario di una lingua naturale, che mostra relazioni semantiche tra unità lessicali e destinato all’elaborazione e al recupero delle informazioni”.

L'unità di base dell'IPT sono i termini descrittori. La parte alfabetica, lessicale-semantica dell'IPT è un insieme di articoli descrittori.

I dizionari descrittivi hanno lo scopo di descrivere completamente il vocabolario di un determinato campo e di registrarne tutti gli usi; registrano tutti i casi rilevanti disponibili. Un tipico esempio di dizionario descrittivo è il "Dizionario esplicativo della grande lingua russa vivente" di V.I. Dahl (la prima edizione in quattro volumi fu pubblicata nel 1863-1866). L'obiettivo del suo creatore non era quello di standardizzare la lingua, ma di descrivere pienamente l'intera diversità della lingua magnorussa, comprese le sue forme dialettali vernacolari.

Ogni voce del dizionario descrittore inizia con un descrittore, in cui i sinonimi di questo descrittore, così come altre unità lessicali associate al descrittore principale per genere-specie o relazioni associative, sono riportati di seguito all'interno dell'articolo GOST.

I thesauri, soprattutto in formato elettronico, rappresentano quindi uno degli strumenti più efficaci per descrivere le singole aree tematiche.

Un thesaurus si trova raramente nella sua forma pura. Nei thesauri reali, l'idea originale è semplificata o le informazioni estranee, ma potenzialmente necessarie, vengono aggiunte all'utente. I più famosi oggi sono il “Dizionario semantico russo” di Yu.N. Karaulova, "Dizionario di nomi identici" N.Yu. Shvedova, “Dizionario tematico della lingua russa” di L.G. Smekhova e altri.

Riepilogo. Termine del dizionario dei sinonimi L.V. Shcherba lo usava in relazione a un dizionario, che registrava, se possibile, tutti i contesti in cui ricorre una determinata parola. Una caratteristica dei thesaurus è che elencano tutte le parole che compaiono almeno una volta in una determinata lingua e sotto ciascuna parola vengono riportate tutte le citazioni dei testi disponibili in quella lingua. Il contenuto di un dizionario dei sinonimi è materiale linguistico e un dizionario normale è materiale linguistico e un sistema linguistico (termini di L.V. Shcherba).

Questa caratteristica è completata da connessioni incrociate di vario tipo - spesso paradigmatiche (sinonime o antonimiche), che indicano comunanza o opposizione di significati. Inoltre, vari tipi di associazioni. connessioni (cioè connessioni sintagma).

Pertanto, il compito di un thesaurus (dizionario ideografico) è quello di dare un'idea dell'organizzazione semantica di un determinato spaccato di materiale linguistico, mostrando i principali campi semantici, la loro struttura interna e le connessioni esterne. Un thesaurus è una chiara dimostrazione della natura sistemica di una lingua, permettendo di vedere molti tipi di relazioni che collegano singole unità linguistiche e gruppi di unità.

3.2. La storia della rappresentazione della conoscenza concettuale del mondo sotto forma di thesaurus

La necessità di disporre le parole secondo somiglianza, contiguità e analogia dei loro significati è stata avvertita in tutta la storia osservabile del pensiero umano.

Per risalire alle origini dell'idea di rappresentare la conoscenza concettuale del mondo sotto forma di thesaurus, saremo aiutati ricorrendo alla storia della compilazione dei thesauri (dizionari ideografici).

Così, agli albori della civiltà, quando gli uomini potevano esprimere i propri pensieri per iscritto solo con l'aiuto di ideogrammi e simboli, l'unico dizionario possibile era probabilmente quello in cui le parole erano disposte in gruppi tematici. A quel tempo era semplicemente difficile per un lessicografo trovare un altro criterio per classificare le parole oltre alle relazioni esistenti nella realtà stessa.

Purtroppo non abbiamo prove che i popoli che usavano la scrittura ideografica possedessero effettivamente tali dizionari. Tra i più antichi tentativi di classificazione ideografica a noi noti c'è l'Attikai Lexeis del grammatico greco, direttore della Biblioteca di Alessandria, Aristofane di Bisanzio (morto nel 180 aC).

Nel II secolo. N. e. appare l'opera principale “Onomasticon”, compilata su materiale della lingua greca dal lessicografo e sofista Giulio Polluce (vero nome Polydeuces), originario della città egiziana di Naucratis. Yu Pollux ha scritto diverse opere, ma solo "Onomasticon" ci è pervenuto (Pollux Yu. Onomasticon. M., 1956).

Onomasticon è composto da 10 libri. I libri sono essenzialmente trattati separati e contengono le parole più importanti relative a un particolare argomento. Pertanto, il primo libro parla di dei e re; nel secondo - sulle persone, sulla loro vita e sulla struttura fisiologica; nel terzo - sulla parentela e sui rapporti civili, ecc. Le parole incluse nel dizionario sono accompagnate da brevi interpretazioni. In tempi moderni, il dizionario fu pubblicato per la prima volta nel 1502 a Venezia.

Tra il II e il III secolo. N. e. È stato pubblicato il meraviglioso dizionario sanscrito “Amarakosha” (Amarakosha. Parigi, 1839). Il suo autore è l'antico poeta, grammatico e lessicografo indiano Amara Sina, chiamato "una delle nove perle che adornano il trono di Vikramaditya". Amarakosha tradotto in russo significa il tesoro di Amara. Il dizionario contiene 10mila parole. Per ricordare meglio l'interpretazione dei significati delle parole, le voci del dizionario sono costruite sotto forma di poesie. Tutto il materiale del dizionario è diviso in 3 libri. Ogni libro comprende diversi capitoli e il capitolo a sua volta, se necessario, è diviso in più sezioni. Il primo libro è dedicato al cielo, agli dei e a tutto ciò che è direttamente correlato ad essi. Il secondo libro contiene parole legate alla terra, agli insediamenti, alle piante, agli animali e all'uomo (l'uomo è considerato prima come essere vivente e poi come essere sociale; l'intera struttura castale della società contemporanea dell'autore appare davanti ai nostri occhi; i sacerdoti , in quanto fiduciari di Dio, sono in cima , e sotto ci sono i militari e i re, ancora più in basso ci sono i proprietari terrieri, e in fondo ci sono gli artigiani, i giocolieri, i servi, ecc.). Il terzo libro è strettamente linguistico, come risulta dai titoli dei suoi sei capitoli.

Il dizionario divenne noto agli scienziati europei solo alla fine del XVIII secolo, quando la sua prima parte fu pubblicata a Roma nel 1798. Fu pubblicato integralmente con traduzione in inglese nel 1808 dallo studioso inglese di sanscrito G.T. Colebrooke (NT Colebrooke). Nel 1839 apparve la sua traduzione francese, fatta da A.L. Delonchamps (AL Deslongchamps). L'ulteriore sviluppo dell'idea della classificazione semantica del vocabolario è associato al problema della cosiddetta lingua mondiale.

Riepilogo. Questo, in termini più generali, è il primo stadio nello sviluppo della tradizione della classificazione ideografica del vocabolario. Questa fase può essere definita la preistoria dei dizionari ideografici. Ora è consigliabile passare alla moderna classificazione dei dizionari dei thesaurus.

È facile notare quanto le opere descritte siano diverse dai dizionari alfabetici. Se nei dizionari alfabetici la presentazione delle parole è regolata da uno strumento così convenzionale e altamente neutrale come l'alfabeto, allora quando si costruisce un dizionario ideografico, la visione del mondo dello stesso lessicografo diventa decisiva.

3.3. Principi di classificazione dei dizionari-thesaurus

Come è già stato mostrato sopra, il problema della compilazione di una classificazione dei thesauri non è nuovo e da diversi decenni attira l'attenzione di numerosi linguisti nazionali e stranieri (C. Marello, V.V. Morkovkin, L.P. Stupin, V.V. Dubichinsky, ecc. ). Il risultato della ricerca in quest'area è stata la creazione di classificazioni alternative di queste opere lessicografiche. Una delle ultime classificazioni si basa sui seguenti criteri: a) il tipo di connessioni semantiche tra le unità lessicali; 2) volume del vocabolario; 3) generalizzazione del vocabolario; 4) sviluppo del significato dei lessemi; 5) qualificazione grammaticale e stilistica dei lessemi; 6) dimostrazione del funzionamento dei lessemi; 7) numero di lingue rappresentate; 8) il tipo di mezzi semiotici utilizzati per semantizzare i lessemi. Questa classificazione si basa sulle classificazioni precedentemente create da O.M. Karpova e I. Burkhanov (Burchanov I. Sulla descrizione ideografica degli aspetti stilisticamente e pragmaticamente rilevanti dei significati lessicali. Londra, 1996); viene introdotta nell'apparato lessicografico la terminologia utilizzata nella classificazione

V.V. Morkovkin, Yu.N. Karaulov, K. Marello. I criteri di classificazione sono stati formulati da O.M. Karpova. Allo stesso tempo, C. Marello distingue tre tipologie di thesauri:

cumulativi, che sono raggruppamenti di parole senza definirne il significato;

definitivo, interpretando ciascuna unità lessicale di un gruppo di parole;

thesauri bi- e multilingue per viaggiatori (Marello C. TheThesaurus//W.D.D. 1990. V. 2. P. 1083).

I thesaurus cumulativi non solo offrono l'opportunità di trovare una parola più comprensibile, accurata, stilisticamente corretta nella situazione di trovarsi in un determinato campo semantico, ma diventano anche la base per la formazione di banche dati informatiche tematiche.

I thesauri definitivi possono includere, oltre alle definizioni di significato, informazioni etimologiche e citazioni di opere letterarie, il che dimostra l'orientamento enciclopedico diretto di questo tipo di thesaurus. Inoltre, dizionari di questo tipo introducono l'utente al sistema di concetti necessario, spiegano l'essenza, le somiglianze e le differenze dei concetti, le loro connessioni paradigmatiche e sintagmatiche e talvolta forniscono informazioni sulla pronuncia, sulla grammatica, sulla formazione delle parole e su altre possibilità di unità lessicali che denotano questi concetti.

I thesauri bilingue e multilingue per viaggiatori vengono solitamente creati in base a sezioni tematiche: numeri, cibo, trasporti, hotel, ecc. con equivalenti di traduzione di due o più lingue.

Per visualizzare nel modo più completo possibile le tipologie dei dizionari dei thesaurus esistenti, viene creata una classificazione a più livelli. Innanzitutto, a seconda del tipo di connessioni semantiche tra le unità lessicali, i thesauri si dividono in tre grandi classi:

1. Thesaurus associativo (terminologia di Yu.N. Karaulov

2. Thesaurus analogo (terminologia di V.V. Morkovkin

3. Thesaurus ideografico (ideologico) (terminologia di L.V. Shcherba, V.V. Morkovkin. I tre tipi di thesauri sopra indicati riflettono rispettivamente i seguenti tipi di connessioni semantiche dei lessemi:

1. Connessioni semantico-sintattiche, sulla base delle quali
le parole sono combinate in gruppi o coppie, predeterminate nella loro occorrenza ed esistenza da doppie connessioni: semantica e sintattica. Le connessioni semantiche tra le parole vengono stabilite principalmente tra verbi e aggettivi che svolgono una funzione predicativa in una frase e sostantivi, ad esempio:

a) tra un'azione e l'organo (strumento) con cui viene eseguita: afferrare - una mano, vedere - un occhio, nuotare - una barca, ecc.;

b) tra verbi d'azione che richiedono un soggetto e un soggetto: abbaiare - un cane, nitrire - un cavallo, ecc.; c) tra i verbi e una certa aggiunta grammaticale, che i primi richiedono: tagliare - legna, mangiare - cibo, ecc.

Un thesaurus associativo è quindi un dizionario-thesaurus che organizza unità lessicali in base alle connessioni semantiche e sintattiche che esistono tra loro e dispone i gruppi secondo la forma grafica delle parole centrali.

2. Connessioni lessico-semantiche. Il raggruppamento con questo tipo di connessione avviene in base alla caratteristica principale delle parole: il significato lessicale. In questo caso vengono prese in considerazione anche le connessioni lessico-grammaticali, nella forma in cui vengono realizzati i significati individuali delle parole.

Pertanto, un thesaurus analogico è un libro di consultazione lessicografico, la cui principale unità di macrostruttura è il gruppo lessicale-semantico; i gruppi sono sistematizzati in ordine alfabetico di dominanti semantiche.

3. Connessioni tematiche o tematiche, in cui la combinazione di parole in un gruppo avviene a causa della somiglianza o comunanza delle funzioni degli oggetti e dei processi indicati dalle parole: oggetti
articoli per la casa, parti del corpo, tipi di abbigliamento, edifici, ecc.

Pertanto, un thesaurus ideografico è un'opera lessicografica che rappresenta le unità lessicali come parte di gruppi tematici (tematici) e le organizza in una struttura gerarchica progettata per rappresentare la conoscenza concettualizzata del mondo.

Nell'ambito dello stesso criterio suddividiamo ulteriormente le tipologie. Pertanto, il thesaurus ideografico è rappresentato dai seguenti 4 tipi:

In realtà un thesaurus ideografico.

Dizionario tematico.

Dizionario sistematico.

Dizionario tematico-sistematico

Lo stesso thesaurus ideografico è un tipo speciale di dizionario ideografico, la cui macrostruttura è organizzata secondo una mappa sinottica a priori sovrapposta alla composizione lessicale della lingua. A differenza di altri tipi di dizionario ideografico, il thesaurus ideografico stesso è caratterizzato da una struttura di classificazione logica e rigorosamente ordinata creata sulla base della tassonomia scientifica, anche se il vocabolario generale è soggetto a descrizione lessicografica (New Webster "Thesaurus. Landoll, 1991).

Un dizionario tematico è un tipo speciale di thesaurus ideografico, la cui principale unità di macrostruttura è un gruppo tematico, comprendente lessemi, uniti sulla base della classificazione delle loro denotazioni (referenti) e considerati dal punto di vista del rispetto di un argomento specifico.

Un dizionario sistematico è un tipo speciale di thesaurus ideografico la cui struttura di classificazione ha lo scopo di rappresentare le effettive relazioni semantiche che esistono tra le unità lessicali di una lingua. Fondamentalmente, la struttura di classificazione rappresenta la classificazione lessico-grammaticale del vocabolario, in altre parole, la sua struttura paradigmatica, descritta dal punto di vista della subordinazione e della composizione.

Un dizionario tematico-sistematico è un tipo speciale di dizionario ideografico, che è una combinazione di dizionario tematico e sistematico.

Riepilogo. La classificazione considerata dei thesauri linguistici comprende i seguenti tipi di dizionari: thesaurus analogico (terminologia di V.V. Morkovkin); thesaurus ideografico (ideologico) (terminologia di L.V. Shcherba e V.V. Morkovkin); ass. thesaurus (terminologia di Yu.N. Karaulov). Successivamente verrà presentato il pop. vengono rivelati i thesauri e le loro caratteristiche.

3.4. Thesauri popolari e loro caratteristiche

Il più famoso dei dizionari-thesaurus disponibili, a cui questo stesso termine deve la sua esistenza, è stato creato sul materiale della lingua inglese; questo è un dizionario dei sinonimi costantemente ristampato da P.M. Thesaurus di parole e frasi inglesi di Roger Roget (1852).

È importante notare che l'autore del Thesaurus of English Words and Expressions ha sfruttato appieno l'esperienza disponibile a quel tempo. "Il principio che mi ha guidato nella classificazione delle parole", scrive P.M. Roger, è lo stesso utilizzato per classificare gli individui in vari campi della storia naturale. Pertanto le sezioni che ho evidenziato corrispondono alle famiglie naturali della botanica e della zoologia, e le serie delle parole sono cementate dagli stessi rapporti che uniscono le serie naturali delle piante e degli animali."

PM Roger credeva che una classificazione convincente delle parole in base al loro significato fosse impossibile finché gli oggetti della realtà chiamati queste parole non fossero adeguatamente studiati e organizzati. Pertanto, inizia il suo lavoro dividendo il campo concettuale della lingua inglese in quattro grandi classi: relazioni astratte, spazio, materia e spirito (mente, volontà, sentimenti). Queste classi sono ulteriormente suddivise in un certo numero di generi, che a loro volta sono suddivisi in un certo numero di specie.

Tra le carenze del dizionario ideografico di P.M. Gli scienziati attribuiscono a Roger: 1) una nomenclatura non del tutto convincente delle principali classi concettuali; 2) la logica astratta prevale sulle connessioni naturali delle parole; 3) relativo inconveniente di utilizzo (tale carenza è stata in gran parte corretta nelle edizioni successive).

Nella lessicografia russa moderna ci sono diversi dizionari che dovrebbero essere classificati come dizionari-thesaurus (dizionari ideografici). Questo, ad esempio, è stato creato sotto la guida di Yu.N. Karaulova “Dizionario semantico russo”, “Dizionario semantico russo” a cura di N.Yu. Shvedova, “Dizionario tematico della lingua russa” di L.G. Sayakhova, D.M. Khasanova e V.V. Morkovkina, “Dizionario dei gruppi lessico-semantici dei verbi russi”, ed. E.V. Kuznetsova, “Dizionario ideografico della lingua russa” O.S. Baranova, “La concettosfera del mondo interiore dell'uomo nella lingua russa” di V.I. Ubiyko, un dizionario educativo completo “Basi lessicali della lingua russa” sotto la guida di V.V. Morkovkina.

Conosciamone alcuni.

Dizionario-thesaurus degli idiomi russi moderni” a cura di A.N. Baranova e D.O. Dobrovolsky comprende quattro parti principali: 1) sinossi; 2) legenda; 3) il corpo principale del Dizionario-Thesaurus; 4) puntatori. Lo scopo della Sinossi è quello di dare un'idea generale della struttura del corpo principale del Thesaurus. Elenca tutti i taxa con i sottotaxa e i corrispondenti riferimenti paradigmatici. Il corpo principale del Dizionario dei Thesaurus è una raccolta di voci del dizionario, raggruppate in gruppi (taxa) e sottogruppi (subtaxa) secondo il significato degli idiomi in essi descritti. Ogni articolo contiene un idioma ed esempi del suo utilizzo nel russo moderno. Sinossi, Legenda, Indici sono parti di servizio del dizionario-thesaurus sopra menzionato, offrendo all'utente l'opportunità di lavorare in modo rapido ed efficiente. La legenda viene utilizzata nei casi in cui non sono necessari esempi dell'uso degli idiomi, perché riproduce tutte le informazioni tranne gli esempi. In effetti, questo è il vocabolario del Dizionario. Le unità del vocabolario sono i lemmi. Il lemma in questo caso rappresenta l'idioma nella sua forma originale (dizionario) e comprende, se possibile, tutte le sue varianti significative. Ad esempio, l'espressione stare fermo fa parte del lemma segnare il tempo, stare fermo, scivolare sul posto.

Il dizionario contiene due puntatori. Alla fine del libro c'è un articolo "Concetto teorico del dizionario-thesaurus dell'ideomatica russa moderna", che analizza in dettaglio le caratteristiche scientifiche di questo progetto.

"Dizionario semantico russo", creato sotto la guida di Yu.N. Karaulova comprende 10mila parole russe, divise in 1600 gruppi concettuali. L'identificazione dei gruppi si basa su elementi ripetuti di interpretazione delle parole nei dizionari esplicativi: ad esempio "azione", "proprietà", "strumento", ecc.

"Dizionario semantico russo", creato sotto la guida dell'accademico N.Yu. Shvedova, si basa su principi leggermente diversi caratteristici della compilazione di dizionari sia ideografici che esplicativi. In primo luogo, tutte le parole della lingua sono qui divise in quattro classi: 1) unità indicatrici (pronomi), 2) denominazione (parole fittizie), 3) connettori effettivi (congiunzioni, preposizioni, verbi concatenanti), 4) classificazione (parole modali , particelle, interiezioni). In secondo luogo, all'interno di ciascuna classe, tutte le parole sono distribuite secondo le parti del discorso. In terzo luogo, all'interno di ciascuna parte del discorso, insiemi e sottoinsiemi vengono identificati in base alla vicinanza tematica o, al contrario, all'opposizione dei significati delle parole.

DUDEN è un libro con immagini (disegni) sul lato sinistro (a seconda dei diversi software) con parti numerate (fino alla più piccola). Sul lato destro, questo elenco numerato è accompagnato dai titoli (anche in due lingue). Ad esempio, le attrezzature ferroviarie, le stazioni e i binari vengono disegnati su un'intera pagina. A destra ci sono i nomi di frecce, semafori, stampelle, ecc.

"Dizionario tematico della lingua russa" L.G. Sayakhova, D.M. Khasanova e V.V. La Morkovkina contiene 25mila unità lessicali, raggruppate in tre grandi classi: “Uomo”, “Società”, “Natura”, che si ramificano gradualmente in sottoclassi più piccole. Ad esempio, nella classe "Umano" ci sono le sottoclassi "Corpo umano e organismo", "Vita umana", "Aspetto, aspetto di una persona", "Aspetto emotivo di una persona", ecc. Ciascuna delle sottoclassi a sua volta è suddiviso in ancora più specifici: " Mondo emotivo di una persona" - "Proprietà mentali di una persona" - "Temperamento", "Carattere" - "Tratti caratteriali generali", ecc. Il significato e l'uso delle parole appartenenti a ciascuna classe sono illustrati dalle frasi più comuni. Ad esempio, la parola "risata", che si trova nel sottogruppo "espressione di sentimenti, emozioni" della classe "Uomo", è accompagnata dall'indicazione di combinazioni con questa parola come risate allegre, risate gioiose, risate di bambini, scoppio nel ridere, ecc.

Riepilogo. Uno degli strumenti efficaci per descrivere singole aree tematiche, soprattutto in formato elettronico, sono i thesauri.

Il termine thesaurus è stato a lungo ampiamente utilizzato in linguistica per designare un tipo speciale di dizionario, che in un modo o nell'altro riflette la "immagine del mondo", il "modello linguistico del mondo" (secondo Yu.N. Karaulov). Il thesaurus come “tesoro” è cresciuto nella sua portata semantica e ha ricevuto un nuovo significato. Cominciarono a chiamarlo dizionario che non solo assorbe tutta la ricchezza lessicale di una lingua, ma la organizza in una certa maniera logico-sistemica. In un dizionario dei sinonimi, le parole vengono combinate in gruppi e questa unificazione avviene sulla base della capacità di una particolare parola di trasmettere un determinato concetto.

Il dizionario dei thesaurus è sempre stato considerato in linguistica come una sorta di sistema universale che garantisce l'archiviazione della conoscenza collettiva (per una particolare società) sul mondo in forma verbale. A differenza di altri dizionari, in un dizionario di thesaurus questa conoscenza è immagazzinata in una forma strutturata che riflette le nostre idee sulla “struttura del mondo”.

I thesauri più famosi e popolari attualmente sono il Thesaurus inglese di Roger, il Dizionario ideografico della lingua russa di O.V. Baranova, dizionario semantico russo Yu.N. Karaulova, dizionario semantico russo dell'accademico N.Yu. Shvedova, DUDEN, Dizionario tematico della lingua russa L.G. Sayakhova, D.M. Khasanova e V.V. Morkovkina.

Dipartimento del TAOI KemGUKI

Thesauri per il recupero delle informazioni:

struttura, scopo e procedura di sviluppo

1. Thesaurus come modo di rappresentare sistematicamente la conoscenza e

una sorta di dizionario ideografico.

2. Thesauri per il recupero dell'informazione: essenza e finalità

3. Struttura dell'IPT

4. La procedura per lo sviluppo, l'esame, la registrazione e il mantenimento dell'IPT.

Bibliografia

1. GOST 7.74 – 96. Linguaggi di recupero delle informazioni. Termini e definizioni [Testo]. - Accedere. 1997-07-01. – Minsk: Consiglio interstatale per la standardizzazione, la metrologia e, 1997. – 34 p. (Sistema di standard per l'informazione bibliotecaria e editoriale) TC 191.

2. GOST 7.25-2001. Thesaurus monolingue per il recupero delle informazioni. Regole di sviluppo, struttura e forma di presentazione [Testo]. –GOST7.25-80; Accedere. 2002-07-01. – M.: Casa editrice IPK Standards, 2001. – 16 p. MTK191.

3. GOST 7.24-2007 Thesaurus multilingue per il recupero delle informazioni. Composizione, struttura e requisiti fondamentali per la costruzione. – Invece di GOST 7.24-90; ingresso 2008-07-01. / Consiglio interstatale per la standardizzazione, la metrologia e la certificazione. – M.: Standartinform, 2008. – 7 p. (Sistema di norme in materia di informazione, biblioteconomia ed editoria)

4. Baranov, O. S. Dizionario ideografico della lingua russa / O. S. Baranov. – M.: Casa editrice ETS, 1995. – 820 p.

5. Zhmailo, S. V. Sulla questione della definizione del thesaurus [Testo] / S. V. // NTI. Ser. 1 Lavoro di organizzazione e informazione. – 2003. – N. 12. – P.20 – 25.

6. Zhmailo, S. V. Verso lo sviluppo di moderni thesaurus per il recupero delle informazioni [Testo] / S. V. Zhmailo // NTI. Ser. 1 Organizzazione e metodologia del lavoro informativo. –2004. – N. 1. – P.23 – 31.

Così, nel dizionario ideografico della lingua russa di O. S. Baranov (4), si individuano 12 sezioni superiori del dizionario ideografico, tra cui: “ordine, natura, attività, cultura”, ecc., Ciascuna delle quali è divisa in gruppi , sottogruppi, dipartimenti, sezioni . Tutte le parole in questo dizionario sono raccolte in nidi in base al loro significato e sono raggruppate in base a un determinato concetto con il quale sono spesso collegate da relazioni di specie. I nidi sono raggruppati in sottosezioni, ecc. Al momento, il dizionario contiene 5923 nidi, 7 livelli di divisione (secondo www.rifmovnik.ru/thesaurus.htm del 16/02/2010). Ecco un esempio di una voce di dizionario da questo dizionario:

178.4.7 aroma ▲ - un odore gradevole (ad esempio, l'odore dei fiori, dell'erba, del fieno. delicato #. inebriante #). aromatizzazione . . ambra. incenso.

Il codice della parola “aroma” riflette la classificazione ideografica adottata in questo caso, in particolare, la correlazione di questa parola con la categoria “178-Sensazioni”.

Pertanto, i termini "thesaurus", "dizionario ideografico", "dizionario di tipo thesaurus", significano innanzitutto che la totalità delle parole della lingua in essi contenute è presentata in modo tale che un gruppo di parole includa parole che sono simili nel significato. Lo scopo principale dei dizionari ideografici è una raccolta di unità lessicali unite da un concetto comune; Ciò rende più facile per il lettore trovare i mezzi più adatti per esprimere adeguatamente i propri pensieri e favorisce la padronanza attiva della lingua.

Dalla storia dei thesauri

GIACCHE 2302

nei prodotti di costume

Prodotti per cappotti

Prodotti per cucire

n Giacca doppiopetto

Giacca combinata

Giacche sportive

in Misure di imballaggio

Materiale rimasto

Materiale di scarto

Nota lessicale;

Ascrittori o descrittori sinonimi;

Descrittori sovraordinati;

Descrittori subordinati;

Descrittori associativi;

Descrittori legati da altri tipi di relazioni.

All'interno di ciascun gruppo di LE associato al descrittore principale da un tipo di relazione paradigmatica, deve esserci un ordine alfabetico di disposizione. Per esempio:

LINGUAGGI ALGORITMICI

con linguaggi algoritmici

linguaggi orientati alla macchina

linguaggi orientati ai problemi

nel SOFTWARE

LINGUAGGI FORMALI

n AUTOCODICI

un ALGORITMI

PROGRAMMAZIONE cfr linguaggi artificiali

Un articolo ascrittore è costituito da un ascrittore e da descrittori o da una combinazione di descrittori che lo sostituiscono durante l'elaborazione e il recupero delle informazioni. Ecco alcuni esempi di articoli ascrittori:

Caratteri alfanumerici

LINGUE FORMALI Spagnole

LINGUE NATURALI

vedi LINGUAGGI ALGORITMICI

Una voce del dizionario può anche includere:

Frequenza d'uso del descrittore;

Numero del codice descrittore;

Codice descrittore dell'indice sistematico;

Indici di classificazione;

Ulteriori note semantiche e lessicografiche;

Equivalenti in lingua straniera.

La qualità dell'indice lessico-semantico è determinata dalla completezza delle unità lessicali in esso incluse. è intesa come la probabilità di inclusione nel thesaurus di qualsiasi parola informativamente significativa per una determinata area tematica. La completezza dell'indice lessico-semantico e, di conseguenza, dell'intero thesaurus, ha un impatto significativo sui risultati dell'indicizzazione di documenti e query.

Parti aggiuntive possono includere indici sistematici, permutativi, gerarchici e altri ed elenchi di categorie speciali di unità lessicali.

Un indice sistematico è un indice in cui i descrittori sono raggruppati secondo le categorie adottate nell'IPT. Un indice sistematico determina l'orientamento tematico del thesaurus, ne rivela il contenuto e riflette quei rami della scienza e della tecnologia che possono essere ricercati con vari gradi di dettaglio. La sua necessità nell'ambito dell'IPT è dovuta al fatto che fornisce una rappresentazione visiva dello stato generale della terminologia in un particolare campo della conoscenza, consente di costruire un modello terminologico coerente e, se possibile, tutti i termini e concetti che dovrebbero trovare posto nel thesaurus. Ha lo scopo di facilitare la ricerca di termini durante la compilazione di immagini di ricerca di documenti e query organizzando una serie di descrittori e ascrittori per argomento.

Un indice sistematico è essenzialmente uno schema di classificazione per riempire un thesaurus con la terminologia, poiché è costruito ordinando una serie di descrittori in aree tematiche.

Gli indici sistematici dell’IPT si dividono in tre tipologie:

tematico,

Misto.

Questa divisione riflette il principio di costruzione di uno schema di classificazione per un indice sistematico.

Le principali funzioni svolte dall'indice sistematico dell'IPT:

Utilizzare come ausilio durante l'indicizzazione, fornendo, in generale, la ricerca di descrittori per l'indicizzazione di concetti non esplicitamente presentati nel thesaurus (funzione di ricerca);

Utilizzo di un thesaurus nel processo di mantenimento (funzione di mantenimento dell'IPT);

Utilizzare l'IPT come base strutturale, come gestione del suo sviluppo (funzione costruttiva).

In conformità con GOST 7.25-2001 (2), quando si costruisce un indice sistematico di tipi tematici e misti nella sua parte tematica, è necessario utilizzare i titoli del rubricatore Interstate NTI o il rubricatore di un ASNTI specifico, compatibile con il rubricatore Interstate NTI . Quando si costruisce un indice sistematico di tipi categorici e misti, nella sua parte categorica si dovrebbero trovare le seguenti categorie generali:

Nomi di discipline e rami di attività;

Oggetti, materiali;

Metodi, processi, operazioni, fenomeni;

Proprietà, quantità, parametri, caratteristiche;

Relazioni, strutture, modelli, leggi, regole, concetti astratti.

Indice gerarchico. Un indice gerarchico è un indice che fornisce un elenco di elenchi di descrittori, ciascun elenco inizia con un descrittore che non ha alcun descrittore superiore. Riflette la struttura completa delle relazioni gerarchiche nell'IPT. Dopo ciascun descrittore vengono forniti i descrittori stessi, indicando il loro livello nella gerarchia utilizzando la numerazione o la designazione grafica del livello:

La necessità di sviluppare un indice gerarchico dell'IPT è causata dal fatto che l'intero sistema di subordinazione dei concetti non è fissato nelle voci del dizionario dell'IPT, perché ciò comporterebbe un aumento significativo dell'indice lessicale-semantico. è necessario sviluppare una sezione indipendente dell'IPT, un indice gerarchico che rifletta l'intera catena gerarchica di comando dei descrittori fino al basso.

Un indice di permutazione è un indice in cui, in ordine alfabetico, sono elencate tutte le singole parole incluse nei componenti delle frasi che denotano descrittori e per ciascuna di esse sono indicati tutti i descrittori che includono queste parole. Di conseguenza, ogni termine appare nell'indice di permutazione tante volte quante sono le parole significative che contiene. Lo scopo dell'indice di permutazione è quello di fornire una ricerca di sintagmi descrittori mediante qualsiasi parola inclusa nella loro composizione, comprese quelle che non compaiono all'inizio dell'unità lessicale. Ti consente di raggruppare parole con la stessa radice in un unico posto.

Di norma, l'indice di permutazione viene compilato in modo automatizzato e assume solitamente la forma di un indice di tipo KWIC (Key Word - In Context), in cui tutte le parole significative - termini - sono disposte in ordine alfabetico. nell'indice di permutazione si trova al centro della colonna, che è formata da microcontesti di elementi terminologici, e la parte fuori posto dei termini viene spostata a sinistra della stessa riga:

quanto ottico

eccitazione

elettrico

con eccitazione dipendente

GENERATORI DI INTERFERENZE

Serie GENERATORI

GENERATORI CC

Saranno necessari GENERATORI DC.

4. Procedura per lo sviluppo, l'esame, la registrazione e il mantenimento dell'IPT

Attualmente, la procedura per lo sviluppo, l'esame e la registrazione dell'IPT è determinata da due standard: GOST 7.25-2001 “Thesaurus monolingue per il recupero delle informazioni. Regole di sviluppo, struttura, composizione e forma di presentazione" e GOST 7.24-2007 "Thesaurus multilingue per il recupero delle informazioni. Composizione, struttura e requisiti fondamentali per la costruzione." In conformità con questi standard, le funzioni di esame e registrazione dell'IPT sono svolte da fondi di deposito nazionali e internazionali.

Il Fondo nazionale di deposito dell'IPT in russo (incluso l'IPT contenente descrittori equivalenti in russo) si trova a VINITI.

Esistono anche due IPT depositari internazionali:

1) IPT del fondo di deposito internazionale in inglese, inclusi gli IPT contenenti descrittori equivalenti in inglese. Si trova a Toronto, nella biblioteca della Facoltà di Scienze dell'Informazione dell'Università di Toronto (Thesaurus Clearinghouse - “calcolo”, The Library, Faculty of Information Studies, University of Toronto, TORONTO, Canada);

2) fondo depositario internazionale IPT in tutte le altre lingue tranne l'inglese. Ha sede in , a Varsavia, presso l'informazione scientifica e tecnico-economica (Instytut Informacji Naukowej, Technicznej i Ekonomicznej, Clearinghouse, WARSZAW A, Polonia.).

Gli indirizzi completi di queste organizzazioni sono riportati in GOST 7.25-2001.

GOST 7.25-2001 e GOST 7.24-2007 definiscono le azioni degli sviluppatori IPT come segue:

1. Prima di iniziare i lavori per la creazione di un IPT, lo sviluppatore deve contattare l'apposito fondo di deposito nazionale o internazionale per verificare la disponibilità di thesauri registrati su un determinato argomento. Se tali thesaurus sono disponibili, viene valutata la possibilità di introdurli in un dato sistema. Se tali thesauri non vengono trovati, è possibile creare un IPT. Allo stesso tempo, tutta la tecnologia per la creazione di IPT deve rispettare rigorosamente GOST 7.25-2001 e GOST 7.24-2007

2. L'IPT già pronto (sviluppato) deve essere sottoposto a esame per la conformità con GOST 7.25-2001. sono conformi allo standard, quindi il Nazionale lo rilascia allo sviluppatore. Questo IPT è depositato (depositato) negli appropriati fondi di deposito nazionali o internazionali (a Toronto o Varsavia).

I depositari nazionali diffondono informazioni sulla composizione del fondo degli IPT depositati e li forniscono agli sviluppatori di nuovi IPT al fine di prendere in prestito elementi e garantire la compatibilità del supporto linguistico per i vari sistemi informativi. Pertanto, svolgono le funzioni di esame, registrazione, archiviazione dell'IPT e informazione sull'IPT esistente.

Molte operazioni per la gestione dell'IPT);

La transizione dell'AIS dal funzionamento indipendente al funzionamento in modalità rete (quando si utilizza IPT all'interno di un quadro unico, i principi del loro funzionamento devono essere concordati).

La procedura per mantenere l'IPT in condizioni di funzionamento è chiamata manutenzione o adeguamento del thesaurus. In genere include quanto segue:

Modifica della composizione lessicale dell'IPT: introduzione di nuove unità lessicali, modifica dello status delle unità lessicali (traduzione di una parola chiave in descrittori e viceversa);

Cambiare le relazioni paradigmatiche nell'IPT (rafforzamento, indebolimento);

Il mantenimento dell'IPT comporta l'uso obbligatorio di strumenti di automazione che consentono di eseguire rapidamente operazioni ad alta intensità di lavoro come l'ordinamento alfabetico del vocabolario, il vocabolario, il controllo della reciprocità e della coerenza dei riferimenti, con l'aiuto dei quali vengono registrate le relazioni paradigmatiche nell'IPT, ecc. .

N. V. Lukashevich

[e-mail protetta]

B. V. Dobrov

Centro di ricerca informatica dell'Università statale di Mosca. MV Lomonosov;

ANO Centro per la ricerca sull'informazione

[e-mail protetta]

Parole chiave: thesaurus, recupero di informazioni, elaborazione automatica del testo,

La stragrande maggioranza delle tecnologie che lavorano con grandi raccolte di testi si basano su metodi statistici e probabilistici. Ciò è dovuto al fatto che le risorse lessicali che potrebbero essere utilizzate per elaborare raccolte di testi utilizzando metodi linguistici devono avere un volume di decine di migliaia di voci di dizionario e avere una serie di proprietà importanti che devono essere monitorate specificamente durante lo sviluppo della risorsa. Nel rapporto esaminiamo i principi di base dello sviluppo di risorse lessicali per l'elaborazione automatica di grandi raccolte di testi utilizzando l'esempio del thesaurus in lingua russa per l'elaborazione dei testi computerizzati RuTez, creato nel 1997, che attualmente è una rete gerarchica di oltre 42mila concetti . Descriviamo lo stato attuale del thesaurus sulla base di un confronto tra la sua composizione lessicale e il corpus testuale del Sistema Informativo Universitario RUSSIA (www.cir.ru) - 400mila documenti. Vengono discussi esempi di utilizzo del thesaurus in varie applicazioni di elaborazione testi automatica.

introduzione

Attualmente milioni di documenti sono diventati disponibili in formato elettronico, sono stati creati migliaia di sistemi informativi e biblioteche elettroniche. Allo stesso tempo, i sistemi informativi che utilizzano risorse lessicali e terminologiche per la ricerca vengono calcolati in frazioni percentuali. Ciò è dovuto alle gravi sfide legate alla creazione di tali risorse linguistiche per l'elaborazione automatica delle moderne raccolte di documenti elettronici.

Innanzitutto, queste raccolte sono solitamente molto grandi; la risorsa deve includere descrizioni di migliaia di parole e termini. In secondo luogo, le raccolte sono un insieme di documenti di diversa struttura con varie strutture sintattiche, il che rende difficile l'elaborazione automatica delle frasi di testo. Inoltre, le informazioni importanti sono spesso distribuite tra diverse frasi del testo.

Tutto ciò solleva acutamente la questione di cosa dovrebbe essere una risorsa linguistica che, da un lato, sarebbe utile per l’elaborazione e la ricerca automatica nelle collezioni elettroniche, dall’altro potrebbe essere creata in un tempo prevedibile e mantenuta con relativamente poco sforzo.

In questo articolo esamineremo i principi di base dello sviluppo di risorse lessicali per l'elaborazione automatica di grandi raccolte di testi. Questi principi saranno esaminati utilizzando l'esempio del thesaurus in lingua russa creato dal Centro ANO per la ricerca sull'informazione dal 1997 per l'elaborazione dei testi computerizzati RuTez. RuTez è attualmente una rete gerarchica di oltre 42mila concetti, che comprende più di 95mila parole, espressioni e termini russi. Descriveremo lo stato attuale del thesaurus sulla base di un confronto tra la sua composizione lessicale e il vocabolario del corpus testuale del Sistema informativo universitario RUSSIA, supportato dal Centro di calcolo della ricerca dell'Università statale di Mosca. MV Lomonosov e ANO TSII. UIS RUSSIA (www.cir.ru) contiene 400mila documenti su argomenti socio-politici (circa 3 GB di testi, 200 milioni di parole). L'articolo discuterà anche esempi di utilizzo del thesaurus in varie applicazioni di elaborazione testi automatica.

Principi per lo sviluppo di una risorsa linguistica

per compiti di recupero delle informazioni

Per garantire un'efficace elaborazione automatica dei documenti elettronici (indicizzazione automatica, categorizzazione, confronto di documenti), è necessario creare una base per il loro confronto: un elenco di ciò che è menzionato nel documento. Affinché un tale indice sia più efficace di un indice parola per parola, è necessario superare la diversità lessicale del testo: sinonimi, polisemia, parti del discorso, stilistica, e ridurlo a un invariante - concetto che diventa base per confrontare testi diversi. Pertanto, i concetti dovrebbero diventare la base di una risorsa linguistica e le espressioni linguistiche: parole, termini - diventare solo input di testo che inizializzano il concetto corrispondente.

Per poter confrontare concetti diversi ma simili è necessario stabilire delle relazioni tra loro. Tradizionalmente, le risorse linguistiche per l'elaborazione automatica dei testi in linguaggio naturale utilizzavano determinati insiemi di relazioni semantiche, come parte, fonte, motivo e così via. Tuttavia, quando si lavora con raccolte di testi grandi ed eterogenee, dobbiamo capire che con lo stato attuale della tecnologia di elaborazione testi, un sistema informatico non sarà in grado di rilevare in modo affidabile queste relazioni nel testo per eseguire le procedure che abbiamo associato a queste o altre relazioni. Pertanto, le relazioni tra concetti devono innanzitutto descrivere alcune proprietà invarianti che non dipendono o dipendono debolmente dall'argomento del testo specifico in cui il concetto è menzionato.

La funzione principale di questa relazione è rispondere alla seguente domanda:

se è noto che il testo è dedicato alla discussione di C1 e C2 è correlato

atteggiamentoRcon C1, possiamo dire che l'argomento del testo(*)

legato a C2?

Quando si crea una risorsa linguistica per l'elaborazione automatica, è importante determinare quali proprietà dei concetti C1 e C2 ci consentono di stabilire relazioni corrette (*) tra di loro.

Quindi, ad esempio, non importa di quali testi siano scritti betulle, possiamo sempre dire che questi testi riguardano alberi. Ma nonostante la popolarità e le frequenti discussioni sulla relazione albero come una parte foreste, pochissimi testi sugli alberi sono testi sulle foreste. Tieni presente che il problema non è legato al nome della relazione. COSÌ la radura fa parte della foresta, e i testi sulle radure sono testi sulle foreste.

L'invarianza delle relazioni rispetto allo spettro dei possibili argomenti dei testi in un'area tematica è in gran parte determinata da proprietà più profonde di quelle riflesse dai nomi delle relazioni, vale a dire il suo quantificatore e le sue proprietà esistenziali. Pertanto, le proprietà quantificatrici delle relazioni descrivono se tutti gli esempi di un concetto hanno una determinata relazione, se questa relazione persiste durante l'intero ciclo di vita dell'esempio. Problema con l'utilizzo della relazione albero – foresta Ciò è dovuto proprio al fatto che non tutti gli alberi specifici si trovano nella foresta, ma la radura non può trovarsi al di fuori della foresta.

Un esempio di descrizione delle proprietà esistenziali delle relazioni: segue dall'esistenza del concetto C1 l'esistenza del concetto C2 (ad esempio, l'esistenza del concetto BOX AUTO richiede l'esistenza di un concetto AUTOMOBILE) oppure l'esistenza degli esempi C1 dipende dall'esistenza degli esempi C2 (quindi specifici ALLUVIONE inseparabile da un esempio specifico FIUMI). La discussione nel testo del concetto dipendente C2, in particolare dipendente dall'esempio, suggerisce che il testo è correlato anche al concetto principale C1.

Consideriamo la relazione tra i concetti FORESTA e ALBERO nei dettagli. In effetti, parte del concetto FORESTAÈ ALBERO NELLA FORESTA, mentre ci sono ALBERO AUTOPORTANTE,ALBERO NEL GIARDINO ecc. In ogni caso è necessario rompere il rapporto di subordinazione del concetto ALBERO concetto FORESTA.

Dall'altro lato, FORESTAè una specie COLLEZIONI DI ALBERI, non esiste senza alberi (così come GIARDINO). Quindi, il concetto FORESTA deve essere in relazione al concetto ALBERO. Partendo dall'analisi delle esigenze di specifici problemi applicativi, siamo giunti alla conclusione che è importante descrivere le proprietà profonde delle relazioni che prima si riflettevano molto poco nelle risorse linguistiche, ma che sono di fondamentale importanza per i compiti di elaborazione automatica di grandi raccolte di testi e, possibilmente, per molti altri compiti.

Ora modelliamo la descrizione del quantificatore e delle proprietà esistenziali dei concetti con un insieme di relazioni tradizionali del thesaurus SOPRA-SOTTO (66% di tutte le relazioni), PARTE-INTERO (30% delle relazioni), ASSOCIAZIONE (4%), in combinazione con un un certo insieme di modificatori aggiuntivi (il 20% delle relazioni è contrassegnato). Si noti che le relazioni PARTE-INTERO e ASSOCIAZIONE vengono interpretate tenendo conto della regola (*). In totale vengono descritte circa 160mila connessioni dirette tra concetti, il che, tenendo conto della transitività delle relazioni, fornisce un numero totale di connessioni diverse di oltre 1350mila connessioni, ovvero, in media, ogni concetto è collegato con altri 30 .

RuTez Thesaurus: struttura generale

Il thesaurus RuTez è una rete gerarchica di concetti corrispondenti ai significati di singole parole, espressioni testuali o serie di sinonimi. Pertanto, gli elementi principali di un thesaurus sono concetti, espressioni linguistiche, relazioni tra espressioni e concetti linguistici e relazioni tra concetti.

Il thesaurus combina in un unico sistema sia la conoscenza linguistica - descrizioni di lessemi, idiomi e loro connessioni, tradizionalmente legate alla conoscenza lessicale e semantica, sia la conoscenza dei termini e delle relazioni all'interno delle aree tematiche, tradizionalmente legate al campo di attività dei terminologi, descritta in thesauri per il recupero delle informazioni. Come sotto-aree tematiche, il thesaurus descrive aree tematiche come l'economia, la legislazione, la finanza, le relazioni internazionali, che sono così importanti per la vita umana quotidiana da avere una significativa rappresentazione lessicale nei dizionari esplicativi tradizionali. In essi, lessicale e terminologico sono fortemente interconnessi e interagiscono fortemente tra loro.

Le espressioni linguistiche sono lessemi individuali (sostantivi, aggettivi e verbi), gruppi nominali e verbali. Pertanto, il thesaurus attualmente non include avverbi e parole funzionali come espressioni linguistiche. I gruppi composti da più parole possono includere termini, modi di dire, funzioni lessicali ( influenza e).

Per ogni espressione linguistica viene descritto:

La sua polisemia è una connessione con uno o più concetti, il che significa che una determinata espressione linguistica può servire come espressione testuale di questo concetto. Attribuire un'espressione linguistica a concetti diversi è anche un'indicazione implicita della sua polisemia;

La sua composizione morfologica (parte del discorso, numero, caso);

Caratteristiche di scrittura (ad esempio, con una lettera maiuscola), ecc.

Ogni concetto del thesaurus ha un nome univoco, un elenco di espressioni linguistiche con cui questo concetto può essere espresso nel testo e un elenco di relazioni con altri concetti.

Una delle sue espressioni testuali inequivocabili viene solitamente scelta come nome univoco per un concetto. Ma il nome di un concetto può anche essere formato da una coppia delle sue espressioni testuali ambigue - sinonimi, scritti separati da virgole e che lo definiscono in modo inequivocabile (ad esempio, il concetto SPESSO). Un'espressione testuale ambigua del nome di un concetto può anche essere dotata di un segno o di un frammento di interpretazione abbreviato, ad esempio concetto FOLLA (GRUPPO DI PERSONE).

Esempio di voce del dizionario

Abbiamo scelto come esempio la voce del dizionario per il concetto FORESTA, corrispondente a uno dei significati della parola foresta. Questa voce del dizionario è interessante perché comprende diversi tipi di conoscenze, tradizionalmente classificate come conoscenze lessicali (semantiche) e conoscenze enciclopediche (conoscenza disciplinare, terminologia).

Sinonimi per il concetto FORESTA(totale 13):

foresta(M), zona forestale, ambiente forestale,

foresta, quartiere della foresta, paesaggio forestale,

zona forestale, bosco, zona boschiva,

area boschiva, piccolo bosco,

schiera di foreste.

Di seguito i concetti con sinonimi:

GIUNGLA(giungla);

PARCO FORESTALE(giardino cittadino, area verde,

area verde, parco forestale,

gestione forestale, parco forestale

cintura, parco(M), zona parco);

SILVICOLTURA;

FORESTA LASCIATA(foresta dalle foglie tenere, dalle foglie dure

foresta);

BOSCHETTO(boschetto di querce);

FORESTA DI CONIFERE (foresta di conifere, foresta di conifere oscura)

Parti concettuali con sinonimi:

FRANGIVENTO(manna, manna);

TAGLIO(zona di taglio);

CULTURA DELLA FORESTA(specie forestali, selvicoltura

cultura);

TERRENO FORESTALE (terreni boschivi; terreni coperti

foresta; terreni forestali, territorio forestale;

terreno boscoso, boscoso

la zona);

Piantagioni forestali(piantagioni forestali, piantagioni forestali,

rimboschimento);

BORDO DELLA FORESTA(bordo, bordo);

SOTTOFIORE(sottobosco);

PROSEKA;

LEGNO SECCO(legno morto).

Qui i simboli (M) riflettono una nota sull'ambiguità del testo inserito.

Concetto FORESTA Ha anche altre relazioni, le cosiddette relazioni di dipendenza (nella versione moderna sono chiamate ASC 2 - associazione asimmetrica): INCENDIO FORESTALE(incendio boschivo, incendio nella foresta; USO FORESTALE (uso delle foreste, uso delle aree del fondo forestale); SILVICOLTURA; SCIENZE FORESTALI (scienza forestale). Come già osservato nel paragrafo 2, il concetto di FORESTA dipende dal concetto di ALBERO, che nel thesaurus è indicato con la relazione ASC 1.

Concetto totale FORESTAè collegato direttamente con altri 28 concetti, tenendo conto della transitività delle relazioni - con 235 concetti (in totale più di 650 input di testo).

Valutazione dello stato attuale

Dizionario della lingua russa RuTez

5.1. Composizione lessicale

Attualmente la rete dei thesaurus comprende più di 95mila espressioni linguistiche, di cui 61mila composte da una sola parola.

Questo volume di lavoro ci ha costretto a decidere quali parole ed espressioni linguistiche dovevano essere incluse nelle descrizioni del Thesaurus. Il desiderio naturale era quello di vedere come venivano rappresentate nel dizionario dei sinonimi le parole più frequenti della lingua russa. A tale scopo è stata utilizzata la raccolta testuale del Sistema Informativo Universitario RUSSIA (400mila documenti). La collezione contiene documenti ufficiali di vari organi della Federazione Russa (55mila documenti dal 1992), nonché materiali per la stampa dal 1999 (giornali Izvestia, Nezavisimaya Gazeta, Komsomolskaya Pravda, Argumenty i Fakty, rivista Expert e altri), materiali di origine scientifica riviste ("Bollettino dell'Università di Mosca", "Giornale sociologico"). È stato effettuato un confronto tra l'elenco dei lemmi inclusi nel Thesaurus e l'elenco dei 100.000 lemmi più frequenti nella raccolta testuale (frequenza superiore a 25).

La marcatura del polissema dell'elenco ha mostrato che tra questi centomila lemmi, 35mila sono descritti in RuTez, solo circa 7mila lessemi meritano di essere inclusi nel Thesaurus, il resto sono varianti lemmatiche di vari nomi propri. Pertanto, il rifornimento non è più un compito prioritario e viene effettuato gradualmente, a partire dalle parole più frequenti. Si presuppone che non appena questo elenco sarà in gran parte esaurito, verrà effettuato un altro confronto con l'array di testo del sistema informativo, verranno selezionati nuovi lessemi con una frequenza superiore a 25. Successivamente, si suppone che la soglia di visualizzazione venga abbassata . La presenza di un gran numero di esempi di testo nella raccolta di testi consente di rispondere rapidamente alle "innovazioni lessicali" (ad esempio, installazione,successo, bel mondo, romanzo giallo) e includerli nelle posizioni appropriate nel sistema gerarchico del Thesaurus.

Il lavoro costante con una raccolta di testi attuale offre opportunità uniche per verificare il significato e la qualità delle descrizioni lessicali proposte nei dizionari. Ad esempio, una frequenza d'uso insolitamente alta della parola Madre, vedi(più di 400 volte). Il controllo dell'array ha mostrato che la parola è effettivamente spesso usata come sinonimo della parola Mosca, mentre i dizionari esplicativi spesso segnalano questa parola come obsoleta. Un altro esempio di parola usata frequentemente (più di 300 volte) contrassegnata come obsoleta nei dizionari è la parola beato.

5.2 Descrizione dei significati delle parole

Il confronto con la raccolta di testi mostra che molte delle parole di frequenza nell'array sono ben rappresentate nel Thesaurus in almeno uno dei loro significati (solitamente basilari). Scoprire fino a che punto lo spettro dei significati delle parole polisemantiche nella lingua russa è rappresentato nel Thesaurus è il nostro compito principale al momento.

Come è noto, spesso fonti dizionari diverse danno un diverso insieme di significati alle parole polisemiche, evidenziano sfumature di significato e lo stesso tipo di polisemia può essere descritto diversamente per parole diverse anche nello stesso dizionario. Pertanto, il compito di descrivere in modo coerente e rappresentativo i significati dei lessemi è un compito importante per i creatori di qualsiasi risorsa di vocabolario.

Tuttavia, se la risorsa è destinata all'elaborazione automatica, il compito di una descrizione equilibrata dei valori diventa molto più importante. Un'inflazione eccessiva del valore può comportare l'incapacità del sistema informatico di selezionare il valore desiderato, il che a sua volta si traduce in una riduzione significativa delle prestazioni del sistema di elaborazione testi automatico. Quindi, uno degli svantaggi della risorsa WordNet come risorsa per l'elaborazione automatica dei testi è l'eccessivo numero di significati descritti per alcune parole (in WordNet 1.6: 53 significati per correre, 47 per giocare e così via.). Questi significati sono difficili da distinguere anche per gli esseri umani quando annotano semanticamente i testi. È chiaro che anche il sistema informatico non è in grado di gestire la scelta del valore appropriato. Pertanto, diversi autori propongono modi diversi per combinare i valori per migliorare la qualità dell'elaborazione.

Allo stesso tempo, opera il fattore opposto: se i significati differiscono davvero nell'insieme delle connessioni del dizionario (nel nostro caso, le connessioni del thesaurus) - non possono essere incollati in un'unità (un concetto) - ciò porterà anche a un deterioramento la qualità dell'elaborazione automatica.

Facciamo un esempio delle parole scuola E Chiesa, ognuno dei quali può essere considerato come un'organizzazione e come un edificio.

Ogni organizzazione scolastica ha un edificio (il più delle volte uno). Tutte le parti dell'edificio scolastico (aule, lavagne) sono correlate scuola come un'organizzazione. Non esistono tipologie specifiche di edifici scolastici. Quindi la descrizione scuole Trattandosi di edifici, non è opportuno separarli in un concetto separato. Tuttavia, la descrizione di un tale concetto collettivo SCUOLA come organizzazione e come edificio deve avere un rapporto appositamente progettato con il concetto EDIFICIO. Quando si descrivono tali relazioni nel Thesaurus, viene utilizzato un segno sulla relazione: il modificatore "A" ("aspetto"; durante l'analisi automatica, è necessaria la "conferma" da parte di altri concetti per tenere conto di questa relazione).

SCUOLA

PIÙ ALTO ISTITUTO D'ISTRUZIONE

SOPRA A EDIFICIO PUBBLICO

Significati corrispondenti della parola Chiesa non così vicino. Chiese Come organizzazione, può avere un gran numero di edifici ecclesiastici in luoghi diversi e avere anche molti altri edifici. Costruzione di chieseè strettamente correlato alla religione e alla confessione, ma può cambiare appartenenza organizzazioni ecclesiali. Organizzazione della Chiesa E costruzione di chiese hanno sottospecie diverse. Ecco perché CHIESA (ORGANIZZAZIONE) E CHIESA (EDIFICIO) sono presentati in RuTez come concetti diversi.

La significativa divergenza nelle connessioni del thesaurus è correlata in modo interessante con la capacità delle denotazioni corrispondenti ai significati di esistere separatamente le une dalle altre. Pertanto, un edificio-chiesa non cessa di esistere e addirittura di essere chiamato chiesa anche quando cambia la sua destinazione d'uso, a differenza di un edificio scolastico.

Il processo di verifica della rappresentazione dei valori nel Thesaurus è costantemente in corso, a partire dai lemmi più frequenti. Per ogni lessema di frequenza viene verificato come i suoi significati sono descritti nei dizionari esplicativi, quali significati sono utilizzati nella raccolta e come sono presentati nel Thesaurus. Di conseguenza, è stato ora formato un elenco di 10.000 lessemi, la cui ambiguità richiede ancora un'analisi o una descrizione aggiuntiva. L'elenco è stato ottenuto sulla base di 30mila lemmi più frequenti.

Va notato che nel Thesaurus il problema della polisemia è parzialmente rimosso perché le connessioni del thesaurus possono essere descritte tra diversi significati di una parola, e quindi il concetto più alto nella gerarchia può essere selezionato per impostazione predefinita. Se ne è parlato sicuramente nel testo. Ad esempio, la parola foto ha tre significati: la fotografia come campo di attività, la fotografia come immagine fotografica, la fotografia come studio fotografico:

FOTOGRAFIA(fotografare, attività fotografica, ..., foto )

PARTE IMMAGINE FOTOGRAFICA

(foto, fotografia, foto )

PARTE STUDIO FOTOGRAFICO (foto ).

Quindi, se non fosse possibile capire quale significato fosse usata la parola foto, per impostazione predefinita si presuppone che sia stata scattata una foto (di un processo, risultato o luogo), il che è sufficiente per molte applicazioni di elaborazione automatica del testo.

Applicazione del thesaurus RuTez

per l'elaborazione automatica del testo

Dal 1995, la terminologia socio-politica RuTez (thesaurus socio-politico) è stata utilizzata attivamente e con successo per varie applicazioni di elaborazione automatica del testo, come l'indicizzazione concettuale automatica, la rubricazione automatica utilizzando diversi rubricatori, l'annotazione automatica dei testi, compresi quelli in lingua inglese. quelli. Il thesaurus socio-politico (27mila concetti, 62mila voci di testo) è uno strumento di ricerca di base nel sistema di ricerca UIS RUSSIA (www.cir.ru).

Tutto il vocabolario del thesaurus RuTez viene utilizzato nelle procedure per la categorizzazione automatica dei testi utilizzando complessi rubricatori gerarchici. Nella tecnologia esistente, ciascuna categoria viene descritta come un'espressione booleana di termini, dopo di che la formula originale viene espansa lungo la gerarchia del thesaurus. L'espressione booleana risultante potrebbe già includere centinaia e migliaia di congiunti e disgiunti.

Diamo, ad esempio, un frammento di descrizione utilizzando i concetti del thesaurus (e le espressioni linguistiche dopo aver ampliato la formula) della rubrica "Immagine di una donna" del rubricatore SOFIST 2, utilizzata da VTsIOM per classificare i questionari dei sondaggi di opinione pubblica:

(DONNA[N]

|| RAGAZZA[N]

|| PARENTE [L] (nonna, nipote, cugina,

figlia, cognata, madre, matrigna, nuora, figliastra, ...))

(TRATTO DEL CARATTERE[L] (parsimonioso, senza cuore, smemorato,

frivolo, beffardo, intollerante, socievole, ...)

|| IMMAGINE [E] (presentazione, aspetto, aspetto,

aspetto, aspetto, immagine, aspetto)

|| PIACEVOLE [L] (..., interessante, bello, carino,

attraente, carino, attraente, ...)

|| SPIACEVOLE[L] (antipatico, scortese, cattivo, ...)

|| APPREZZARE[L] (venerare, adorare, adorare,

adorare, adorare, ...)

|| PREFERISCI[N]

Il simbolo “E” denota la completa espansione lungo la gerarchia del thesaurus, il simbolo “L” - secondo le relazioni tra le specie (“SOTTO”), il simbolo “N” - non si espande.

È in corso una ricerca per sviluppare una tecnologia combinata per la categorizzazione automatica del testo, combinando la conoscenza del thesaurus e le procedure di apprendimento automatico.

Si stanno esplorando le questioni relative all'utilizzo di un thesaurus per espandere una query formulata in linguaggio naturale (attualmente, solo la parte socio-politica del thesaurus viene utilizzata per espandere una query terminologica nel sistema di recupero delle informazioni dell'UIS RUSSIA), e la ricerca di risposte a domande in grandi raccolte di testi.

7. Conclusione

L'articolo presenta i principi di base dello sviluppo di risorse linguistiche per l'elaborazione automatica di grandi raccolte di testi. La risorsa linguistica creata - Thesaurus della lingua russa RuTez - è destinata all'uso in applicazioni di elaborazione automatica del testo come l'indicizzazione concettuale dei documenti, la rubricazione automatica secondo complessi rubricatori gerarchici, l'espansione automatica delle query in linguaggio naturale.

Questo lavoro è parzialmente sostenuto dalla sovvenzione n. 00-04-00272a della Fondazione umanitaria russa.

Letteratura

Lukashevich N.V., Saliy A.D., Rappresentazione della conoscenza nel sistema di elaborazione automatica del testo //NTI, Ser.2. 1997. N. 3. P. 1‑6.
Zhuravlev S.V., Yudina T.N., Sistema informativo RUSSIA //NTI, Ser.2. 1995. N. 3. P. 18‑20.
Winston M., Chaffin R., Herman D., Una tassonomia delle relazioni parte-tutto // Scienze cognitive. 1987. No. 11. P. 417‑444.
Priss U.E., La formalizzazione di WordNet mediante metodi di analisi dei concetti relazionali // WordNet. Un database lessicale elettronico/Ed. di C. Fellbaum. Cambridge, Massachusetts, Londra, Inghilterra.: The MIT Press 1998. P. 179‑196.
Guarino N., Welty C., A Formal Ontology of Properties // Atti del workshop ECAI-00 su applicazioni di ontologie e metodi di risoluzione dei problemi. Berlino: 2000. P. 121-128. (http://citeseer.nj.nec.com/guarino00formal.html).

Alcuni principi ontologici per la progettazione di risorse lessicali di livello superiore // Primo int. Conf. sulle risorse linguistiche e sulla valutazione. 1998.

Lukashevich N.V., Dobrov B.V., Modificatori delle relazioni concettuali nel thesaurus per l'indicizzazione automatica // NTI, Ser.2. 2000, n. 4, pp. 21‑28.
Ampio dizionario esplicativo della lingua russa / Ed. SA Kuznetsova. San Pietroburgo: Norint, 1998.
Ozhegov S.I., Shvedova N.Yu., Dizionario esplicativo della lingua russa - 3a edizione. M.: Az, 1996.
Apresyan Yu.D., Opere scelte, volume I. Semantica lessicale: 2a ed. M.: Scuola “Lingue della cultura russa”, ed. Azienda "Letteratura Orientale" RAS, 1995.
G. Miller, R. Beckwith, C. Fellbaum, D. Gross e K. Miller, Cinque articoli su WordNet, CSL Report 43. Cognitive Science Laboratory, Princeton University, 1990.
Chugur, J. Gonzalo e F. Verdjeo, Distinzioni di senso nelle applicazioni della PNL // Atti di "OntoLex-2000": Ontologie e basi di conoscenza lessicale. Sofia: OntoTextLab. 2000.
Loukachevitch N., Dobrov B., Sintesi tematica strutturale basata sul thesaurus nei sistemi informativi multilinguistici // Revisione della traduzione automatica. 2000. No. 11. P. 10‑20. (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm).

Thesaurus della lingua russa per l'elaborazione del linguaggio naturale

di grandi raccolte di testi

Natalia V. Loukachevitch, Boris V. Dobrov

Parole chiave: thesaurus, elaborazione del linguaggio naturale, recupero delle informazioni

Nella nostra presentazione consideriamo i principi fondamentali dello sviluppo delle risorse lessicali per l'elaborazione automatica di grandi raccolte di testi e descriviamo la struttura del Thesaurus della lingua russa, che è stato sviluppato dal 1997 appositamente come strumento per l'elaborazione automatica dei testi. Ora il Thesaurus è una rete gerarchica di 42mila concetti. Descriviamo lo stato attuale del Thesaurus sviluppandolo rispetto ai 100.000 lemmi più frequenti della raccolta di testi del Sistema Informativo Universitario RUSSIA (www.cir.ru), comprendente 400mila documenti. Consideriamo inoltre l'uso del Thesaurus in diverse applicazioni di elaborazione automatica del testo.

La sezione è molto facile da usare. Basta inserire la parola desiderata nell'apposito campo e ti forniremo un elenco dei suoi significati. Vorrei sottolineare che il nostro sito fornisce dati provenienti da varie fonti: dizionari enciclopedici, esplicativi e di formazione delle parole. Qui puoi anche vedere esempi dell'uso della parola che hai inserito.

Il significato della parola thesaurus

thesaurus nel dizionario dei cruciverba

Dizionario esplicativo della lingua russa. S.I.Ozhegov, N.Yu.Shvedova.

dizionario dei sinonimi

[te], -a, m. (speciale).

Un dizionario di una lingua che mira a riflettere pienamente tutto il suo vocabolario.

Un dizionario o un insieme di dati che copre completamente termini e concetti di qualche tipo. campo speciale.

agg. dizionario dei sinonimi, -aya, -oe.

Nuovo dizionario esplicativo della lingua russa, T. F. Efremova.

dizionario dei sinonimi

Dizionario di qualche tipo lingua, rappresentandone integralmente il vocabolario.

Un insieme completo e sistematizzato di dati su qualcosa. un campo di conoscenza che consente a una persona o a un computer di esplorarlo (in informatica).

Dizionario enciclopedico, 1998

dizionario dei sinonimi

THESAURUS (dal greco thesauros - tesoro)

un dizionario in cui le parole di una lingua sono presentate nel modo più completo possibile con esempi del loro utilizzo nel testo (è pienamente fattibile solo per le lingue morte).

Un dizionario in cui le parole relative a qualsiasi campo del sapere sono disposte secondo un principio tematico e vengono mostrate le relazioni semantiche (genere-specie, sinonimo, ecc.) tra le unità lessicali. Nei thesauri per il recupero delle informazioni, le unità lessicali del testo sono sostituite da descrittori.

Dizionario dei sinonimi

(dal greco thesaurós ≈ tesoro, tesoro), insieme di unità semantiche di una lingua in cui è specificato un sistema di relazioni semantiche (vedi Semantica). T. determina effettivamente la semantica di una lingua (lingua nazionale, lingua di una scienza specifica o lingua formalizzata per un sistema di controllo automatizzato). Inizialmente, T. era considerato un dizionario monolingue, in cui le relazioni semantiche sono determinate raggruppando le parole in intestazioni tematiche. Ad esempio, l'inglese T. (autore P. M. Roget), pubblicato nel 1962 (1a edizione 1852), contiene 1040 titoli, in cui sono distribuite circa 240.000 parole. L'indice (chiave) di questa T. contiene un elenco alfabetico di parole che indica le intestazioni e le sottovoci a cui appartiene ciascuna parola. Esistono testi linguistici generali tradizionali (descrizioni dei sistemi semantici delle singole lingue) per inglese, francese e spagnolo. I dizionari monolingue che specificano le espressioni dei parametri semantici di base di ogni parola sono molto vicini a T., ad esempio il dizionario di lingua russa di S. I. Ozhegov.

Negli anni '70 20 ° secolo Si sono diffuse le tecnologie di recupero delle informazioni, in cui vengono identificate speciali unità lessicali, i descrittori, che possono essere utilizzati per la ricerca automatica di informazioni documentali. Ogni parola di tale T. è associata a un descrittore sinonimo (vedi Sinonimia), e le relazioni semantiche sono esplicitamente indicate per i descrittori: genere ≈ specie, parte ≈ tutto, scopo ≈ mezzi, ecc. Di solito è consuetudine distinguere tra relazioni genere-specifiche (gerarchiche) e associative. Pertanto, l'“Information Retrieval Thesaurus in Computer Science”, pubblicato in URSS nel 1973, per ciascun descrittore fornisce una voce di dizionario, dove sono indicati separatamente le parole chiave sinonimi, i descrittori generici, specifici e associativi. Per un migliore orientamento nelle connessioni associative tra descrittori, a questo T. sono allegate mappe semantiche delle classi tematiche. Durante il recupero automatico delle informazioni, vengono cercati i documenti il cui indice contiene non solo descrittori di query, ma anche quei descrittori che si trovano in determinate relazioni semantiche con essi. A volte è utile evidenziare in un vocabolario specifiche relazioni associative specifiche per una determinata area tematica: malattia ≈ agente patogeno, dispositivo ≈ scopo (o valore misurato), ecc. La posizione di un'unità lessicale (parola, frase) in un vocabolario caratterizza il suo significato nella lingua ; la conoscenza del sistema di relazioni semantiche in cui entra una determinata parola (comprese le categorie in cui è inclusa) ci consente di giudicare il significato di questa parola.

In senso lato, T. è interpretato come una descrizione del sistema di conoscenza della realtà posseduto da un singolo portatore di informazioni o da un gruppo di portatori. Questo mezzo può svolgere le funzioni di un ricevitore di informazioni aggiuntive, a seguito della quale cambia anche la sua T. La T originale determina le capacità del ricevitore quando riceve informazioni semantiche. In psicologia e nello studio dei sistemi dotati di intelligenza artificiale si considerano le proprietà degli individui che si manifestano nella percezione e comprensione delle informazioni. In sociologia e teoria della comunicazione si studiano le proprietà della comunicazione di individui e gruppi, che garantiscono la possibilità di comprensione reciproca basata sulla comunanza della comunicazione. In queste situazioni, la comunicazione deve includere affermazioni complesse e le loro connessioni semantiche, che determinano lo stock delle informazioni disponibili per un sistema complesso. T. contiene infatti non solo informazioni sulla realtà, ma anche metainformazioni (informazioni sulle informazioni), che consentono di ricevere nuovi messaggi.

Lett.: Cherny A.I., Metodologia generale per la costruzione di thesaurus, “Informazioni scientifiche e tecniche. Ser. 2", 1968, Ø5; Varga D., Metodologia per la preparazione dei thesauri dell'informazione, trad. [dall'ungherese], M., 1970; Shreider Yu. A., Thesaurus in informatica e semantica teorica, “Informazioni scientifiche e tecniche. Ser. 2", 1971, ╧ Z.

Yu A. Schrader.

Wikipedia

Dizionario dei sinonimi

Dizionario dei sinonimi, in senso generale - terminologia speciale, più strettamente e specificamente - un dizionario, una raccolta di informazioni, un corpus o un codice, che copre completamente concetti, definizioni e termini di uno speciale campo di conoscenza o di attività, che dovrebbe contribuire alla correzione lessicale, comunicazione aziendale; nella linguistica moderna - un tipo speciale di dizionario che indica le relazioni semantiche (sinonimi, contrari, paronimi, iponimi, iperonimi, ecc.) tra unità lessicali. I thesauri sono uno degli strumenti più efficaci per descrivere singole aree tematiche.

A differenza di un dizionario esplicativo, un thesaurus consente di identificare il significato non solo attraverso una definizione, ma anche correlando una parola con altri concetti e i loro gruppi, grazie ai quali può essere utilizzata per riempire le basi di conoscenza dei sistemi di intelligenza artificiale.

In passato il termine dizionario dei sinonimi sono stati designati principalmente i dizionari, che rappresentano il vocabolario della lingua con la massima completezza con esempi del suo utilizzo nei testi.

Anche termine dizionario dei sinonimi utilizzato nella teoria dell'informazione per denotare la totalità di tutte le informazioni possedute dal soggetto.

In psicologia, il dizionario dei sinonimi di un individuo è caratterizzato dalla percezione e dalla comprensione delle informazioni. La teoria della comunicazione considera anche il thesaurus generale di un sistema complesso attraverso il quale interagiscono i suoi elementi.

Sinonimi (disambiguazione)

Dizionario dei sinonimi:

Thesaurus è un dizionario, una raccolta di informazioni che copre concetti, definizioni e termini di uno speciale campo di conoscenza o di attività.
Il Thesaurus di Roger è uno dei primi dizionari ideografici della storia e oggi il più famoso.

Esempi dell'uso della parola thesaurus in letteratura.

Per la percezione e la co-creazione, un certo ottimale dizionario dei sinonimi, non piccolo, ma nemmeno troppo grande.

Con una quantità illimitata di informazioni in entrata, notevolmente superiori dizionario dei sinonimi, il suo valore non dipende da questa quantità ed è interamente determinato dizionario dei sinonimi ohm

La versatilità e la sistematicità dell'arte porta a una percezione disomogenea dell'opera nel suo insieme: per la percezione di alcuni aspetti del verso dizionario dei sinonimi ottimale, per altri è insufficiente o troppo grande.

Perché dizionario dei sinonimi cresce e cambia, riprendere conoscenza del lavoro può significare acquisire nuove preziose informazioni.

È comprensibile il desiderio di un bambino di rileggere più volte la sua fiaba preferita: lui dizionario dei sinonimi sta crescendo rapidamente e la sua capacità di co-creazione e fantasia associativa è particolarmente grande.

Questo aspetto della questione è più mutevole e soggettivo di dizionario dei sinonimi, e alla ricerca di una valutazione estetica oggettiva di un'opera dovrebbe essere ridotta al minimo.

Penetra dizionario dei sinonimi poeta e affronta la traduzione dizionario dei sinonimi da un lettore di lingua straniera.

La cosa più importante è determinare quanto è grande il tuo dizionario dei sinonimi, T.

No, è solo che il suo bagaglio è scarso, è sottosviluppato, il suo dizionario dei sinonimiè nella sua infanzia, e se non lo capisce dizionario dei sinonimi dovrebbe essere aumentato, quindi, in ogni caso, questa donna avrà difficoltà con lui.

Ricco dizionario dei sinonimi, basato sulla vera conoscenza, consente a una persona, in comunicazione con un'altra persona, inclusa la comunicazione più stretta con la persona più vicina, di reagire correttamente a qualunque cosa accada.

È ovvio che il calo del valore delle informazioni è in aumento dizionario dei sinonimi deve dipendere dalla relazione dizionario dei sinonimi alla quantità di informazioni ricevute.

Ovviamente il valore ottimale dell'informazione artistica corrisponde alla prossimità dizionario dei sinonimi lettore e dizionario dei sinonimi poeta.

Possiamo dire che la co-creazione, come la creatività, richiede ispirazione, cioè inclusione dizionario dei sinonimi nel senso lato del termine.

Tale ripetizione interna di immagini luminose e suoni brillanti, pur rimanendo nell'ambito dell'esistente dizionario dei sinonimi, lo arricchisce con lo stesso momento estetico di ripetizione.

A questo punto dizionario dei sinonimi Nabokov e Prishvin dovrebbero essere considerati agli antipodi di Platonov, e Marina Cvetaeva può essere considerata simile a lui.

Materiali correlati:

Mappa del sito