Facultad de Ciencias de la Información

 

Profesor: Félix del Valle Gastaminza fvalle@ccinf.ucm.es

Análisis y lenguajes documentales

El análisis documental es una técnica de representación del contenido de los documentos en un sistema documental realizado, principalmente, para que puedan ser recuperados cuando sean necesitados.

Como toda representación, el análisis documental exige un código que deberá aplicarse por parte del analista-documentalista a cada uno de los documentos y por el usuario del sistema a sus necesidades de información. Este código recibe el nombre de Lenguaje documental y se trata de un dispositivo léxico que correlaciona los mensajes contenidos en los documentos y las necesidades de los potenciales usuarios. Aunque alguno de los lenguajes documentales históricamente más extendidos está basado en códigos alfanuméricos abstractos, notoriamente las clasificaciones más utilizadas en Bibliotecas (CDU, Clasificación de Dewey, etc.), actualmente se trabaja con lenguajes integrados por palabras provenientes del lenguaje natural que actúen individualmente o combinadas como índice para la localización de los documentos. Estos lenguajes, denominados "tesauros", controlan el vocabulario de un determinado campo de actividad eliminando los problemas de sinonimia, polisemia y ambiguedad propios del lenguaje natural y estructuran los términos, denominados descriptores, mediante relaciones jerárquicas, asociativas, preferenciales y aclaratorias.

 El AD es, según López Yepes, la operación intelectual que crea las representaciones de los documentos primarios haciendo posible su trascendencia y su posterior aprovechamiento.

Para García Gutiérrez el AD es el "conjunto de procedimientos destinados a captar, segmentar y representar el significado de los documentos con el objetivo de su recuperación total o parcial. Se emplea, por tanto, como sinónimo de operaciones que afectan al plano del contenido y la estructura de la significación, exclusivamente". Es decir, que el análisis formal quedaría expresamente excluído de su definición y la denominada "descripción externa", sea bibliográfica, hemerográfica, etc. sería objeto de otro tipo de operaciones.

El AD se descompone, en su concepción clásica, en dos tipos de procesos diferentes, los que actúan sobre los aspectos formales del documento y los que afectan al contenido del documento.

1. Análisis formal

El análisis formal es un proceso que se realiza para controlar e identificar los documentos que forman parte de una colección. Se realiza en dos operaciones complementarias, que tienden a confundirse, la catalogación y la descripción documental.

La catalogación pretende establecer la lista de documentos que componen una colección, es decir, el catálogo, considerado éste como instrumento de comunicación entre la colección y los usuarios, por lo que la catalogación se ocupa de diseñar las formas de acceso o puntos de entrada que los documentos tengan en el catálogo con el objeto de que puedan ser recuperados; esto en la práctica implica también operaciones propias del análisis de contenido..

La descripción documental es la operación por la cual se describe el documento en función de sus características formales y externas, como el autor, el título, el lugar de edición, el editor, el año de publicación, las características físicas, etc. Se trata de una operación que debe estar sujeta a normas estrictas de la más amplia extensión posible con el objeto de que los registros resultantes ouedan ser intercambiables y comprensibles a todos los niveles. Las normas de descripción documental más extendidas a nivel mundial son las normas ISBD (International Standard Bibliographic Description), en las que se basa las normas que rigen en España para las bibliotecas públicas, y las Normas de Catalogación Anglo-Americanas (AACR2).

2. Análisis de contenido.

Conjunto de operaciones mediante las cuales se describe aquello de lo que trata un documento y los productos resultantes: clasificación, indización, resumen analítico. Un mismo documento podrá ser objeto de varias descripciones, todas ellas interdependientes en su proceso aunque diferentes en sus resultados.

Las funciones del AD de contenido son:

  • Control documental: Controlar e identificar el documento.

  • Gestión del documento por medio de representaciones.

  • Información: Sobre el contenido del documento, su objeto, método, punto de vista, resultados, conclusiones, desarrollo, etc...

  • Recuperación pertinente: Localización del documento en función de lo que trata.

  • Almacenamiento: Colocación sistemática del documento en función de su temática.

El AD de contenido, en cualquiera de sus operaciones, implica las fases siguientes:

  • Conocimiento del documento: Lectura del mismo, atendiento a los elementos característicos del texto, como temas, perspectiva de tratamiento, metodología, lugar, época o, también, objetivo, destinatarios y forma. Habrá que leer atentamente el documento, fijándose especialmente en aquellas partes que suelen incluir información sobre el propio documento, como prólogo, introducción, índice, solapas o contracubierta. La lectura debe incluir la toma de notas que permita después abordar el análisis.

  • Análisis. Lectura empírica del texto, desectructurándolo de acuerdo con unas reglas lógicas de interrogación presestablecidas.

  • Síntesis. Condensación del texto en virtud de la pertinencia y relevancia de sus contenidos y la priorización de los temas fundamentales detectados.

  • Representación. Codificación de los resultados de acuerdo con las normas correspondientes para cada operación.

  • Recuperación. Utilización de los códigos adecuados y de reglas de combinación para, a partir delas necesidades de información del usuario, encontrar las respuestas oportunas.

2.1. La Clasificación.

Una clasificación es un conjunto ordenado de conceptos que se presentan distribuidos sistemáticamente en clases conformando una estructura.

"Clasificar, en términos generales, es el acto de organizar el universo del conocimiento en algún orden sistemático. Ha sido considerada la actividad fundamental de la mente humana. El acto de clasificar consiste en el proceso dicotómico de distinguir cosas que poseen cierta característica de aquellas que no la poseen y agrupar en una clase las cosas que poseen la propiedad o característica en común" (L.M.Chan, 1981)

La organización sistemática de los libros y de cualquier tipo de documento en los estantes o en los índices y catálogos ha sido una de las formas más útiles para los lectores que buscan una información definida. de tal forma que se ha mantenido en Internet apareciendo en los portales que, efectivamente, clasifican sitios web en sus directorios.

Las clasificaciones más utilizadas son la CDU (Clasificación Decimal Universal), la CDD (Clasificación Decimal de Dewey) y la LCC (Clasificación de la Biblioteca del Congreso de Washington).

 

2.2. La indización.

Indización es el procedimiento que produce entradas en un índice.

Indización es el proceso de análisis del contenido informativo de registros de conocimiento (documentos) y la expresión de ese contenido en el lenguaje del sistema correspondiente.

Indización es la operación que tiene como propósito representar los resultados del análisis documental de un documento por medio de términos extraidos de un lenguaje documental.

Se pueden apreciar dos ideas básicas:

  • El objetivo de la indización es representar (expresar, describir o indicar) el contenido (temas, características) de un documento.

  • El proceso de indización tiene dos componentes: (a) análisis de contenido para seleccionar los conceptos que representarán los documentos; y (b) traducción o expresión de los conceptos seleccionados en el lenguaje utilizado por el sistema.

Por lo tanto hay que estudiar primero de qué trata el documento para extraer los conceptos y aplicar una estrategia de indización que permita traducir los conceptos. Esta estrategia debe tener en cuenta los puntos siguientes:

  • Fuentes de procedencia de los términos: Tesauro, vocabularios, lenguaje natural.

  • Especificidad: ¿Cuán específico debe ser un indizador al traducir un concepto a un término índice? ¿Debe el término seleccionado ser tan específico como el concepto? o ¿debería utilizarse uno más amplio? Por ejemplo: Un documento trata sobre los perros de raza Cocker Spanniel, pero se puede pensar que este término es demasiado específico para el sistema y entra en el índice con el término Perro, más amplio. Evidentemente esto depende del sistema documental, porque si se tratara de una base de datos sobre perros el término de entrada adecuado sería el primero.

  • Ponderación: ¿Se puede expresar de alguna manera la importancia relativa de un concepto en un docuemento?

  • Precisión: ¿Qué grado de precisión debe tener la traducción? ¿Qué hacer cuando no hay un término adecuado?

  • Grado de coordinación: ¿Deben utilizarse términos simples o términos compuestos? Por ejemplo, el término Educación Infantil puede ser equivalente a la combinación de términos Educación e Infancia, cada uno de ellos por separado y combinables en la búsqueda.

  • Exhaustividad: ¿Todo debe ser indizado?.

Objetivos y funciones de un índice.

  1. Identificar y localizar información potencialmente relevante en el documento o la colección indizada.

  2. Discriminar entre información sobre un tema y simples menciones al tema.

  3. Excluir menciones al tema que no aporten nada significativo a un usuario potencial.

  4. Analizar los conceptos tratados en el documento para proponer encabezamientos (entradas) adecuados basados en su propia terminología.

  5. Indicar relaciones entre temas.

  6. Agrupar o reunir materiales separados en la colección.

  7. Organizar encabezamientos y subencabezamientos y modificadores en entradas del índice.

  8. Dirigir al usuario hacia términos válidos por medio de reenvíos del tipo USE o Véase.

  9. Sugerir al usuario de un tema que vea también otros por medio de reenvíos como Véase también.

  10. Organizar las entradas en un orden sistemático que ayude al usuario.

La operación de Indización.

La indización comporta las operaciones siguientes:

  • Planteamiento de objetivos: Contexto de trabajo.

  • Conocimiento del contenido del documento.

  • Elección de conceptos a representar: Selectividad (Retener aquellos conceptos sobre los cuales el documento aporta información susceptible de utilizar alusuario) Exhaustividad (Todos los conceptos útiles deben ser extraidos). El criterio principal de selección es el valor potencial del concepto escogido como elemento de expresión del tema del documento de cara a su recuperación.

   

Fenómeno: electricidad, lluvia ácida

   

Objeto: avión, trenes de cercanías

   

Documento legal: ley, sentencia

   

Materia: análisis documental, agricultura,

¿Qué?

 

estudio de..., cálculo de...

     

Arquitectónica: La Alhambra

 

Materia

Obra

Literaria: La Odisea

¿Cómo?

   

Pictórica: La rendición de Breda

   

Proceso: Envejecimiento de la población

   

Cualidad: esfuerzo, optimismo

   

Propiedad: Flexibilidad, endurecimiento

   

Materiales: Cuero, polietileno

     
     

Político: Napoleón

   

Personaje

Artístico: Jorge Luis Borges

¿Quién?

Personalidad

 

Ficticio: el Capitán Haddock

   

Entidad: el Atlético de Madrid; Zara

     
   

Día: 14 de abril de 1912

¿Cuándo?

Tiempo

Año: 1789

   

Siglo: XVI

   

Período: Holoceno, Años 60, 1936-1939

     
   

Continente: Asia

   

Conjunto de países: Mercosur

   

País: México

   

Estado o provincia: Baviera

¿Dónde?

Lugar

Ciudad: Siena

   

Barrio: Prosperidad

   

Calle: Corredera Alta de San Pablo

   

Río: Bidasoa

   

Cadena montañosa: Sierra Madre

   

Comarca: El Maresme

   

Mar: Mediterráneo

 

  • Verificación de la pertinencia de los conceptos extraidos.

  • Traducción de los conceptos escogidos al lenguaje documental del sistema. Los conceptos deberán traducirse por entradas del mismo nivel de especificidad o superior. Si el concepto es compuesto y existe la opción deberátraducirse por una entrada compuesta.

  • Verificación de la pertinencia de los términos obtenidos planteándolos como términos posibles de interrogación y valorando si el documento es pertinente.

  • Formalización de la descripción si el sistema prevé algún tipo de regla.

 

Tipología de índices:

nÍndices libres basados en palabras del texto: Son índices cuyas entradas están conformadas por palabras derivadas del texto mediante métodos extractivos. La tarea principal del analista es identificar las palabras candidatas a formar parte del índice.
  • nÍndices de documentos individuales
  • nÍndices de colecciones de documentos
  • nÍndices esquemáticos
  • nÍndices de palabras y nombres (concordancias)
  • nÍndices permutados KWIC, KWOC, KWAC
  • nÍndices de unitérminos (Taube)
  • nÍndices de citas
nÍndices controlados basados en conceptos. Proceso intelectual de análisis comprensión de contenidos y traducción a lenguaje documental. Requieren el uso de un tesauro u otro lenguaje documental.

Indización mediante descriptores.

El método de indización por descriptores se basa en la suposición de que los contenidos semánticos (las materias o temas) de un documento pueden expresarse con suficiente precisión por una palabra o conjunto de palabras que cumplen una función nominativa. Estas palabras-clave o descriptores actúan de forma independiente y pueden combinarse entre sí utilizando los operadores lógicos booleanos. Generalmente se ofrecen en sistemas poscoordinados y suelen utilizar un tesauro.

Operadores lógicos:

  • Intersección: la intersección de dos conjuntos da como resultado un nuevo conjunto integrado por elementos que cumplen la condición de pertenecer a ambos conjuntos. Si tenemos el conjunto A, integrado por todos los documentos que tienen el descriptor CINE y el conjunto B, integrado por todos los documentos que contienen el descriptor LEGISLACION. La intersección entre ambos estará integrada por documentos que contienen ambos luego tratarán sobre Legislación cinematográfica. La intersección se suele expresar con los operadores siguientes:

CINE AND LEGISLACION

CINE Y LEGISLACION

  • Unión: La unión de dos conjuntos da como resultado un nuevo conjunto integrado por elementos que cumplen la condición de pertenecer a uno, otro o a los dos. Si tenemos un conjunto A, integrado por todos los documentos que tienen el descriptor CINE y el conjunto B, integrado por todos los documentos que contienen el descriptor TEATRO, el resultado será un conjunto integrado por todos los documentos de Cine y todos los de Teatro. La unión se suele expresar con los operadores siguientes:

CINE OR TEATRO

CINE O TEATRO

  • Diferencia: La diferencia entre dos conjuntos da como resultado un nuevo conjunto integrado por elementos que cumplen la condición de pertenecer al primero pero no al segundo. Si tenemos un conjunto A, integrado por todos los documentos que tienen el descriptor CINE y el conjunto B, integrado por todos los documentos que contienen el descriptor ESPAÑA el resultado será un conjunto integrado por todos los documentos de Cine, menos los de Cine español. La diferencia se suele expresar con los operadores siguientes:

CINE NOT ESPAÑA

CINE NO ESPAÑA

 

Los descriptores son palabras o grupos de palabras incluidas en un lenguaje documental y escogidas de entre un conjunto de términos equivalentes para representar sin ambigüedad una noción contenida en un documento o en una petición de búsqueda documental. (Véase también el tema de los Tesauros)

Descriptor unitérmino o simple: Descriptor que representa un concepto mediante una sola palabra: CINE, OCIO, HIERRO, AUTOMOVIL

Descriptor sintagmático o compuesto: Descriptor que representa un concepto utilizando más de una palabra (un sintagma nominal o preposicional): COMUNICACION SOCIAL, PARTIDOS POLITICOS, MEDIOS DE TRANSPORTE, EMPRESA PRIVADA.

Descriptor primario: Término o conjunto de términos que representan un concepto de manera unívoca. Es significativo, relevante y no hay posibilidad de ambigüedad en su sentido, pudiendo aparecer aislado sin necesidad de aclaración. Cualquiera de los citados en las categorías anteriores es así.

Descriptor secundario: Descriptor que necesita ir acompañado de otros descriptores para expresar un significado preciso: ANALISIS, EVALUACION, CONCEPTO, TEORIA.

Descriptor temático: Representa cualquier contenido disciplinar.

Descriptor geográfico: Representa todo tipo de conceptos vinculados con lugares y sitios.

Descriptor onomástico: Representa un nombre de persona o de institución.

Descriptor cronológico: Representa períodos de tiempo o fechas.

©Félix del Valle Gastaminza fvalle@ccinf.ucm.es Despacho 208. Tel. 913942206. Página Web de Félix del Valle Home Page