Facultad de Ciencias de la Información

 

Profesor: Félix del Valle Gastaminza fvalle@ccinf.ucm.es

 

Documento. Concepto y tipología.

El conjunto del conocimiento humano, de los mensajes colectivos, materializados en un soporte físico y conservados a través del tiempo, constituye el patrimonio documental. Un patrimonio integrado por documentos  que los profesionales de la Documentación tratan con el objeto de garantizar su conservación y su difusión.

El documentalista actúa sobre los documentos pues estos son el vehículo de la información. Aunque podríamos discutir los cambios que se están produciendo en relación con los conceptos clásicos de documento, provocados por la introducción masiva de tecnologías informáticas y de telecomunicación, lo cierto es que de una forma o de otra hay que trabajar con documentos y, como documentalistas, generar nuevos documentos. Los documentos fijan el conocimiento y el saber y garantizan su conservación.

Definiciones de documento.

Documento es todo objeto que ofrece información. Es una noción compleja, difícil de delimitar. El origen etimológico de la palabra está en el término latino "docere", que significa "enseñar".

"todo escrito que sirve de prueba o información" (Diccionario Robert)

"todo elemento de conocimiento o fuente de información registrada, materialmente susceptible de ser utilizada para consulta, estudio o prueba." (Union Française d'Organismes de Documentation)

"todo mensaje -icónico o simbólico- incorporado a un soporte permanente y empleado con una finalidad informativa" (Martínez Comenche)

"Información registrada que puede considerarse como unidad en un proceso de documentación" Norma UNE 50-113-92/1; en tendiendo Documentación como "Recogida y tratamiento de información registrada, de forma continua y sistemática y que permita su almacenamiento, recuperación, utilización y transmisión".

Y aunque tradicionalmente la noción de documento ha ido unida a la de escrito, actualmente el concepto de escritura se contempla desde una perspectiva más amplia y es denominado documento a la conjunción de cualquier tipo de material susceptible de vehicular información. De esta manera ya no sólo consideramos documentos a los textos, fotos, películas, etc, sino también a los nuevos soportes multimedia y a las nuevas formas de transmisión de información como los archivos informáticos o las páginas web.

El documento es el soporte material del conocimiento y la memoria de la humanidad y, si bien hay otras fuentes susceptibles de ofrecer información, como demandas a personas u organismos, asistencia a conferencias, programas de radio o TV, incluso estas tendrán su origen en documentos.

Canales de comunicación

No estructurados

Persona a persona

De una a varias personas

Privada

De varias a varias personas

Conversación cara a cara

Grupos reducidos

Personas conocidas

Discusión en grupo

Estructurados

Información indirecta o audiovisual

Información documental

Una o varias personas y un medio

Publicada o no publicada

Elementos que configuran un documento:

  • Elementos materiales: El soporte del documento y el vehículo que lo transporta.
  • Elementos gráficos: La forma en que la información se expresa en el soporte: pueden ser letras, números, puntos o pixels, etc.
  • Elementos lingüísticos: El término lenguaje en un sentido amplio: lenguaje escrito, audiovisual, pero también idioma, software, etc...
  • Elementos intelectuales: Es el contenido que el documento quiere transmitir.

Características de los documentos.

  • Características físicas: Tienen relación con los elementos materiales y gráficos. Es imprescindible su conocimiento por parte de los profesionales de la documentación pues de una buena conservación de los soportes derivará una correcta conservación de los documentos. Son características genéricas, como la naturaleza del documento (Textual, gráfica, sonora, audiovisual, informática...); o bien otras más específicas,  relacionadas con el soporte (papel, plásticos, magnéticos, ópticos...) como el tamaño, peso, movilidad, grado de resistencia, modo de producción, dependencia tecnológica, periodicidad...
  • Características intelectuales: Se relacionan con los elementos lingüísticos e intelectuales. Objetivo, contenido, autoría, modo de difusión, accesibilidad, originalidad.

Tipología de los documentos.

  1. Documentos primarios. Son aquellos que contienen información nueva y original que no ha sido sometida a ningún tipo de tratamiento documental posterior (resumen, selección, interpretación, etc.). Son documentos primarios los libros, revistas, periódicos, programas de radio o televisión, películas, páginas web o archivos gráficos o textuales de ordenador. También son documentos primarios la literatura gris, documentos que no siguen los canales habituales de publicación y difusión (Actas de congresos científicos, cuadernos de laboratorio, informes científicos, informes internos, ediciones técnicas como normas, patentes o marcas, preprints, separatas, tesis doctorales y otros trabajos de investigación universitaria y, en cierto modo, las publicaciones oficiales.
  2. Documentos secundarios: Son documentos cuyo objetivo es hacer referencia a los documentos primarios, por lo que no existirían sin ellos. Ofrecen información factual o referencial sobre los documentos primarios y son el resultado de las operaciones propias del análisis documental (descripción documental, indización, resumen analítico). Son documentos secundarios los listados de referencias de libros de bibliotecas o librerías, las bibliografías, los índices, los boletines de programación de televisión o la cartelera cinematográfica. Las bases de datos científicas son también documentos secundarios y los índices de URL's realizados por los grandes buscadores de Internet son también secundarios.
  3. Obras de consulta o de referencia. En las clasificaciones tradicionales las obras de referencia suelen aparecer como secundarias, lo cual tiene sentido porque no son primarias ya que la información no es nueva ni original, sino recopilada por diversos procedimientos a partir de fuentes variadas previamente existentes. Sin embargo tampoco son estrictamente secundarias porque suministran información. En ellas, no obstante, intervienen procesos analíticos documentales que determinan la forma de presentación y acceso a la información que transmiten.

 

Documento y tecnología. Edición electrónica. Documento virtual. Hipertexto.

Con la generalización del uso de la tecnología informática en todas las esferas de la vida cotidiana los nuevos documentos se han transformado en algo natural en nuestra vida y en nuestras actividades. El ordenador doméstico, Internet y todas sus aplicaciones, han introducido una nueva forma de comprender los documentos, de tal manera que el papel está dejando de ser el soporte por excelencia. Leemos revistas y periódicos en la Red, nos enviamos mensajes de correo electrónico, consultamos textos que están en formato digital. Empieza a ser un lugar común la idea de que las publicaciones electrónicas van a sustituir a las publicaciones tradicionales...

Normas para el tratamiento  de publicaciones y documentos electrónicos.

 

Un documento electrónico es una colección de "páginas" contenidas en un soporte electrónico que, para su visualización, requieren una pantalla gráfica o textual y unos dispositivos de emisión de sonido, según el tipo de información que contengan. Aunque mantienen el concepto básico de documento permiten disponer de una estructura no lineal, la cual permitirá decidir el orden en el que queremos leer la información. Cuando se habla de objetos digitales es a menudo práctico distinguir entre copias de preservación o master y copias de uso o acceso. Como su propio nombre indica la versión master es la versión de más alta calidad que la técnica permita mientras que las copias de uso son versiones creadas para entornos o usuarios específicos. Así, la copia master de una diapositiva en color digitalizada puede ser un archivo TIFF, sin comprimir, de 18 Mb, con una resolución de 600 píxeles por pulgada (600 pp). La copia derivada puede ser un archivo JPEG comprimido de 150 K, con una resolución de 72 píxeles por pulgada (72 pp) que permitiría un tiempo de descarga a través de Internet mucho más razonable.

La transformación de colecciones de documentos clásicos, con texto o imagen, en documentos electrónicos implica su digitalización a partir de un proceso de captura digital y el formateado de los datos para su tratamiento con determinado software. La digitalización permitirá optimizar la recuperación, consulta, gestión, difusión, reproducción, almacenamiento y conservación de los documentos existentes en formatos no digitales mediante la generación de un sistema de gestión y recuperación de información basado en la tecnología informática.

Revisaremos en este capítulo las principales propuestas de normas que en el momento actual se están utilizando en la creación, tratamiento y distribución de documentos digitales de cualquier tipo.

Normas de creación y diseño de documentos electrónicos.

Normas para formatos de imágenes.

Las imágenes digitales se componen de cientos de pequeños puntos denominados Píxeles. La calidad de una imagen digital depende de la concentración de píxeles ( la resolución), medida habitualmente en píxeles por pulgada o por centímetro. En general una resolución de 72 ppi es suficiente para su utilización en páginas web. Para un periódico se requieren 200 ppi mientras que una revista impresa necesitaría 300. Pero no hay que olvidar que las imágenes tienen también una dimensión física, por ejemplo 9 x 13 cm. Si se amplía la imagen a 13 x 18 cm los píxeles podrían hacerse visibles y la imagen inutilizable y además hay que considerar que su tamaño (en bytes) aumentaría considerablemente. Cuando se adquiere una imagen digital es necesario saber no sólo la resolución sino también el tamaño al que se quiere utilizar. Cuanto mayor sea la resolución y las dimensiones mayor será el tamaño del archivo.

La mayor parte de los sitios web que venden y gestionan imágenes permiten visualizar de forma gratuita lotes de imágenes pequeñas de muy baja resolución denominadas thumbnails, pudiendo ver simultáneamente varias en pantalla con una finalidad informativa y selectiva. A veces se incluye un tamaño intermedio de previsualización, generalmente a un tamaño más adecuado para ver la fotografía única en pantalla. Una vez seleccionada la imagen deseada se obtendrá permiso para descargar la imagen al tamaño y resolución adecuados para el uso previsto. Las imágenes digitales pueden ser muy grandes y los archivos muy grandes son difícilmente transportables. Para superar ese problema las imágenes pueden ser comprimidas para su almacenamiento y transmisión y descomprimidas para su uso. Un formato muy común para ello es JPEG (nombre procedente del comité que lo ha desarrollado, Joint Photographic Experts Group). Mediante su utilización, una imagen cuyo tamaño original puede ser de 20 megabytes puede quedar reducida a 1 megabyte. Otros formatos que también se utilizan son el formato TIFF (Tagged Image File Format), el formato GIF (Graphics Interchange Format) o el formato PNG (Portable Network Graphics). Los programas de edición de imágenes, como Photoshop o PaintShop, permiten convertir los archivos de un formato a otro. Otros acrónimos que encontraremos en torno a la imagen digital son RGB (Red, Green, Blue), porque los colores están generados por la mezcla de estos tres colores o CMYK (Cyan, Magenta, Yellow and White). En todo caso, los procesos de edición que conducen a la producción adecuada de imágenes digitales son complejos y caen lejos de la intención de estas páginas.

Normas relevantes para presentación de páginas.

PostScript. El lenguaje de descripción de páginas PostScript fue desarrollado por la compañía Adobe Systems Inc. con el propósito de proporcionar un lenguaje adecuado para describir imágenes en un dispositivo de manera independiente, describiendo para ello las imágenes sin referencia alguna a rasgos o características del dispositivo. Ha tenido gran aceptación en el entorno de la impresión digital pues se trata de un potente lenguaje que traslada textos y gráficos de documentos electrónicos a dispositivos de salida de impresión de alta calidad. Ha tenido menos éxito, sin embargo en los entornos de usuarios de Internet que no disponen de impresoras PostScript.

PDF Portable Document Format (Formato de documento portátil): Es un formato de fichero electrónico utilizado para representar un documento de manera independiente de la aplicación de software, hardware y sistema operativo donde se ha creado. Produce una imagen del documento que conserva fielmente la apariencia y características del documento original, incluidos gráficos y tipos de fuente, que no se puede modificar (salvo que se disponga de las herramientas precisas). Un documento PDF puede ser visualizado, impreso o enviado por correo electrónico, almacenado en la web, en una intranet o en cualquier sistema de archivo digital. Para la visualización e impresión de documentos PDF se requiere el programa gratuito Acrobat Reader; mientras que para la creación y modificación de documentos PDF es necesaria la aplicación Acrobat Distiller, de pago. En el momento actual PDF se ha transformado en uno de las normas de facto en la Web.

RTF (Rich Text Format): La empresa Microsoft propone un lenguaje de formateado de textos y gráficos electrónicos válido para todas sus aplicaciones informáticas (Word, Access, Excel, etc.) para facilitar el intercambio de información entre ellas. La tremenda fuerza comercial de Microsoft no ha sido suficiente para imponer este formato como norma pero sí para que haya que tenerlo en cuenta como formato de intercambio y de presentación y formateado.

Estos formatos son muy útiles para la edición electrónica de documentos pero tienen una serie de desventajas desde el punto de vista de la gestión digital de contenidos: En primer lugar, son sistemas propietarios, lo que significa que es necesario disponer del software adecuado que la compañía propietaria de los derechos haya desarrollado. Por otra parte, no aportan ninguna información de tipo semántico sobre el contenido del documento, por lo que no pueden ser utilizados en aplicaciones de recuperación automática de información. Y, por último, no registran la estructura lógica del documento electrónico, es decir, que no distinguen entre títulos, encabezamientos, párrafos, y sólo la visualización en un dispositivo de salida permite al lector deducir la estructura. Son, en consecuencia, poco flexibles y cualquier modificación implica la apertura y reformateado de todo el documento.

Normas relevantes para documentos estructurados.

Los lenguajes de marcado surgen por la necesidad de incluir en los documentos electrónicos determinadas informaciones ajenas a los propios textos como, por ejemplo, su estructura y forma de presentación en cualquier dispositivo. Si en un principio las marcas afectan fundamentalmente a aspectos de presentación, como los párrafos, tipos de letras, etc. en las últimas aplicaciones propuestas se incluirán marcas que permitan definir todo tipo de características del documento, como su estructura precisa y el significado de cada elemento, cuestiones relativas a su catalogación o a la relación que tiene con otros documentos por medio de hiperenlaces o incluso el control administrativo de aspectos como su comercialización, derechos de autor, etc. El punto de partida de los actuales lenguajes de marcas es SGML, cuyo primer borrador aparece en 1980. De él derivarán HTML, especialmente creado para la WWW y XML, un paso adelante en lo que se denomina la web semántica.

HTML, en la definición ofrecida por el WWW Consortium , es la lingua franca para la publicación de hipertextos en la World Wide Web. Se trata de un formato no propietario basado en SGML, que puede ser creado y procesado por un amplio rango de aplicaciones informáticas, desde sencillos editores de texto hasta sofisticadas herramientas del tipo WYSIWYG (What you see is what you get: Lo que ves es lo que obtienes). HTML utiliza etiquetas del tipo <h1></h1> para estructurar el texto en encabezamientos, párrafos, listas, añadir enlaces hipertextuales, etc. Estas etiquetas pueden definir las partes del documento, pero no el formato. De esta manera, el programa de navegación desde el que se consulte la página será quien le dé el formato final que más se ajuste a la terminal desde la cual se lea. No todos los clientes ven el documento de igual forma. Se pueden observar diferencias entre tamaños y tipos de letras, el espacio entre líneas, etc. Tampoco todos los clientes admiten gráficos, imágenes, video, etc, por lo que al diseñar páginas web hay que tenerlo en cuenta.

XML. El Lenguaje Extensible de Marcado XML es un subconjunto de SGML. Su objetivo es permitir que el SGML genérico pueda ser servido, recibido y procesado en la Web del mismo modo que HTML. Es un lenguaje ampliable, lo que lo convierte en la práctica en un metalenguaje, en un lenguaje para describir otros lenguajes de marcado de documentos electrónicos orientados cada uno de ellos hacia tipos específicos de contenido. No es un lenguaje de marcado predefinido como HTML, sino que permite a los usuarios la creación de lenguajes de marcado personalizados para diferentes clases de documentos mediante la definición de sus propios nombres de elementos y atributos, capaces de describir de forma precisa la estructura y semántica de los contenidos de los documentos electrónicos.

XML es un lenguaje de marcado para documentos que contengan información o datos estructurados. Se entiende por datos estructurados elementos tales como hojas de cálculo, agendas de direcciones, parámetros de configuración, transacciones financieras, dibujos técnicos, etc. En la práctica, todos los documentos tienen una cierta estructuración. Por ejemplo, en un artículo científico el texto de cualquier párrafo tiene una consideración estructural diferente al de una nota a pie de página. Del mismo modo, la mención de un nombre propio es diferente si se refiere al autor del artículo o si es objeto de estudio. XML es un conjunto de reglas, líneas directrices, convenciones, como se quieran llamar, para la concepción de formatos de texto que admitan estructurar los datos.

Es un formato fundamental para la construcción de la Web semántica, un sistema global de información capaz de ser interpretado de forma adecuada por los seres humanos y por las aplicaciones informáticas que procesan la información. En concreto, en el terreno del tratamiento y difusión de los documentos electrónicos el formato XML está alcanzando una tremenda importancia que puede apreciarse en la construcción de bases de datos alternativas al clásico formato relacional, denominadas Native XML Databases, donde los documentos son analizados y descritos utilizando un lenguaje de marcas. De esta manera el propio documento lleva implícita la representación de su propia estructura y contenido. La indización automática de estos documentos facilitará mucho su inclusión correcta en los buscadores.

Normas para formatos de audio.

En cuanto a formatos de sonido, tal vez el fenómeno más destacado en Internet sea la aparición de MP3 (MPEG Audio Layer III), un sistema de compresión de sonido contenido en MPEG-1 y MPEG-2. Se trata de un formato que ofrece una calidad comparable a la de un disco compacto comercial pero ocupa un espacio mucho menor. Otros formatos de sonido son AU, WAV, RAM/RM o MIDI/MODs.

Más sobre el tema: http://www.lpi.tel.uva.es/~nacho/docencia/ing_ond_1/trabajos_01_02/formatos_audio_digital/html/frames.htm

 

Normas para formatos de video

AVI y AVI 2.0

El formato AVI (Audio Video Interleave) es el formato standard de video digital. Su funcionamiento es muy simple pues almacena la información por capas, guardando una capa de video seguida por una de audio. Cuando capturamos video hacia nuestra computadora llega en formato AVI. Puede generar archivos muy grandes y de difícil manejo.

MPEG

El formato MPEG (Moving Picture Experts Group) es un standard para compresión de video y de audio. Al ser creado se establecieron 4 tipos de MPEGs, MPEG-1, MPEG-2, MPEG-3 y MPEG-4. Cada uno de estos según su calidad. 

DivX ;) [Visitar website]

Video4Es un formato  de compresión. Con mucha gente trabajando en sus diferentes codecs el DivX se ha vuelto muy popular y está bastante relacionado con los DVDs y su piratería, ya que con dicho formato mucha gente se ha dado a la tarea de pasar sus DVDs a CDs con una calidad aceptable de video.

Formatos de Streaming para el Web:

Actualmente hay 3 compañias que están esforzándose en presentar las mejores propuestas:

Microsoft Windows Media Video [Visitar website]

video3El windows Media video es una de las últimas propuestas de Microsoft que funciona con el Windows Media player de la versión 6.2 en adelante. Ha tenido gran impulso debido al XP y que viene integrado en dicho sistema operativo. También tiene una opción para streaming que viene incluida en el Windows 2000 Server. Las extensiones de este tipo de contenidos son las .asf y .wmv para el video y .wma para el audio. Ofrece el player y su encoder de forma gratuita a todos los interesados. Premier y Vegas también tienen opción de generar este tipo de contenidos.

Real Video [Visitar website]

video1Real en los pasados años ha sido muy utilizado para streaming de audio en diversos medios. También tiene una propuesta para video llamada Real Video. Requiere de su propio player que es el Real Player (Recientemente fue lanzado el Real One) y para hacer streaming requiere del Real Server. Premier y Vegas traen opción para generar este tipo de archivos. En el sitio de Real también hay información para convertir archivos .avi a este formato. Real siempre tiene una versión simple y limitada de sus productos y una profesional que debe ser comprada.

Apple Quicktime [Visitar website]

video2Apple también tiene una interesante opción nativa de los sistemas Mac. Sus archivos .mov requieren de un player especial que es el Quicktime player para visualizarlos. Este player tiene una versión sencilla gratuita y una versión profesional que entre otros permite realizar videos en dicho formato y editar algunas cualidades de los mismos.

 

 

©Félix del Valle Gastaminza fvalle@ccinf.ucm.es Despacho 208. Tel. 913942206. Página Web de Félix del Valle Home Page