El arte nuevo de editar textos en este tiempo

Descripción de la estructura y demostración del funcionamiento de la edición electrónica virtual variorum del Quijote (EEVV-DQ) del Proyecto Cervantes 2001

Eduardo Urbina, Richard Furuta y Shueh-Cheng Hu
Center for the Study of Digital Libraries - Proyecto Cervantes 2001
Texas A&M University


 

En El arte nuevo de hacer comedias en este tiempo afirma Lope, entre arrogante e irónico, la necesidad de adaptar tradiciones y preceptos al gusto y usos de su tiempo, y declara "obedecer a quien mandarme puede/ ... ya que seguir el arte no hay remedio/ en estos dos extremos dando un medio" (152-56). Las nuevas técnicas, el arte nuevo de hacer comedias ha de ser, pues, reflejo de su tiempo como respuesta equilibrada a los deseos y necesidades de espectadores, representantes y lectores, para que cumpla así su propósito: "del arte no disputes,/ que en la comedia se hallará de modo/ que oyéndola se pueda saber todo" (387-89).

A pesar de haber sido víctima del nuevo arte totalizador de Lope, Cervantes no fue extraño a esta necesidad de renovación y adaptación, bien ejemplificada en toda su obra; y como observa don Quijote en otro contexto, viéndose enjaulado, "nuestros tiempos deben de seguir otro camino que siguieron los antiguos" (I.47), ya que siempre nuevos tiempos traen nuevos usos, como a menudo descubre a su pesar el tan novel como nuevo caballero andante. Por todo ello, resulta justo y oportuno que sea el Quijote, ejemplo supremo de arte nuevo, la obra que dé pie al nuevo arte de editar textos en nuestro tiempo. Sin duda, las circunstancias y cambios que dieron paso al nuevo arte de Lope se repiten en otra clave en este final de siglo y nuevo milenio. También ahora resulta posible y necesario desarrollar un arte nuevo de editar textos en este tiempo, un arte respondedor capaz de comunicar y hacer accesibles imágenes, textos, datos y lecturas, sincronizados y simultáneamente, difíciles de imaginar apenas hace diez años. A la mano tenemos nuevos usos y medios, nuevos lectores, dispuestos a imponer sus gustos y cuyas demandas no pueden ser ignorados si no con gran riesgo. Me refiero, claro está, a la revolución digital y su efecto ubicuo en los medios de comunicación y sistemas literarios, entre ellos y en particular en el libro como objeto y como instrumento de cultura y de conocimiento.

A poco más de cinco años del cuarto centenario de la publicación del Quijote, nos proponemos ensayar un nuevo arte de editar textos en este tiempo, en nuestro tiempo. La labor de investigación y edición aquí descrita hará posible, por un lado, un mayor y mejor acceso a la obra de Cervantes mientras que por otro responde al ya casi eterno deseo y elusiva meta de llevar a cabo una edición crítica de sus obras.

A tal efecto, proponemos la creación y publicación de una edición virtual variorum de El ingenioso hidalgo don Quijote de la Mancha, o EEVV-DQ, ubicada en la red electrónica (Internet) y accesible universal y gratuitamente por medio de cualquier ordenador personal o PC. A pesar de las recientes ediciones electrónicas del Quijote en CD-ROM patrocinadas por el Centro de Estudios Cervantinos y por el Instituto Cervantes, no existe todavía, a las puertas del nuevo milenio, una edición verdaderamente crítica o variorum, electrónica o impresa, de la obra cumbre de Cervantes y la literatura universal. Con tal fin, y en tal contexto, hemos iniciado el proceso de desarrollo de la EEVV, el cual comprende: 1) la adquisición y conversión digital de múltiples ediciones y ejemplares del Quijote, 2) el cotejo automático y clasificación de todas las variantes textuales, 3) el acceso interactivo inmediato a todos los datos y materiales del proceso editorial, y 4) la producción de múltiples ediciones virtuales a partir de una edición variorum del texto unificado de las princeps del Quijote, a la vista de posteriores ediciones de especial significación en la historia del texto.

Las características técnicas y elementos formales de la EEVV-DQ que proponemos son las siguientes:

  1. Aplicación de técnicas para el mejoramiento de imágenes de calidad insuficiente y de la adecuada identificación del contenido visual de textos.

    1. Identificación y corrección de problemas derivados de la producción y conservación de los textos (sesgados, manchas, marcas, etc.)

    2. Identificación automática y separación de regiones textuales y no textuales

    3. Construcción de filtros modulares que permitan la eliminación automática de errores e imperfecciones en las páginas

  2. Creación de un programa individualizado de OCR a base de plantillas visuales y de caracteres basados en la tipografía de las ediciones antiguas que permita el escaneo automático de las ediciones digitalizadas.

    1. Creación de tipos de imprenta digitales que permitan el uso de programas individualizados de OCR

    2. Desarrollo de un léxico modular del Quijote que permita el uso de los códigos basados en la forma de los tipos de imprenta

    3. Resolución de ambigüedades a través de un sistema de referencias léxicas y sintácticas

  3. Desarrollo de programas y sistemas para la producción de múltiples ediciones virtuales a partir de la edición variorum

    1. Creación de un programa electrónico de cotejo automático de textos

    2. Desarrollo de módulos para la clasificación y presentación de variantes

    3. Creación de un proceso de categorización y corrección de errores textuales a partir del juego de variantes clasificadas

    4. Sincronización de los textos procesados y de los textos gráficos con visualización de variantes

    5. Creación de enlaces de hipertexto relacionando textos, variantes y comentarios editoriales

    6. Creación de intrumentos de composición y visualización que permitan la producción de:

      1. una edición ‘alpha’ variorum

      2. múltiples ediciones virtuales ‘beta’ originadas por lectores individuales y según la selección de las variantes incorporadas, y

      3. varias ediciones críticas incorporando variantes y comentarios individuales de uno o más de los miembros del equipo editorial.



Figura 1

Las tres partes de la edición que acabamos de describir, y sus respectivos elementos, quedan relacionadas en la arquitectura general del proyecto (EEVV) según muestra el esquema de la Figura 1. A su vez, la estructura inicial del módulo editorial (MVED), el más avanzado hasta el momento, y al que hemos dedicado nuestros esfuerzos durante el pasado año, aparece esquematizado en la Figura 2. A lo largo de esta presentación damos muestra de la configuración del sistema y del funcionamiento del prototipo inicial que hemos desarrollado a través de un serie de pantallas demostrativas.



Figura 2

Para el diseño del prototipo obtuvimos el año pasado copias de seis ediciones diferentes del primer capítulo del Quijote para probar la arquitectura y parámetros del proyecto. En tal contexto, la Figura 3 muestra el modelo general de la infraestructura informática del sistema relacionando las bases de datos que mantienen y generan la edición, denominado HDEMS (Hypermedia-based Data Entry Management System). Tanto el diseño general del sistema como los aspectos técnicos de mayor interés se señalan a continuación.




Figura 3

El punto de partida del proyecto en su primera fase son los microfilmes de las primeras ediciones del Quijote que posee la Biblioteca Nacional en Madrid. La irregular o baja calidad de las imágenes en las reproducciones obtenidas, aunque típica de este tipo de textos antiguos, constituye un obstáculo de primer orden para la digitalización y conversión en archivos de texto analizables de más de 100.000 imágenes y páginas de texto; lo que supone a su vez una inversión considerable de fondos en el área de desarrollo e investigación de sistemas de OCR. Cabe mencionar de paso que con tal objeto hemos solicitado becas de investigación de la National Science Foundation y la National Endowement for the Humanities, y del Advanced Research Program del estado de Texas, así como iniciado contactos con el Ministerio de Educación y Cultura en España para obtener su apoyo y patrocinio.

La arquitectura del proyecto que proponemos para la EEVV (Figura1) ilustra un sistema de transmisión de documentos ubicado en la red electrónica, aunque otras plataformas de transmisión (por ejemplo CD-ROM) serán evaluadas también con la participación de usuarios a medida que avance el proyecto. El programa de MVED utilizado por el equipo editor de la EEVV-DQ ofrece un interface que permite el cotejo de múltiples ediciones y la visualización en varios formatos de las variantes producidas por dicho cotejo. La ventana de la Figura 4 muestra los resultados del cotejo de la princeps de Madrid 1605 con las ediciones de Madrid 1608 y 1637.



Figura 4

Además de las manipulaciones editoriales contenidas en los siete menús del MVED, este interface destaca en el cotejo las diferencias (almacenadas ya electrónicamente en la base de datos relacional) entre el texto base de las princeps y el de las ediciones posteriores incluidas en el proyecto, pero puede ser aplicado asimismo al cotejo de los diversos ejemplares de las princeps. Cabe añadir, que este interface permite pulsar cada una de las variantes, lo cual visualiza su localización en el texto de donde provienes así como la visualización sincronizada de la imagen del mismo texto, como puede verse en la Figura 5.



Figura 5

Un elemento esencial del MVED es la clasificación de las variantes identificadas en las diversas ediciones y ejemplares seleccionados en el programa de cotejo y la corrección de los textos a partir de su análisis individual por parte de uno de los editores, tal y como aparece ilustrado en la Figura 6.



Figura 6

El MVED también ofrece un acceso fácil y sincronizado a los textos gráficos digitalizados y a los textos procesados, y además permite asociar a base de enlaces de hipertexto las anotaciones y comentarios editoriales con posibles correcciones –sean aceptadas o rechazadas– al tiempo que guarda y posibilita el rápido acceso a la categorización de las enmiendas; las cuales estarán a disposición de los lectores que quieran crear sus propias ediciones virtuales (Figura 7).



Figura 7

Finalmente, el sistema incorpora mecanismos de traslación que hacen posible la evolución dinámica futura de la EEVV conservando la capacidad de conectar con versiones anteriores y de mantener las conexiones entre artefactos (imágenes, textos, comentarios) durante su utilización simultánea. El sistema ofrece, significativamente, la capacidad de introducir y sincronizar otras ediciones del Quijote, o incluso versiones modernizadas, según nos sean accesibles en el futuro.

Los lectores de la EEVV requieren asimismo un interface que ofrezca una visión unificada y sincronizada tanto de la edición variorum como de cualquier material auxiliar que deseen consultar (comentarios, fuentes originales, textos de otras ediciones, etc.), del que ofrecemos un modelo preliminar en la Figura 8.



Figura 8

La imagen del texto de la edición base (las princeps de 1605 y 1615) debe facilitar la identificación del grado de controversia que puedan suscitar ciertas decisiones editoriales. Proponemos señalar estas relaciones con el empleo de diferentes marcas o colores (es evidente que la asignación de los colores se derivará de los modelos cognitivos apropiados). Aunque el sistema se dotará de un mecanismo automático adecuado, el lector podrá conformar la presentación a sus necesidades para que así refleje su propio punto de vista sobre las decisiones editoriales. De hecho, con el tiempo, podrán coexistir incluso diferentes ediciones críticas, con discrepancias importantes o tan sólo en unos pocos lugares únicamente; éstas, igual que distintas versiones de la misma edición crítica, serán conectadas entre sí para facilitar la comparación.

Dada la complejidad y dimensiones del proyecto anticipamos que requerirá un mínimo de tres años para su realización, según las siguientes tres fases y sus respectivas metas:

Primera fase: 1998-2000

1. Adquisición y conversión de textos; 11 ediciones (30 ejemplares) de 1605 a 1647

2. Desarrollo de un prototipo funcional basado en Don Quijote I,1

3. Creación de los módulos HDEMS y MVED

4. Formación de equipo editorial y desarrollo de prácticas editoriales de trabajo

Segunda fase: 2000-2001

1. Creación de programa individualizado de OCR

2. Implementación del programa de cotejo automático de textos

3. Clasificación de variantes y producción de comentarios editoriales

4. Creación del módulo para lectores-editores HVE

Tercera fase: 2001-2003

1. Ampliación del archivo de textos; 8 ejemplares de las princeps y al menos 2 de cada una de las otras nueve ediciones seleccionadas

2. Presentación de la versión beta de la EEVV

3. Integración de la EEVV a la "Biblioteca Digital Cervantina" del Proyecto Cervantes e incorporación de ediciones modernizadas

4. Aplicación de refinamientos y modificaciones en el programa de OCR y en los módulos de edición y de composición

La edición aquí descrita se realizará a un alto nivel de investigación y conocimientos, tanto en el contexto de la Informática como en el de las Humanidades, y constituye una iniciativa original y pionera en el campo de la edición electrónica de textos y la creación de bibliotecas digitales. Así pues, anticipamos que la EEVV del Quijote será utilizada ampliamente por cervantistas como fuente básica para la investigación y la enseñanza, y que se convertirá en el texto crítico y la herramienta de investigación más accesible, flexible y autorizada. El diseño y las herramientas informáticas empleadas para crear la edición serán de gran utilidad asimismo para todos quienes trabajan en otros autores o áreas de la literatura. Dada la importancia fundamental de Cervantes en la literatura universal, creemos, además, que la edición será de un gran interés académico y cultural, en especial para todo tipo de lectores en el mundo de habla hispana.

El trabajo técnico llevado a cabo en nuestra investigación y desarrollo del proyecto de edición será de una utilidad directa no sólo para otros investigadores en los campos humanísticos sino también para proyectos en áreas tales como la informática museística y las bibliotecas digitales. Confiamos asimismo en que la existencia de una base de investigación tangible como la que proponemos hará posible el atraer el apoyo y patrocinio de instituciones oficiales y entidades privadas. Finalmente, la aplicación de la tecnología de nuestro proyecto al sector de la enseñanza, tanto a nivel universitario como a nivel escolar, tendrá sin duda un impacto beneficioso y durdero tanto en el plano didáctico como en el económico.

En 1961 el empleo del ordenador en los estudios lingüísticos no era más que un sueño. Al llegar la era digital, las letras se convirtieron en cifras y luego las cifras en letras. En los años setenta, aparecieron las bases de datos electrónicas y los procesadores de datos. No obstante, el procesamiento electrónico de textos literarios permanece hoy en día en su infancia. La tarea de codificar textos para luego recomponerlos en un medio digital permite producir múltiples versiones virtuales, según las necesidades de diferentes lectores, sin embargo, esta promesa tecnológica permanece todavía sin realizarse. Los textos electrónicos poseen características concretas que requieren, pero también hacen posibles, usos que no son los que se asocian con los tradicionales textos impresos. Además, los textos digitalizados [electrónicamente] facilitan a los lectores no solamente un acceso rápido y comprensivo, sino también una diseminación universal, el almacenaje en diversos plataformas y, aun más importante, la manipulación de esos textos por cualquier persona desde su propio ordenador. A pesar de ser un fenómeno nuevo, las posibilidades inherentes en el procesamiento electrónico de textos literarios ha de transformar la crítica textual y los estudios filológicos en general, y más particularmente los métodos de investigación y de presentar resultados y conclusiones. Como la revolución de Gutenberg, la digital influirá fundamentalmente nuestro modo de adquirir información, conocimientos y poder. Resulta del todo apropiado que sea Cervantes y la obra maestra de la literatura española la que sirva de base y principio para lo que se anticipa ha de ser la aventura de los textos literarios en su salida al mundo digital e informático en el siglo veintiuno.


APENDICE


Demostración del funcionamiento del MVED

1. Al comenzar el programa MVED, el interface inicial muestra esta pantalla (1), la cual contiene 7 menús: "Archivo"; "Editar"; "Cotejar"; "ListaVar"; "DEBuscar"; "Textos" y "Ayuda." Algunas de las funciones de estos menús se ilustran a continuación mientras que otras están todavía en proceso de desarrollo.

2. Al seleccionar "Abrir" en el menú desplegado de "Archivo" se visualiza el interface de apertura de los textos (2) archivados; este interface sirve para seleccionar los textos que van a ser cotejados. Como puede verse, en nuestro ejemplo hemos seleccionado el texto de la edición de "Madrid 1608."

3. Tras abrir el archivo del texto seleccionado, aparecen en una pantalla dividida el texto en ASCII (arriba) y la imagen textual en formato "gif" (abajo) en el VentTexto (3). En este ejemplo se muestra el texto e imagen textual de la edición de "Madrid 1608."

4. Una vez que se han abierto dos o más textos, se puede llevar a cabo su cotejo para encontrar todas las variantes presentes en ellos. Para realizar el cotejo, se selecciona "Nuevo" bajo el menú "Cotejo" en (1) y el interface de cotejo (4) aparece en una ventana. En este interface, el editor debe seleccionar uno de los textos abiertos como el texto base; en nuestro ejemplo "Madrid 1605.txt" ha sido seleccionado como el texto base del cotejo. Si se desea guardar los resultados del cotejo, hay que dar primero nombre al cotejo que se va a realizar. En nuestro ejemplo lo hemos llamado "test."

5. Tras realizar el cotejo, los resultados aparecen divididos en columnas en la lista de variantes (5), indicándose en la cabecera el número total de variantes identificadas en cada uno de los textos cotejados en relación con el texto base.

6. Esta pantalla muestra la opción de visualización "Completa" (6) de las variantes; la otra posibilidad es la visualización de una lista "Abreviada" (7), la cual usa una estructura de árbol para mostrar la relación entre las variantes de los textos cotejados.

7. Pulsando una de las variantes en cualquiera de las columnas se visualizan y sincronizan todas las variantes en los otros textos. Según muestra esta pantalla (8), al pulsar la variante "Quexana" en el texto de "Madrid1605," las variantes en los otros textos abiertos en esta demonstración (Madrid1608 y Madrid1637) aparecen inmediatamente iluminadas.

8. Las variantes encontradas por el programa de cotejo pueden ser visualizadas por el Editor de Variantes (MVED) en diversas formas. Bajo el menú "ListaVar" en (1) hay 3 opciones : "Forma," "Orden" y "Puntuación"; bajo "Forma" hay otras 2 opciones, "Completa" (9) y "Abreviada" (10); bajo "Orden" hay 3 opciones más: "Aparición" "Búsqueda aproximada" y "Búsqueda exacta," como muestra esta pantalla (11) ; y bajo "Puntuación" se ofrecen 2 opciones, "Con" y "Sin" inclusión de variantes en la puntuación.

9. Cuando el editor selecciona una variante pulsando con el ratón, ya sea en la forma "Completa" o "Abreviada" de las listas, la pantalla con el texto al que pertenece esa variante aparece en primer plano y la palabra seleccionada, así como las variantes en los otros textos del cotejo, quedan iluminadas en sus respectivas ventanas. Según muestra este ejemplo, cuando el editor selecciona "Quixana" en la edición de "Mad1608" en la lista de variantes (12), la ventana de ese texto (13) se superpone a todas las otras y la variante "Quixana" aparece iluminada. Asimismo, las variantes "Quexana" en "Mad1605" (14) y "Quixada" en "Mad1637" (15) aparecerán también iluminadas en sus respectivas pantallas.

10. Después de seleccionar uno grupo de variantes, el editor puede eliminarlas de la lista de variantes producida por el cotejador automático pulsando el botón "Borrar" en (1).

11. Tras seleccionar un grupo de variantes, el editor puede editarlas utilizando el botón "Editar" en (1). Al pulsar ese botón, el interface de "edición de variantes" aparece (16) en pantalla. Este interface está dividido en 6 áreas interactivas: 1) Indice de variantes; 2) Corrección de variantes; 3) Clasificación de variantes; 4) Anotaciones y comentarios editoriales correspondientes a las decisiones efectuadas en 2 y 3; 5) Nombre del editor; y 6) Documentación.

12. Al terminar cada sesión o el proceso de editar los textos y sus variantes según los pasos descritos arriba en #s 1-11, los cambios, clasificaciones, anotaciones y documentación realizados quedan guardados en una base de datos relacional a partir de la cual se generará la edición variorum. Al mismo tiempo, el programa de composición puede dinámicamente recombinar los textos editados y producir una o más ediciones virtuales individualizadas a partir del 1) texto base elegido y 2) las decisiones y enmiendas efectuadas en el proceso de clasificación y categorización de las variantes por uno o más de los editores. El módulo de composición de las ediciones virtuales y de la edición variorum se encuentra todavía en desarrollo, pero aquí ofrecemos un ejemplo de la composición de un texto virtual de DQ I.1. En la parte superior de la pantalla se indican los tipos de variantes y los textos correspondientes, mientras que en la parte inferior aparece el nuevo texto enmendado en el que se identifican los cambios efectuados y su proveniencia, según los colores asignados a las categorías de las variantes (17).


© Eduardo Urbina, Richard Furuta y Shueh Cheng Hu 1999
Espéculo. Revista de estudios literarios. Universidad Complutense de Madrid

El URL de este documento es http://www.ucm.es/info/especulo/numero12/artenuev.html