Diferencia entre revisiones de «Formatos y procesamiento de texto»

De Wikiversidad
Contenido eliminado Contenido añadido
Nueva página: En esta lección hablaremos de algunos de los formatos de texto y del procesamiento del mismo. Pondremos imágenes para ayudar a explicar y entender el tema. También encontraremo...
(Sin diferencias)

Revisión del 00:45 4 may 2015

En esta lección hablaremos de algunos de los formatos de texto y del procesamiento del mismo. Pondremos imágenes para ayudar a explicar y entender el tema. También encontraremos en las conclusiones el resumen de las cosas más importantes de la lección. Finalmente podremos realizar un test para comprobar que hemos entendido todos los contenidos.

¿Qué es un documento de texto?

Esta es una imagen que representa un archivo de texto de entrada a cierto programa
Esta es una imagen que representa un archivo de texto de salida a cierto programa
Este es un archivo de texto plano que se puede leer fácilmente.
Este es un archivo que no se puede leer fácilmente, se desconoce la verdadera representación de los datos.

En el ámbito de la informática, es un archivo que sirve para guardar variables y valores. Esto evita el tener que volver a procesar de los datos por un programa.


Un ejemplo sería: El encargado de un almacén tiene que buscar el número de identificación de cierto producto. No va a introducir todos los productos de nuevo en el programa y sus datos para luego realizar la búsqueda. En este caso, guardaríamos en un documento de texto plano los valores de los productos. Así el programa solo tendría que leer de este archivo y poder ser capaz de realizar búsquedas sin requerir que el usuario meta los datos de nuevo.


La información se guarda como caracteres, estos pueden estar representados de muchas maneras (por ejemplo: ASCII). Las diferentes formas de representar los caracteres y la información pueden resultar más o menos óptimas y más o menos adecuadas.

El texto plano, como hemos visto antes, se utiliza para datos. Si se introduce tamaño, fuente, color y otras propiedades al texto este resulta más pesado, ya que se deben guardar todas estas propiedades asociadas, este tipo de texto se utiliza para presentaciones o escritos (esta es la forma más común que podemos encontrar). Otra de las formas de almacenamiento son los ficheros binarios, que resultan útiles para almacenar números de un tamaño considerable.


Las ventajas de un texto legible por un humano frente al binario es que es más fácil de comprender y se puede modificar de forma más sencilla mediante una herramienta cualquiera que permita la visualización y modificación del mismo. Por otra parte, el formato binario, al tener una representación interna desconocida en principio por los programas de texto, si se intenta modificar resultará mucho más difícil y los resultados podrían no ser los esperados. Los archivos binarios permiten una representación más optimizada de la información.


Una desventaja clara de los textos ricos (textos con color, fuente, etc.) es que si se desconoce la codificación, y se supone otra distinta, no seremos capaces de saber el mensaje original exacto.


Ejemplo: Cierto texto está codificado con UTF-8, pero el programa que quiere abrir ese archivo espera texto con formato ISO 8859. El resultado podría ser un archivo corrupto o con errores.


Ejemplo: En las imágenes podemos observar el uso de los ficheros de texto planos para la entrada y salida de un programa.

Extensiones de archivos

Las extensiones de los archivos se pueden conocer al mirar su nombre, lo reconoceremos porque va precedido de un punto ("."). Aunque el uso de la notación ".formato" no es obligatorio, se recomienda, ya que permite conocer a de antemano el formato y las herramientas que pueden manejarlo.

APLICACIÓN.BAS <- Archivo de código fuente de BASIC.
APLICACIÓN.OBJ <- Archivo objeto.
APLICACIÓN.EXE <- Archivo ejecutable.
ARCHIVO.TXT <- Archivo de texto plano (codificado con ASCII).
ARCHIVO.RTF <- Archivo de texto rico o enriquecido (con formato).
ARCHIVO.DOC <- Archivo codificado por la versión antigua de Microsoft Word.
ARCHIVO.ODT <- Archivo con codificación libre estándar.
ARCHIVO.VBS <- Archivo de código fuente de Visual Basic.

Vamos a entrar un poco más en profundidad con algunos que encontramos especialmente interesantes. En este caso los tipos de archivos más comunes, los que contienen texto y formato.

  • .TXT: Formato de Texto Plano que se extendió con el sistema operativo Windows y MS/DOS para saber que un archivo contenía únicamente texto. Para modificarlo podremos utilizar cualquier herramienta de texto que permita edición, como Notepad, Notepad++, Gedit y otros muchos. Existen otras herramientas no orientadas al texto plano que permiten guardar archivos en este formato.
  • .RTF: Formato de Texto Enriquecido (Rich). Microsoft desarrolló este formato para poder intercambiar documentos de texto con formato con otros sistemas operativos como GNU/Linux o MACOS. Permite muchas opciones como colores, tamaños imágenes y tablas entre otras características. Su punto débil es que limita el estilo.
  • .ODT: Este es el estándar para el texto con formato, es libre y está disponible en la mayoría de procesadores de texto más extendidos. OpenOffice Writer es una de estas herramientas, además es libre, aunque por otro lado la herramienta Word de Microsoft no permitía guardar en este formato (hasta que se convirtió en estándar). Este formato es muy versátil y permite mucha variedad de propiedades, tales como referencias o comentarios.
  • .DOC: Este es el primer formato que apareció con Microsoft Word. Es uno de los formatos con más posibilidades para el usuario, sin embargo, al provenir de software propietario, ha sufrido algunos problemas serios de incompatibilidad. Además, los archivos con versiones más recientes pueden no ser compatibles con versiones anteriores. Hoy en día este formato puede ser visualizado por más procesadores de texto además del original (propietario).
  • .DOCX: Esta es la versión más reciente del DOC, permite una mejora de compresión además de algunas otras mejoras frente al formato antiguo. Éste se ha decidido lanzar con una licencia libre, para ser mejor aceptado en la comunidad y poder ser estandarizado. Aunque el formato sea libre la herramienta que lo genera no lo es, lo que genera discusión y hace necesario un plugin para las otras herramientas. La replicación del comportamiento de esta no resulta trivial.

Formatos de fuentes

El formato de fuente define la forma que va a tener un carácter. Esta puede estar representada de diferentes maneras, a continuación, mostraremos algunas de las existentes.

  • PostScript: Es un lenguaje de descripción de páginas. Se utiliza para describir una imagen de impresión. Las imágenes se describen como una mezcla entre lineas horizontales, píxeles al vuelo, descripciones de curvas de Bezier y tipos de letra de alta calidad a baja resolución. PDF es otro de los lenguajes de descripción de páginas, pero es más sencillo.
  • TrueType: Es un formato de tipo estándar escalable. Fue inicialmente desarrollado por Apple a finales de los ochenta. Están compuestas por elementos vectoriales de alta calidad, por lo que ocupan más memoria. Emplean un procesamiento cuadrático, más rápido que en PostScripts. Además, dispone de mejoras para la visualización en resoluciones bajas.
  • OpenType: Es un formato de tipo de letra escalable. está basado en su antecesor TrueType. Lo mejor autilizando tablas de datos que permiten el uso de funciones a tipos o familias tipográficas avanzadas. La especificación la desarrolló Microsoft a la que se unió Adobe hasta su lanzamiento en 1996. Aunque la especificación experimenta una mejora contínua camino de llegar a ser un estándar abierto.
  • Multiple Master: También se puede encontrar como MM fonts. Son extensiones al PostScript de Adobe, aunque ahora se ve eclipsado por OpenType. Permite la mezcla de fuentes originales interpolándolas en un contínuo rango de ejes a demanda. La ventaja de utilizar múltiples maestros es que el diseñador puede generar un estilo con la anchura, grosor y tamaño a el ojo óptimos. No se sufre pérdida de la integridad y la facilidad de lectura de los caracteres. El efecto es similar a la técnica llamada Morphing.
  • AAT: Es un software creado por Apple, para el renderizado avanzado de fuentes es el sucesor de QuickDraw GX, tecnología de mediados de los noventa. Se trata de un conjunto de extensiones de TrueType y características similares a OpenType. También incorpora conceptos de Multiple Master. Las características de fuente de AAT únicamente afectan a la representación de los caracteres durante la conversión llamada Glyph.
  • CID-Keyed: Se trata de un formato ideal para conjuntos grandes de caracteres, como los idiomas Chino, Japonés y Coreano. Está diseñado para el uso con Adobe y su software, aunque también para PostScript.
  • SVG: Son las siglas de Scalable Vector Graphics. Son una especificación para describir gráficos vectoriales bidimensionales (estáticos y dinámicos). El formato que se sigue es XML. SVG se convirtió en un formato recomendado por W3C en 2001 y se incluyó de forma nativa en su navegador (Amaya). Mozilla Firefox y Opera soportan este formato, ya que lo incorporan en su núcleo. También Chrome, Safari e Inernet Explorer 9 lo soportan sin necesidad de plug-ins necesarios, cosa que no ocurre en versiones antiguas de los anteriormente mencionados.
  • Algunos formatos bitmap: Los BMP son formatos de imagen. Concretamente es un formato de archivo de rasterizador gráfico de imágenes. Se puede desactivar el almacenamiento de imágenes de dos dimensiones de anchura, altura, resolución y bicolor o multicolor. Opcionalmente se puede comprimir y aplicar perfiles de colores.

Codificación del texto

Para ver mejor las consecuencias y el uso de la codificación nos fijaremos en el siguiente ejemplo.

Ejemplo: ¿Alguna vez os ha pasado que intercambiando texto de un sistema operativo a otro se queja de que no reconoce ciertos caracteres? ¿O simplemente al copiar y pegar texto de un archivo a otro desde diferentes editores o formatos? Pues resulta que la culpa la tiene la codificación, ya que es la encargada de la representación del carácter.

Como ya hemos mencionado antes, la codificación es de la que depende el poder representar los caracteres, así que cuanto mayor es el tamaño del que puede disponer por carácter mayor será el peso del mismo texto en otro formato más limitado. Pero nos veremos obligados en el caso de que necesitemos escribir ciertos símbolos en el texto.

ASCII es un tipo de codificación muy conocido y utilizado, contiene solo 128 caracteres, entre ellos los de control. Como podemos observar, dispone de un repertorio bastante limitado. Por otro lado podemos elegir la codificación UTF que según qué versión dispondrá o no de ciertos caracteres o no, pero las más grandes siempre engloban a las más pequeñas. UTF-8 dispone de 8 bits para el reconocimiento de un carácter, por lo que tendremos 2^8 (256) caracteres, ya que es formato binario (0's y 1's). A medida que sumamos bits en este tipo de codificación (UTF-16, UTF-32) dispondremos de más huecos para poder representar más caracteres (2^16 y 2^32 respectivamente).

Para más información o si sientes curiosidad visita las urls de las referencias, donde encontrarás los caracteres y las codificaciones.

Procesamiento de texto

La interpretación del texto es la verdadera clave, así podrá desempeñar distintas funciones. Para que nos quede más claro, miremos el siguiente ejemplo.

Ejemplos:
1 - Si visitamos un periódico en la web, encontraremos información, las letras tendrán una fuente diferente según los artículos, igual que los títulos. Veremos negritas y recuadros. El texto está dispuesto en columnas.
2 - Para el caso de un un programa, el archivo contendrá código y estará escrito con muchas restricciones (dependerá del lenguaje), lo veremos indentado, de diferentes colores y con ciertas estructuras.
3 - En literatura creativa, podemos encontrar un poema en forma de corazón y con las letras rojas. Así será más artístico y nos entrará por más sentidos.

Por lo general, todo el texto se puede procesar, puede llegar a ser una tarea muy difícil. En un texto informativo, podremos sacar ideas del mensaje, lo que se quiere transmitir. En un código, se sacará un comportamiento programado, este papel lo ocupan los compiladores. En una obra artística, donde se juega con el texto, necesitaremos analizar su forma con un lector o escáner e intentar compararlo con otros objetos.

Hoy en día, las aplicaciones del texto son innumerables, por ello existen procesamientos diferentes según lo que queramos utilizar, ya que suele ser una buena forma de expresarse.

Ejemplos: En la mensajería instantánea, y en los móviles inteligentes, se procesa todo el texto que introducimos con la esperanza de poder corregir posibles errores de escritura del usuario. Otra aplicación es la búsqueda de información por medio de texto, tal y como funcionan los buscadores en internet (Google, por ejemplo).

Conclusiones

Según la finalidad del texto, en informática, nos interesará guardar en uno u otro formato, esto ayudará al Sistema Operativo a actuar de forma correcta y apropiada. Sobretodo cuando la misión de este es clara, como en el caso del código.

Se necesitará un intérprete, que saque provecho y permita realizar al texto su función, como puede ser la de generación de un programa para un fin concreto. Este fin podría ser relacionado con este mismo tema, como un corrector ortográfico.

En el caso de ser un texto informativo que requiera comunicar e impactar al lector, para que cale el mensaje, utilizaremos un diseño apropiado de la fuente. Por lo general, uno agradable, bonito y que permita una lectura cómoda. También ayudará que sea compatible con muchos dispositivos, ya que seguramente queramos abarcar el máximo público posible. Pero ojo con la codificación, ya que si queremos representar caracteres raros no solo tendremos que preocuparnos de la fuente, sino también de la codificación. La mezcla de todas estas características suele ser explosiva, así que hay que tener cuidado con su elección. Normalmente puede darnos problemas cuando se copia del origen del texto a otro entorno diferente.

Pero... normalmente, nosotros no nos preocupamos de esto, ya que suele haber un software por debajo que nos ayuda en estas decisiones.

Test

1 ¿Qué es un documento de texto?

Es un formato con el que se codifican los caracteres de un escrito.
Es un archivo en el que se almacenan datos.
Es un estándar que se sigue para almacenar texto.
Es un archivo que sirve para escribir caracteres planos.

2 ¿Qué extensión de archivo le pondrías a un documento creado por ti y que contiene información que sólo tú sabes interpretar?

TXT, porque es texto plano con los datos que yo quiero.
RTF, porque quiero que se pueda leer en diferentes sistemas operativos sin perder las propiedades del texto.
DOC o DOCX, porque he usado Word y me permite las herramientas que necesito.
Ninguno de los anteriores, porque la extensión solo ayuda al Sistema Operativo y yo sé cómo usar mi propio archivo.

3 Si fueras un periodista de prestigio y escribieras en una buena revista, ¿qué formato de fuente elegirías?

El que me impongan en la revista, porque son los que sacan las impresiones.
AAT, porque únicamente afecta a la representación de los caracteres durante la conversión Glyph.
TrueType, porque es un formato de tipo estándar y escalable.
OpenType, porque es el sucesor de TrueType, es estándar escalable y actualizado.

4 ¿Cuál de las siguientes codificaciones permite la representación de más caracteres?

ASCII
UTF-8
UTF-16
UTF-32

5 ¿Qué no es un ejemplo de procesamiento de texto?

Un compilador de programas.
Un corrector ortográfico de una herramienta.
La interpretación de un BitMap para la representación de un carácter.
Una consulta a un motor simple de búsquedas en la web.


Referencias

Las referencias utilizadas para el desarrollo de esta página son los que se encuentran a continuación.