Dokumentum formátumok

A szöveg- és dokumentumszerkesztő programok sokféle dokumentum formátumot használnak a szöveg tárolására, ez sokszor problémákhoz vezet, főleg a formátum leírása nem nyilvános. A dokumentum formátum dönti el, hogy milyen módon kell kódolni a karaktereket, a szöveg formai tulajdonságait, a beágyazott objektumokat és grafikai elemeket.

Néhány elterjedt formátum (szokásos kiterjesztésükkel címkézve őket): TXT, TEX, ODT, PDF, HTML, XML, DOC, DOCX

.TXT

Az egyszerű "ascii" szövegeket két jellemző különbözteti meg egymástól:
  1. a sorvége kódolása
    Ez operációs rendszer függő. A CR és LF egybájtos karakterek kombinációval szokás a sorvégét kódolni.
    Linux/ UNIX:
    Windows:
    Mac:
  2. a karakterek kódolása
    Különböző kódrendszerek léteznek a szöveges információ kódolására, ezek a rendszerek csak részben kompatibilisek.
    Példák különböző karakterkódolásokra

.TEX

.ODT

Egy XML-alapú formátum. Ha átnevezzük ZIP kiterjesztésre, egy tömörítő programmal ki tudjuk csomagolni, és láthatóvá válik a szerkezet. Az ábrákon látható, hogy a dokumentum hogyan menti le a különböző szövegrészletek formai beállításait.

Az irodai programban:


A dokumentum belső szerkezete:



A content.xml tartalmának részlete:


.PDF

.HTML

.XML

.DOC, .DOCX