A szöveg- és dokumentumszerkesztő programok sokféle dokumentum
formátumot használnak
a szöveg tárolására, ez sokszor problémákhoz vezet, főleg a formátum
leírása nem nyilvános. A dokumentum formátum dönti el, hogy milyen módon
kell kódolni a karaktereket, a szöveg formai tulajdonságait, a
beágyazott objektumokat és grafikai elemeket.
Néhány elterjedt formátum (szokásos kiterjesztésükkel címkézve őket):
TXT, TEX, ODT, PDF, HTML, XML, DOC, DOCX .TXTAz egyszerű "ascii" szövegeket két jellemző különbözteti meg egymástól: - a sorvége kódolása
Ez operációs rendszer függő. A CR és LF egybájtos karakterek kombinációval szokás a sorvégét kódolni. Linux/ UNIX: Windows: Mac:
- a karakterek kódolása
Különböző kódrendszerek léteznek a szöveges információ kódolására, ezek a rendszerek csak részben kompatibilisek. Példák különböző karakterkódolásokra
.TEX
.ODT
Egy XML-alapú formátum. Ha átnevezzük ZIP
kiterjesztésre, egy tömörítő programmal ki tudjuk csomagolni, és
láthatóvá válik a szerkezet. Az ábrákon látható, hogy a dokumentum hogyan menti le a különböző szövegrészletek formai beállításait.
A dokumentum belső szerkezete:
A content.xml tartalmának részlete:
.PDF
.HTML
.XML
.DOC, .DOCX |
|