DOCX文档结构分析

一、概述

docx文档本质上是一个压缩包,可直接修改文档.docx后缀为.zip后缀,再解压zip包,可得如下docx文档详细结构(包含utf-8或utf-16编码的XML文件及其他图片、视频等媒体文件,该结构根据Open Packaging Conventions所规定)。
在这里插入图片描述

二、主要结构介绍

1、[Content_Types].xml

每个docx压缩包都含有该文件,位于压缩包根目录下,引入了压缩包中所有使用到的部件的内容类型,例如主文档部件的内容类型,如下:
在这里插入图片描述
【注意:后续如果要添加新部件,就需要在[Content_Types].xml中补充新部件的内容类型,才会生效】

2、*.rels文件

文档结构中存在很多.rels文件,它们维护着当前层级之间及与压缩包外部资源间的映射关系,目的是将资源关系从内容中分离出来统一维护。
在这里插入图片描述

3、word/document.xml

主文档文件,我们通过word/wps打开docx文件看到的内容及结构,都存储在该文件中。可以类比HTML,当其中内容或结构变化,我们看到的内容和结构就会产生相应的变化。
在这里插入图片描述

4、word/styles.xml

顾名思义,就是控制文档样式的文件,类似于CSS,其中以id选择器方式定义着文档所需的复杂样式(可以在上图document.xml结构中看到,对于一些简单样式,如字体、字体大小,是以类似行内样式的方式在文档结构中直接设置的)
而对于复杂样式,比如标题样式、列表样式,都会采用外部样式的方式实现。具体实现方式为:通过 styles.xml中w:style的w:styleId与document.xml中 w:pStyle的w:val建立映射关系。
在这里插入图片描述

5、word/numbering.xml

文档中使用较多的便是各种有序列表、无需列表,其中列表样式、结构都单独定义维护在该文件中,通过w:num的w:numId与document.xml中w:numId的w:val建立映射关系,使得列表样式作用于文档内容之上。该文档中包含着有序列表自增规则、无序列表图标样式等内容,对于后续操作docx合并确保列表样式正常,了解该文件作用就十分必要了。
在这里插入图片描述


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部