Skip to content

Markup标记语言

更新: 2025/3/4 字数: 0 字 时长: 0 分钟

前言

在当下数字化浪潮席卷的网络时代,人们每日穿梭于网页、邮件与应用等各类媒介之间,持续高频地参与着信息交互。可以说,信息交互早已深度嵌入人们的生活,成为不可或缺的部分。在信息交互过程中,标记语言发挥着极为重要的作用,作为一项关键的技术工具,它为信息处理与呈现提供了便捷且灵活的途径。借助标记语言,我们能够更合理地组织、展示文档内容,实现丰富多元的网页设计,还能在数据交换及移动应用开发领域高效作业 。

标记语言

标记语言不是具体的某一种计算机语言,而是指能描述信息(文本、图像、声音...)结构和格式的一类计算机语言,它们通常使用特定的“标记”或“标签”将文档中每个部分的内容分解为具有特定含义的单元,以便计算机理解、处理和展现这些单元。常用的标记语言有 Markdown、LaTeX、HTML、XML 等,其应用场景覆盖文档编写、网页开发、数据交换等多个领域。

Markdown

Markdown(Markdown Markup Language)是一种用于撰写文档的轻量级标记语言。所谓“轻量级”指的是 Markdown 具有简单易学的语法和良好的可读性,原生格式接近自然语言。不仅如此,Markdown 还吸收了很多在电子邮件中已有的纯文本标记的特性,使得人们可以通过易读易写的纯文本格式来撰写文档和博客。

image-20240319151226977

由于 Markdown 的轻量化、易读易写特性,并且对于图片、图表、数学公式等都有支持,还能转换成结构化的 HTML 文档,因此广泛使用在文档、博客、论坛当中。

  • 博客平台:世界上最流行的博客平台 WordPress 和大型 CMS 如 Joomla、Drupal 都能很好的支持 Markdown,完全采用 Markdown 编辑器的博客平台有 Ghost 和 Typecho 等。
  • 论坛交流:许多论坛如 Reddit、Stack Overflow、知乎等都可以使用 Markdown 来发表消息。
  • 技术文档:GitHub 项目的 README.md 文件支持自动渲染,成为开源社区标准。

image-20240320142729784

LaTeX

LaTeX(LATEX,音译“拉泰赫”)是基于 ΤeΧ 排版系统所开发的一种标记语言。在 LaTeX 出现之前,用户只能通过 TeX 提供的一套命令和语法来控制文档的排版格式,包括字体、字号、行距、页面布局、数学公式排版等各个方面。在 LaTeX 出现之后,使用 TeX 的门槛进一步降低,作为建立在 TeX 基础之上的宏语言,它定义了一系列更友好的宏命令,这些宏命令隐藏了 TeX 底层的一些复杂细节,以更直观、更易读的方式为用户提供了丰富的排版功能。由于 LaTeX 将排版细节则交由 TeX 自动处理,所以用户可以专注于文档的内容生产和结构布局,即使使用者没有排版和程序设计的知识也可以充分发挥 TeX 强大的排版功能,并能在短时间内生成很多精美的、具有书刊质量的印刷品。可以说,LaTeX 结合了标记语言和排版系统的特点,既提供了灵活的内容描述方式,又能够生成高质量的排版输出

image-20240319231106641

提醒

需要说明的是,LaTeX 本身并不包含排版算法和渲染引擎,它只是提供了一种方便用户编写文档的宏语言接口,这些宏命令最终会被解释成 TeX 命令,交由 TeX 排版系统来完成实际的排版工作。

由于 TeX 排版系统具有高度的可定制性和精确性,尤其擅长处理复杂表格和数学公式,能够以专业水平排版复杂的数学公式和符号,因此它非常适合生成包含大量数学公式的数学类书籍和科技类书刊。目前 TeX 已经是国际上数学、物理、计算机等科技领域专业排版的实际标准,这也使得 LaTeX 在撰写学术论文、书籍、报告等方面广受欢迎

  • 学术出版:ACM / IEEE 论文模板、Springer 图书均采用 LaTeX。
  • 自动化引用:支持交叉引用、参考文献自动编号(如BibTeX)。
  • 复杂公式:矩阵、微分方程等数学符号的专业级排版。

image-20240319231628742

提醒

值得一提的是,LaTeX 中的 "La" 源自其开发者 Leslie Lamport 的姓氏缩写,与英文单词 "latex"(胶乳或乳液)无直接关联,只是恰好拼写相同,含义和用法完全不同。

HTML

HTML(Hyper Text Markup Language,超文本标记语言)是一种用于描述网页结构和内容的标记语言,它允许用户通过 HTML 标签来定义文档的标题、段落、链接、图像等内容,还可以定义文档的布局、样式和交互行为。HTML 的主要特点包括:

  1. 标签定义:HTML 使用标签来定义网页中的元素,这些标签都类似于 <起始标签 属性='值'>内容</结束标签> 形式。
  2. 结构化:HTML 允许开发者创建结构化的文档,通过定义标题、段落、列表等,使内容在视觉上更易于理解和组织。
  3. 超文本:HTML 支持超链接(hyperlinks),允许用户从一个页面跳转到另一个页面或网页上的特定部分。
  4. 媒体支持:HTML 可以嵌入图像、音频、视频等多媒体内容,丰富网页的展示效果。
  5. 交互性:通过表单(forms)和 JavaScript 等技术的结合,HTML 可以实现用户与网页的交互。
  6. 兼容性:大多数现代浏览器(Chrome / Firefox / Safari)都支持 HTML,并且 HTML 文档可以在各种设备和平台上展示。

image-20240319105148201

由于 HTML 定义的文档具有结构化标记和文本链接特性,以及跨平台的交互性和可读性,成为了构建现代静态网页的基石。目前,HTML 已广泛应用于 Web 开发领域,对于希望学习 Web 前端开发的人来说,掌握 HTML 是不可或缺的第一步

image-20240320150029848

提醒

HTML5 是万维网联盟(W3C)制定的 HTML(超文本标记语言)标准的第五版,它主要关注技术本身的发展和创新,是一个网页构建的基础语言。H5 是国内的一个流行术语,起初是对 HTML5 的简称,但随着移动互联网的发展,尤其是微信生态和营销推广活动的普及,H5 逐渐演变成一个特定领域的代称,通常用于描述基于 HTML5 技术的网页广告、微营销等应用场景。

XML

XML(Extensible Markup Language,可扩展标记语言)是一种用于编码文档的标记语言,它提供了一种标准化的方式来描述数据,允许用户自定义标记用来存储和传输数据,使得数据可以在不同的应用程序和系统之间轻松交换。XML 的主要特点包括:

  1. 可扩展性:XML 允许用户自定义标签,这意味着 XML 可以用于描述任何类型的数据结构。
  2. 可读性:XML 文档的结构清晰,易于人类阅读和理解。
  3. 数据描述:XML 不仅描述数据的外观(如 HTML),而且描述数据的结构和含义。
  4. 跨平台性:XML 是纯文本格式,不依赖于特定的操作系统或软件,因此具有跨平台的特性。
  5. 验证:XML 可以通过 DTD(文档类型定义)或 XML Schema 来定义和验证其结构,确保数据的准确性和一致性。
  6. 轻松集成:XML 可以很容易地与 HTML、CSS、JavaScript 等技术集成,用于构建动态和交互式的 Web 应用程序。

image-20240320155607136

由于 XML 能够清晰地表示数据的结构和内容,并且易于解析和验证,经常被用作不同系统之间的数据交换格式,在 Web 服务、配置文件、数据交换和存储等多个领域都有广泛的应用。

image-20240320161429668

文件后缀

提到文本文件我们最熟悉的文件扩展名应该就是 .txt,其实还有很多其它的扩展名用于存储文本文件,每种扩展名都可能对应不同的文件格式或者应用场景。一些常见的文本文件扩展名包括:

扩展名文件含义应用场景
.txt普通文本文件用纯文本形式存储数据
.log日志文件用于记录系统或应用程序的活动和事件
.jsonJavaScript 对象表示法文件用于存储结构化的数据
.css层叠样式表文件用于定义网页的样式和布局
.mdMarkdown 文件用 Markdown 标记语言编写的文本文件
.texLaTeX 文件用 LaTeX 语法编写的文本文件
.htm/.htmlHTML 文件用于创建网页的标记语言文件
.xmlXML 文件用于存储和传输结构化的数据

可以看到,存放 Markdown 内容的文件一般使用 .md 作为后缀。这样,我们看到文件的 .md 后缀,就能知道该文件中存放的是 Markdown 内容。这里我们新建一个 新建文本文档.txt 文本文件,在里面写入 Markdown 源码内容 # 测试,然后保存并关闭,将后缀名 .txt 修改为 .md,即 新建文本文档.md。现在我们使用支持解析 Markdown 软件来打开该文件,其展示的内容效果就是解析 Markdown 后的格式。如果使用不支持解析 Markdown 软件,例如用“记事本”来打开该文件,那么所展示的内容就是 Markdown 的源码。

image-20240322145828229

同样的,存放 HTML 内容的网页文件一般使用 .htm/.html 作为后缀。这里我们新建一个 test.txt 文本文件,在里面写入 HTML 源码内容 <h1>测试</h1>,然后保存并关闭,将后缀名 .txt 修改为 .html,即 test.html。现在我们使用支持解析 HTML 的软件,例如用浏览器来打开该文件,那么所展示的内容效果就是解析 HTML 后的格式。如果使用不支持解析 HTML 的软件来打开该文件,例如用“记事本”打开该文件,那么所展示的内容就是 HTML 的源码。

image-20240322145059095

提醒

不知道文件后缀名怎么显示,请参看《文件后缀名怎么显示》

应用领域

不同的标记语言在不同的场景和需求中各有应用,以下是几个常见的应用领域:

  • 文档处理:Markdown 和 LaTeX 提供了一种简洁、易读的方式来编写文档,使得文档的编辑和排版更加高效和专业。
  • 网页设计:HTML 是构建网页的基础,通过使用 HTML 标记语言,开发人员可以定义网页的结构、样式和交互效果,实现丰富多样的网页设计。
  • 数据交换:XML 作为一种通用的标记语言,被广泛用于数据交换和存储,如 Web 服务、配置文件、数据传输等。
  • 移动应用:标记语言在移动应用开发中也扮演着重要的角色,如使用 XML 描述界面布局、使用 HTML 开发跨平台应用等。

注意

请注意,本文所介绍的 Markdown、LaTeX、HTML、XML 标记语言和 C、C++、Java、Python 等编程语言不是一个语言类型。标记语言主要用于描述文档结构和内容,而编程语言则用于编写计算机程序以实现特定的功能,这两者在功能和用途上存在显著的差异。