HTML基础知识

今天学习了HTML知识,我是学pythoon的,学html是为了更好的理解网页,爬虫阶段的时候要分析网页,所以要知道网页的组成部分。很多学员只知道学爬虫,却忽视了HTML的知识,不要求精通最起码能看懂网页吧,不然找个图片的url都找不到。那就很尴尬了
超文本标记语言,标准通用标记语言下的一个应用。是 网页制作必备的编程语言
“超文本”就是指页面内可以包含图片、链接,甚至音乐、程序等非文字元素。
超文本标记语言的结构包括“头”部分(英语:Head)、和“主体”部分(英语:Body),其中“头”部提供关于网页的信息,“主体”部分提供网页的具体内容。
以下表格列出了 HTML head 元素:
标签
描述

定义了文档的信息 定义了文档的标题 定义了页面链接标签的默认链接地址 定义了一个文档和外部资源之间的关系 定义了HTML文档中的元数据 </meta></link></base>

HTML基础知识元素

创建一个超文本标记语言文档。 (头)设置文档标题和其它在网页中不显示的信息,比如direction方向、语言代码Language Code(见实体定义!ENTITY % i18n)、指定字典中的元信息、等等。 文档中不能被该站点辨识的其它所有链接源的URL(统一资源定位器) 定义一个链接和源之间的相互关系,比如引用一个层叠样式表(英文缩写:css)、做一个链接到一个脚本、为某文件做一个链接(可打印的版本)、文档特定的工具栏/菜单。 脚本语句标签,比如引用一个javascript脚本。 文档体,文档的可见部分。 设置文档的标题。 当然,如果不使用以上基本框架结构,而直接使用在实体部分中出现的标记符,在浏览器下也可以解释执行。 内容描述

最大的标题(一号标题)
 预先格式化文本 (英文全称:PREformatted)
 下划线(英文全称:Underline)
 黑体字 (英文全称:Bold)
 斜体字 (英文全称:Italics)
打字机风格的字体
引用,通常是斜体
 强调文本(通常是斜体加黑体、英文全称:EMphasize)
 加重文本(通常是斜体加黑体)
 设置字体大小从1到7,颜色使用名字或RGB(中文全称:红绿蓝)的十六进制值
基准字体标记
 字体加大
 字体缩小
加删除线
程式码
键盘字(英文全称:KeyBoarD)
 范例(英文全称:SAMPle)
 变量(英文全称:VARiable)
向右缩排(向右缩进、块引用) 述语定义(英文全称:DeFiNe)
地址标记 上标字 (英文全称:SUPerscript) 下标字(英文全称:SUBscript) ...;固定宽度字体(在文件中空白、换行、定位功能有效) ...;固定宽度字体(不执行标记符号) ... 固定宽度小字体 ...;字体 颜色 ...;字体 大小等于1(最小)。 ...;字体 样式等于无限增大(100像素) 格式标志标签

创建一个段落 (英文全称:Paragraphs)

将段落按左、中、右对齐
定义新行

从两边缩进文本
定义列表(英文全称:DefinitionList)
放在每个定义术语词前(定义术语、英文全称:DefinitionTerm)
放在每个定义之前(定义说明、英文全称:DefinitionDescription)
    创建一个标有序的列表,默认前面有数字,从数字“1”开始计数,依次叠加,也可以设置为字母或从任何自然数开始计数的列表项 (有序列表、外语全称:OrderedList)
      创建一个无序的列表,默认前面标有圆点,也可以自己设置为none或者其他形状,如空心圆、方块等。(无序列表、外语全称:UnorderedLists)
    • 放在每个列表项之前,若在
        ;之间则每个列表项加上一个数字, 若在
          ;之间则每个列表项加上一个圆点
          用来排版大块HTML段落,也用于格式化表 选项清单 目录清单 强行不换行(英文全称:nobreaking)
          ;水平线(设定宽度、外语全称:horizontalrule)
          水平居中
        • 网页表格标签
          由于表格可以精确控制文本和图像在网页中的显示位置,所以在很多网站的主页中一般都使用表格来进行布局。
            表格的基本结构如下:

               ...      ...                ...  

          定义整个表格,即表格的内容要放在
          标记中;在中的主要属性:border属性显示表格的边框,width, height属性定义表格的大小。…标记表示一行;一个标记表示一列;定义表头,一般可以不用。
          链接标志表格标志

          :创建超文本链接。

          :创建位于文档内部的书签。

          :创建指向位于文档内部书签的链接。
          使用
          每种HTML标记符在使用中可带有不同的属性项,用于描述该标记符说明的内容显示不同的效果。正文标记符中提供以下属性来改变文本的颜色及页面背景。
          BGCOLOR(外语全称:BackgroundColor)用于定义网页的背景色,BACKGROUND用于定义网页背景图案的图像文件
          TEXT用于定义正文字符的颜色,默认为黑色
          LINK用于定义网页中超级链接字符的颜色,默认为蓝色
          VLINK(外语全称:VisitedLINK)用于定义网页中已被访问过的超接链接字符的颜色,默认为紫红色
          ALINK(中文全称:活动链接)用于定义被鼠标选中,但未使用时超链字符的颜色,默认为红色
          例如:标记将定义页面的背景色为黑色,正文字体显示为白色。
          以上属性使用中,需要对颜色进行说明,在HTML中对颜色可使用3种方法说明颜色属性值,即直接颜色名称、16进制颜色代码、10进制RGB码。
          直接颜色名称,可以在代码中直接写出颜色的英文名称。如我们,在浏览器上显示时就为红色。
          16进制颜色代码,语法格式: #RRGGBB 。16进制颜色代码之前必须有一个“#”号,这种颜色代码是由三部分组成的,其中前两位代表红色,中间两位代表绿色,后两位代表蓝色。不同的取值代表不同的颜色,他们的取值范围是00–FF。如我们,在浏览器上显示同样为红色。
          10进制RGB码,语法格式: RGB(RRR,GGG,BBB) 。在这种表示法中,后面三个参数分别是红色、绿色、蓝色,他们的取值范围是0–255。以上两种表达方式可以相互转换,标准是16进制与10进制的相互转换。如我们,在浏览器上显示字体为红色。
          使用图案代替背景颜色,可以使页面更生动、美观。
          如今用一张大图当做网页的背景已经成为一种流行趋势,高质量的精美照片和抽象的设计图片能够给网站的外观带去深刻的影响。
          可将图像文件“图像.gif”所表示的一幅图像作为页面的背景,若图像幅面不够大,将会将图像重复平铺在窗口中。
          其他版本
          和XHTML之间的差异:
          xmlns 属性在XHTML中是必需的,但在 HTML中不是。不过,即使XHTML文档中的 没有使用此属性,W3C 的验证器也不会报错。这是因为 “xmlns=百度” 是一个固定值,即使您没有包含它,此值也会被添加到 标签中。
          标记符用来定义表格的标题。
            表格的表示以行为单位,在行中包含列。其中:一个