数据结构笔记——绪论
绪论
主要学习内容
数据的逻辑结构
数据的存储结构
算法
数据结构的基本概念
数据(Data)
:是对客观事物的符号表示,在计算机科学中是指能输入到计算机并被计算机程序处理的符号的总称。
数据一般可分为数值数据、文本数据、图形图像数据和音响数据等。
数据元素(Data Element)
是数据的基本单位,也可以称为结点,在计算机程序中通常作为一个整体进行考虑。
数据元素一般由若干数据项(Data Item)组成,数据项是构成数据元素最小的、不可分割的单位。
数据处理(Data Process)
:对数据进行检索、插入、删除、合并、拆分、排序、统计、计算、转换、输入、输出等的操作过程。
数据结构(Data Structure)
相互之间存在一定关系的数据的集合。
是数据及其元素之间相互关系的表示。
逻辑结构
:数据元素之间一般存在某种特定的关系,这种关系称为数据的逻辑结构。
物理结构(存储结构)
:数据结构在计算机内存中的表示形式。包括数据元素的表示和其关系的表示。
逻辑结构
线性结构(linear structure)
树型结构(tree structure)
图结构(graph structure)
集合(set)
数据的存储结构
计算机的主存储器的特性
其存储空间提供了一种具有非负整数地址编码的,相邻单元的集合,其基本的存储单元是字节
计算机的指令具有按地址随机访问存储空间内任意单元的能力,访问不同地址所需的访问时间基本相同
数据存储结构
又称物理结构,是数据及其逻辑结构在计算机中的表示
存储结构的分类:1. 顺序结构 2. 链式结构
顺序(sequential)的方法
顺序存储结构称为紧凑存储结构,其紧凑性是指它的存储空间除了存储有用数据外,没有用于存储其他附加的信息
紧凑性可以用‘存储密度’来度量:它是一个存储结构所存储的‘有用数据’和该结构(包括附加信息)整个存储空间大小之比。
链接(linked)的方法
利用指针,在结点的存储结构中附加指针字段称为链接法。两个结点的逻辑后继关系可以用指针的指向来表达
任意的逻辑关系,也可以使用这种指针地址来表达。一般的做法是将数据结点分为两部分:
数据字段指针字段
抽象数据类型(Abstract Data Type)
数据类型(Data Type):
数据类型显式或隐含地规定了:
在程序执行期间变量或表达式所有可能的取值范围,
以及在这些值上允许执行的操作
即数据类型是一个值的集合和定义在这个值集上的一组操作的总称。
抽象数据类型
由用户定义,用以表示应用问题的数据模型。
ADT是指一种数据结构以及定义在该数据结构上的一组操作。
由基本的数据类型组成, 并包括一组相关的服务(或称操作)。
信息隐蔽和数据封装,使用与实现相分离。
ADT的定义(描述)
一个 ADT 的定义不涉及它的实现细节,在形式上可繁可简。通常包含以下内容:
抽象数据类型名
数据元素之间逻辑关系的定义
每种基本操作的接口(操作的名称和该操作的前置条件、输入、功能、输出、后置条件的定义)
ADT 抽象数据类型名
Data
数据元素之间逻辑关系的定义
Operation
操作 1
前置条件:执行此操作前数据所必须的状态
输入:执行此操作所需要的输入
功能:该操作将完成的功能
输出:执行该操作后产生的输出
后置条件:执行该操作后数据的状态
操作 2
……
……
操作 n
endADT
算法及其特性
算法(algorithms):
是为了求解问题而给出的有限的指令序列,每条指令表示一个或多个操作。——解决问题的步骤
程序
是算法的一种实现,计算机按照程序逐步执行算法,实现对问题的求解。
算法的性质
有穷性:一个算法必须能在执行有穷步之后结束,且每一步都可在有穷时间内完成;
确定性:算法中每一条指令必须有确切的含义,不具有二义性。
可行性:算法中描述的操作都可通过已经实现的基本运算执行有限次来实现。
输入:一个算法有零个或多个输入,这些输入取自某个特定的对象的集合;
输出:一个算法有一个或多个输出,这些输出是同输入具有某种特定关系的量。
算法的描述
常用的描述算法的方法有
自然语言
流程图
程序设计语言
伪代码等。
算法分析
解决同一个问题总是存在着多种算法,而算法设计者在所花费的时间和所使用的空间资源往往要两者之间采取折中,通常是采用某种以空间资源换取时间资源的策略
算法设计者可以通过算法分析,判断所提出的算法是否现实,分析算法的效率以求改进
算法分析的内容
算法运行所需要的时间,称为时间复杂性
事前估计法
事后统计法
算法运行所需要的辅助空间,称为空间复杂性
算法的后期测试
插装 time( ) 的计时程序
double start, stop;
time (&start);
int k = seqsearch (a, n, x);
time (&stop);
double runTime = stop - start;
cout << " " << n << " "
cout runTime << endl;
缺点:需先运行依据算法编制的程序
软、硬件环境影响测试结果
算法的时间复杂度度量
用基本语句执行次数度量算法时间复杂性
时间复杂度:
T(n)=n+1+n(n+1)+n2=2n+2n2+1
问题规模:求解问题的输入量
lim T(n)/n2=lim(2n+2n2+1)/2n2=1
n->∞
当问题规模 n→∞时T(n)与某一量同阶,称作算法的渐近时间复杂度 (asymptotic time complexity,随着问题规模的增加,算法运行时间的增长趋势) :
记作:T(n)=O(n2) O是order的简写
时间复杂度只与算法中语句频度最大的语句(基本语句)有关, 而其它语句的时间可以不计
用F(n)代表算法中语句频度最大的语句的频度(基本语句)
则T(n)=O(F(n)):
时间复杂度: T(n)=O(F(n))
一个例子:
int count=0; O(1)
int n=8,count=0,i; O(n)
for(i=1;i<=n;i++)
count++;
count=0; O(n2)
for(i=1;i<=n;i++)
for(j=1;j<=n;j++)
count++;
最坏、最好、和平均情况
由于算法实际执行的操作往往依赖于分支条件的走向,而输入数据的取值又影响这些分支走向,因此很多算法都无法得出独立于输入数据的渐近估计。
针对这一情况,提出了最好情况估计、最坏情况估计、平均情况估计、
int Find(int A[], int n,int k){
for(i=0;i<n;i++)
if(A[i]==k) break;
return i;
}
算法执行时间分析:
最坏、最好、和平均情况
由于算法实际执行的操作往往依赖于分支条件的走向,而输入数据的取值又影响这些分支走向,因此很多算法都无法得出独立于输入数据的渐近估计。
针对这一情况,提出了最好情况估计、最坏情况估计、平均情况估计。
int Find(int A[], int n,int k){
for(i=0;i<n;i++)
if(A[i]==k) break;
return i;
}
执行时间分析:
如果数组的第一个元素恰好就是 k ,算法只要比较一个元素就行了,这是 最好情况 (最乐观的估计);
如果数组的最后一个元素是 k ,算法就要比较 n 个元素,这是 最坏情况(最悲观的估计);
如果在数组中查找不同的元素 k ,假设数据是等概率分布,则平均要比较 n /2 个元素,这是 平均情况
算法的空间复杂度
算法的空间复杂度是指在算法的执行过程中,需要的辅助空间数量。
辅助空间是除算法本身和输入输出数据所占据的空间外,算法临时开辟的存储空间。通常记作:
S ( n ) = O ( f ( n ))
其中,n 为问题规模,分析方法与算法的时间复杂度类似。