汇编语言个人学习笔记——第四章 第一个程序

引言:

     现在,我们将开始编写完整的汇编语言程序,用编译器将它们可执行文件(如*.exe文件),在操作系统中运行。

     这一章,我们将编写第一个这样的程序。

 

4.1一个源程序从写出到执行的过程

一个汇编语言程序从写出到最终执行的简要过程:

1、编写:使用文本编译器(如记事本、Nodpad、UltraEdit),用汇编语言编写汇编源程序。

2、编译连接:

使用汇编语言编译程序(MASM.EXE)对源程序文件中的源程序进行编译,产生目标文件;

再用连接程序(LINK.EXE)对目标文件进行连接,生成可在操作系统中直接运行的可执行文件。

可执行文件包含两部分内容:

(1)程序(从源程序中的汇编指令翻译过来的机器码)和数据(源程序中定义的数据)

(2)相关的描述信息(比如,程序有多大、要占用多少内存空间等)

3、执行可执行文件中的程序

在操作系统中,执行可执行文件中的程序。

操作系统依照可执行文件中的描述信息,将可执行文件中的机器码和数据加载入内存,并进行相关的初始化(比如设置CS:IP指向第一条要执行的指令),然后由CPU执行程序。

汇编语言个人学习笔记——第四章 第一个程序

 

4.2源程序

下面就是一段简单的汇编语言源程序:

汇编语言个人学习笔记——第四章 第一个程序

      中间的一段便是汇编指令,有对应的机器码,可以被编译为机器指令,最终被CPU执行。

      上面和下面两段是伪指令,没有对应的机器码,最终不被CPU。

谁来执行伪指令?

      伪指令是由编译器来执行的指令,编译器根据伪指令来进行相关的编译工作。

XXX segment

XXX ends

end

assume

定义一个段:

      segment和ends是一对成对使用的伪指令,这是在写可被编译器编译的汇编程序时,必须用到的一对伪指令。

      segment和ends的功能是定义一个段,segment说明一个段开始,ends说明一个段结束。

      一个段必须有一个名称来标识,使用格式为:

      段名 segment

      段名 ends

      一个汇编程序是由多个段组成的,这些段被用来存放代码、数据或当作栈空间来使用。

      一个有意义的汇编程序中至少要有一个段,这个段用来存放代码。

End是一个汇编程序的结束标记,编译器在编译汇编程序的过程中,如果碰到了伪指令end,就结束对源程序的编译。

      如果程序写完了,要在结尾处加上伪指令end。否则,编译器在编译程序时,无法知道程序在何处结束。

切记:不要把end和ends搞混了。

寄存器和段的关联假设:

      assume:含义为“假设”。

      它假设某一段寄存器和程序中的某一个用segment……ends定义的段相关联。

      通过assume说明这种关联,在需要的情况下,编译程序可以将段寄存器和某一个具体的段相联系。

例如:

汇编语言个人学习笔记——第四章 第一个程序

assume cs:codeseg

相当于告诉编译器段寄存器cs假设代码段的名称为codeseg

源程序中的程序:

汇编源程序:

                       伪指令  (编译器处理)

                       汇编指令(编译为机器码)

(注:我们通过伪指令告诉编译器哪里应该开始、哪里应该结束、哪里指向CS……)

程序:源程序中最终由计算机执行、处理的指令或数据。

注意:

以后可以将源程序文件中的所有内容称为源程序,将源程序中最终由计算机执行、处理的指令或数据,称为程序。

程序最先以汇编指令的形式存放在源程序中,经编译、连接后转变为机器码,存储在可执行文件(pe)中。

程序经编译连接后变为机器码,如图:

汇编语言个人学习笔记——第四章 第一个程序

标号

一个标号指代了一个地址

codesg:放在segment的前面,作为一个段的名称,这个段的名称最终将被编译、连接程序处理为一个段的段地址。

程序的结构

任务:编程运算2^3。

(1)定义一个段

(2)实现处理任务

(3)程序结束

(4)段与段寄存器关联

汇编程序:

assume cs:abc

abc segment

mov ax,2

add ax,ax

add ax,ax

abc ends

end

程序返回

       我们的程序最先以汇编指令的形式存在源程序中,经编译、连接后转变为机器码,存储在可执行文件中,那么它怎样得到运行呢?

DOS中的程序运行

       DOS是一个单任务操作系统。

一个程序P2在可执行文件中,则必须有一个正在运行的程序P1,将P2从可执行文件中加载入内存后,将CPU的控制权交给P2,P2才能得以运行。P2开始运行后,P1暂停运行。

而当P2运行完毕后,应该将CPU的控制权交还给使它得以运行的程序P1,此后,P1继续运行。

      现在,我们知道一个程序结束后,将CPU的控制权交还给使它得以运行的程序,我们称这个过程为程序返回。

程序返回

      应该在程序的末尾添加返回的程序段。

      mov ax,4c00H

      int 21H (中断DOS)

      这两条指令所实现的功能就是程序返回。

几个和结束相关的内容:段结束、程序结束、程序返回。

汇编语言个人学习笔记——第四章 第一个程序

语法错误和逻辑错误

语法错误                                                                     逻辑错误

程序在编译时被编译器发现的错误;                          程序在编译时不能表现出来的、在运行时发生的错误;

容易发现,如:                                                           不容易发现。

aume cs:abc

abc segment

         mov ax,2

         add ax,ax

         add ax,ax

end

 

4.3编辑源程序

assume cs:abc

abc segment
    mov ax,2
    add ax,ax
    add ax,ax
    
    mov ax,4c00H
    int 21H
abc ends
end

一般来说有两类错误使我们得不到所期望的目标文件:

1、我们程序中有Severe Errors;

2、找不到所给出的源程序文件

 

4.4编译和连接

个人建议用Notepad++编写程序,也要下载masm,方法不再详述。

我们用汇编语言编写好程序后,要将后缀名改为asm,然后再把程序和下载的masm中的link.exe、masm.exe和ml.exe放在一起,然后通过cmd命令找到文件路径,再进行编译连接,如:masm 1.asm,link 1.obj。

exe的执行:

我们刚才写的的程序没有向显示器输出任何信息。程序只是做了一些将数据送入寄存器和加法的操作,而这些事情,我们不可能从显示屏上看出来。

程序执行完成后,返回,屏幕上再次出现操作系统的提示符。

(这里我觉得一劳永逸解决比较好,不想用dosbox,老是出问题,就装了个虚拟机)

4.5以简化的方式进行编译和连接

直接再cmd中输入ml 1.asm就可以生成1.exe文件

这里1.asm是已经编辑好的源程序

关于编译和链接

连接的作用是什么?

连接的作用有以下几个:

当源程序很大时,可以将它分为多个源程序文件来编译,每个源程序编译成为目标文件后,再用连接程序将它们连接到一起,生成一个可执行文件;

程序中调用了某个库文件的子程序,需要将这个库文件和该程序生成的目标文件连接到一起,生成一个可执行文件;

一个源程序编译后,得到了存有机器码的目标文件,目标文件中的有些内容还不能直接用来生成可执行文件,连接程序将此内容处理为最终的可执行信息。

所以,在只有一个源程序文件,而又不需要调用某个库中的子程序的情况下,也必须用连接程序对目标文件进行处理,生成可执行文件。

注意:对于连接的过程,可执行文件是我们要得到的最终结果。

我们用汇编语言编程,就要用到:编辑器(Edit)、编译器(masm)、连接器(link)、调试工具(debug)等所有工具,而这些工具都是在操作系统之上运行的程序,所以我们的学习过程必须在操作系统的环境中进行。

 

4.6可执行文件中的程序装入内存并运行的原理

就像前面说的,在DOS中,可执行文件中的程序P1若要运行,必须有一个正在运行的程序P2,将P1从可执行文件中加载入内存,将CPU的控制权交给它,P1才能得以运行;

当P1运行完毕后,应该将CPU的控制权ji交还给使它得以运行的程序P2。

1.exe的执行过程:

(1)我们在提示符E:\X(路径)后面输入可执行文件的名字“1”,按Enter键。

(2)1.exe中的程序运行

(3)运行结束,返回,再次显示提示符:“E:\X”

问题:

执行第(1)步操作时,有一个正在运行的程序将1.exe中的程序加载入内存,这个正在运行的程序是什么?

他将程序加载入内存后,如何使程序得以运行?

执行第(3)步操作,程序运行结束后,返回到哪里?

先来看看这部分内容:

操作系统的外壳:

       操作系统是由多个功能模块组成的庞大、复杂的软件系统。任何通用的操作系统,都要提供一个称为shell(外壳)的程序,用户(操作人员)使用这个程序来操作计算机系统工作。

        DOS中有一个程序command.com,这个程序在DOS中称为ming命令解释器,也就是DOS系统的shell。

问题分析:

我们在DOS中直接执行1.exe时,是正在运行的command将1.exe中的程序加载入内存。

command设置CPU的CS:IP指向程序的第一条指令(即程序的入口);从而使程序得以运行。

程序运行结束后,返回到command中,CPU继续运行command。

回顾一下汇编程序从写出到执行的过程:

汇编语言个人学习笔记——第四章 第一个程序

4.7程序执行过程的跟踪

 为了观察程序的运行过程,我们可以使用Debug。

Debug可以将程序加载入内存,设置CS:IP指向程序的入口,但Debug并不放弃对CPU的控制,这样,我们就可以使用Debug的相关命令来来单步执行程序,查看每条指令的执行结果。

注:debug相当于执行一条程序的指令然后马上中断一次。

让我们重新来进行一次程序的编写、编译、连接、执行,然后再用debug查看程序中每条指令的执行结果。

首先打开Notepad++,用汇编语言编写程序命名为1.asm:

汇编语言个人学习笔记——第四章 第一个程序

(这里由于我编写的程序总是出问题,所以直接复制小甲鱼老师的代码了,之后再自己试试吧,顺便说一句,mov ax,4c00H  int 21H是关闭程序)

然后将1.asm与masm中的ml.exe,masm.exe,link.exe放到同一目录下(由于16位汇编与64位系统不兼容,所以我放到虚拟机里了)

汇编语言个人学习笔记——第四章 第一个程序

然后打开cmd命令框,找到1.asm所在的目录,直接ml 1.asm编译并连接,生成1.exe可执行程序,可以直接输入1.exe试一试程序是否能运行。

汇编语言个人学习笔记——第四章 第一个程序

然后输入命令debug 1.exe,可以用R指令查看各寄存器

汇编语言个人学习笔记——第四章 第一个程序

可以看到,debugjian将程序从可执行文件加载入内存后,cx中存放的是程序的长度。1.exe中程序的机器码共有15个字节。

现在程序已从1.exe中装入内存,接下来我们查看一下它的内容,可是我们查看哪里的内容呢?(查看DS的内容还是查看CS的内容)

程序被装入内存的什么地方?

我们如何得知?

在DOS系统中.exe文件中的程序的加载过程如下:

汇编语言个人学习笔记——第四章 第一个程序

DS和CS之间的256个内存单元存放的是psp的内容(psp这里并没有搞明白,以后再说吧)

可以利用 -u来查看psp的内容

汇编语言个人学习笔记——第四章 第一个程序

0B33:0之后的内容才是真正的程序,前面的PSP有它的作用(貌似牵扯到系统内核)

注意:有一步称为重定位的我们在上面没有说,因为这个问题和操作系统的关系较大,不作讨论。

总结:

程序加载后,DS中存放这程序所在内存区的段地址,这个内存区的偏移地址为0,则程序所在的内存区的地址为:ds:0;

这个内存区的前256个字节中存放的是PSP,dos用来和程序进行通信。

从256字节处向后的空间存放的是程序。

所以,我们从ds中可以得到PSP的段地址SA,PSP的偏移地址为0,则物理地址为SAx16+0

因为PSP占256(100H)字节,所以程序的物理地址是:

SAX16+0+256=SAX16+16X16=(SA+16)X16+0

可用段地址和偏移地址表示为:SA+10:0。

可以用U命令查看一下其他指令;

可以用T命令单步执行程序中的每一条指令并观察每条指令的执行结果

到了int 21,我们要用P命令执行

int 21执行后,显示”Program terminated normally“,返回到debug中。

表示程序正常结束。

汇编语言个人学习笔记——第四章 第一个程序

这里要再强调一次:要用P命令执行int 21。

需要注意的是,在DOS中运行程序时,是command将程序加载入内存;

所以程序运行结束后,返回到command中,而在这里是debug将程序加载入内存,所以程序运行结束后要返回到Debug中。

使用Q命令退出Debug,将返回到command中,因为Debug是由command加载运行的。

我们在DOS中用debug 1.exe运行debug对1.exe进行跟踪时,程序加载的顺序是:command加载debug,debug加载1.exe。

返回的顺序是:从1.exe中的程序返回到Debug,从Debug返回到command。