SQL Server 2008 镜像的监控

最近新建立了多个热备镜像,于是把如何管理和监控镜像的认识总结一下。镜像在建立好之后,就需要去管理其运行状况。最重要是性能状况评估和关键指标的自动监控警报。

1. 首先我们要获取镜像状态的信息,才能做出判断或者监控。要获取这些信息,就要了解两个重要的镜像监控组件:数据库镜像状态表和数据库监控作业。

     1.1.数据库镜像状态表

        这个表指的是msdb库中的dbm_monitor_data表。它在首次调用数据库镜像监控器或者首次创建数据镜像监控作业时被自动创建,主体和镜像都有。每个镜像会话库每次更新时将会在其中插入一行。

        更新频率是可以配置的。表中数据默认保留最近7天的数据。

     1.2. 数据库监控作业

         这个作业就是用来更新数据库镜像状态表的。调用系统存储过程sys.sp_dbmmonitoraddmonitoring创建。如果它不能正常运作,则数据库镜像状态表的数据会是过时的

         用sys.sp_dbmmonitorchangemonitoring来修改作业调度(默认是1次/分钟),用sys.sp_dbmmonitordropmonitoring删除此作业。

  通常用脚本直接创建的镜像,不会自动生成数据库监控作业,需要我们手动创建。用GUI界面直接配置的镜像,通常会生成此作业。

 

2. 有了前面的定时刷新的状态数据来源,我们就可以查阅和监控镜像状态。可以使用数据库镜像监视器或 dbmmonitor 系统存储过程

    2.1 数据库镜像监视器

         选中镜像会话中的库--右键--任务--执行数据库镜像监视器。如果出殃红色的error icon,可能是实例连接没被正确注册;需要在Action->Manage Instance Server Connection对相关的镜像会话的实例正确注册。

        SQL Server 2008 镜像的监控

      界面上分割为四块,分别看到一些状态数据:状态,主体日志,镜像日志,全局状态。各个指标具体含义参考数据库镜像监视器概述

      还有一个Tab叫做警报,这里将用于设定一些警阀值,本文后面会涉及。

   2.2 dbmmonitor 系统存储过程

        通过执行系统存储过程sp_dbmmonitorresults来查询数据库镜像状态表中状态数据。要说明的是:此SP只能在msdb库下运行,我的截图涂黑部分是库名,而且返回的列不只这么多。

       SQL Server 2008 镜像的监控

     当然系统存储过程不只这一个,还有

     sp_dbmmonitoraddmonitoring

     创建定期更新服务器实例上每个镜像数据库的状态信息的作业。

     sp_dbmmonitorchangemonitoring

     更改数据库镜像监视参数的值。

     sp_dbmmonitorhelpmonitoring

     返回当前更新持续时间。

     sp_dbmmonitorresults

     返回所监视数据库的状态行,使您能够选择此过程是否预先获取最新的状态。

     sp_dbmmonitordropmonitoring

     停止并删除服务器实例上所有数据库的镜像监视器作业。

 

3. 我们有状态数据数据而且又知道如何查看,然后我们要根据某些关键状态的指标来建立起警报,实现自动化监控

    3.1 可以在数据库镜像监视器的Warnings面板中设定相关触发警报的阀值。

         SQL Server 2008 镜像的监控 

        下面是MSDN关于阀值的说明:

        SQL Server 2008 镜像的监控

        如果为性能指标定义了警告阈值,则在更新状态表时,将针对阈值计算最新的值。如果已达到阈值,则更新过程 sp_dbmmonitorupdate 会针对指标生成一个提示性事件(“性能阈值事件”),

        然后将此事件写入 Microsoft Windows 事件日志。下表列出性能阈值事件的 ID。

        SQL Server 2008 镜像的监控

  3.2 既然我们设定阀值警报会触发特定的windows 事件,则可以据此设定数据库警报来通知DBA.

       在设定数据库警报前,需要完成Database Mail和Operator的启用和配置。可以参考MSDN上的How to相关资讯或者网络上资料。

       在SQL Server Agent—》Alerts里新建针对“未发送日志”的警报,如下图。因为这个实例下,我有多个库用于镜像,所以我的数据库库名选择的是“all database”。错误号如3.1中所述为32042。

       SQL Server 2008 镜像的监控

       在“响应”选项卡中,我只是选择用Email通知“操作者”DBA。可以根据需要,勾选“执行作业”。写一个能够抓取更多信息的作业(如性能数据,执行情况等等)或者针对警报做出响应的处理脚本,然后在此执行。

       SQL Server 2008 镜像的监控

      在“选项”选项卡中,我只勾选了邮件中包含警报错误信息。也可以根据需要,添加额外的文本信息。

      “两次响应的间隔”我设定为一分钟。

      SQL Server 2008 镜像的监控

      到这里算是邮件警报设定完成了。有时候我的邮箱会收到警报,最好还别收到。。。。

      SQL Server 2008 镜像的监控

 

-----------2016-10 增加创建Alert的脚本----------

USE [msdb]
GO

EXEC msdb.dbo.sp_add_alert @name=N'DAL05SQL25 Alert:Mirror Unsent Log', 
        @message_id=32042, 
        @severity=0, 
        @enabled=1, 
        @delay_between_responses=0, 
        @include_event_description_in=1, 
        @notification_message=N'Unsent Log On SQL25: 1024KB', 
        @category_name=N'[Uncategorized]', 
        @job_id=N'00000000-0000-0000-0000-000000000000'
GO


EXEC msdb.dbo.sp_add_alert @name=N'DAL05SQL25 Alert:Mirror Oldest Unsent Transaction', 
        @message_id=32040, 
        @severity=0, 
        @enabled=1, 
        @delay_between_responses=0, 
        @include_event_description_in=1, 
        @notification_message=N'Oldest Unsent Transaction On SQL25:3 Mins', 
        @category_name=N'[Uncategorized]', 
        @job_id=N'00000000-0000-0000-0000-000000000000'
GO

EXEC msdb.dbo.sp_add_alert @name=N'DAL05SQL25 Alert:Mirror Unrestored Log', 
        @message_id=32043, 
        @severity=0, 
        @enabled=1, 
        @delay_between_responses=0, 
        @include_event_description_in=1, 
        @notification_message=N'Unrestored Log On SQL25:1024KB', 
        @category_name=N'[Uncategorized]', 
        @job_id=N'00000000-0000-0000-0000-000000000000'
GO

EXEC msdb.dbo.sp_add_alert @name=N'DAL05SQL25 Alert:Mirror Commit overhead ', 
        @message_id=32044, 
        @severity=0, 
        @enabled=1, 
        @delay_between_responses=0, 
        @include_event_description_in=1, 
        @notification_message=N'Commit Overhead  On SQL25:1 Sec', 
        @category_name=N'[Uncategorized]', 
        @job_id=N'00000000-0000-0000-0000-000000000000'
GO

 

 

总结:

      警报还有很多种方式,WMI的警报,PerfCounters的警报等等。

 

转载于:https://www.cnblogs.com/Joe-T/archive/2012/09/06/2673237.html