shell字符串截取之cut

       cut命令是shell下一个比较强大的工具,它是以每一行为一个处理对象的,可以对一行字符串进行多种模式匹配的剪切操作,也可以对一个排列整齐的文本进行操作,下面我们就来说说cut这个命令吧:

       cut命令主要有3个定位方法:

             (1)对字节的定位,用 -b 选项

             (2)对字符的定位,用 -c 选项

              ( 3 ) 域,用选型 -f


下面我们来看看具体的实现:

  shell字符串截取之cut    

 我们来一一说一下上面的现象:

        我们先用pwd命令看一下我们的当前的路径。然后我们想提取当前路径这个字符串的第4个字节,就用上图所示的这条命令:

        pwd | cut -b 4

        我们可以看到,上图执行这个命令之后,输出了第四个字节m;

 所以我们这里看明白了,如果我们要提取哪一个字节,直接在-b 选项后面加上相应的数字就可以了。


如果我们想直接提取第3,4,5,8个字节呢?我们就可以用上图的第二条命令:

       pwd | cut -b 3-5,8

       执行这条命令后,我们可以看到,上图中输出了omex分别对应第3,4,5,8字节。

注意:cut命令如果使用了-b选项,那么我们在执行命令时,cut会先把-b所有的定位进行从小到大的排序,然后再提取。比如上图最后的那两条命令,我们把命令里面的 “3-5,8”换成了“8,3-5”,输出的结果是一样的。


我们再来看看:

shell字符串截取之cut

从上图我们可以看到,-3 和 3- 是有区别的。-3表示从第一个字节到第三个字节,而 3- 表示从第三个字节以后的所有这行的内容。


下面我们在来看看下面这两个命令选项的区别:

shell字符串截取之cut

我们目前从上图看到,这两条命令里面的“-b”“-c”选项不一样,但它们的结果一样,那么我们再来看看下面,就知道他们的不同在哪里了:

shell字符串截取之cut

 在前面的图中我们可以看到,当我们要截取的都是单字节字符时,使用 -b 和 -c 就没有什么区别,但当我们提取中文的时候呢?比如上面的那幅图,我们写了个file.c文件,里面有3行汉字,我们再分别使用上面的两条命令的时候,我们就可以看到区别了:当我们用“-c”选项时,以字符为单位,输出是正常的,但“-b”是以字节为单位的,所以输出就是乱码了。所以这两条命令还是有区别的。


下面我们来说说“域”这个概念:

       为什么会有“域”的提取呢?因为我们上面提到的-b和-c只能在固定格式的文档中提取信息,而对于非固定格式的信息则束手无策了,这时候,域就派上用场了。

       我们知道,在某些文件中会有好多冒号,冒号在文件的每一行中都起到了非常重要的作用,冒号用来隔开每一个项。而我们cut命令就提供了这样的提取方式,也就是设置“间隔符”,再设置提取第几个域就行了,我们具体来看看下面的实验吧:

我们在终端执行如下命令,可以获得当前bash的默认路径:

shell字符串截取之cut

       我们从上图可以看到,其中的每一个路径都被一个“:”分隔开来,假如我们现在想获取第一个冒号和第二个冒号之间的路径,我们就可以很方便的使用cut命令来帮我们实现,我们在终端输入如下的命令:

shell字符串截取之cut

       从上图的结果我们可以看到,我们提取出来了我们想要的第二个域的路径。我们来解释下上面的命令:-d和‘:’一起把管道输入的一行字符串进行了域的分隔,每一个分隔符(:)和前面的字符串被称为一个域。-f选项后面跟的是我们想提取的那个域。所以该命令cut -d ‘:’-f 2就表示输出第二个分隔符之前的域。

如果我们执行下面的命令:

shell字符串截取之cut

       输入上面两条很相近的命令,我想大家可以很清晰的看到它们的区别,第一条输出的是第二个域和第四个域,而第二条命令输出的是第二到四个域(正如我们在图中用不同颜色标注的那样)。

 

我们在来看看cut格式化整齐的文本进行的操作:

shell字符串截取之cut

从上面我们可以看到,这时格式化比较整齐的文本的一部分,那么我们想把前面的declare -x去掉,我们该怎么做呢?其实做法我们上面都说过:

shell字符串截取之cut

其中的“12-”表示输出从第12个字符以后的所有字符。其实和我们上面所说的对字符串的操作没有什么区别。


上面就是自己目前所知道的cut命令的基本用法。