Linux命令之大文件分割

我们有时候会遇到大文件需要处理，当文件过大时，Linux中使用vim、cat、vim、grep、awk 等这些工具对大文件进行分析执行速度缓慢，占用内存资源大，文件传输慢；

这里有一个原始文件，sourcelist.xlsx ，比较大了，5G多，光是用wc -l统计行数，就花费了3分钟；

Linux命令之大文件分割

linux命令 split提供两种方式（按照行切割，按照大小切割，见后面第1和第2步骤）对文件进行切割：

1、根据行数切割，-l参数，以下命令是50w行一个文件， --verbose表示显示执行的详细过程，sourcelist.xlsx原文件名，

split -l 500000 -d --verbose sourcelist.xlsx target.xlsx

Linux命令之大文件分割

生成后的文件名有一点问题，我们本来需要的是*.xlsx文件后缀，现在都新增了一个序号在后面，处理一下：

for i in `ls|grep target`; do a=`echo $i|awk -F '.xlsx' '{print $1$2".xlsx"}'`; mv $i $a; done

Linux命令之大文件分割

wc -l target11.xlsx ，wc -l target12.xlsx （注意：这里是我重命名文件后缀格式以后，再来统计行数得）

Linux命令之大文件分割

切割以后的文件大小不一样，但是每个文件得行数都是一样得：

Linux命令之大文件分割

2、根据大小切割，-b（不推荐这种方式，如果linux强行按照大小去分割文件，那么可能会破坏原始数据的格式完整性，比如刚好在某一行数据中间，前后就被分割到了相邻的两个文件中）

split -b 60M -d --verbose sourcelist.xlsx target.xlsx

Linux命令之大文件分割

3、合并文件的方式：

cat 命令

cat target00.xlsx target01.xlsx > targetmerge.xlsx，合并后的targetmerge.xlsx大小 120mb，合理：

Linux命令之大文件分割

备注：在上面第1步，split -l 500000 -d --verbose sourcelist.xlsx target.xlsx命令生成新文件，关于格式后缀的问题，

其实可以先生成得时候不加后缀，： split -l 500000 -d --verbose sourcelist.xlsx target

Linux命令之大文件分割

find ./ -name 'target*' -printf %f\\n|awk -F'.' '{print $1}'|xargs -i{} mv {} {}.xlsx

Linux命令之大文件分割