linux下删除一个大文件的前n行

 linux, shell  linux下删除一个大文件的前n行已关闭评论
4月 102020
 

删除一个大文件的前n行。

方法一:

例1:删除首行
$ sed -i ‘1d’ a.txt
例2:删除前100行
$ sed -i ‘1,100d’ a.txt
例3:删除尾行
$ sed -i ‘$d’ a.txt

方法二:(举例:删除了前2行)
1.将第三行开始的内容导入新文件
tail -n +3 old_file > new_file
2.将新文件重命名为老文件
mv new_file old_file
这样就删除了前2行,速度要比sed命令快

linux下sed命令的使用

 linux  linux下sed命令的使用已关闭评论
3月 282016
 

网上找到的一篇介绍sed的文章,分享下:

http://www.cnblogs.com/dong008259/archive/2011/12/07/2279897.html

sed是一个很好的文件处理工具,本身是一个管道命令,主要是以行为单位进行处理,可以将数据行进行替换、删除、新增、选取等特定工作,下面先了解一下sed的用法
sed命令行格式为:
         sed [-nefri] ‘command’ 输入文本        

常用选项:
        -n∶使用安静(silent)模式。在一般 sed 的用法中,所有来自 STDIN的资料一般都会被列出到萤幕上。但如果加上 -n 参数后,则只有经过sed 特殊处理的那一行(或者动作)才会被列出来。
        -e∶直接在指令列模式上进行 sed 的动作编辑;
        -f∶直接将 sed 的动作写在一个档案内, -f filename 则可以执行 filename 内的sed 动作;
        -r∶sed 的动作支援的是延伸型正规表示法的语法。(预设是基础正规表示法语法)
        -i∶直接修改读取的档案内容,而不是由萤幕输出。       

常用命令:
        a   ∶新增, a 的后面可以接字串,而这些字串会在新的一行出现(目前的下一行)~
        c   ∶取代, c 的后面可以接字串,这些字串可以取代 n1,n2 之间的行!
        d   ∶删除,因为是删除啊,所以 d 后面通常不接任何咚咚;
         i   ∶插入, i 的后面可以接字串,而这些字串会在新的一行出现(目前的上一行);
         p  ∶列印,亦即将某个选择的资料印出。通常 p 会与参数 sed -n 一起运作~
         s  ∶取代,可以直接进行取代的工作哩!通常这个 s 的动作可以搭配正规表示法!例如 1,20s/old/new/g 就是啦!

举例:(假设我们有一文件名为ab)
     删除某行
     [[email protected] ruby] # sed ‘1d’ ab              #删除第一行 
     [[email protected] ruby] # sed ‘$d’ ab              #删除最后一行
     [[email protected] ruby] # sed ‘1,2d’ ab           #删除第一行到第二行
     [[email protected] ruby] # sed ‘2,$d’ ab           #删除第二行到最后一行

显示某行
.    [[email protected] ruby] # sed -n ‘1p’ ab           #显示第一行 
     [[email protected] ruby] # sed -n ‘$p’ ab           #显示最后一行
     [[email protected] ruby] # sed -n ‘1,2p’ ab        #显示第一行到第二行
     [[email protected] ruby] # sed -n ‘2,$p’ ab        #显示第二行到最后一行

使用模式进行查询
     [[email protected] ruby] # sed -n ‘/ruby/p’ ab    #查询包括关键字ruby所在所有行
     [[email protected] ruby] # sed -n ‘/\$/p’ ab        #查询包括关键字$所在所有行,使用反斜线\屏蔽特殊含义

增加一行或多行字符串
     [[email protected] ruby]# cat ab
     Hello!
     ruby is me,welcome to my blog.
     end
     [[email protected] ruby] # sed ‘1a drink tea’ ab  #第一行后增加字符串”drink tea”
     Hello!
     drink tea
     ruby is me,welcome to my blog. 
     end
     [[email protected] ruby] # sed ‘1,3a drink tea’ ab #第一行到第三行后增加字符串”drink tea”
     Hello!
     drink tea
     ruby is me,welcome to my blog.
     drink tea
     end
     drink tea
     [[email protected] ruby] # sed ‘1a drink tea\nor coffee’ ab   #第一行后增加多行,使用换行符\n
     Hello!
     drink tea
     or coffee
     ruby is me,welcome to my blog.
     end

代替一行或多行
     [[email protected] ruby] # sed ‘1c Hi’ ab                #第一行代替为Hi
     Hi
     ruby is me,welcome to my blog.
     end
     [[email protected] ruby] # sed ‘1,2c Hi’ ab             #第一行到第二行代替为Hi
     Hi
     end

替换一行中的某部分
格式:sed ‘s/要替换的字符串/新的字符串/g’   (要替换的字符串可以用正则表达式)
     [[email protected] ruby] # sed -n ‘/ruby/p’ ab | sed ‘s/ruby/bird/g’    #替换ruby为bird
  [[email protected] ruby] # sed -n ‘/ruby/p’ ab | sed ‘s/ruby//g’        #删除ruby

     插入
     [[email protected] ruby] # sed -i ‘$a bye’ ab         #在文件ab中最后一行直接输入”bye”
     [[email protected] ruby]# cat ab
     Hello!
     ruby is me,welcome to my blog.
     end
     bye

     删除匹配行

      sed -i ‘/匹配字符串/d’  filename  (注:若匹配字符串是变量,则需要“”,而不是‘’。记得好像是)

      替换匹配行中的某个字符串

      sed -i ‘/匹配字符串/s/替换源字符串/替换目标字符串/g’ filename

11月 102015
 

用s命令替换

我使用下面的这段文本做演示:

1
2
3
4
5
6
7
8
9
$catpets.txt
This is mycat
  mycat’s name is betty
This is my dog
  my dog’s name is frank
This is my fish
  my fish’s name is george
This is my goat
  my goat’s name is adam

把其中的my字符串替换成Hao Chen’s,下面的语句应该很好理解(s表示替换命令,/my/表示匹配my,/Hao Chen’s/表示把匹配替换成Hao Chen’s,/g 表示一行上的替换所有的匹配):

1
2
3
4
5
6
7
8
9
$sed”s/my/Hao Chen’s/g”pets.txt
This is Hao Chen’scat
  Hao Chen’s cat’s name is betty
This is Hao Chen’s dog
  Hao Chen’s dog’s name is frank
This is Hao Chen’s fish
  Hao Chen’s fish’s name is george
This is Hao Chen’s goat
  Hao Chen’s goat’s name is adam

注意:如果你要使用单引号,那么你没办法通过\’这样来转义,就有双引号就可以了,在双引号内可以用\”来转义。

再注意:上面的sed并没有对文件的内容改变,只是把处理过后的内容输出,如果你要写回文件,你可以使用重定向,如:

1
$sed”s/my/Hao Chen’s/g”pets.txt > hao_pets.txt

或使用 -i 参数直接修改文件内容:

1
$sed-i”s/my/Hao Chen’s/g”pets.txt

在每一行最前面加点东西:

1
2
3
4
5
6
7
8
9
$sed’s/^/#/g’pets.txt
#This is my cat
#  my cat’s name is betty
#This is my dog
#  my dog’s name is frank
#This is my fish
#  my fish’s name is george
#This is my goat
#  my goat’s name is adam

在每一行最后面加点东西:

1
2
3
4
5
6
7
8
9
$sed’s/$/ — /g’pets.txt
This is mycat—
  mycat’s name is betty —
This is my dog —
  my dog’s name is frank —
This is my fish —
  my fish’s name is george —
This is my goat —
  my goat’s name is adam —

顺手介绍一下正则表达式的一些最基本的东西:

  • ^ 表示一行的开头。如:/^#/ 以#开头的匹配。
  • $ 表示一行的结尾。如:/}$/ 以}结尾的匹配。
  • \< 表示词首。 如 \<abc 表示以 abc 为首的詞。
  • \> 表示词尾。 如 abc\> 表示以 abc 結尾的詞。
  • . 表示任何单个字符。
  • * 表示某个字符出现了0次或多次。
  • [ ] 字符集合。 如:[abc]表示匹配a或b或c,还有[a-zA-Z]表示匹配所有的26个字符。如果其中有^表示反,如[^a]表示非a的字符

正规则表达式是一些很牛的事,比如我们要去掉某html中的tags:

html.txt

1
<b>This</b> is what <spanstyle=”text-decoration: underline;”>I</span> meant. Understand?

看看我们的sed命令

1
2
3
4
5
6
7
8
# 如果你这样搞的话,就会有问题
$sed’s/<.*>//g’html.txt
 Understand?
 
# 要解决上面的那个问题,就得像下面这样。
# 其中的'[^>]’ 指定了除了>的字符重复0次或多次。
$sed’s/<[^>]*>//g’html.txt
This is what I meant. Understand?

我们再来看看指定需要替换的内容:

1
2
3
4
5
6
7
8
9
$sed”3s/my/your/g”pets.txt
This is mycat
  mycat’s name is betty
This is your dog
  my dog’s name is frank
This is my fish
  my fish’s name is george
This is my goat
  my goat’s name is adam

下面的命令只替换第3到第6行的文本。

1
2
3
4
5
6
7
8
9
$sed”3,6s/my/your/g”pets.txt
This is mycat
  mycat’s name is betty
This is your dog
  your dog’s name is frank
This is your fish
  your fish’s name is george
This is my goat
  my goat’s name is adam

 

1
2
3
4
5
$catmy.txt
This is mycat, mycat’s name is betty
This is my dog, my dog’s name is frank
This is my fish, my fish’s name is george
This is my goat, my goat’s name is adam

只替换每一行的第一个s:

1
2
3
4
5
$sed’s/s/S/1’my.txt
ThiS is mycat, mycat’s name is betty
ThiS is my dog, my dog’s name is frank
ThiS is my fish, my fish’s name is george
ThiS is my goat, my goat’s name is adam

只替换每一行的第二个s:

1
2
3
4
5
$sed’s/s/S/2’my.txt
This iS mycat, mycat’s name is betty
This iS my dog, my dog’s name is frank
This iS my fish, my fish’s name is george
This iS my goat, my goat’s name is adam

只替换第一行的第3个以后的s:

1
2
3
4
5
$sed’s/s/S/3g’my.txt
This is mycat, mycat’S name iS betty
This is my dog, my dog’S name iS frank
This is my fiSh, my fiSh’S name iS george
This is my goat, my goat’S name iS adam

多个匹配

如果我们需要一次替换多个模式,可参看下面的示例:(第一个模式把第一行到第三行的my替换成your,第二个则把第3行以后的This替换成了That)

1
2
3
4
5
$sed’1,3s/my/your/g; 3,$s/This/That/g’my.txt
This is yourcat, yourcat’s name is betty
This is your dog, your dog’s name is frank
That is your fish, your fish’s name is george
That is my goat, my goat’s name is adam

上面的命令等价于:(注:下面使用的是sed的-e命令行参数)

1
sed-e’1,3s/my/your/g’-e’3,$s/This/That/g’my.txt

我们可以使用&来当做被匹配的变量,然后可以在基本左右加点东西。如下所示:

1
2
3
4
5
$sed’s/my/[&]/g’my.txt
This is [my]cat, [my]cat’s name is betty
This is [my] dog, [my] dog’s name is frank
This is [my] fish, [my] fish’s name is george
This is [my] goat, [my] goat’s name is adam

圆括号匹配

使用圆括号匹配的示例:(圆括号括起来的正则表达式所匹配的字符串会可以当成变量来使用,sed中使用的是\1,\2…)

1
2
3
4
5
$sed’s/This is my \([^,]*\),.*is \(.*\)/\1:\2/g’my.txt
cat:betty
dog:frank
fish:george
goat:adam

上面这个例子中的正则表达式有点复杂,解开如下(去掉转义字符):

正则为:This is my ([^,]*),.*is (.*)
匹配为:This is my (cat),……….is (betty)

然后:\1就是cat,\2就是betty

sed的命令

让我们回到最一开始的例子pets.txt,让我们来看几个命令:

N命令

先来看N命令 —— 把下一行的内容纳入当成缓冲区做匹配。

下面的的示例会把原文本中的偶数行纳入奇数行匹配,而s只匹配并替换一次,所以,就成了下面的结果:

1
2
3
4
5
6
7
8
9
$sed’N;s/my/your/’pets.txt
This is yourcat
  mycat’s name is betty
This is your dog
  my dog’s name is frank
This is your fish
  my fish’s name is george
This is your goat
  my goat’s name is adam

也就是说,原来的文件成了:

1
2
3
4
This is mycat\n  mycat’s name is betty
This is my dog\n  my dog’s name is frank
This is my fish\n  my fish’s name is george
This is my goat\n  my goat’s name is adam

这样一来,下面的例子你就明白了,

1
2
3
4
5
$sed’N;s/\n/,/’pets.txt
This is mycat,  mycat’s name is betty
This is my dog,  my dog’s name is frank
This is my fish,  my fish’s name is george
This is my goat,  my goat’s name is adam

a命令和i命令

a命令就是append, i命令就是insert,它们是用来添加行的。如:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
# 其中的1i表明,其要在第1行前插入一行(insert)
$sed”1 i This is my monkey, my monkey’s name is wukong”my.txt
This is my monkey, my monkey’s name is wukong
This is mycat, mycat’s name is betty
This is my dog, my dog’s name is frank
This is my fish, my fish’s name is george
This is my goat, my goat’s name is adam
 
# 其中的1a表明,其要在最后一行后追加一行(append)
$sed”$ a This is my monkey, my monkey’s name is wukong”my.txt
This is mycat, mycat’s name is betty
This is my monkey, my monkey’s name is wukong
This is my dog, my dog’s name is frank
This is my fish, my fish’s name is george
This is my goat, my goat’s name is adam

我们可以运用匹配来添加文本:

1
2
3
4
5
6
7
# 注意其中的/fish/a,这意思是匹配到/fish/后就追加一行
$sed”/fish/a This is my monkey, my monkey’s name is wukong”my.txt
This is mycat, mycat’s name is betty
This is my dog, my dog’s name is frank
This is my fish, my fish’s name is george
This is my monkey, my monkey’s name is wukong
This is my goat, my goat’s name is adam

下面这个例子是对每一行都挺插入:

1
2
3
4
5
6
7
8
9
$sed”/my/a —-“my.txt
This is mycat, mycat’s name is betty
—-
This is my dog, my dog’s name is frank
—-
This is my fish, my fish’s name is george
—-
This is my goat, my goat’s name is adam
—-

c命令

c 命令是替换匹配行

1
2
3
4
5
6
7
8
9
10
11
$sed”2 c This is my monkey, my monkey’s name is wukong”my.txt
This is mycat, mycat’s name is betty
This is my monkey, my monkey’s name is wukong
This is my fish, my fish’s name is george
This is my goat, my goat’s name is adam
 
$sed”/fish/c This is my monkey, my monkey’s name is wukong”my.txt
This is mycat, mycat’s name is betty
This is my dog, my dog’s name is frank
This is my monkey, my monkey’s name is wukong
This is my goat, my goat’s name is adam

d命令

删除匹配行

1
2
3
4
5
6
7
8
9
10
11
12
$sed’/fish/d’my.txt
This is mycat, mycat’s name is betty
This is my dog, my dog’s name is frank
This is my goat, my goat’s name is adam
 
$sed’2d’my.txt
This is mycat, mycat’s name is betty
This is my fish, my fish’s name is george
This is my goat, my goat’s name is adam
 
$sed’2,$d’my.txt
This is mycat, mycat’s name is betty

p命令

打印命令

你可以把这个命令当成grep式的命令

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
# 匹配fish并输出,可以看到fish的那一行被打了两遍,
# 这是因为sed处理时会把处理的信息输出
$sed’/fish/p’my.txt
This is mycat, mycat’s name is betty
This is my dog, my dog’s name is frank
This is my fish, my fish’s name is george
This is my fish, my fish’s name is george
This is my goat, my goat’s name is adam
 
# 使用n参数就好了
$sed-n’/fish/p’my.txt
This is my fish, my fish’s name is george
 
# 从一个模式到另一个模式
$sed-n’/dog/,/fish/p’my.txt
This is my dog, my dog’s name is frank
This is my fish, my fish’s name is george
 
#从第一行打印到匹配fish成功的那一行
$sed-n’1,/fish/p’my.txt
This is mycat, mycat’s name is betty
This is my dog, my dog’s name is frank
This is my fish, my fish’s name is george

几个知识点

好了,下面我们要介绍四个sed的基本知识点:

Pattern Space

第零个是关于-n参数的,大家也许没看懂,没关系,我们来看一下sed处理文本的伪代码,并了解一下Pattern Space的概念:

1
2
3
4
5
6
7
8
9
10
11
12
foreach line in file {
    //放入把行Pattern_Space
    Pattern_Space <= line;
 
    // 对每个pattern space执行sed命令
    Pattern_Space <= EXEC(sed_cmd, Pattern_Space);
 
    // 如果没有指定 -n 则输出处理后的Pattern_Space
    if(sed option hasn’t”-n”)  {
       print Pattern_Space
    }
}

Address

第一个是关于address,几乎上述所有的命令都是这样的(注:其中的!表示匹配成功后是否执行命令)

[address[,address]][!]{cmd}

address可以是一个数字,也可以是一个模式,你可以通过逗号要分隔两个address 表示两个address的区间,参执行命令cmd,伪代码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
boolbexec =false
foreach line in file {
    if( match(address1) ){
        bexec =true;
    }
 
    if( bexec ==true) {
        EXEC(sed_cmd);
    }
 
    if( match (address2) ) {
        bexec =false;
    }
}

关于address可以使用相对位置,如:

1
2
3
4
5
6
7
8
9
10
# 其中的+3表示后面连续3行
$sed’/dog/,+3s/^/# /g’pets.txt
This is mycat
  mycat’s name is betty
# This is my dog
#   my dog’s name is frank
# This is my fish
#   my fish’s name is george
This is my goat
  my goat’s name is adam

命令打包

第二个是cmd可以是多个,它们可以用分号分开,可以用大括号括起来作为嵌套命令。下面是几个例子:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
$catpets.txt
This is mycat
  mycat’s name is betty
This is my dog
  my dog’s name is frank
This is my fish
  my fish’s name is george
This is my goat
  my goat’s name is adam
 
# 对3行到第6行,执行命令/This/d
$sed’3,6 {/This/d}’pets.txt
This is mycat
  mycat’s name is betty
  my dog’s name is frank
  my fish’s name is george
This is my goat
  my goat’s name is adam
 
# 对3行到第6行,匹配/This/成功后,再匹配/fish/,成功后执行d命令
$sed’3,6 {/This/{/fish/d}}’pets.txt
This is mycat
  mycat’s name is betty
This is my dog
  my dog’s name is frank
  my fish’s name is george
This is my goat
  my goat’s name is adam
 
# 从第一行到最后一行,如果匹配到This,则删除之;如果前面有空格,则去除空格
$sed’1,${/This/d;s/^ *//g}’pets.txt
mycat’s name is betty
my dog’s name is frank
my fish’s name is george
my goat’s name is adam

Hold Space

第三个我们再来看一下 Hold Space

接下来,我们需要了解一下Hold Space的概念,我们先来看四个命令:

g: 将hold space中的内容拷贝到pattern space中,原来pattern space里的内容清除
G: 将hold space中的内容append到pattern space\n后
h: 将pattern space中的内容拷贝到hold space中,原来的hold space里的内容被清除
H: 将pattern space中的内容append到hold space\n后
x: 交换pattern space和hold space的内容

这些命令有什么用?我们来看两个示例吧,用到的示例文件是:

1
2
3
4
$catt.txt
one
two
three

第一个示例:

1
2
3
4
5
6
7
8
9
$sed’H;g’t.txt
one
 
one
two
 
one
two
three

是不是有点没看懂,我作个图你就看懂了。

第二个示例,反序了一个文件的行:

1
2
3
4
$sed’1!G;h;$!d’t.txt
three
two
one

其中的 ‘1!G;h;$!d’ 可拆解为三个命令

  • 1!G —— 只有第一行不执行G命令,将hold space中的内容append回到pattern space
  • h —— 第一行都执行h命令,将pattern space中的内容拷贝到hold space中
  • $!d —— 除了最后一行不执行d命令,其它行都执行d命令,删除当前行

这个执行序列很难理解,做个图如下大家就明白了:

转自:http://coolshell.cn/articles/9104.html

详细sed手册见:http://www.gnu.org/software/sed/manual/sed.html

3月 112015
 

1 你想过sed为什么叫sed么?

sed是stream editor的缩写,sed就是一个流编辑器,说白了,就是我们往sed里输入一串信息,它给我们处理,然后输出来。就这么简单。

sed和cut类似,是一个面向行处理的工具,它以“行”为处理单位,处理后的结果会输出到标准输出。所以说其实sed命令很安全的,它不会对行本身所在文件做任何修改的。

sed的命令格式是:sed command file

其中,command部分是针对每行数据所做的处理(这部分很重要很重要,接着看,你会知道的),file是要处理的文件,如果忽略file参数,则sed会把标准输入作为处理对象。

2 sed的工作原理是什么?

sed会一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有改变,除非你使用重定向存储输出。

3 给个最最简单的sed命令的例子吧!让我先有个感性认识,呵呵。

[[email protected] programming]$ cat roc.txt
test 1
test2
testtest
XtestX
BBtest
[[email protected] programming]$ sed ‘/2/d’ roc.txt
test 1
testtest
XtestX
BBtest
此例子是利用sed来删除roc.txt文件里含有字符“2”的行。大家看到了,例子很简单,这个命令的command部分是/2/d,而且它是用单引号括起来的。你也一定要学着这样做,只要用到sed,别忘了用单引号将command部分括起来。

/2/d中的d表示删除,意思就是说只要某行含有字符2,则删除之。(你一定没忘记,sed所谓的删除都是在模式空间中执行的,而原文件roc.txt毫发无损)

4 想实现类似于cut -d : -f 1 /etc/passwd的效果,用sed怎么做呢?

[[email protected] programming]$ head -n 5 /etc/passwd
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin

[[email protected] programming]$ head -n 5 /etc/passwd|sed ‘s/:.*$//’
root
bin
daemon
adm
lp

5 sed中有选项么?有没有什么比较常用的?

sed最主要的就是command部分,把这部分玩转了,你就已经很厉害了,而玩转这部分的前提是玩转正则表达式。尽管如此,sed的选项部分的-n选项仍然是非常重要,理解了它,对于你提高sed水平也是至关重要。

前面提到,sed会将模式空间里的行经过处理后输出到标准输出,这是默认的处理方式。就是说,除非你使用d命令来删除此行,否则它无论变成什么样子,无论它被替换成什么形状,它都会多多少少被输出到屏幕上。前面的例子可以证明这一切。你不信?给你个最能说明问题的例子:

[[email protected] programming]$ cat roc.txt
1
2
3
4
5
[[email protected] programming]$ sed ‘/4/p’ roc.txt
1
2
3
4
4
5

看,除了所有的原始内容都被输出来了,而且含有字符4的行被重复输出了一遍。这就是sed的工作原理,它会不问青红皂白的先把原始行输出来,然后再执行后面的动作,在这里我们设定了p,表示打印此行。这种输出结果不是我们想要的,我们其实想要的是只输出含有4的行。

这时,如果你使用了-n选项,你会发现,结果如你所愿了:

[[email protected] programming]$ sed -n ‘/4/p’ roc.txt
4

选项-n告诉sed,除非是明确表明要输出的行,否则不要给我胡乱输出。(这回你知道-n的厉害了吧^_^)

-n一般会和-p配合使用,意思是说输出那些发生变化的行。

6 command部分感觉很复杂,能给稍微总结一下么?

command部分是这样,可以分为两部分,一部分是确定范围部分,一部分是处理方式部分。

确定范围部分可以分为两种方式:

1 指定行数:例如3,5表示第3、第4和第5行;5,$表示第5行至最后一行;

2 用模式匹配进行指定:例如/^[^dD]/表示匹配行首不是以d或D开头的行等等。

处理方式部分呢,有很多命令可用,介绍几个最常用的吧:

d:表示删除行

p:打印该行

r:读取指定文件的内容

w:写入指定文件

a:在下面插入新行新内容

7 再举几个例子吧,给点经典的sed应用。

例一 显示test文件的第10到20行:sed -n ‘10,20p’ test

例二 将所有以d或D开头的行的所有小写x变为大写X:sed ‘/^[dD]/s/x/X/g’ test

例三 删除每行最后的两个字符:sed ‘s/..$//’ test

(有人会问用sed ‘/..$/d’ test为什么不行? 这是因为/..$/表示匹配所有末尾含有两个字符的行,然后删除这样的行,显然这是错误的)

例四 删除每一行的前两个字符:sed ‘s/..//’ test

例五 给某些字符串后面插入些内容

[[email protected] programming]$ cat mysed.txt
Beijing
London[[email protected] programming]$ sed ‘s/B.*/&2008/’ mysed.txt
Beijing2008
London

这个命令的作用是将包含’B.*’的地方后面加上2008四个字符。这个命令里用到了&字符,这是一个技巧,高手和菜鸟比,这些技巧很重要哦。&表示“被匹配的部分”,在这里就是’Beijing’喽!

例六 将行的第一个Beijing后加上2008,在最后一个Beijing后加上2008

[[email protected] programming]$ cat mysed.txt
Beijing Beijing Beijing Beijing
London London London London
[[email protected] programming]$ sed ‘s/(Beijing)(.*)(Beijing)/12008232008/’ mysed.txt
Beijing2008 Beijing Beijing Beijing2008
London London London London

这个命令稍显复杂,其中用到了一个技巧,就是预存储,即被(和)括起来的匹配内容会被按顺序存储起来,存储到1、2…里面。这样你就可以使用加数字来调用这些内容了。这个例子就是使用了这个技巧,分别存储了三个内容,分别为匹配Beijing、匹配.*和匹配Beijing。

你可能会问,我如果想在第一个t前加上M,在第二个t前加上N,怎么做呢?

这个就需要使用正则表达式的非贪婪算法了,一般是在?、+、*、{n}、{m,}、{m,n}的后面紧跟一个?,就会使匹配从贪婪算法变成非贪婪算 法,但是遗憾的是,sed并不支持这种非贪婪算法,所以我们无法使用sed实现这种想法,只能另寻其他工具了。这也算是sed的一个遗留问题吧。

例七 可以用模式来定位行范围

[[email protected] programming]$ cat mysed.txt
Beijing 2003
Beijing 2004
Beijing 2005
Beijing 2006
Beijing 2007
Beijing 2008
Beijing 2007
[[email protected] programming]$ sed -n ‘/2005/,/2007/p’ mysed.txt
Beijing 2005
Beijing 2006
Beijing 2007

我们使用/2005/来匹配行范围的首行,用/2008/来匹配行范围的最尾行。可以看到,在匹配尾行时,只要遇到符合要求的行,即停止,不会再继续向后匹配了。(只是匹配到第一个2007,并没有匹配到第二个2007)

例八 用-e选项来设置多个command

还记得command部分吧,现在我告诉你,sed命令可以包含不只一个的command,但是当包含超过一个的command的时候,必须在每个command前面加上选项-e。

[[email protected] programming]$ sed -n -e ‘1,2p’ -e ‘4p’ mysed.txt
Beijing 2003
Beijing 2004
Beijing 2006
虽然这个例子看似是为了使用-e而使用-e,但是-e在有些时候是很有用的。相信我,呵呵:)

记住,-e后面必须立即接command,不允许再夹杂其他的选项了。

例九 可以使用-f来设定包含command的文件名称

如果你的command很长,那么可以将其写在文件里,然后使用-f来设定这个文件作为command部分:

[[email protected] programming]$ cat callsed
/2004/,/2006/p
[[email protected] programming]$ sed -n -f callsed mysed.txt
Beijing 2004
Beijing 2005
Beijing 2006
两个命令就讲清楚了-f的用法。相信你能看懂

例十 如果设定了很多-e的command,它们的执行顺序是怎样的呢?

[[email protected] programming]$ cat mysed.txt
Beijing 2003
Beijing 2004
Beijing 2005
Beijing 2006Beijing 2007
Beijing 2008
[[email protected] programming]$ sed -e ‘s/Beijing/London/g’ -e ‘/Beijing/d’ mysed.txt
London 2003
London 2004
London 2005
London 2006
London 2007
London 2008

后一个-e中包含了删除Beijing所在行,但是最后的结果却是所有行都输出了,其实这就是由执行顺序导致的,第一个-e已经将Beijing都替换成了London了,所以怪不得第二个-e找不到Beijing了。

例十一 读取一个特定文件的内容,将其插入到本文件指定的地方:

[[email protected] programming]$ cat ins.txt
====China====
[[email protected] programming]$ cat mysed.txt
Beijing 2003
Beijing 2004
Beijing 2005
Beijing 2006
Beijing 2007
Beijing 2008
[[email protected] programming]$ sed ‘/2005/r ins.txt’ mysed.txt
Beijing 2003
Beijing 2004
Beijing 2005
====China====
Beijing 2006
Beijing 2007
Beijing 2008

此命令用于在含有2005的行下面插入ins.txt文件的内容。

例十二 将某些指定行写入到特定文件中

[[email protected] programming]$ sed ‘/200[4-6]/w new.txt’ mysed.txt
Beijing 2003
Beijing 2004
Beijing 2005
Beijing 2006
Beijing 2007
Beijing 2008
[[email protected] programming]$ cat new.txt
Beijing 2004
Beijing 2005
Beijing 2006

看,w new.txt表示将含有2004、2005、2006的行写入到new.txt文件中。

例十三 使用a在特定行“下面”插入特定内容

[[email protected] programming]$ cat new.txt
Beijing 2004
Beijing 2005
Beijing 2006
[[email protected] programming]$ sed ‘/2004/aChina’ mysed.txt
Beijing 2003
Beijing 2004
China
Beijing 2005
Beijing 2006
Beijing 2007
Beijing 2008

使用a然后加上需要加的内容即可。

例十四 使用i在特定行“上面”插入特定内容

[[email protected] programming]$ sed ‘/2004/iChina’ mysed.txt
Beijing 2003
China
Beijing 2004
Beijing 2005
Beijing 2006
Beijing 2007
Beijing 2008

例十五 替换特定字符

[[email protected] programming]$ cat mysed.txt
Beijing 2003
Beijing 2004
Beijing 2005
Beijing 2006
Beijing 2007
Beijing 2008
[[email protected] programming]$ sed ‘y/eijng/EIJNG/’ mysed.txt
BEIJING 2003
BEIJING 2004
BEIJING 2005
BEIJING 2006
BEIJING 2007
BEIJING 2008

使用了y就表示将第一栏的每个字符都替换为相对应的第二栏的字符。

例十六 对匹配行的下一行进行处理

[[email protected] programming]$ cat mysed.txt
Beijing 2003
Beijing 2004
Beijing 2005
Beijing 2006
Beijing 2007
Beijing 2008
[[email protected] programming]$ sed ‘/2004/{n;y/eijng/EIJNG/;}’ mysed.txt
Beijing 2003
Beijing 2004
BEIJING 2005
Beijing 2006
Beijing 2007
Beijing 2008

这个例子就是找含有2004的行,然后将它下面的一行中的eijng替换为大写的EIJNG。这里面的“n;”起到了“移至下一行”的作用。n背后的含义其实是将下一行放到模式空间中去。

[[email protected] programming]$ cat mysed.txt
Beijing 2003
Beijing 2004
Beijing 2005
Beijing 2006
Beijing 2007
Beijing 2008
[[email protected] programming]$ sed ‘/200/{n;y/eijng/EIJNG/;}’ mysed.txt
Beijing 2003
BEIJING 2004
Beijing 2005
BEIJING 2006
Beijing 2007
BEIJING 2008

这个例子更加典型,你可以发现,BEIJING是隔行出现的。你知道为什么么?不说答案了,相信你能自己思考出来!

转自:http://roclinux.cn/?p=1363