更改标记之间的文本-shell脚本



我有一个jsp文件,如下所示:

<font color="#121212">
<br>
Text 1 
<br>
Text 2
<br>
</font>

有人知道我可以在shell脚本中调用一个快速sed/awk命令来用预定义的变量替换"文本1"one_answers"文本2"吗?文本1/2只是这个问题的占位符,这些<br>标签之间的空间可以填充任何内容。

更新:更改标签以允许python中的建议。

如果您有一些分隔符,可以在替换文本块之间使用,例如换行符:

$ awk -v text="foo
bar" '
    BEGIN {
        split(text,t,/n/)
    }
    /<br>/ {
        if (++c in t) {
            print $0 ORS t[c]
            f = 1
        }
        else {
            f = 0
        }
    }
    !f
' file
<font color="#121212">
<br>
foo
<br>
bar
<br>
</font>

否则:

$ awk -v text1="foo" -v text2="bar" '
    BEGIN {
        t[++n]=text1
        t[++n]=text2
    }
    /<br>/ {
        if (++c in t) {
            print $0 ORS t[c]
            f = 1
        }
        else {
            f = 0
        }
    }
    !f
' file
<font color="#121212">
<br>
foo
<br>
bar
<br>
</font>

请注意,如果将来需要替换的<br>之间有更多的文本,则可以在-v/BEGIN部分中添加任意数量的替换文本块,并且代码的其余部分不会更改-它只替换数组t中填充的任意数量的块。

我看到一些使用getline发布的答案。请确保阅读并完全理解中描述的所有getline注意事项http://awk.info/?tip/getline如果你正在考虑使用它。IMHO这个问题不是使用getline解决方案的好候选者。

试试这个awk命令:

awk '/<font /{intag=1}
     /</font>/{intag=0 ;br=0}
     intag==1 && /<br>/{br++}
     {print}
     br==1{print "Foo"; getline}
     br==2{print "Bar"; getline}' file

此命令将用Foo替换第一个<br>之后的行,用Bar替换第二个<br>之后的行。

sed无法处理多行输入。它一行一行地读。

所以这里有一个技巧,但它需要一个分隔符,你知道它永远不会存在于"文本1"或"文本2"(我使用了µ)中

cat file | tr 'n' 'µ' | sed -e 's/<br>µ[^µ]*µ<br>µ[^µ]*µ<br>/<br>µYOUR TEXT 1µ<br>µYOUR TEXT 2µ<br>/g' | tr 'µ' 'n'

我仍然建议使用另一种语言和Ruby这样的XML解析器。但这是用贝壳和锥子做这件事的一种方法。

#!/bin/sh
FILE=temp.txt
TEXT1="Some things that may include characters not possible with sed."
TEXT2="Some things that may include characters not possible with sed."
awk -v text1="$TEXT1" -v text2="$TEXT2" -- '
    {
        print
        if (/^[[:blank:]]*<font .*>[[:blank:]]*$/) {
            while (getline) {
                print
                if (/^[[:blank:]]*<br>[[:blank:]]*$/) {
                    print text1
                    while (getline) {
                        if (/^[[:blank:]]*<br>[[:blank:]]*$/) {
                            print
                            print text2
                            while (getline) {
                                if (/^[[:blank:]]*(<br>|</font>)[[:blank:]]*$/) {
                                    print
                                    while (getline) {
                                        print
                                    }
                                }
                            }
                        }
                    }
                }
            }
        }
    }
' < "$FILE"

如果您希望更严格,可以删除[[:blank:]]*的所有实例。

最新更新