通过XML文件中的ID列表进行键入脚本,然后将名称打印到Shell或Output File



我希望通过与XML文件中的ID号匹配的ID列表进行迭代第三,输出文件(output.txt)

这是分解:

id_list.txt(此示例缩短 - 它具有100个IDS)

4414
4561
2132
999
1231
34
489
3213
7941

xml_example.txt(成千上万的条目)

<book>
  <ID>4414</ID>
  <name>Name of first book</name>
</book>
<book>
  <ID>4561</ID>
  <name>Name of second book</name>
</book>

我希望脚本的输出是第一个文件中100个ID的名称:

Name of first book
Name of second book
etc

我相信可以使用for loop的bash和awk进行此操作(对于文件1中的每个循环,在文件2中找到相应的名称)。我认为您可以重复进行ID编号的GREP,然后使用尴尬打印在其下方的行。即使输出看起来像这样,我也可以在以下内容之后删除XML标签:

<name>Name of first book</name>
<name>Name of second book</name>

它在Linux服务器上,但我可以将其移植到Windows上的PowerShell。我认为Bash/Grep和Awk是必经之路。

有人可以帮助我脚本吗?

给定ID,您可以使用XPath Xpressions和xmllint命令获得名称,例如:

id=4414
name=$(xmllint --xpath "string(//book[ID[text()='$id']]/name)" books.xml)

因此,您可以写出类似的内容:

while read id; do
    name=$(xmllint --xpath "string(//book[ID[text()='$id']]/name)" books.xml)
    echo "$name"
done < id_list.txt

与涉及awkgrep和朋友的解决方案不同,这正在使用实际的XML解析工具。这意味着大多数其他解决方案如果遇到的解决方案可能会破裂:

<book><ID>4561</ID><name>Name of second book</name></book>

...这会很好。

xmllintlibxml2软件包的一部分,大多数都可以使用发行。

还请注意,最近版本的AWK具有本地XML解析。

这是一种方法:

while IFS= read -r id
do
    grep -A1 "<ID>$id</ID>" XML_example.txt | grep "<name>"
done < ID_list.txt

这是另一种方式(单线)。这更有效,因为它使用单个GREP提取所有ID而不是循环:

egrep -A1 $(sed -e 's/^/<ID>/g' -e 's/$/</ID>/g' ID_list.txt | sed -e :a -e '$!N;s/n/|/;ta' ) XML_example.txt | grep "<name>"

输出:

<name>Name of first book</name>
<name>Name of second book</name>
$ awk '
NR==FNR{ ids["<ID>" $0 "</ID>"]; next }
found { gsub(/^.*<name>|<[/]name>.*$/,""); print; found=0 }
$1 in ids { found=1 }
' ID_list.txt XML_example.txt
Name of first book
Name of second book

如果我必须在bash

中进行BASH_REMATCH路线
 BASH_REMATCH
          An  array  variable  whose members are assigned by the =~ binary
          operator to the [[ conditional command.  The element with  index
          0  is  the  portion  of  the  string matching the entire regular
          expression.  The element with index n  is  the  portion  of  the
          string matching the nth parenthesized subexpression.  This vari‐
          able is read-only.

所以下面的东西

#!/bin/bash
while read -r line; do
  [[ $print ]] && [[ $line =~ "<name>"(.*)"</name>" ]] && echo "${BASH_REMATCH[1]}"
  if [[ $line == "<ID>"*"</ID>" ]]; then
    print=:
  else
    print=
  fi
done < "ID_list.txt"

示例输出

> abovescript
Name of first book
Name of second book

相关内容

  • 没有找到相关文章