在一个脚本中连接WGET和SED命令



i使用3个命令(wget/sed/and tr/stort),它们都在命令行中起作用,以产生最常见的单词列表。我依次使用命令,将输出保存在tr/stort命令中。现在,我需要毕业以编写结合这3个命令的脚本。因此,1)wget下载一个文件,我将文件放入2)sed -e 's/<[^>]*>//g' wget-file.txt,然后输出>转到3)

cat sed-output.txt | tr -cs A-Za-z'  'n' | tr A-Z  a-z | sort | uniq -c | 
sort -k1,1nr -k2 | sed ${1:-100}q > words-list.txt

我知道有关使用Regex删除HTML标签的问题/辩论,但是目前这3个命令对我有用。因此,感谢帮助将其合在一起。

使用尴尬。

wget -O- http://down.load/file| awk '{ gsub(/<[^>]*>/,"")                # remove the content in label <>
       $0=tolower($0)                    # convert all to lowercase
       gsub(/[^a-z]]*/," ")              # remove all non-letter chars and replaced by space
       for (i=1;i<=NF;i++) a[$i]++       # save each word in array a, and sum it.
     }END{for (i in a) print a[i],i|"sort -nr|head -100"}'   # print the result, sort it, and get the top 100 records only

此命令应完成工作:

wget -O- http://down.load/file | sed -e 's/<[^>]*>//g' | 
tr -cs A-Za-z'  'n' | tr A-Z  a-z | sort | uniq -c | 
sort -k1,1nr -k2 | sed ${1:-100}q > words-list.txt

相关内容

  • 没有找到相关文章

最新更新