(以下我无法粘贴我所看到的字符,BB
将意味着一个字符是一个正方形,带有数字0080
我使用的是带有ISO-8859-15编码的字幕文件,该文件具有âBB
,而不是–
,而不是在文本编辑器中看到。
如果我使用 cat
读取文件,则仪表板出现正常,但是如果我使用该文件,则它将在视频字幕上显示 —
。
我尝试使用SED替换,没有成功:
sed 's/âBB/–/g' thisfile > correctedfile
sed 's/—/–/g' thisfile > correctedfile
我首先在命令行中尝试过它,而编号的框未能显示,然后我尝试了一个脚本。
我什至尝试用
作弊sed 's/â../–/g' thisfile > correctedfile
并且它不起作用。
cat
和 sed
将其完美地视为 - ,所以我尝试了
sed 's/–/–/g' thisfile > correctedfile
,但也没有用。
然后我尝试了 recode iso885915..utf8 thisfile
和vice-vice-vice-nothing。
如果我在kate
中进行定期查找并替换,则可以修复它。但是由于其他文件中存在问题,因此我想使用命令行中的for; do; done
循环解决,但是我需要知道如何修复其中一个。
为什么这些解决方案不起作用,我缺少什么以及如何使其起作用?
我认为您要寻找的sed命令是:
sed 's/xE2x80x94/-/g' thisfile
xe2 x80 x94是我认为是有问题的字符序列的十六进制。(仅供参考,它是Charem 2014的UTF-8代码,一件长段)。这是尝试将特殊字符直接投入SED命令的优选。
如果这不起作用,请使用HexDump确切找出犯罪字节是什么。
hexdump -C thisfile