角色很难用SED代替



(以下我无法粘贴我所看到的字符,BB将意味着一个字符是一个正方形,带有数字0080

我使用的是带有ISO-8859-15编码的字幕文件,该文件具有âBB,而不是,而不是在文本编辑器中看到。

如果我使用 cat读取文件,则仪表板出现正常,但是如果我使用该文件,则它将在视频字幕上显示 —

我尝试使用SED替换,没有成功:

sed 's/âBB/–/g' thisfile > correctedfile
sed 's/—/–/g' thisfile > correctedfile

我首先在命令行中尝试过它,而编号的框未能显示,然后我尝试了一个脚本。

我什至尝试用

作弊
sed 's/â../–/g' thisfile > correctedfile

并且它不起作用。

catsed将其完美地视为 - ,所以我尝试了

sed 's/–/–/g' thisfile > correctedfile

,但也没有用。

然后我尝试了 recode iso885915..utf8 thisfile和vice-vice-vice-nothing。

如果我在kate中进行定期查找并替换,则可以修复它。但是由于其他文件中存在问题,因此我想使用命令行中的for; do; done循环解决,但是我需要知道如何修复其中一个。

为什么这些解决方案不起作用,我缺少什么以及如何使其起作用?

我认为您要寻找的sed命令是:

sed 's/xE2x80x94/-/g' thisfile

xe2 x80 x94是我认为是有问题的字符序列的十六进制。(仅供参考,它是Charem 2014的UTF-8代码,一件长段)。这是尝试将特殊字符直接投入SED命令的优选。

如果这不起作用,请使用HexDump确切找出犯罪字节是什么。

hexdump -C thisfile

相关内容

  • 没有找到相关文章

最新更新