角色很难用SED代替

（以下我无法粘贴我所看到的字符，BB将意味着一个字符是一个正方形，带有数字0080

我使用的是带有ISO-8859-15编码的字幕文件，该文件具有âBB，而不是–，而不是在文本编辑器中看到。

如果我使用 cat读取文件，则仪表板出现正常，但是如果我使用该文件，则它将在视频字幕上显示 â€”。

我尝试使用SED替换，没有成功：

sed 's/âBB/–/g' thisfile > correctedfile
sed 's/â€”/–/g' thisfile > correctedfile

我首先在命令行中尝试过它，而编号的框未能显示，然后我尝试了一个脚本。

我什至尝试用

作弊

sed 's/â../–/g' thisfile > correctedfile

并且它不起作用。

cat和 sed将其完美地视为 - ，所以我尝试了

sed 's/–/–/g' thisfile > correctedfile

，但也没有用。

然后我尝试了 recode iso885915..utf8 thisfile和vice-vice-vice-nothing。

如果我在kate中进行定期查找并替换，则可以修复它。但是由于其他文件中存在问题，因此我想使用命令行中的for; do; done循环解决，但是我需要知道如何修复其中一个。

为什么这些解决方案不起作用，我缺少什么以及如何使其起作用？

我认为您要寻找的sed命令是：

sed 's/xE2x80x94/-/g' thisfile

xe2 x80 x94是我认为是有问题的字符序列的十六进制。（仅供参考，它是Charem 2014的UTF-8代码，一件长段）。这是尝试将特殊字符直接投入SED命令的优选。

如果这不起作用，请使用HexDump确切找出犯罪字节是什么。

hexdump -C thisfile

相关内容