我正在通过条带化和替换所有HTML标记将HTML文档转换为纯文本,并成功地做到了这一点。但我遇到了这种情况,需要处理上标。我有这个HTML代码:
11500m²
(假设上面显示了sup标签,但我不知道如何在这里显示它们(我需要把它转换成纯文本,这样它就会变成11500m²。我怎么能这么做?提前谢谢。
因为ASCII中只有几个上标数字。
// replace all ... things to a power of 1
str_replace("<sup>1</sup>", "¹", $html)
// replace all squares
str_replace("<sup>2</sup>", "²", $html)
// replace all cubes
str_replace("<sup>3</sup>", "³", $html)
// for everything else use ^ notation
str_replace("<sup>", "^", $html)
// remove leftover closing sup tags
str_replace("</sup>", "", $html)
由于在纯文本中没有办法拥有大多数字符,因此该解决方案将:
查找类似的文本:某些文本其他
和输出:一些文本^其他