正在将Unicode字符ID字符串转换为Unicode文本.NET

我正在做一个网络抓取项目，我从抓取器中得到了一个json文件，问题是对于英语以外的任何语言，实际的unicode char ID都是写的，例如：

它将存储

&#1508;&#1500;&#1505;&#1496;&#1497;&#1504;&#1497;&#1501;

而不是

םויסלפנ

我想做的是输入一个字符串，存储字符ID+英文文本+HTML实体，并用适合它的unicode字符替换每个unicode ID/HTML实体。有人知道可以帮助我完成任务的方法吗？使用.NETASP.NETJSON.NETIronWebScraper

-堆叠式的新特性

编辑：这是的代码示例

using (StreamReader r = new StreamReader(AppDomain.CurrentDomain.BaseDirectory + @"DataBasenetnet.jsonl"))
{
string json = r.ReadToEnd();
List<string> items = JsonConvert.DeserializeObject<List<string>>(json);
foreach (var str in items)
Logger.Log(WebUtility.HtmlDecode(str));
}

非常简单：只需使用WebUtility.HtmlDecode方法：

var plainText = WebUtility.HtmlDecode("&#1508;&#1500;&#1505;&#1496;&#1497;&#1504;&#1497;&#1501;");

如果里面有任何常规字符，它们将被单独留下：

var plainText = WebUtility.HtmlDecode("This is a Hebrew character: &#1508;");

这将导致：

这是一个希伯来语字符：Ş

相关内容

最新更新

热门标签：