正在将Unicode字符ID字符串转换为Unicode文本.NET



我正在做一个网络抓取项目,我从抓取器中得到了一个json文件,问题是对于英语以外的任何语言,实际的unicode char ID都是写的,例如:

它将存储

פלסטינים

而不是

םויסלפנ

我想做的是输入一个字符串,存储字符ID+英文文本+HTML实体,并用适合它的unicode字符替换每个unicode ID/HTML实体。有人知道可以帮助我完成任务的方法吗?使用.NETASP.NETJSON.NETIronWebScraper

-堆叠式的新特性

编辑:这是的代码示例

using (StreamReader r = new StreamReader(AppDomain.CurrentDomain.BaseDirectory + @"DataBasenetnet.jsonl"))
{
string json = r.ReadToEnd();
List<string> items = JsonConvert.DeserializeObject<List<string>>(json);
foreach (var str in items)
Logger.Log(WebUtility.HtmlDecode(str));
}

非常简单:只需使用WebUtility.HtmlDecode方法:

var plainText = WebUtility.HtmlDecode("&#1508;&#1500;&#1505;&#1496;&#1497;&#1504;&#1497;&#1501;");

如果里面有任何常规字符,它们将被单独留下:

var plainText = WebUtility.HtmlDecode("This is a Hebrew character: &#1508;");

这将导致:

这是一个希伯来语字符:Ş

最新更新