我正在做一个网络抓取项目,我从抓取器中得到了一个json文件,问题是对于英语以外的任何语言,实际的unicode char ID都是写的,例如:
它将存储
פלסטינים
而不是
םויסלפנ
我想做的是输入一个字符串,存储字符ID+英文文本+HTML实体,并用适合它的unicode字符替换每个unicode ID/HTML实体。有人知道可以帮助我完成任务的方法吗?使用.NETASP.NETJSON.NETIronWebScraper
-堆叠式的新特性
编辑:这是的代码示例
using (StreamReader r = new StreamReader(AppDomain.CurrentDomain.BaseDirectory + @"DataBasenetnet.jsonl"))
{
string json = r.ReadToEnd();
List<string> items = JsonConvert.DeserializeObject<List<string>>(json);
foreach (var str in items)
Logger.Log(WebUtility.HtmlDecode(str));
}
非常简单:只需使用WebUtility.HtmlDecode
方法:
var plainText = WebUtility.HtmlDecode("פלסטינים");
如果里面有任何常规字符,它们将被单独留下:
var plainText = WebUtility.HtmlDecode("This is a Hebrew character: פ");
这将导致:
这是一个希伯来语字符:Ş