HtmlAgilityPack-分析表并将行分配给自定义模型



所以我试图抓取一些网站数据(特别是这里的第一个表(。我正在使用表xpath,并试图获得分配给我的模型的特定行数据。

public static async Task<List<SuspensionModel>> GetSuspensionData()
{
var htmlDocument = new HtmlDocument();
var httpResponseMessage = await _httpClient.GetAsync(_2020SuspUrl);
await EnsureSuccessStatusCode(httpResponseMessage);
var SuspStatsAsHtml = await httpResponseMessage.Content.ReadAsStringAsync();
htmlDocument.LoadHtml(SuspStatsAsHtml);
var suspData = ParseTable(htmlDocument, "/html/body/div[3]/div[3]/div[5]/div[1]/table[1]/tbody/tr");
//return ;
}
private static List<SuspensionModel> ParseTable(HtmlDocument htmlDocument, string xPath)
{
var returnData = new List<SuspensionModel>();
foreach (HtmlNode row in htmlDocument.DocumentNode.SelectNodes(xPath))
{
HtmlNodeCollection cells = row.SelectNodes("td");
var arr = new String[7];
for (int i = 0; i < cells.Count; ++i)
{
arr[i] = cells[i].InnerText;
}
var susp = new SuspensionModel
{
IncidentDate = DateTime.Parse(arr[0]),
OffenderName = arr[1],
OffenderTeam = arr[2],
OffenseDesc = arr[3],
ActionDate = DateTime.Parse(arr[4]),
OffenseLength = arr[5],
SalaryLoss = int.Parse(arr[6])
};
returnData.Add(susp);
}
return returnData;
}

在我的ParseTable方法中,我在模型中赋值,如何访问给定行中的特定单元格数据?基本上,我想做一些事情,比如:CCD_ 2。现在,我的cells变量总是返回null,所以我认为我没有正确使用HtmlAgilityPack

感谢您的帮助!

我最终解决了这个问题。我遗漏了两件事,结果发现它与HtmlAgilityPack无关。

  1. 我需要在foreach行中添加.Skip(1(,这样它就跳过了表头行
foreach (HtmlNode row in htmlDocument.DocumentNode.SelectNodes(xPath).Skip(1))
  1. 我需要修复我的SalaryLoss值。我把它赋值为int,但我需要把它改为double,因为它是一个货币值
SalaryLoss = double.Parse(arr[6], System.Globalization.NumberStyles.Currency)

最新更新