有没有一种特定的方法可以将 XPath 写入 RapidMiner 以进行网络爬行



我已经尝试了很多选项,在很多天里试图提取数据。我不知道我哪里出错了。 例如,我在网站上 reviewcentre.com,正在查看汽车销售网站评论。 我正在努力检索信息,我的大多数 xpath 似乎不正确。 我在哪里可以最好地学习如何正确地做到这一点,我已经花了好几天的时间。

https://www.reviewcentre.com/car_dealers/we_buy_any_car_-_wwwwebuyanycarcom-review_14068020

我知道如何复制xpaths,但是当涉及到rapidminer时,我无法提取数据。 我知道我做错了,但不幸的是,我不知道什么是对的。

示例包括

//*[@id="ReviewTitle-14068020"]
h:html/h:head/h:title/text() 
this one works!
//*[@id="ReviewBox-14068020"]/div[1]/div[2]/p[2]/span

我没有问题,它似乎从网站上检索 xpath,但使用它在 rapidminer 上提取数据根本不起作用。如果有人能指出我正确的方向,将不胜感激。

显然,您不希望在 xpath 中使用唯一的 ID

确保您也已理解 xml 命名空间的概念。

最新更新