我正在努力排除论坛网站上的报价。我需要刮消息文本,其中一些包括引用作为参考较早的消息。抓取所有带有引号的消息意味着我在抓取的数据上多次获得相同的文本。在这种情况下,分析它变得很困难。有人能帮我绕过引用文本,而刮痧?下面是一个示例页面:https://forum.donanimhaber.com/toyota-touch-2-ve-touch-go-2-kullanici-tecrubeleri-ve-klavuzda-yazmayanlar--88405838下面是带有引号的消息的html代码:
<table>
<tbody>
<tr>
<td>
<table style="width:100%;"><tbody><tr><td>**<blockquote class="quote"><i>quote:</i><br><br>Orijinalden alıntı: DBolanci <br> <br> Beyler albüm kapağı ve klasör listelemeyi bende yapamadım. Mp3leri tek tek düzenledim en ince ayrıntısına kadar yazdım ama göstermiyor. Nasıl yapacaz bilgisi olan? Ayrıca araçta navigasyon özelliğini nasıl kazandırabiliriz? servis yazılım için ücret istiyor :( <br> </blockquote>**</td></tr></tbody></table> <br> aynı soruların cevabını bende bekliyorum. yardımcı olabilecek kimse yokmu?
</td>
</tr>
</tbody>
</table>
</span>
如果您查看消息的html结构,您可以看到它遵循以下格式:
<span class="msg">
<table>
<table> QUOTED TEXT </table>
TEXT CONTENT
</table>
您所要做的就是选择msg>table
内容而不选择msg>table>table
内容。在xpath
选择器中,可以通过以下方式实现:
//span[@class="msg"]/table/tbody/tr/td/text()