在论坛网站上抓取文本时排除引号

我正在努力排除论坛网站上的报价。我需要刮消息文本，其中一些包括引用作为参考较早的消息。抓取所有带有引号的消息意味着我在抓取的数据上多次获得相同的文本。在这种情况下，分析它变得很困难。有人能帮我绕过引用文本，而刮痧?下面是一个示例页面:https://forum.donanimhaber.com/toyota-touch-2-ve-touch-go-2-kullanici-tecrubeleri-ve-klavuzda-yazmayanlar--88405838下面是带有引号的消息的html代码:

<table>
<tbody>
<tr>
<td>
<table style="width:100%;"><tbody><tr><td>**<blockquote class="quote"><i>quote:</i><br><br>Orijinalden alıntı:  DBolanci <br>   <br>  Beyler alb&#252;m kapağı ve klas&#246;r listelemeyi bende yapamadım. Mp3leri tek tek d&#252;zenledim en ince ayrıntısına kadar yazdım ama g&#246;stermiyor. Nasıl yapacaz bilgisi olan? Ayrıca ara&#231;ta navigasyon &#246;zelliğini nasıl kazandırabiliriz? servis yazılım i&#231;in &#252;cret istiyor :( <br>  </blockquote>**</td></tr></tbody></table> <br>  aynı soruların cevabını bende bekliyorum. yardımcı olabilecek kimse yokmu?
</td>
</tr>
</tbody>
</table>
</span>

如果您查看消息的html结构，您可以看到它遵循以下格式:

<span class="msg">
<table>
<table> QUOTED TEXT </table>
TEXT CONTENT
</table>

您所要做的就是选择msg>table内容而不选择msg>table>table内容。在xpath选择器中，可以通过以下方式实现:

//span[@class="msg"]/table/tbody/tr/td/text()

相关内容

最新更新

热门标签：