如何获取包含链接的句子?



我想收集谷歌搜索的日语文章。我尝试提取日语句子,然后运行以下代码以获取包含最多日语单词的标签。

texts = mostTag.xpath('<<path>>/text()').extract()
text = ''
for s in texts:
text += s

但是,此代码在这种情况下存在问题,因为文章在句子之间有链接,如下所示。

<div class="sample">
<p>
"A"
<a href="link.html">B</a>
"C"
</p>
</div>

在这种情况下,我的程序得到AC,但我想要的是ABC。如果有人告诉我如何将句子作为"ABC",我将不胜感激。

你可以尝试使用string()

text = mostTag.xpath('string(//div[@class="sample"])').extract_first()

或者使用 html2text

最新更新