获取html和Text中的整个Playwright页面



我在nodejs中使用了player,在获取页面Text或Html时遇到了一些问题。我只想获得字符串形式的url,如:<html><div class="123"><a>link</a>something</div><div>somethingelse</div></hmtl>

const browser = await playwright.chromium.launch({
headless: true,
});
const page = await browser.newPage();
await page.goto(url);

我试着使用const pageText = page.$('div').innerText;const pageText2 = await page.$$eval('div', el => el.innerText);但两者都不起作用,只是给了我不明确的定义。

对于页面的完整html,这就是您所需要的:const html = await page.content()

要获得div的内部文本,应该可以这样做:const pageText = await page.innerText('div')

参见:

  • https://playwright.dev/docs/api/class-page#page-内容
  • https://playwright.dev/docs/api/class-page#page-内部文本

最新更新