我是php的初学者,特别是带有正则事物
<td>
<br>(content)<br>
</td>
到目前为止,我所做的是将数据纳入数组块
include_once('simple_html_dom.php');
$url = '(url_here)';
$htmlstr = str_get_html(file_get_contents($url));
$matches1 = [];
preg_match_all("'<td>(.*?)(</td>|</<td>)'si", $htmlstr, $matches1);
$data1 = array_chunk($matches1[0], 6, FALSE);
,但是问题在一些行中,带有TD标签,我也得到BR标签内容,例如This
如何检测那些内部标签,如何获取内容并将其移动到其他标签中?
这是我在某些行中面对的示例link_here
不要将togex用于HTML,因为没有,并且永远不会有100%的工作解决方案。
而是使用HTML解析器,例如内置ONE(DOMDOCUMEMENT)或用户贡献(例如PHP-HTML-PARSER)
使用domdocument时,您可以选择想要的标签,例如JavaScript可以:
$dom = new DOMDocument();
$dom->loadHTML($yourHTML);
$tds = $dom->getElementsByTagName('td');