如何使用php从html中提取img src,title和alt



我想创建一个页面,其中列出了驻留在我网站上的所有图像,并带有标题和替代表示形式。

我已经编写了一个小程序来查找和加载所有 HTML 文件,但现在我陷入了如何从这个 HTML 中提取srctitlealt

<img src="/image/fluffybunny.jpg" title="Harvey the bunny" alt="a cute little fluffy bunny" />

我想这应该用一些正则表达式来完成,但由于标签的顺序可能会有所不同,而且我需要所有这些标签,所以我真的不知道如何以优雅的方式解析它(我可以用 char 的方式做硬字符,但这很痛苦)。

$url="http://example.com";
$html = file_get_contents($url);
$doc = new DOMDocument();
@$doc->loadHTML($html);
$tags = $doc->getElementsByTagName('img');
foreach ($tags as $tag) {
       echo $tag->getAttribute('src');
}

编辑:现在我知道得更好了

使用正则表达式来解决此类问题是一个坏主意,可能会导致不可维护和不可靠的代码。最好使用 HTML 解析器。

带正则表达式的解决方案

在这种情况下,最好将该过程分为两部分:

  • 获取所有 img 标记
  • 提取其元数据

我会假设你的文档不是xHTML严格的,所以你不能使用XML解析器。 例如,使用此网页源代码:

/* preg_match_all match the regexp in all the $html string and output everything as 
an array in $result. "i" option is used to make it case insensitive */
preg_match_all('/<img[^>]+>/i',$html, $result); 
print_r($result);
Array
(
    [0] => Array
        (
            [0] => <img src="/Content/Img/stackoverflow-logo-250.png" width="250" height="70" alt="logo link to homepage" />
            [1] => <img class="vote-up" src="/content/img/vote-arrow-up.png" alt="vote up" title="This was helpful (click again to undo)" />
            [2] => <img class="vote-down" src="/content/img/vote-arrow-down.png" alt="vote down" title="This was not helpful (click again to undo)" />
            [3] => <img src="http://www.gravatar.com/avatar/df299babc56f0a79678e567e87a09c31?s=32&d=identicon&r=PG" height=32 width=32 alt="gravatar image" />
            [4] => <img class="vote-up" src="/content/img/vote-arrow-up.png" alt="vote up" title="This was helpful (click again to undo)" />
[...]
        )
)

然后我们用循环获取所有 img 标签属性:

$img = array();
foreach( $result as $img_tag)
{
    preg_match_all('/(alt|title|src)=("[^"]*")/i',$img_tag, $img[$img_tag]);
}
print_r($img);
Array
(
    [<img src="/Content/Img/stackoverflow-logo-250.png" width="250" height="70" alt="logo link to homepage" />] => Array
        (
            [0] => Array
                (
                    [0] => src="/Content/Img/stackoverflow-logo-250.png"
                    [1] => alt="logo link to homepage"
                )
            [1] => Array
                (
                    [0] => src
                    [1] => alt
                )
            [2] => Array
                (
                    [0] => "/Content/Img/stackoverflow-logo-250.png"
                    [1] => "logo link to homepage"
                )
        )
    [<img class="vote-up" src="/content/img/vote-arrow-up.png" alt="vote up" title="This was helpful (click again to undo)" />] => Array
        (
            [0] => Array
                (
                    [0] => src="/content/img/vote-arrow-up.png"
                    [1] => alt="vote up"
                    [2] => title="This was helpful (click again to undo)"
                )
            [1] => Array
                (
                    [0] => src
                    [1] => alt
                    [2] => title
                )
            [2] => Array
                (
                    [0] => "/content/img/vote-arrow-up.png"
                    [1] => "vote up"
                    [2] => "This was helpful (click again to undo)"
                )
        )
    [<img class="vote-down" src="/content/img/vote-arrow-down.png" alt="vote down" title="This was not helpful (click again to undo)" />] => Array
        (
            [0] => Array
                (
                    [0] => src="/content/img/vote-arrow-down.png"
                    [1] => alt="vote down"
                    [2] => title="This was not helpful (click again to undo)"
                )
            [1] => Array
                (
                    [0] => src
                    [1] => alt
                    [2] => title
                )
            [2] => Array
                (
                    [0] => "/content/img/vote-arrow-down.png"
                    [1] => "vote down"
                    [2] => "This was not helpful (click again to undo)"
                )
        )
    [<img src="http://www.gravatar.com/avatar/df299babc56f0a79678e567e87a09c31?s=32&d=identicon&r=PG" height=32 width=32 alt="gravatar image" />] => Array
        (
            [0] => Array
                (
                    [0] => src="http://www.gravatar.com/avatar/df299babc56f0a79678e567e87a09c31?s=32&d=identicon&r=PG"
                    [1] => alt="gravatar image"
                )
            [1] => Array
                (
                    [0] => src
                    [1] => alt
                )
            [2] => Array
                (
                    [0] => "http://www.gravatar.com/avatar/df299babc56f0a79678e567e87a09c31?s=32&d=identicon&r=PG"
                    [1] => "gravatar image"
                )
        )
   [..]
        )
)

正则表达式是 CPU 密集型的,因此您可能需要缓存此页面。如果您没有缓存系统,则可以通过使用ob_start并从文本文件加载/保存来调整自己的缓存系统。

这些东西是如何工作的?

首先,我们使用 all preg_ match_函数,该函数获取与模式匹配的每个字符串并将其放入其第三个参数中。

正则表达式 :

<img[^>]+>

我们将其应用于所有html网页。它可以读作每个以" <img "开头的字符串,包含非">"字符并以>结尾

(alt|title|src)=("[^"]*")

我们依次将其应用于每个 img 标签。它可以读作每个以"alt","title"或"src"开头的字符串,然后是"=",然后是'"',一堆不是'并以'结尾的东西。隔离 () 之间的子字符串

最后,每次你想处理正则表达式时,都有好的工具来快速测试它们很方便。检查这个在线正则表达式测试器。

编辑:回答第一条评论。

确实,我没有考虑(希望很少)使用单引号的人。

好吧,如果您只使用',只需将所有" 替换为 "。

如果两者混合。首先你应该打自己一巴掌:-),然后尝试使用("|')代替 " 和 [^ø] 替换 [^"]。

举一个使用 PHP 的 XML 功能来完成任务的小例子:

$doc=new DOMDocument();
$doc->loadHTML("<html><body>Test<br><img src="myimage.jpg" title="title" alt="alt"></body></html>");
$xml=simplexml_import_dom($doc); // just to make xpath more simple
$images=$xml->xpath('//img');
foreach ($images as $img) {
    echo $img['src'] . ' ' . $img['alt'] . ' ' . $img['title'];
}

我确实使用了DOMDocument::loadHTML()方法,因为这种方法可以处理HTML语法,并且不会强制输入文档为XHTML。严格来说,转换为SimpleXMLElement是没有必要的 - 它只是使使用 xpath 和 xpath 结果更简单。

如果是XHTML,你的例子是,你只需要simpleXML。

<?php
$input = '<img src="/image/fluffybunny.jpg" title="Harvey the bunny" alt="a cute little fluffy bunny"/>';
$sx = simplexml_load_string($input);
var_dump($sx);
?>

输出:

object(SimpleXMLElement)#1 (1) {
  ["@attributes"]=>
  array(3) {
    ["src"]=>
    string(22) "/image/fluffybunny.jpg"
    ["title"]=>
    string(16) "Harvey the bunny"
    ["alt"]=>
    string(26) "a cute little fluffy bunny"
  }
}

我用preg_match来做到这一点。

就我而言,我

有一个字符串,其中包含我从 Wordpress 获得的一个 <img> 标签(没有其他标记),我试图获取 src 属性,以便我可以通过 timthumb 运行它。

// get the featured image
$image = get_the_post_thumbnail($photos[$i]->ID);
// get the src for that image
$pattern = '/src="([^"]*)"/';
preg_match($pattern, $image, $matches);
$src = $matches[1];
unset($matches);

在抓取标题或 alt 的模式中,您可以简单地使用 $pattern = '/title="([^"]*)"/'; 来抓取标题或$pattern = '/title="([^"]*)"/';来抓取 alt。 可悲的是,我的正则表达式还不够好,无法一次通过即可抓住所有三个(alt/title/src)。

你可以

使用simplehtmldom。大多数jQuery选择器在simplehtmldom中都受支持。下面给出了一个例子

// Create DOM from URL or file
$html = file_get_html('http://www.google.com/');
// Find all images
foreach($html->find('img') as $element)
       echo $element->src . '<br>';
// Find all links
foreach($html->find('a') as $element)
       echo $element->href . '<br>'; 

脚本必须像这样编辑

foreach( $result[0] as $img_tag)

因为preg_match_all返回数组数组

我已经阅读了此页面上的许多评论,这些评论抱怨使用 dom 解析器是不必要的开销。 好吧,它可能比单纯的正则表达式调用更昂贵,但 OP 表示无法控制 img 标签中属性的顺序。 这一事实会导致不必要的正则表达式模式卷积。 除此之外,使用 dom 解析器还提供了可读性、可维护性和 dom 感知(正则表达式不是 dom 感知)的额外好处。

我喜欢正则表达式,

我回答了很多正则表达式问题,但是在处理有效的 HTML 时,很少有充分的理由在解析器上正则表达式。

在下面的演示中,了解 DOMDocument 如何简单、干净地处理混合引用(和根本不引用)的任何顺序的 img 标记属性。 另请注意,没有目标属性的标记根本不会造成中断 - 空字符串作为值提供。

代码:(演示)

$test = <<<HTML
<img src="/image/fluffybunny.jpg" title="Harvey the bunny" alt="a cute little fluffy bunny" />
<img src='/image/pricklycactus.jpg' title='Roger the cactus' alt='a big green prickly cactus' />
<p>This is irrelevant text.</p>
<img alt="an annoying white cockatoo" title="Polly the cockatoo" src="/image/noisycockatoo.jpg">
<img title=something src=somethingelse>
HTML;
libxml_use_internal_errors(true);  // silences/forgives complaints from the parser (remove to see what is generated)
$dom = new DOMDocument();
$dom->loadHTML($test);
foreach ($dom->getElementsByTagName('img') as $i => $img) {
    echo "IMG#{$i}:n";
    echo "tsrc = " , $img->getAttribute('src') , "n";
    echo "ttitle = " , $img->getAttribute('title') , "n";
    echo "talt = " , $img->getAttribute('alt') , "n";
    echo "---n";
}

输出:

IMG#0:
    src = /image/fluffybunny.jpg
    title = Harvey the bunny
    alt = a cute little fluffy bunny
---
IMG#1:
    src = /image/pricklycactus.jpg
    title = Roger the cactus
    alt = a big green prickly cactus
---
IMG#2:
    src = /image/noisycockatoo.jpg
    title = Polly the cockatoo
    alt = an annoying white cockatoo
---
IMG#3:
    src = somethingelse
    title = something
    alt = 
---

在专业代码中使用这种技术将使您拥有干净的脚本,减少需要处理的打嗝,以及减少希望您在其他地方工作的同事。

这是一个PHP函数 出于类似目的,我从上述所有信息中蹒跚而行,即动态调整图像标签的宽度和长度属性......也许有点笨拙,但似乎工作可靠:

function ReSizeImagesInHTML($HTMLContent,$MaximumWidth,$MaximumHeight) {
// find image tags
preg_match_all('/<img[^>]+>/i',$HTMLContent, $rawimagearray,PREG_SET_ORDER); 
// put image tags in a simpler array
$imagearray = array();
for ($i = 0; $i < count($rawimagearray); $i++) {
    array_push($imagearray, $rawimagearray[$i][0]);
}
// put image attributes in another array
$imageinfo = array();
foreach($imagearray as $img_tag) {
    preg_match_all('/(src|width|height)=("[^"]*")/i',$img_tag, $imageinfo[$img_tag]);
}
// combine everything into one array
$AllImageInfo = array();
foreach($imagearray as $img_tag) {
    $ImageSource = str_replace('"', '', $imageinfo[$img_tag][2][0]);
    $OrignialWidth = str_replace('"', '', $imageinfo[$img_tag][2][1]);
    $OrignialHeight = str_replace('"', '', $imageinfo[$img_tag][2][2]);
    $NewWidth = $OrignialWidth; 
    $NewHeight = $OrignialHeight;
    $AdjustDimensions = "F";
    if($OrignialWidth > $MaximumWidth) { 
        $diff = $OrignialWidth-$MaximumHeight; 
        $percnt_reduced = (($diff/$OrignialWidth)*100); 
        $NewHeight = floor($OrignialHeight-(($percnt_reduced*$OrignialHeight)/100)); 
        $NewWidth = floor($OrignialWidth-$diff); 
        $AdjustDimensions = "T";
    }
    if($OrignialHeight > $MaximumHeight) { 
        $diff = $OrignialHeight-$MaximumWidth; 
        $percnt_reduced = (($diff/$OrignialHeight)*100); 
        $NewWidth = floor($OrignialWidth-(($percnt_reduced*$OrignialWidth)/100)); 
        $NewHeight= floor($OrignialHeight-$diff); 
        $AdjustDimensions = "T";
    } 
    $thisImageInfo = array('OriginalImageTag' => $img_tag , 'ImageSource' => $ImageSource , 'OrignialWidth' => $OrignialWidth , 'OrignialHeight' => $OrignialHeight , 'NewWidth' => $NewWidth , 'NewHeight' => $NewHeight, 'AdjustDimensions' => $AdjustDimensions);
    array_push($AllImageInfo, $thisImageInfo);
}
// build array of before and after tags
$ImageBeforeAndAfter = array();
for ($i = 0; $i < count($AllImageInfo); $i++) {
    if($AllImageInfo[$i]['AdjustDimensions'] == "T") {
        $NewImageTag = str_ireplace('width="' . $AllImageInfo[$i]['OrignialWidth'] . '"', 'width="' . $AllImageInfo[$i]['NewWidth'] . '"', $AllImageInfo[$i]['OriginalImageTag']);
        $NewImageTag = str_ireplace('height="' . $AllImageInfo[$i]['OrignialHeight'] . '"', 'height="' . $AllImageInfo[$i]['NewHeight'] . '"', $NewImageTag);
        $thisImageBeforeAndAfter = array('OriginalImageTag' => $AllImageInfo[$i]['OriginalImageTag'] , 'NewImageTag' => $NewImageTag);
        array_push($ImageBeforeAndAfter, $thisImageBeforeAndAfter);
    }
}
// execute search and replace
for ($i = 0; $i < count($ImageBeforeAndAfter); $i++) {
    $HTMLContent = str_ireplace($ImageBeforeAndAfter[$i]['OriginalImageTag'],$ImageBeforeAndAfter[$i]['NewImageTag'], $HTMLContent);
}
return $HTMLContent;
}

这是PHP中的解决方案:

只需下载 QueryPath,然后执行以下操作:

$doc= qp($myHtmlDoc);
foreach($doc->xpath('//img') as $img) {
   $src= $img->attr('src');
   $title= $img->attr('title');
   $alt= $img->attr('alt');
}

就是这样,你完成了!

相关内容

  • 没有找到相关文章

最新更新