如何使用MatLab从这个特定的网站上读出文本来分析音乐偏好

因此，荷兰每年都会举办一场名为"Top2000"的广播活动，人们可以在这里投票选出他们最喜欢的艺术家和歌曲。我觉得分析音乐会很酷；艺术家偏好。为此，我需要读出每个URL与我共享的投票列表上的艺术家/歌曲，比如这个。我已经尝试过webread、urlread和wget来下载网页，如下所示：

url = 'https://stem.nporadio2.nl/top2000/share/c93732c2f20c266970eba7447931f25d865407ea'
Data1 = webread(url);
Data2 = urlread(url);
command = ['wget --no-check-certificate --page-requisites ' url];
system( command );

但他们所输出的都是HTML元素，没有提及艺术家或歌曲，当导航到所述URL时，这些元素会清楚地显示出来。有人知道或暗示如何从这个网站提取这些信息吗？提前感谢！注意：我不询问如何去掉HTML元素。然而，使用上述方法，我所寻找的实际信息似乎根本不存在。

如果没有正确查看您的网站，我怀疑您想要的元素是动态加载的(例如通过JavaScript(。由于JavaScript在您的WGET等期间不会运行，这就是为什么您无法看到它们，因为所做的只是获取网站的HTML。

我知道这是一个Matlab问题，但我强烈推荐Selenium on Python来解决您的问题。使用Selenium，程序可以等待网页完全加载，然后获取所需的正确元素。它超级简单，你可以看看这个教程。

如果你不喜欢使用Python，你可以找到你网站的Javascript用来获取艺术家/歌曲列表的实际URL(我快速浏览了一下网站，艺术家似乎加载了main.js(。我在main.js中发现了这一行，提示函数正在此处加载列表：

h = null !== n ? n : {
_id: "0",
_source: {
id: 0,
artist: s,
title: l,
image: d.freeChoiceImage
}
};

从这里开始，您需要跟踪s和l的加载位置，这将最终引导您找到正确的数据库URL。正如您所看到的，这开始变得更加复杂，而使用Selenium，您只需几行代码就可以解决问题。

相关内容

最新更新

热门标签：