>我正在尝试使用 Jsoup 从网页中收集元素,但我在 PAC 代理后面。 当我尝试使用 Jsoup 访问网站时,我收到代码状态 401 身份验证错误。似乎问题出在代理上。我已经安装了一个名为 Proxy-Vole 的库,它应该对我进行身份验证,但我相信我没有正确使用它。我希望最终针对代理进行身份验证,并尽可能继续。
ProxySearch proxySearch = new ProxySearch();
if (PlatformUtil.getCurrentPlattform() == Platform.WIN) {
proxySearch.addStrategy(Strategy.IE);
proxySearch.addStrategy(Strategy.FIREFOX);
proxySearch.addStrategy(Strategy.JAVA);
} else if (PlatformUtil.getCurrentPlattform() == Platform.LINUX) {
proxySearch.addStrategy(Strategy.GNOME);
proxySearch.addStrategy(Strategy.KDE);
proxySearch.addStrategy(Strategy.FIREFOX);
} else {
proxySearch.addStrategy(Strategy.OS_DEFAULT);
}
ProxySelector proxySelector = proxySearch.getProxySelector();
ProxySelector.setDefault(proxySelector);
Document doc = Jsoup.connect("https://www.whatever.com").get();
正如指南所解释的那样,您应该为您的请求选择正确的代理。我用Java Streams更新了更改的示例代码:
URI uri = new URI("https://www.whatever.com");
Proxy proxy = Optional.ofNullable(ProxySelector.getDefault())
.map(ps -> ps.select(uri))
.stream().flatMap(List::stream)
.max(Comparator.comparing(Proxy::type))
.orElse(Proxy.NO_PROXY);
此示例按以下优先级使用代理:SOCKS
、HTTP
、DIRECT
。您可以通过将其包装在单独的方法中来轻松更改它:
private static int getPriority(Proxy.Type type) {
switch (type) {
case HTTP:
return 2;
case SOCKS:
return 1;
}
return 0;
}
将其与Comparator.comparingInt(p -> getPriority(p.type()))
一起使用 .max()
.或者,您可以使用我上面链接的官方示例代码。
您现在可以在 Jsoup 连接中使用该proxy
:
Document doc = Jsoup.connect(uri.toString())
.proxy(proxy)
.get();
除此之外,您应该确保您的连接通过代理工作。如果您的代理需要身份验证,请按照指南的这一部分进行操作。对于故障排除,您可以使用代理田鼠测试器。