我需要处理来自Rest web服务的数据。以下基本示例是:
import org.springframework.batch.item.ItemReader;
import org.springframework.http.ResponseEntity;
import org.springframework.web.client.RestTemplate;
import java.util.Arrays;
import java.util.List;
class RESTDataReader implements ItemReader<DataDTO> {
private final String apiUrl;
private final RestTemplate restTemplate;
private int nextDataIndex;
private List<DataDTO> data;
RESTDataReader(String apiUrl, RestTemplate restTemplate) {
this.apiUrl = apiUrl;
this.restTemplate = restTemplate;
nextDataIndex = 0;
}
@Override
public DataDTO read() throws Exception {
if (dataIsNotInitialized()) {
data = fetchDataFromAPI();
}
DataDTO nextData = null;
if (nextDataIndex < data.size()) {
nextData = data.get(nextDataIndex);
nextDataIndex++;
}
else {
nextDataIndex= 0;
data = null;
}
return nextData;
}
private boolean dataIsNotInitialized() {
return this.data == null;
}
private List<DataDTO> fetchDataFromAPI() {
ResponseEntity<DataDTO[]> response = restTemplate.getForEntity(apiUrl,
DataDTO[].class
);
DataDTO[] data= response.getBody();
return Arrays.asList(data);
}
}
然而,我的fetchDataFromAPI方法是用时隙调用的,它可以获得超过2000万个对象。
例如:如果我在01012020和01012021之间调用它,我将获得8000万的数据。
PS:web服务通过一天的分页来工作,即,如果我想在2020年9月1日至2020年7月7日之间检索数据,我必须多次调用它(从2009年9月2日到2009年3月2日,依此类推,直到2009年7月6日(
在这种情况下,如果数据庞大,我的问题是堆空间内存。
我必须为每个月创建一个步骤,以避免BatchConfiguration中出现此问题(12个步骤(。第一步,将在2020年1月1日至2020年2月1日期间调用web服务等
有没有一种解决方案可以在进入处理器之前只需一步就读取所有这些数据量??
提前感谢
由于您的web服务不会在一天内提供分页,因此您需要确保调用此web服务的进程(即您的Spring Batch作业(有足够的内存来存储此服务返回的所有项目。
例如:如果我在01012020和01012021之间调用它,我将获得8000万数据。
这意味着,如果在没有足够内存保存结果的计算机上使用curl
调用此web服务,则curl
命令将失败。我想在这里指出的是,解决这个问题的唯一方法是给运行SpringBatch作业的JVM足够的内存,以容纳如此大的结果集。
附带说明:如果您可以控制此web服务,我强烈建议您通过引入更细粒度的分页机制来改进它。