我知道有一种方法可以在本地系统的python环境中调用Document AI。在此过程中,需要将本地文件上传到GCS bucket,以便文档AI可以从那里访问该文件。有没有任何方法可以让我们使用python直接访问文档AI的本地文件(即,无需将文件上传到GCS bucket(?[注意,这是我在本地系统中运行python代码的强制性要求,而不是在GCP中。]
DocumentAI不能"打开";文件本身从本地文件系统中删除。
如果您不想/不能将文档上传到存储桶,您可以将它们作为REST API的一部分发送但是在这种情况下,您不能使用BatchProcessing:我的意思是,您必须逐个处理文件并等待响应。
此处提供了相关的REST API文档:https://cloud.google.com/document-ai/docs/reference/rest/v1/projects.locations.processors/process
在python的快速启动文档中,您有以下示例代码,它读取文件并将其作为请求的一部分内联发送:
# The full resource name of the processor, e.g.:
# projects/project-id/locations/location/processor/processor-id
# You must create new processors in the Cloud Console first
name = f"projects/{project_id}/locations/{location}/processors/{processor_id}"
# Read the file into memory
with open(file_path, "rb") as image:
image_content = image.read()
document = {"content": image_content, "mime_type": "application/pdf"}
# Configure the process request
request = {"name": name, "raw_document": document}
result = client.process_document(request=request)