当公司向SEC提交报告时,会提供许多文件。例如,AAPL的最新10-K。甚至美国证券交易委员会网站(以及许多其他网站(也将这些表格作为结构化数据。
我想做的是自己复制它,但被卡住了。有人能给我一个详细的、循序渐进的描述吗?
通常SO用户会询问更具体的问题和OP尝试过的事情列表,所以,以下是我尝试过的,我理解的:
- 底部的六个文件(本例中为8-12,15(使用了所有数据。基本上是公司提交的8-12,15是文件本身的内联Xbrl的摘录(示例中为1(
- 提取文件(15(列出了所有Xbrl实例和所有上下文。这是非常清楚的
- XSD文件(8(具有所有表单和所有公司特定元素的列表。第一个是在link:roleType块中给出的,给出了一个定义和它出现的链接库列表(尽管有时它们不会出现(。第二个被给出为<xs:element>-s
- 演示文件(12(具有相同的表列表
- 定义(10(和标签(11(链接库应提供更多细节,例如特定数据的公司特定标签
- 计算链接库并不是真正需要的(我想(,它更多的是验证总数确实是如何计算的
但我不明白的是:
- 从这些文件构建表的正确方法是什么?是通过遍历XSD/PRE表单并在Extract文件中找到它们的数据,还是反过来
- 不管我怎么努力,我都找不到Extract文件中的数据点和LAB文件中的标签之间的链接(带有所有定位器和圆弧(。作为一个人;"容易";,但作为一台机器,名称总是略有不同(例如(a(loc_XYZ更改为lab_XYZ;(b( 一个名字";XYZ";具有其自己的版本;XYZAbstract";版本,(c(像XYZ这样的名称具有附加在其上的数字XY_123(;两端";我无法确定
这就是为什么我想要一个循序渐进的解释,比如:
- 获取文件。。。第一那里迭代通过<gt;标签。对于每个标记,请查找<gt;文件中的标记。。。,where属性。。。等于。。。迭代标记的属性。等等
谢谢,
第页。S.(我对已经这样做的可用软件和服务不感兴趣,也不想在一些特定的库中调用。我只是想使用纯文本文件提取信息。(
如果您希望在不重新使用现有XBRL软件的情况下处理XBRL,那么最好的起点是XBRL规范。特别是,关于XBRL中XLink的部分将解释XBRL链接库是如何工作的,包括xlink:from
和xlink:to
属性中使用的标签。简单的答案是,这些属性只包含引用文件中其他地方元素的xlink:label
属性的任意标识符。
如何从XBRL数据构建财务表的具体问题很棘手。XBRL报告不包含任何将报告中的事实与表关联起来的明确信息。您可以从演示链接库中构建财务报告某一部分中的概念列表,但您经常会发现,使用这些概念所掌握的事实比预期的要多。例如,如果你从资产负债表部分构建一个概念列表,你经常会发现你有使用这些概念的事实,但有额外的维度,因为它们是从提供该概念细分的注释中标记的。
SEC使用基于启发式的方法将事实组织成表格。Edgar Filer手册第6.24节记录了该过程。