我用汇编编写了一些霓虹灯代码,目的是最大限度地优化。虽然这些数字看起来令人满意,但我对进一步优化它的可能性很感兴趣。然后我发现了一个在线工具,可以帮助计算每条指令的周期。
下面是我的代码链接:http://pulsar.webshaker.net/ccc/sample-115d4c29
它清楚地标出了我所关心的领域,但我不能清楚地理解这些语句包含管理费用的原因。
在"注释"区域将代码段分为7个部分,以便于参考。
提前感谢。:)
你可以试试这个链接
http://pulsar.webshaker.net/ccc/beta -样品- 115 d4c29
使用0.9测试版的循环计数器。主要的区别是NEON模拟器不再使用2个不同的管道。由于Cortex A9不能在一个周期内执行2条NEON指令。
我开始更新循环计数器的某些部分。
结果是:
- Cortex A9的周期信息更准确。
-结果更容易阅读,因为大多数NEON延迟信息是由于未配对的指令。
橙色表示等待管道的平均延迟时间
红色表示寄存器冲突导致的延迟。
寄存器附近的spentified数不是松散循环的数。这是您可以在此指令之前放置的最大指令数。