ARM架构

ARM架构
来自网络的图片

ARM架构，曾称进阶精简指令集机器(Advanced RISC Machine)更早称作Acorn RISC Machine，是一个32位精简指令集(RISC)处理器架构。还有基于ARM设计的派生产品，重要产品包括Marvell的XScale架构和德州仪器的OMAP系列。

ARM家族占比所有32位嵌入式处理器的75%，成为占全世界最多数的32位架构。

ARM处理器广泛使用在嵌入式系统设计，低耗电节能，非常适用移动通讯领域。消费性电子产品，例如可携式装置(PDA、移动电话、多媒体播放器、掌上型电子游戏，和计算机)，电脑外设(硬盘、桌上型路由器)，甚至导弹的弹载计算机等军用设施。

简介

一颗主要用于路由器的Conexant ARM处理器是Acorn电脑公司(Acorn Computers Ltd)于1983年开始的开发计划。

这个团队由Roger Wilson和Steve Furber带领，着手开发一种新架构，类似进阶的MOS Technology 6502处理器。Acorn有一大堆建构在6502架构上的电脑，因此能设计出一颗类似的芯片即意味着对公司有很大的优势。

团队在1985年时开发出ARM1 Sample版，而首颗"真正"的产能型ARM2于次年量产。ARM2具有32位的数据总线、26位的寻址空间，并提供64 Mbyte的寻址范围与16个32-bit的暂存器。这些暂存器其中有一颗做为(word大小)程式计数器，其前面6 bits和后面2 bits用来保存处理器状态标记(Processor Status Flags)。ARM2可能是全世界最简单实用的32位微处理器，其仅容纳了30,000个晶体管(相较于Motorola六年后的68000其包含了70,000颗)。之所以精简的原因在于它不含微码(请参阅microcode)(这表示大概只有68000的1/3至1/4)，而与现今大多数的 CPU 不同，它没有包含任何的高速缓存。这个精简的特色使它只需消耗很少的电能，却能发挥比 Intel 80286 更好的效能。后继的处理器ARM3更备有4KB的高速缓存，使它能发挥更佳的效能。

在1980年代晚期，苹果电脑开始与Acorn合作开发新版的ARM核心，由于这专案非常重要，Acorn甚至于1990年将设计团队另组成一间名为安谋国际科技(Advanced RISC Machines Ltd.)的新公司。也基于这原因，使得ARM有时候反而称作Advanced RISC Machine而不是Acorn RISC Machine。由于其母公司ARM Holdings plc于1998年的伦敦交易市场和NASDAQ挂牌上市[1]，使得Advanced RISC Machines成了ARM Ltd旗下拥有的产品。

这个专案到后来进入了ARM6，首版的式样在1991年释出，然后苹果电脑使用ARM6架构的ARM 610来当作他们Apple Newton PDA的基础。在1994年，Acorn使用ARM 610做为他们Risc PC电脑内的CPU。

在这些变革之后，内核部份却大多维持一样的大小。ARM2有30,000颗晶体管，但ARM6却也只增长到35,000颗。主要概念是以ODM的方式，使ARM核心能搭配一些选配的零件而制成一颗完整的CPU，而且可在现有的晶圆厂里制作并以低成本的方式达到很大的效能。

ARM的经营模式在于出售其知识产权核(IP core)，授权厂家依照设计制作出建构于此核的微控制器和中央处理器。最成功的实作案例属 ARM7TDMI，几乎卖出了数亿套内建微控制器的装置。

DEC 购买这个架构的产权(此处会造成混淆在于其本身也制造 DEC Alpha 并研发出StrongARM。在 233 MHz 的频率下，这颗 CPU 只消耗一瓦特的电能(后来的芯片消耗得更少)。这项设计后来为了和 Intel 的控诉和解而技术移转，Intel 因而趁机以 StrongARM 架构补强他们老旧的 i960 产线。Intel 后来开发出他们自有的高效能实作，称作XScale，之后也卖给了 Marvell。

支援智能型手机、PDA和其他手持装置最常见的架构是ARMv4。XScale 和 ARM926 处理器是ARMv5TE，而且比起建构在 ARMv4 的 StrongARM、ARM925T 和 ARM7TDMI 等处理器还更常见于许多高阶装置上。架构版本如下栏所示。

设计文件

讲求精简又快速的设计方式，整体电路化却又不采用微码，就像早期使用在Acorn微电脑的8位6502处理器。

ARM架构包含了下述RISC特性:

读取/储存架构

不支援地址不对齐内存存取(ARMv6内核现已支持)

正交指令集(任意存取指令可以任意的寻址方式存取数据Orthogonal instruction set)

大量的16 × 32-bit 寄存器阵列(register file)

固定的32 bits 操作码(opcode)长度，降低编码数量所产生的耗费，减轻解码和流水线化的负担。

大多均为一个CPU周期执行。

为了补强这种简单的设计方式，相较于同时期的处理器如Intel 80286和Motorola 68020，还多加了一些特殊设计:

大部分指令可以条件式地执行，降低在分支时产生的负重，弥补分支预测器(branch predictor)的不足。

算数指令只会在要求时更改条件编码(condition code)

32-bit筒型位移器(barrel shifter)可用来执行大部分的算数指令和寻址计算而不会损失效能

强大的索引寻址模式(addressing mode)

精简但快速的双优先级中断子系统，具有可切换的暂存器组

有个附加在ARM设计中好玩的东西，就是使用一个4-bit 条件编码在每个指令前头，表示每支指令的执行是否为有条件式的

这大大的减低了在内存存取指令时用到的编码位，换句话说，它避免在对小型叙述如if做分支指令。有个标准的范例引用欧几里得的最大公因子算法:

在C编程语言中，循环为:

int gcd (int i, int j)

{

while (i != j)

if (i > j)

i -= j;

else

j -= i;

return i;

}

在ARM 汇编语言中，循环为:

loop CMP Ri, Rj ; 设定条件为 "NE"(不等於) if (i != j)

"GT"(大於) if (i > j),

or "LT"(小於) if (i < j)

SUBGT Ri, Ri, Rj ; 若 "GT"(大於), i = i-j;

SUBLT Rj, Rj, Ri ; 若 "LT"(小於), j = j-i;

BNE loop ; 若 "NE"(不等於)，则继续回圈

这避开了then和else子句之间的分支。

另一项指令集的特色是，能将位移(shift)和回转(rotate)等功能并成"资料处理"型的指令(算数、逻辑、和暂存器之间的搬移)，因此举例来说，一个C语言的叙述

a += (j << 2);

在ARM之下，可简化成只需一个word和一个cycle即可完成的指令

ADD Ra, Ra, Rj, LSL #2

这结果可让一般的ARM程式变得更加紧密，而不需经常使用内存存取，流水线也可以更有效地使用。即使在ARM以一般认定为慢速的速度下执行，与更复杂的CPU设计相比它仍能执行得不错。

ARM处理器还有一些在其他RISC的架构所不常见到的特色，例如PC-相对寻址(的确在ARM上PC为16个暂存器的其中一个)以及前递加或后递加的寻址模式。

另外一些注意事项是 ARM 处理器会随着时间，不断地增加它的指令集。某些早期的 ARM 处理器(比ARM7TDMI更早)，譬如可能并未具备指令可以读取两 Bytes 的数量，因此，严格来讲，对这些处理器产生程式码时，就不可能处理如 C 语言物件中使用 "volatile short" 的资料型态。

ARM7 和大多数较早的设计具备三阶段的流水线化(Pipeline):提取指令、解码，并执行。较高效能的设计，如 ARM9，则有五阶段的流水线化。提高效能的额外方式，包含一颗较快的加法器，和更广的分支预测逻辑线路。

这个架构使用"协处理器"提供一种非侵入式的方法来延伸指令集，可透过软件下 MCR、MRC、MRRC和MCRR 等指令来对协处理器寻址。协处理器空间逻辑上通常分成16个协处理器，编号分别从 0 至 15 ，而第15号协处理器(CP15)是保留用作某些常用的控制功能，像是使用高速缓存和记忆管理单元运算(若包含于处理器时)。

在 ARM 架构的机器中，周边装置连接处理器的方式，通常透过将装置的实体暂存器对应到 ARM 的内存空间、协处理器空间，或是连接到另外依序接上处理器的装置(如总线)。协处理器的存取延迟较低，所以有些周边装置(例如 XScale 中断控制器)会设计成可透过不同方式存取(透过内存和协处理器)。

评价

ARM 公司本身并不靠自有的设计来制造或出售 CPU ，而是将处理器架构授权给有兴趣的厂家。ARM 提供了多样的授权条款，包括售价与散播性等项目。对于授权方来说，ARM 提供了 ARM 内核的整合硬件叙述，包含完整的软件开发工具(编译器、debugger、SDK)，以及针对内含 ARM CPU 硅芯片的销售权。对于无晶圆厂的授权方来说，其希望能将 ARM 内核整合到他们自行研发的芯片设计中，通常就仅针对取得一份生产就绪的知识产权内核(IP Core)认证。对这些客户来说，ARM 会释出所选的 ARM 核心的版图，连同抽象模拟模型和测试程式，以协助设计整合和验证。需求更多的客户，包括整合元件制造商(IDM)和晶圆厂家，就选择可合成的RTL(寄存器传输级，如 Verilog)形式来取得处理器的知识产权(IP)。藉著可整合的 RTL，客户就有能力能进行架构上的最佳化与加强。这个方式能让设计者完成额外的设计目标(如高震荡频率、低能量耗损、指令集延伸等)而不会受限于无法更动的电路图。虽然 ARM 并不授予授权方再次出售 ARM 架构本身，但授权方可以任意地出售制品(如芯片元件、评估板、完整系统等)。商用晶圆厂是特殊例子，因为他们不仅授予能出售包含 ARM 内核的硅晶成品，对其它客户来讲，他们通常也保留重制 ARM 内核的权利。

就像大多数 IP 出售方，ARM 依照使用价值来决定 IP 的售价。在架构上而言，更低效能的 ARM 内核比更高效能的内核拥有较低的授权费。以硅芯片实作而言，一颗可整合的内核要比一颗硬件宏(黑箱)内核要来得贵。更复杂的价位问题来讲，持有 ARM 授权的商用晶圆厂(例如韩国三星和日本富士通)可以提供更低的授权价格给他们的晶圆厂客户。透过晶圆厂自有的设计技术，客户可以更低或是免费的ARM预付授权费来取得 ARM 内核。相较于不具备自有设计技术的专门半导体晶圆厂(如台积电和联电)，富士通/三星对每片晶圆多收取了两至三倍的费用。对中少量的应用而言，具备设计部门的晶圆厂提供较低的整体价格(透过授权费用的补助)。对于量产而言，由于长期的成本缩减可借由更低的晶圆价格，减少ARM的NRE成本，使得专门的晶圆厂也成了一个更好的选择。

许多半导体公司持有 ARM 授权:Atmel、Broadcom、Cirrus Logic、Freescale(于2004从摩托罗拉公司独立出来)、富士通、英特尔(借由和Digital的控诉调停)、IBM，英飞凌科技，任天堂，恩智浦半导体(于2006年从飞利浦独立出来)、OKI电气工业，三星电子，Sharp，STMicroelectronics，德州仪器和 VLSI等许多这些公司均拥有各个不同形式的ARM授权。虽然ARM的授权项目由保密合约所涵盖，在智慧财产权工业，ARM是广为人知最昂贵的CPU内核之一。单一的客户产品包含一个基本的 ARM 内核可能就需索取一次高达美金20万的授权费用。而若是牵涉到大量架构上修改，则费用就可能超过千万美元。^[1]

参考文献

↑ ARM架构搜狗

[1] ARM架构搜狗

[1]

求真百科

ARM架构

目录

简介

评价

参考文献