您好、欢迎来到现金彩票网!
当前位置:2019跑狗图高清彩图 > 向量指令 >

53 54向量机

发布时间:2019-07-31 07:59 来源:未知 编辑:admin

  2.5华中师范大学计算机科学系 只能对一个或一对标量操作数进行运算或操作的指令为标量指令。 D-cacheI-cache 译码器 状态记录部件 存储器操作部件 ALU部件 转移控制部件 RF 超级标量机的典型结构 配置有多个性能不同的处理部件,采用多条流水线并行处理。 能同时多若干条指令进行译码,将可执行的指令送往不同的执行部件,从而达到在 每个周期启动多条指令的目的。 在程序运行期间由硬件(通常是状态记录部件和调度部件)完成指令的调度工作。 VLIW机的方法在1983年由美国耶鲁大学的Fisher教授首先提出来的,它与超标量机 的不同之处在于:它用一条长指令来实现 多条操作的并行执行,减少对存储器大访 问,指令字往往长达百位,甚至千位。 单一的控制流。只有一个控制器,每个周期启动一个长指令。 超长指令字被分成多个控制字段,每个字段直接独立地控制每个功能部件。 含有大量的数据通路和功能部件,由于编译器在编译时间已考虑可能出现的数据相关和 资源相关,故控制硬件比较简单。 在编译阶段完成超长指令中多个可执行操作的调度。 RF(寄存器堆)LD/ST1 LD/ST2 FADD FMUL VLIW中的操作码字段: LD/ST1 LD/ST2 FADD FMUL 源代码操作 所需周期 L=M-KLOAD L=M-KSTORE VLIWSTORE L=M-KSTORE 6个周期(乘2个周期) 10 比较类型 译码 并行检验 完成时间 代码密度 目标 可移植性 VLIW 简单 编译 较差 不可移植 超级标量 复杂 运行 较好 可移植 VLIW 11 VLIW Multiflow TRACE Cydrome Cydra5. VLIW 12 13标量流水机性能的提高受到下面两个因素影响: 1、流水线工作的时钟周期不可能取得很 时钟周期短将加剧时钟在流水入口和出口处的扭斜错位程度,使级间锁定变得困难, 导致不能可靠工作。 2、取指及译码的速率受限。在一个时钟周 期中最多只能启动一条指令。 14 15 一、向量流水机的基本系统结构 1.向量流水的主要特点: 一个中各个元素是互不相关的,对当 前每个向量的操作结果不影响到其他向量 元素。这就允许向量流水流水线 一条向量指令相当于一个标量循环,所以可以减少指令,从而可以降低对指令访问 带宽的要求。并且消除了由循环引起的控 制相关。 若向量指令所要访问的向量元素均相邻,则可以在交叉存储体中高速地依次访问它 们。这使得访存时间缩短。 向量操作要比一串标量指令操作更快。 17 YH19 主存 标量寄存器 向量存取 部件 指令 处理部件 向量寄存器/ 向量缓冲器 向量指令 控制部件 标量功能部件 向量功能部件 向量功能部件 向量功能部件 20 它主要由一个标量流水部件和一个向量流水部件组成,包含了向量功能部件、向量 存取部件、向量寄存器或向量缓冲部件、 标量量寄存器、标量处理部件及向量控制 器等部件。也就是说,向量机兼容标量处 理功能。 21 标量机LD #512LOOP:LD 20,LOOP 22 向量机LD 向量机执行指令6条。标量机执行指令(9*64+2=578) 标量机的连锁频率远高于向量机。24 是流水线的启动时间(包括流水线固有的延迟时间,以便设置为完成向量指令所需的相应参数) 为启动率,它表示一旦向量指令开始运行后,即向量流水线填满后,每流出一个结果所需时间。 n是向量的长度 26 对RR型向量机而言流水线的启动时间主要取决于功能部 件流水线的深度,启动时间就是获得第一 个流水结果的时间。 启动率取决于相应的向量功能不见能 以多快的频率来接收一个操作数,当处于 充分流水时可使启动率为1。 27 二、向量操作长度控制和向量访问步长 在寄存器-寄存器工作方式执行过程中,如果向量的长度大于寄存器的长度时,要 把待计算的向量分成几段来计算,每次调 入一段,放到寄存器中进行流水操作,完 了以后再取一段。这就是分段技术。 28 三、向量的处理方法 向量机对向量的各种运算可以采用不同的 加式方式,一种是横向加工,一种是纵向 (垂直)加工,还有就是纵横向加工(分组加 工),这是分段技术在向量加工方式上的实 现。如CRAY-1以及小巨型机基本都采用分 组加工的方式。 29 横向加工法di=a1(b1+c1) d2=a2(b2+c2) di=ai(bi+ci) 32四、增强向量处理性能的方法 四种增强向量处理性能的方法 其中两种方法已在所有向量机中采 一是采用多功能部件,并行工作;二是加快一串相关向量指令的操作速 度,即链接技术。 33 1、多功能部件的并行操作 V4V1+V2V5V2 V3 35 V3V1+V2V6V4+V5 36 CRAY-1 CRAY-1由中央处理机、诊断维护控制处理机、大容量磁盘存储子系统、前端处理机 组成的功能分布异构型多处理机系统。 中央处理机的控制部分有总容量为256个16位的指令缓冲器,分成4组,每组为64个。 中央处理器的运算部分有12条可并行工作的单功能流水线 一条向量指令的执行时间主要取决于下面三个因素: 向量的长度 是否出现相关 并行执行的程度 38 39LV V1 RX MULTSV V2 F0 V1 LV V3 RY ADDV V4 V2 V3 SV RY V4 40 LV V1 RX MULTSV V2 F0 V1 LV V3 RY ADDV V4 V2 V3 SV RY V4 V1 V1 41 LV V1 RX MULTSV V2 F0 V1 LV V3 RY ADDV V4 V2 V3 SV RY V4 42 LV V1 RX MULTSV V2 F0 V1 LV V3 RY ADDV V4 V2 V3 SV RY V4 V3 V3 43 LV V1 RX MULTSV V2 F0 V1 LV V3 RY ADDV V4 V2 V3 SV RY V4 V4 V4 44 LV V1 RX MULTSV V2 F0 V1 LV V3 RY ADDV V4 V2 V3 SV RY V4 45 整数加3 移位4 逻辑2 向量部件 浮点加6 浮点乘7 浮点倒数14 浮点部件 整数加3 逻辑1 移位2~3 数1/计数3~4 整数加2 整数乘6 主储存器 8个向量寄存器 每个64字,每字64位 8个标量寄存器 8个地址寄存器 指令处理器 地址运算部件 标量部件 CRAY-1处理机12个功能流水部件 46 利用向量指令间存在的先写后读的数据相关性来加快向量指令序列执 行速度的技术称为 。它就 是标量流水中的定向传送方法在向 量寄存器中的应用。 47 ADDV 串行执行:6+n-1+7+n-1=2n+11 链接执行: 6+7+n-1= n+12 48 使用这个技术的条件是: 1、两条指令间存在先写后读的数据相关性。 也就是前一条指令的结果正好为后一条指 令的数据源。可以在上一条指令将结果传 送到结果寄存器的同时就直接传给下一指 令的功能部件作为操作数进行操作,这就 节省了等待时间。 49 2、时间上的要求,就是当前一指令的 第一个结果分量送入结果寄存器的那 一个时钟周期方可链接,若错过这一 拍,就无法链接。如果一条向量指令 的源操作数是前面两条并行操作指令 的结果数时,只有这两条指令产生结 果的时间必须相等才可进行链接。也 就是说,链接操作得丝丝入扣,一拍 不差,早也不行,晚也不行,多也不 行,少也不行。 50 51CRAY-1 设向量长度小于64,且B和C已由存储器取至V0和V1,可由下面三条指令完成上述的 运算: LD 冲突52 全串行[(1+6+1)+N-1]+[(1+6+1)+N-1]+ [(1+7+1)+N-1] =3N+22 前两条并后一条串[(1+6+1)+N-1]+[(1+7+1)+N-1] =2N+15 前两条并后一条链(1+6+1)+(1+7+1)+N-1=N+16 53 采用一个屏蔽向量来控制某些向量元素参加 运算。 例如:do 100 i=1,64 endif100 continue 条件执行语句的加速处理方法54 LD RaLD RbLD ;设屏蔽向量SUBV CVM;屏蔽向量置全1 SV 55屏蔽向量寄存器控制向量指令执行方法的缺点是: 1、执行时间没有少。(执行操作,但结果不 回送) 2、可能会使某些向量指令指令操作出现错 解决的办法是:根据屏蔽向量既禁止将结果写入目的寄存器又禁止该操作的执行。 56 稀疏矩阵的加速处理方法57 58五、向量处理性能的评估参数和方法 在向量机中,执行一个向量长度为n的指令所 需的时间为: vp=(s+l+n-1)Tc 其中s为建立流水线所需时间 周期数,l为完成每对向量元素操作所需的 子操作数,即流水功能部件中的级数。 59 每对向量元素的平均执行时间为:~t vp 在评估向量流水机性能时,除了执行时间外,向量长度是一个很重要的评估参数。常用的评价参数 有三个: :向量长度为无穷大时向量流水的渐近性能,常在评价峰值性能时使用,单位用MFLOPS。 1/2:为达到一半R :它表示向量流水方式工作速度优于标量串行方式工作时所需的向量长度临界值。 60 六、向量化编译技术 采用向量化编译程序将程序中存在的可并 行的循环体语句用相应向量指令来表示。 向量化编译器也有优化问题,通常采用: 通用优化技术、向量寄存器优化技术、流 水线并行化技术以及标量循环语句向量化 技术。 61 62 63 链接技术:利用向量指令间存在的先写后读的数据相关性来加快向量指令序列执行 速度的技术称为链接技术。 65 66LD V3,A LD V0,B LD V1,C ADD V2,V0,V1 MUL V4,V 2*V3 ST V4,D 67 1+6+(N-1)+1 6+7+(N-1)68 1,2链接,3,4,串1+6+1+1+7+1+63+1+6+1++63 +1+6+1++63 1+6+1+1+14+1+ 1+7+1+1+6+1+63 69 6.2与标量机相比向量流水的特点是什么? 答:向量流水处理的特点是: (1)在向量操作中,每个当前结果向量元 素的计算与以前结果向量元素的计算是相 互独立的,这就允许向量流水线)一条向量指令相当于一个标量循环, 从面可降低对指令访问带宽的要求。此外, 这也消除了由循环转移可能引起的控制相 70(3)若向量指令所要访问的向量元素均相邻,则可 以在交叉存储体中高速地依次访问它们。由于一 个向量中通常含有多个元素,因此对存储器访问 的延迟平均到每个元素上,其访丰等待的时间开 销是较小的。 与标量流水机相比,向量操作要比一串标量指令操 作更快,此外,向量流水机还可使访丰和有效地 址计算流水化,高档的向量机还允许多个向量操 作同时进行,从而可开发对不同元素进行多个向 量操作的并行性。 71 向量机系统结构按向量操作对象及结果主要存放在寄存器中还中存放在存储器中,可 分为存储器-存储器工作方式向量机和寄存 器-寄存器工作方式向量机两大类.前者的工 作特点是向量操作的源向量都取自主存且 操作生成的结果向量也存放到主存中,而后 都则都取自或存放到向量寄存器中。 72 向量的加工方法有哪几种?从加工速度和需要的中间 变量等方面分析各有何特点? 一种普遍采用的加工方式称为横向加工,它是按向量顺序计算的.这种加工方式需要中 间寄存器,在每个向量元素的加乘运算中 都会发生数据相关情况,而且当用静态流 水线时,还要进行多次功能转换.所以这 种加工方式速度慢,不适合于向量流水处 另一种加工方式称为垂直加工,它是先纵向加工某两个向量中元素对的加法操作,中间 结果暂存到一中间向量中,然后再纵向加工 所有对应元素的乘法操作.这种方式的数据 相关在两条向量指令间只有一次,流水线 功能只需切换一次.加获得较高的吞吐 率,但需要有一个暂存中间向量.存储器 -存储器工作方式的向量机都采用这种方 第三种加工方式是纵横向加工(或称分组加工),以寄存器-寄存器方式工作的向量机都采用这种 加工方式,因为向量寄存器的长度有限,当向量 长度超过向量寄存器可表示的最大限度n时就不 得不分段处理.在加工时,每组内各有两条向量 指令,各组内有一次数据相关,需2次流水功能 切换,需n个中间向量寄存器单元.CRAY- 1以及小巨型机基本都采用这种加工方式. 75 76

http://bluecaleel.com/xiangliangzhiling/318.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有