Data Path 설계

 

 $Datapath Requirements

- Memory 

- Registers

- PC

- Sign extend

- Add / Sub / Logical Arithmetic

 


 

2. ALU (Arithmetic Logic Unit) 설계

우리가 사용할 ALU는 다음과같은 operation 들을 지원해야한다.

 

- AND OR NOR

- ADD SUB

- SLT

- Carry ( unsigned overflow )

- Overflow detection( signed overflow )

- Zero detection


1) 1bit ALU for AND,OR and ADD

 

1bit ALU for AND,OR and ADD

 

2) 1bit ALU for SUB

 

1bit ALU for SUB

Sub 는 Add 를 기반으로 하되 2의 보수를 더해주면 된다.

 

3) NOR

 

 

4)SLT

 

SLT 는 LSB 의 값 ( 0 or 1) 에 의해서만 result가 결정되므로, 상위 31bit에 대해 0 으로 설정해주고, 

LSB 만 비교하면 된다.

 

5) Zero detection

 

 

Single-Cycle Implementation

 

앞으로는 Processor 를 구성하는데 사용되는 logic design의 주요 내용을 다시 살펴보고, 이를 기반으로 단일 clock cycle에 단일 instruction을 수행하는 single-cycle processor 를 구현해볼것이다.

 

순서는 다음과 같다.

1. 설계할 Processor Architecture 선정

2. datapath 설계

3. control 설계

 

Single cycle processor 에서는 instruction per cycle (CPI) 은 1이며, 

Cycle time 은 동작이 가장 긴 instruction에 의해 결정된다. (성능은 낮다)

 


Logic Element Review

1) Processor의 logic element 들은 크게 2가지로 구분할 수 있다

 

- Combinational elements

- State elements

 

Combinational elements 에서는

output은 current inputs 에 의해서만 결정되고, ALU, mux, decoder, encoder 등이 있다.

또한 일반적으로 feedback path가 존재하지 않는다.

 

State elements 에서는

state를 저장하는데 사용하고, 일반적으로 clock이 input으로써 사용되고, 특정 조건이 만족할 경우에만 state 

element로 사용되는 control signal 이 존재한다

 

이러한 Sequential Circuit 은 state element 와 conbinational element 들로 구성되는데,

일반적으로 combinational logic 의 입력은 state element 로부터 오며, output은 current inputs 와 current state에 의해 결정된다. 또한 Feedback path가 허용된다.

 

 

2) Clock

 

clock 은 state elements 가 언제 update 되는지를 결정한다.

따라서 state elements 가 존재하는 sequential logic circuit에서는 반드시 존재하게 된다.

이러한 clock 과 관련해 state element 가 언제 valid 하고 stable 해야하는지를 결정하는것을 clocking methodology 라 하는데, 이에는 Level-sensitive 와 Edge-triggered 두가지 방법이 존재한다.

 

- Level-sensitive : state change 가 clock 의 특정 level 에서 이루어지고, Latches 또는 Latch로 이루어진 register들이 state elements 로 사용된다.

-  Edge-triggered : state change 가 clock edge 에서 이루어지고 Rising edge 또는 Falling edge 를 사용하게 된다.

Flip-flops 또는 flip-flop 로 이루어진 register들이 state-elements 로 사용된다.

 

 

 

3)

Edge-Trigged Clocking 을 사용한 Sequential Circuit 의 예

 

위는 Edge-Trigged Clocking 을 사용한 Sequential Circuit 에서 Setup time 과 Hold time 에 관련된 delay constraints 에 대해 설명한것이다.

 

먼저 여기나오는 용어에 대해 조금 알아보자면, 

 

Clock-to-Q : 클락의 엣지가 되서 플립플롭 내에서 D값이 Q로 전달되는 delay 이다. 

Setup time : state elements 로의 입력은 클락 엣지에서 setup time 전부터는 valid 해야한다는 것을 의미한다.

Hold time : state elements 로의 입력 클락엣지 이후에도 hold time 동안 valid 해야한다.

Longest path delay : state elements 사이의 최대 delay

 

 

 

4)Feedback Path

 

 

Sequential circuit 에서의 feedback path

 

Sequential circuit 에서는 위와같이 feedback 이 허용된다. 또한 위와 같은 회로에서는 reset 또는 preset logic 이 필요하다. Feedback path 가 있더라도 clock을 사용해 feedback을 일정시간 막아줌으로써, 동일시간의 즉각적인 feedback 이 없으므로 circuit의 안정성이 유지된다.

 

Combinational circuit 에서의 feedback path

 

반대로 combinational circuit에서는 즉각적인 feedback 으로 값이 안정되지 않는다. 

 

5) Signal 관련 용어

 

- Control signal : Multiplexer 에서 입력을 선택하거나 functional unit 의 동작을 지시하는데 사용되는 signal

 

- Data signal : Functional unit 에 의해 처리되는 정보를 담고있는 signal

 

- Bus : 단일 logic signal로 취급되는 signal line 들의 묶음

 

- Asserted : Signal 이 logically high(active) 인 상태 또는 그 상태로 변하는것

- Deasserted : Signal 이 logically low(inactive) 인 상태 또는 그 상태로 변하는것

 

6) Mux 

 

Mux 의 예

 

여러 input들 중 Control signal 에 따라 1개를 output 으로 내보냄, Selector 라고도 함.

 

 

 Array of 32 1-bit multiplexers

 

 

 

 

32bit wide multiplexer 는 실제로는 32 개의 1-bit multiplexer 들로 이루어진 array이다.

이와같은 logic element 의 array는 다양한 logic element 들에 적용되 수 있다.

ex) latch 또는 flip flop 등의 array 가 register를 구성한다.

 

 

 

 

 

 

 

 

7) Latch

 

D Latch

 

Latch 는 Clock 이 asserted 되어있는 동안 input이 변할때마다 state 가 변경된다. (Level sensitive, Active high 또는 Active low)

 

D-latch : Clock 이 asserted 되어있는 동안에 input signal의 값을 내부 state 에 저장하는 latch. ( 특정조건이 만족할경우에만 state change 가 일어난다면, write enable 로 사용되는 control signals 가 존재한다.)

 

 

 

8) Flip - Flop

 

내부 저장된 state 를 output 으로 내보내는 state element

 

Clock edge 에서만 state change가 이루어진다. (Edge - sensitive) 

 

D Flip - Flop

 

 

9) Register

 

Register

Edge triggered clocking methodology 를 사용하기위해 D flip flop으로 만들어진 register들을 사용한다.

 

n - bit register란 n bit의 input 과 n bit의 output를 가지게 된다.

clock signal 은 input value 가 register에 언제 write되는지를 결정한다.

여기서 clock 위의 삼각형 표시는 flip flop 의 사용 의미를, 동그라미 표시는 falling edge 사용 표시이다.

 

10) Register File

 

Register 가 flip flop들의 array라고 한다면, Register file은 register의 array이다.

MIPS 의 경우 32개의 register 를 가지고있고, register number 를 지정하여 특정 register 값을 read 하거나 write 를 할 수 있다.

 

여기서 사용할 register file 은 두개의 read port 와 하나의 write port를 사용할 것이다.

가령 R-format instruction 의 경우, 각 instruction 에 대해 2개의 register operand 를 read 하고 1개의 data 를 register file 에 write 해야한다. 따라서 Input 과 Output의 관점에서는, one data input 과 two data ooutput을 갖는다.

 

이때 write enable 값이 존재하는데, 가령 add 연산의 경우 register write를 하지만, sw 혹은 beq 연산의 경우 write 과정은 따로 필요없기 때문이다.

 

 

Register file Symbol

 

이 때, Read operation 은 enable 또는 clock signal 과 관련없이 read 되고 Ra Rb 에 의해 지정된 register 값을 BusA 와 BusB 를통해 출력하게 된다. Write operation 은 RegWrite 의 값( 0 or 1) 에 따라 BusW를 통해 write 한다.

 

 

11) Memory

 

Ideal memory

 

 

위는 단순화를 위해 사용한 ideal 한 memory 의 형태이다.

메모리에서도 마찬가지로 memwrite 와 memread 의 값에따라 read write 를 수행하게 된다.

여기서 read enable 을 굳이해야하는것에 관해선 메모리의 값을 건드리는것 아니기때문에 항상 read 해도 되지만,

Invalid address 의 경우 read 하더라도 문제를 발생하기때문에 필요하다..!

 

1. ISA (Instruction Set Architecture)

 

Computer라는 기계는 결과적으로 0 과 1, 즉 트랜지스터를통한 전기신호만을 읽어 들일수 있다.

그렇다면 우리가 작성하는 c언어, python 등과같은 언어도 결국 최하단 low level language인

0 or 1로 번역되어 전기신호로 입력된다는 것인데, 이렇듯 하드웨어가 인식하는 기계어들로 된 명령어들의 집합을 ISA라고 한다. 가장 중요점은 마이크로프로세서, 즉 CPU마다 기계어 코드의 길이와 숫자 코드가 다르다는 것인데,

마치 임베디드단말의 ARM 과 컴퓨터칩의 Intel CPU에 들어가는 Instruction이 다른 것처럼 프로세서마다 명령어 해석구조가 다르다. 하지만 해석에있어서 모든 원리나 디자인이 전혀 다르다고 할수는 없다.

 

 

 

위 그림은 32bit 의 instruction 을 표현하고있다. 당연히 각 비트는 0 or 1로 표현될것이다.

여기서 명령어가 32bit라고 해서 본인 컴퓨터에서 32bit 운영체제, 64bit운영체제가 명령어 비트에 따른것이라고 생각하면  오산이다. 명령어는 그자체로 32bit이고 본인의 컴퓨터에서 몇bit 운영체제를 말하는건 레지스터의 bit수를 의미한다. 뒤에 나올것이다.


2. MIPS and ARM ISA 

 

MIPS ISA는 이번 컴퓨터 구조 포스팅에서 중점적으로 다룰 ISA이다. MIPS Computer System 사에 의해 개발된 ISA

인데, 다른뜻(MIPS = Millions of Instructions Per Second) 도 존재해서 혼동하지 않기 바란다.

 

본격적으로 들어가기 전에, 마이크로 프로세서에 대해 간략히 개념정리를 해본다.

적어도 마이크로 프로세서를 나누는 기준에는 몇가지가 있을텐데, 메모리 구성에 따른 하버드 vs 폰노이만 구조의 분류, 사용되는 용도와 종류에따른 분류 그리고 명령어 구조에 따른RISC 구조와 CISC 구조의 분류등이있다.

 

 

여기서 RISC와 CISC 의 차이는 Complex Instruction Set Computer 와 Reduced Instruction Set Computer

냐의 차이이다.

말그대로 RISC는 CISC에 비해 명령어의 수를 많이 줄였고, 그만큼 단순하다. 플러스해서 명령어 길이가 가변적인 CISC에 비해 RISC는 고정적이며, 적은 주소지정 모드를 가지고있다.

이런 RISC의 대표주자가 ARM, MIPS 가 있고 CISC의 대표주자로는 Intel x86이 있다.

여담으로 CISC의 대표주자인 intel은 8086->80286->...->pentium... 계속해서 아키텍쳐를 업그레이드 시켜왔지만 그 방법이 다분히 명령어를 늘리는 Incremental ISA 형식이기때문에 상당히 입문자가 배우기에도 어렵다고 한다.

이러한 문제점때문에 최근 RISC-V 아키텍쳐등의 모듈형ISA는 상당히 매력적이다.

 

이러한 마이크로 프로세서들을 컨트롤함에 있어 어셈블리어 구조와 각각의 ISA를 익히는 것은 상당히 중요한 부분일 것이다. 앞으로는 ARM 과 MIPS 아키텍쳐를 중점으로 다룰것이지만 다른포스팅을 통해  RISC-V구조에 대해서도 알아보자.

 


3.Arithmetic Operations

 

ARM 과 MIPS 에서는 기본적인 Arithmetic 연산, 즉 산수연산은 3개의 operand로 구성된다.

 

C code : a = b+c;

MIPS assembly : add a, b, c

 

가령  c코드로 표현된 산수연산은 어셈블리어로 다음과 같이 표현된다.

일반적으로 addition과 같은 산수연산들은 operand, 즉 피연산자항이 3개로 구성되나 모든 아키텍쳐가 3개는 아니다. 인텔8085 나 x86아키텍쳐의 경우 하나 혹은 두개로 구성되기도 한다.

 

C code : f = (g + h) - (i + j);

MIPS assembly : add t0, g, h

                       add t1, i , j

                       sub f, t0, t1

 

위와 같은 c코드는 중간 결과 값들을 temporary variables 에 저장함으로써 표현할 수 있다.

여기서 t0가 의미하는것은 레지스터이다.

다시말하자면 논리회로시간쯤 한번은 들어본 CPU안에 존재하는 data access를 빠르게 가능하게하는 저장장소이다.

이렇듯 operand들은 레지스터안에 존재하기도 하며, 메모리안에 존재하기도 한다.


4. Registers

 

CPU 안에 존재하는 임시저장장소이다. 

앞으로는 이러한 Register의 역할에대한 이해가 컴퓨터 아키텍쳐를 이해하는데 핵심이다.

이러한 Register는 컴퓨터내에 몇개 없고, 데이터 접근이 가장빠르지만 레지스터가 많을수록 Read/Write 가 느려져서 clock cycle time이 증가하는 문제가 있기 때문에 수가 제한되어있다. 

 

MIPS 레지스터는 32개의 General purpose register를 가지고 있는데, 내부에는 이들을 하나의 Array로써 저장하고있고 이 register들의 집합을 Register File 이라 부른다.

예를들어 s0~s7번은 highlevel language에서의 변수에 해당, t0 ~ t9는 컴파일 과정의 임시결과 저장을 위한 register이고, 이들은 각기 고유 number를 가지고 있다.

결국 Register 수가 적으면 hardware 입장에서는 빨라지미만, program입장에서는 register의 수가 많은것의 속도가 개선되기에( 예를들면 레지스터가 적으면 arithmetic 계산에서 temp 변수가 많이 필요함 ) 적절한 balance가 필요하다.

 

MIPS 에서는 이러한 register로 부터의 operand 들만을 사용하고, 2개의 source 레지스터로부터 destination 레지스터에 저장하게 된다. MIPS에서는 각각의 Register들은 32bit로 구성되어있는데 이를 Word라고 하고, 컴퓨터가 한번에 인식하고, 처리할 수 있는 bit의 그룹으로 정의한다. 

따라서 32bit레시스터의 경우 하나의 레지스터가 처리할 수 있는 수의 범위가 2³² 까지이기 떄문에,  2³² = 약 4GB의 컴퓨터가 되는 것이다.

Arm의 경우에도 16개의 General purpose register들로 구성되고 각각의 고유의 number를 가지고 사용관례를 가지고 있다.


5. Memory Operand

앞에서 Register의 기본적인 원리와 어셈블리연산의 원리에 대해 알아보았다.

 

결국 c코드가 연산될때 변수들은 빠른 처리를 위해 메모리가 아닌 레지스터에서 연산을 거친다.

그렇다면 만약 코드상에서 처리된 배열, 예를들어 1000칸짜리 배열은 레지스터에 담을수 있을까.

이렇듯 복잡한 data structure들은 제한된 공간내에 담을 수 없으므로 레지스터단위로 연산을 한다하더라도 메모리까지 접근하여 데이터를 가져오는 memory operand 의 필요성을 알 수 있다.

이러한 Architecture 를 LOAD-STORE Architecture 라고 하고, 오직 data transfer instructions (load 및 store instructions) 만이 memory 를 access할 수 있고, 그 외의 instruction들은 registers 또는 immediate data operands 만을 사용하는 것을 load-store architecture 라고 한다.

 

메모리 접근에서는 각 memory location에 할당된 memory address 를 사용해 memory operand들을 access 할 수 있다.

 

Memory Address

다음과 같이 각각의 메모리 주소마다 데이터를 저장하고있는 구조를 생각해보면,

32bit 컴퓨터에서는 2³², 즉 4G의 메모리를 가지고있는 셈이다.

 

C code : A[12] = h + A[8];

MIPS assembly : lw $t0, 8($s3)  # Temporary register $t0 gets A[8]

                      add $t0, $s2, $t0 # Temporary register $t0 gets h + A[8]

                      sw $t0, 12($s3)  # Stores h + A[8] back into A[12]

 

위의 C코드를보면, 배열연산을 하고 있다는 것을 알 수 있다. 이때 lw, sw명령어를 이용해 메모리에 접근하여 t0에 불러오고 이를통해 연산을 수행하여 다시 store하는것을 알 수 있다.

MIPS에서는 Address = base + offset (index) 인데, 기준주소인 offset을 바탕으로 몇번째 떨어진 데이터를 가리킬지를 정하고 있다. 마치 C언어의 배열 포인터관계를 생각한다면 쉽게 이해할 수 있다.

 

 

Byte-Accesisble Memory

 

위 그림은 memory alignment 를 나타내고 있다.

최신 컴퓨터 하드웨어의 CPU는 데이터가 자연스럽게 정렬 (naturally aligned) 될 때(일반적으로 데이터 주소가 데이터 사이즈의 배수일 때) 메모리에 대한 읽기 및 쓰기를 가장 효율적으로 수행할 수 있게된다.

다시 설명하자면, 프로세서의 워드 크기가 4바이트(32비트)일 때, 메모리로부터 한 번 읽어들일 때마다 4바이트만큼 읽어들이고 기준 주소 역시 워드의 배수여야 한다는 것이다.

 

조금 구체적인 설명은 아래 페이지를 참고해도 좋을 것 같다.

 

메모리 얼라인먼트(Memory Alignment)

메모리 얼라인먼트는 레퍼런스마다 데이터 구조 얼라인먼트(Data Structure Alignment), 데이터 얼라인먼트(Data Alignment) 등으로 불리기도 하며, 위키피디아에서는 다음과 같이 개요가 작성되어 있습니

minusi.tistory.com


6. Endian

 

마지막으로 설명할 개념은 Endian 인데, Big Endian 과 Little Endian 이 있다.

여기서 Endian 은 컴퓨터 메모리상의 데이터 저장 순서 규약을 의미한다.

컴퓨터상의 메모리는, 바이트단위의 데이터 저장을 하기때문에, 바이트 이상의 데이터가 저장될때의 저장순서 byte order가 메모리주소의 낮은곳부터 저장하는지, 높은곳 부터 저장하는지에 따라 Big Endian 과 Little Endian으로 나누어지게 된다.

 

 

Endian

 

 

1 . Computer Performance 

 

컴퓨터의 성능, 즉 Performance를 측정하기위해서는 어떠한 지표가 필요할까. 크게 아래의 둘로 나뉜다.

  • Response time : 특정 작업을 수행하는데 걸리는 시간, Execution time or Latency
  • Throughput : 단위시간당 수행하는 작업의 양, Bandwidth

 

성능(performance) = 1/실행 시간(execution time)
(성능x / 성능y) = (실행시간y / 실행시간x) = n 

 

 

따라서 computer X 가 computer Y보다 performance가 높다는 것은

Performance X > Performance Y 또는 (1 / Execution time X) < (1 / Execution time Y)  

 

 

여기서 Execution time 이란 어떠한 결과를 내놓는데 걸리는 총 시간으로 다음 시간들의 합이 된다.

  • processing
  • I/O
  • OS overhead
  • idle time

 

위에서는 response time (execution time) 을 기준으로 performance 를 측정하였으나, 이러한 execution time 에는

Elapsed time, CPU execution time(CPU time) 등이 존재한다.

  • Elapsed time (wall-clock time) : 작업을 수행하는 전체 시간
  • CPU execution time (CPU time) : 작업을 수행하기 위해 CPU가 소모한 시간, I/O accesses 나 다른 program들이 소모한 시간은 포함되지 않는다. System CPU time 과 User CPU time 으로 구분된다.

 

CPU performance를 측정한다는 것은, User CPU time 에 의한performance를 측정하는것을 의미한다.

따라서 User CPU time을 중심으로 performance를 측정한다.

 


2. Computer Performance and Clock

 

  • Clock? 일정한 주기의 square wave signal. 컴퓨터는 Clock을 기준으로 동작을 수행한다.

 

Clock cycle의 개념을 CPU time 에 도입하면 위와같이 표현되는데, CPU 실행시간은 결국 프로그램당 Clock이 몇번 동작했는가에 클럭 cycle time 을 곱하면 된다.

 

 

여기서 다시  Clock Cycle이 몇번 필요한지는 명령어의 개수와 명령어당 Cycle이 몇개 필요한지 계산하면 도출해낼 수 있다. 여기서 instruction 1개당 필요한 cycle수가 CPI 이다.

종합하면 아래와 같다.