마이크로세서 강의자료

제 4 장 명령어처리

4 장에나오는이야기들 CPU 명령어사이클과병렬계산 i4004 이후 μ- 프로세서는여전히작은처리장치? ( ) 1990 s 말부터슈퍼컴퓨터는수많은 μ- 프로세서들을연결해대규모병렬컴퓨터로설계 병렬계산을하지않는대부분의컴퓨터 1940 s 폰노이만이설계한명령어의순차실행을기반 파이프라인구조 1980 s 인텔 486 등에서이미보편화 슈퍼스칼라, SIMD 구조 1990 s 인텔펜티엄프로세서등에서널리사용 VLIW, 멀티코어프로세서구조 2000 s 말이미개인용컴퓨터에까지대중화

제 4 장의구성 4.1 CPU 명령어사이클 4.2 병렬계산 4.3 파이프라인구조 4.4 슈퍼스칼라구조 4.5 VLIW 구조 4.6 병렬컴퓨터

4.1 CPU 명령어사이클

4.1 CPU 명령어사이클 명령어기본사이클 명령어인출사이클 명령어실행사이클 간접사이클 서브루틴호출과복귀 인터럽트사이클 CPU 명령어사이클

CPU 명령어사이클 CPU 사이클 (cycle) CPU 사이클 일반적으로명령어사이클을의미 사이클은일반적으로순환이나회전을뜻함 (cf.) 명령어사이클과혼동되는경우 CPU 내장캐시의액세스타임등에서사이클개수 CPU 클럭개수 7 장의버스사이클 메모리나 I/O 장치를읽고쓰는동작

명령어기본사이클 CPU 의명령어사이클 (instruction cycle) 프로그램에서주어진명령어를실행하기위해반복적으로수행해야하는일련의연속적인동작 명령또는명령어 (instruction) CPU 가동작을수행하는데필요한설명이나지시 CPU 명령어사이클의기본구조 명령어인출 (instruction fetch) 사이클 CPU 가메모리에서명령어를읽어오는단계 명령어실행 (instruction execution) 사이클 CPU 가명령을수행하는단계

명령어기본사이클 명령어기본사이클 명령어인출사이클 + 명령어실행사이클

제어장치와명령어사이클

제어장치와명령어사이클 CPU 제어장치의중요한역할 명령어를인출하여해독하고실행하는일 [ 그림 4-2] 명령어인출사이클 1 명령어가저장된주소를지정 2 메모리의해당주소에들어있는명령어를꺼내옴 3 프로그램카운터에다음번명령어의주소를준비 명령어실행사이클 4 명령어를해독 5 명령어실행에필요한 CPU 내외부제어신호발생

명령어인출사이클 명령어인출사이클 프로그램카운터 PC 가가리키는메모리주소에서명령어를순서대로인출해명령레지스터 IR 로전송 명령어인출사이클을 < 연속된 μ- 연산 > 으로표시 t 1 : MAR PC PC에저장된명령어주소를 MAR로전송 t 2 : MBR M[MAR], PC PC+1 MAR 번지메모리의명령어를 MBR로전송하고, PC를증가시켜다음번명령어의주소를준비 PC 값증가는가변 4바이트명령을인출하면 PC+4 t 3 : IR MBR 메모리에서인출해온명령어를 IR 로전송

명령어실행사이클 명령어실행사이클 명령레지스터 IR 에저장된명령을해독하고 CPU 내외부에서명령어실행에필요한제어신호들을발생 < 가상 > 의어셈블리명령어설계 < 어셈블리명령어 ; 레지스터전송언어 > 로표시 데이터처리및메모리연산명령 MOV 산술연산명령 ADD 흐름제어연산명령 JUMP 명령어실행사이클을 < 연속된 μ-연산 > 으로표시 어큐뮬레이터 AC, 범용레지스터 B, 프로그램카운터 PC, 명령의오퍼랜드필드에포함된유효주소 Y 사용

명령어실행사이클 어셈블리명령어 MOV 설계 MOV B, [Y] ; B M[Y] 오퍼랜드에포함된메모리주소 Y 번지의내용을 B 레지스터로전송 명령어실행사이클을 < 연속된 μ- 연산 > 으로표시 t 1 : MAR Y 메모리주소 Y 를 MAR 로전송 t 2 : MBR M[MAR] MAR 번지메모리내용을 MBR 로전송 t 3 : B MBR MBR 의내용을 B 레지스터에전송

명령어실행사이클 어셈블리명령어 ADD 설계 ADD [Y] ; AC AC + M[Y] AC 의내용을오퍼랜드에포함된주소 Y 의내용과더해저장 명령어실행사이클을 < 연속된 μ- 연산 > 으로표시 t 1 : MAR Y 메모리주소 Y 를 MAR 로전송 t 2 : MBR M[MAR] MAR 번지메모리내용을 MBR 로전송 t 3 : AC AC + MBR AC 와 MBR 의합을구해다시 AC 에저장

명령어실행사이클 어셈블리명령어 JUMP 설계 JUMP Y 프로그램의흐름이오퍼랜드에포함된주소 Y 로분기 명령어실행사이클을 <μ- 연산 > 으로표시 t 1 : PC Y 분기주소 Y 를 PC 로전송

유효주소와간접주소 유효주소와간접주소 3 장참조 유효주소 (effective address) 실제피연산자가저장된메모리위치 간접주소 (indirect address) 유효주소가저장된메모리위치

간접사이클 간접사이클 (indirect cycle) 실행사이클의일부 오퍼랜드필드에포함된간접주소로부터실제피연산자가저장된위치인유효주소를읽어오는단계 간접사이클을 < 연속된 μ- 연산 > 으로표시 IR( 오퍼랜드 ) 명령레지스터 IR 의오퍼랜드필드 t 1 : MAR IR( 오퍼랜드 ) 오퍼랜드에있는간접주소를 MAR 로전송 t 2 : MBR M[MAR] MAR 번지메모리내용인유효주소를 MBR 로전송 t 3 : IR( 오퍼랜드 ) MBR MBR 의내용을 IR( 오퍼랜드 ) 로전송 명령어의새로운오퍼랜드필드에유효주소가준비

서브루틴호출과복귀 메모리의스택 (stack) 영역 서브루틴을호출할때메인프로그램의위치로다시돌아올복귀주소를저장 스택포인터 (stack pointer, SP) CPU 레지스터중하나, 현재상태에서이용가능한스택영역의최종위치를표시 항상스택영역의최상위나최하위주소를가리킴 스택영역에내용을넣거나꺼낼때는 SP 를기준 주로후입선출 (last-in first-out, LIFO) 방식 서브루틴이완료되면복귀주소는스택영역에들어간역순으로출력됨

다중서브루틴과스택영역의변화

서브루틴호출과복귀 < 가상 > 의어셈블리명령어설계 흐름제어연산명령 CALL, RETURN 서브루틴호출과복귀명령에관한고려사항 스택영역은번지가감소하는방향으로늘어나고, 복귀주소는메모리번지하나를차지하는것으로가정 스택포인터 SP, 프로그램카운터 PC, 명령어의오퍼랜드필드에포함된유효주소 Y 사용

서브루틴호출과복귀 어셈블리명령어 CALL 설계 CALL Y 메모리주소 Y 번지에저장된서브루틴을호출 명령어실행사이클을 < 연속된 μ- 연산 > 으로표시 t 1 : MBR PC 메인프로그램의복귀주소인 PC 의내용을 MBR 로전송 t 2 : MAR SP, PC Y 스택포인터 SP 가가리키는주소를 MAR 로전송하고, PC 를 Y 번지로이동시켜서브루틴의시작주소를준비 t 3 : M[MAR] MBR, SP SP-1 MBR 에저장된복귀주소를 MAR 번지에저장하고, SP 를감소시켜다음번저장소의위치를준비

서브루틴호출과복귀 어셈블리명령어 RETURN 설계 RETURN 서브루틴을끝내고메인프로그램으로복귀 명령어실행사이클을 < 연속된 μ- 연산 > 으로표시 t 1 : SP SP+1 메인프로그램의복귀주소가저장된스택위치를계산 t 2 : MAR SP 현재스택포인터 SP 가가리키는주소를 MAR 로전송 t 3 : PC M[MAR] MAR 번지메모리에저장된복귀주소를 PC 로전송

인터럽트사이클 인터럽트 (interrupt) 프로그램의정상처리순서를방해하는서비스요구 일반서브루틴과달리대부분전혀예상치못한시점에서 CPU 에서비스를요구 (request) CPU 외부장치나프로그램요청에의해발생 하드웨어인터럽트 주로 CPU 외부장치에서발생 소프트웨어인터럽트 프로그램요청으로발생 인터럽트요구수용하려면 CPU가작업을중단하고 인터럽트서비스루틴 (interrupt service routine, ISR)= 인터럽트핸들러 (handler) 프로그램을먼저실행 인터럽트처리전에복귀주소, CPU 레지스터상태, 메모리참조주소값등을스택에저장, 처리후복원

다중인터럽트 다중인터럽트 인터럽트서비스프로그램이진행되는도중또다른인터럽트가발생하는환경 다중서브루틴의개념 인터럽트마스크 (mask) 혹은마스킹 (masking) 방법 인터럽트가발생했을때특정한것을받아들이지않도록금지플래그설정 인터럽트불가능설정 새로운인터럽트서비스는허용되지않고대기 인터럽트가능상태 새로운인터럽트요구수용 우선순위방법 현재작업보다순위가낮은인터럽트가들어오면대기 순위가높은인터럽트가들어오면먼저처리

서브루틴호출과다른부분 인터럽트사이클 인터럽트사이클 (interrupt cycle) 명령어사이클의일부로인터럽트서비스루틴의시작주소를호출해인터럽트요구를처리하는단계 ISR 호출을 < 연속된 μ- 연산 > 으로표시 t 1 : MBR PC 메인프로그램의복귀주소인 PC 의내용을 MBR 로전송 t 2 : MAR SP, PC ISR 의시작주소 스택포인터 SP 가가리키는주소를 MAR 로전송하고, PC 를인터럽트서비스루틴의시작주소로이동 t 3 : M[MAR] MBR, SP SP-1 MBR 에저장된복귀주소를 MAR 번지에저장하고, SP 를감소시켜다음번저장소의위치를준비

CPU 명령어사이클

CPU 명령어사이클 CPU 명령어사이클 기본사이클 + 간접사이클 + 인터럽트사이클 필요할때만추가 [ 그림 4-4] 각단계특징 명령어인출 메모리에서명령어를읽어 CPU 로가져옴 간접사이클 오퍼랜드필드의간접주소에서유효주소읽음 명령어실행 명령어를해독하고연산을실행 인터럽트사이클 인터럽트요구에해당하는서비스루틴을실행

4.2 병렬계산

4.2 병렬계산 병렬처리와순차처리 병렬계산 속도상승과효율

병렬처리와순차처리 병렬처리 작업을동시에병렬로처리한다는일반의미 병렬처리 (parallel processing) 여러개의처리장치로여러개의작업을동시에처리 순차처리 (sequential processing) 동시에실행하지않고시간적인순서대로작업을처리 병렬처리하드웨어의구성 명령어를여러개의장치에분산시켜동시에처리해작업시간을줄이도록설계 병렬처리와순차처리할작업을효과적으로구분하고각프로세서간통신문제가해결되어야

병렬계산 병렬계산 (parallelism) 혹은패럴렐컴퓨팅 (parallel computing) 컴퓨터의병렬처리작업에대한보다전문적인용어 병렬처리작업을수행하는방법이나구조 동시에많은계산이수행되는계산형태 큰문제는작게쪼개어작은문제들로만들어동시에풀수도있다는논리에서출발 병렬계산은처음에고성능컴퓨터에시작되었으나, 멀티코어프로세서가발달하면서광범위하게사용됨

병렬계산의유형 작업병렬계산외는싱글코어프로세서도가능 비트레벨병렬계산 (bit-level parallelism) 반도체 CPU 프로세서내부에서컴퓨터워드의비트수를늘려한번에처리할수있는비트수를늘린것

병렬계산의유형 명령어레벨병렬계산 (instruction-level parallelism) 프로그램의결과에영향을주지않으면서명령어의순서를재배열하고그룹으로묶어병렬로실행 데이터병렬계산 (data parallelism) 각처리장치가같은작업을하면서데이트를분산시킨서로다른데이터조각을처리하는구조 처리방법은동일하나많은데이터를가질때유용 작업병렬계산 (task parallelism) 기능 (function) 병렬계산, 제어 (control) 병렬계산 다중프로세서를이용한작업 실행장치가서로다른병렬컴퓨터에작업을분배하는데중점, 같은작업이나서로다른작업을나누어실행

속도상승과효율 병렬계산의속도상승 (speedup) S 병렬계산과순차계산에걸린시간의비율로정의 속도상승의이론적인최대치 병렬계산에사용된프로세서개수 P 병렬계산의효율 (efficiency) E 속도상승의이론적인최대치에비해실제로얼마나효과가있는지표시, 0~1 사이의값

4.3 파이프라인구조

4.3 파이프라인구조 명령어파이프라인 파이프라인의속도상승 슈퍼파이프라인 파이프라인의한계

명령어파이프라인 명령어파이프라인 (pipeline) 구조 하나의명령어사이클을여러단계로나누고각단계에서동시에다른명령어를처리하도록 CPU 설계 이런작업을파이프라이닝 (pipelining) 파이프라인의깊이 (depth) 는총단계 (step) 수 각단계는독립적인모듈로구성되어서로다른명령어를다른단계에서동시에처리하도록설계 2 단계파이프라인구조 명령어파이프라인의단계수, N=2 단계 1 : 명령어인출 (instruction fetch, IF) 단계 2 : 명령어실행 (instruction execution, IE)

2 단계파이프라인구조

명령어사이클의단계구분 명령어사이클의단계설계 최소다음단계의순차실행을고려 1 메모리에저장된명령어를인출 2 명령어를해독 연산코드와오퍼랜드필드분리 3 오퍼랜드필드에서유효주소를찾아냄 4 유효주소로메모리에저장된실제피연산자를인출 5 연산을실행해명령어수행을완료 6 연산결과를저장 실제피연산자가명령어자체에포함되거나레지스터에저장된경우 3,4 과정생략 앞으로 4 장에서는 3~5 를 5 의실행단계로묶은 4 단계명령어파이프라인구조를가정해설명

4 단계파이프라인구조 4 단계파이프라인구조 ( 단계수, N=4) 단계 1 : 명령어인출 (instruction fetch, IF) 단계 2 : 명령어해독 (instruction decode, ID) 단계 3 : 연산실행 (execution, EX) 단계 4 : 연산결과저장 (write-back, WB) 요즘은수십단계로나누지만무한정늘리지않음 분기가발생하면버리는단계가더많아져효율저하 요즘 CPU 여러개의명령어파이프라인과연산파이프라인을갖도록설계 인텔 486 등 1980 s 말프로세서에서이미 파이프라인 10 여단계, 프로그램과데이터영역분리처리 3D 그래픽데이터를처리하는파이프라인별도구축

4 단계명령어파이프라인구조

파이프라인의속도상승 병렬계산않을때명령어처리에걸리는총시간 단계수 N, 명령어개수 i, 각단계시간은 T 로동일 이구조가전체명령어처리에걸리는총시간 첫명령어통과에 N T 시간, 두번째명령어부터나머지 i-1 개는주기 T 씩추가 파이프라인구조사용시병렬계산의속도상승 명령어개수커지면 i 단계수 N 에근접

슈퍼파이프라인 슈퍼파이프라인 (super-pipeline) 구조 기존파이프라인의단계수는유지하면서각단계내에서처리속도를몇배로높여주는 CPU 설계기술 단계내부에서더작은단계들로세분화시키고클럭속도를높여빠르게처리 슈퍼파이프라인차수 sp 를정의 파이프라인구조의한단계내에서처리속도를몇배로높이는지나타내는비율

슈퍼파이프라인 [ 그림 4-7] 은 [ 그림 4-6] 의처리속도를 2 배로높인것 슈퍼파이프라인차수 sp=2 파이프라인단계수 N=4

슈퍼파이프라인의속도상승 슈퍼파이프라인차수 sp 단계수 N, 명령어개수 i, 각단계시간은 T 로동일 이구조가전체명령어처리에걸리는총시간 첫명령어통과에 N T 시간, 두번째명령어부터나머지 i-1 개는 T sp 씩추가 슈퍼파이프라인구조사용시병렬계산의속도상승 명령어개수커지면 i sp N 에근접

파이프라인의한계 파이프라인의동작원리 파이프를통해물이순차적으로아래로흐르는이치 컨베이어벨트로물건을대량생산하는원리 파이프라인의한계 단계를늘려도작업이무한정빨라지지않음 공장에서작업자가작업을무한정빨리할수없음 10 분에 1 대꼴로생산하던자동차생산라인의단계수를 2 배로늘리면 5 분에 1 대꼴로자동차가생산될까? 확신할수없음 각단계의작업속도가자재투입속도를따르지못하면생산성향상에는한계

파이프라인의제약조건 파이프라인의단계수를늘릴수록 대체로속도상승비율은좋아짐 그러나이론적인최대치까지개선되지는않음 파이프라인의제약조건 시스템자원의사용에충돌이없어야 다른단계에서메모리나입출력장치등시스템자원을먼저차지해사용하고있으면기다려야 명령어간에상호의존성이없어야 앞명령의실행결과로얻은데이터나주소를사용해야한다면실행순서를지키고기다려야

파이프라인의제약조건 모든명령어가같은단계를거쳐야낭비가없음 모든명령이모든단계를거치는것이아니므로단계가적어도되는명령은시간낭비 각단계의처리시간이동일해야 한단계주기는가장긴단계를기준 낭비줄이려면가능한각단계별처리시간이같아지도록잘게나눠야 명령어는순차적으로실행되어야 인터럽트나서브루틴으로분기가발생하면파이프라인에있던명령어들을버리게되므로처리가지연

파이프라인의성능개선 파이프라인의성능저하를줄이는방법 지연분기 (delayed branch) 활용 분기명령앞뒤에위치한다른명령어들의순서를적절히재배치해실행순서를바꾸는것 분기예측 (branch prediction) 명령이분기하는지예측했다분기하면파이프라인에유입된명령들을변화시켜처리지연방지 정적예측 컴파일러에서분기를미리예측 동적예측 실행도중발생된자료를활용 효율높고비순차적추론이가능한실행엔진과다중분기예측, 데이터흐름분석, 예측실행등의기술필요

4.4 슈퍼스칼라구조

4.4 슈퍼스칼라구조 슈퍼스칼라와파이프라인 슈퍼스칼라와슈퍼파이프라인

슈퍼스칼라 슈퍼스칼라 (superscalar) 구조 한명령어사이클동안여러개의명령어를동시에처리할수있도록설계한 CPU 구조 여러개의여분의실행장치들이필요 요즘대부분의 CPU 는슈퍼스칼라구조를가짐 펜티엄 (Pentium) 등 1990 s 프로세서들도이미 CPU 설계에슈퍼스칼라구조를채택 슈퍼스칼라차수 ss 를정의 한명령어사이클동안동시에처리할수있는명령어개수

슈퍼스칼라 슈퍼스칼라구조에필요한장치들 여러개의명령어인출장치 실행순서에관계없이동시에실행되어도무관한서로독립적인명령어들을판단해골라내는장치 동시에병렬로처리할수있는여러개의독립적인명령어실행장치들 한명령어사이클동안여러명령어를읽어와어떤명령이독립적인지찾아그것들을먼저동시에실행 병렬처리를방해하는단골메뉴 이전에실행된명령어의결과에종속된명령어들은동시에실행되지못하고기다려야하므로속도저하

슈퍼스칼라와파이프라인 슈퍼스칼라차수 ss=3 파이프라인단계수 N=4

슈퍼스칼라와파이프라인의속도상승 슈퍼스칼라차수 ss 단계수 N, 명령어개수 i, 각단계시간은 T 로동일 이구조가전체명령어처리에걸리는총시간 명령어는 i ss 세트로나누어진다. 첫명령어세트통과에 N T 시간, 두번째세트부터나머지 i/ss-1 세트는 T 씩추가 슈퍼스칼라와파이프라인에서병렬계산의속도상승 명령어개수커지면 i ss N 에근접

슈퍼스칼라와슈퍼파이프라인 슈퍼파이프라인차수 sp=2 슈퍼스칼라차수 ss=3 파이프라인단계수 N=4

슈퍼스칼라와슈퍼파이프라인의속 도상승 슈퍼파이프라인차수 sp, 슈퍼스칼라차수 ss 단계수 N, 명령어개수 i, 각단계시간은 T 로동일 이구조가전체명령어처리에걸리는총시간 명령어는 i ss 세트로나누어진다. 첫명령어세트통과에 N T 시간, 두번째세트부터나머지 i/ss-1 세트는 T sp 씩추가 슈퍼스칼라와슈퍼파이프라인병렬계산의속도상승 명령어개수커지면 i sp ss N 에근접

4.5 VLIW 구조

4.5 VLIW 구조 RISC VLIW IA-64 구조 VLIW와파이프라인

RISC 와 CISC CISC(complex instruction set computer, 시스크 ) 간단한명령부터복잡한명령까지종류가다양 복잡한기계어명령까지고려하므로실행단계가많고회로설계복잡, 필요클럭개수도제각기다름 RISC(reduced instruction set computer, 리스크 ) < 명령축약형컴퓨터 > 의영문약자 복잡한명령을모두없애고명령어처리구조를단순화해기계어명령의수를최소로줄인 CPU 이론적으로 1 클럭에 1 명령어가고속처리되도록설계 가능한하드웨어만으로처리해속도를증가 범용레지스터개수를대폭늘려외부메모리의액세스횟수를최소로줄여실행속도높임

RISC 의장점 RISC 의장점 병렬처리프로세서설계에효율적 하드웨어가덜복잡해 CPU 설계노력과시간절약 과거의통념은 RISC 가고성능 CPU 의정석 CISC 구조에비해내부캐시나여러개의명령어파이프라인과슈퍼스칼라구조를구성하기에유리 프로그램개발에도유리 운영체제, 컴파일러제작사, 응용프로그램제작자모두 적은수의명령어만조합해사용하므로편리

RISC 의한계 RISC 의한계 명령어종류만줄여 CPU 성능을높이는데한계 RISC 가제대로성능을발휘하려면병렬처리를고려해명령어를적절히분산시켜야함 RISC 는상당한 < 하드웨어자원을낭비 > 컴파일러가번역해준명령어를판독해병렬처리가가능한명령이무엇인지다시조사하고판단 성능을더높이려면하드웨어의복잡성이다시증가 < 해결책 > 의하나 VLIW 처럼명령어구조를개선하고컴파일러의정밀성과비중을확대 컴파일러가명령어의병렬처리에직접관여

VLIW VLIW(very long instruction word) 구조 여러명령을묶어매우긴명령어형식을만든구조 < 매우긴명령어워드 > 의영문약자 128, 256, 512비트혹은그이상까지사용 분명하게명시한명령어들은동시에병렬로실행 병렬처리할명령을컴파일러에서미리판단 동시에실행될수있는명령들을하나로묶어긴명령어형식내에재배열, CPU 는별도판정없이병렬처리 하드웨어설계의복잡성을갖지않는대신정교한컴파일러기술필요 프로그램자체에의존해어떤명령이동시에실행이가능하고충돌을어떻게피할지판단

VLIW 와기존의방법들 프로세서구조와성능개선방향 전통적인접근방법은 < 모든결정을프로세서가 > 해야하는점에서하드웨어의복잡성증가 파이프라인구조 명령어들을작은단계로나누고그것들이병렬로동시에실행 슈퍼스칼라구조 해독된개별명령어들이프로세서의다른부분에서완전히독립적으로실행 RISC CPU 가명령어를재분류하고프로그램에서명령어의순서를바꾸어실행 VLIW 하드웨어자원의효율적활용과기계어명령을적절히배열해주는컴파일러기술이결합 64 비트프로세서대중화 VLIW 를구현할여건성숙

IA-64 구조 IA-64 명령어구조 인텔과 HP 가공동으로개발한 64 비트프로세서용명령어구조 IA(instruction architecture)-64 일명 < 명시적병렬명령계산 (explicitly parallel instruction computing, EPIC)> 기술 VLIW 구조중하나, 2000 s 초아이테니엄부터채택

IA-64 구조 IA-64 구조 정교한컴파일러기술이용 128 비트길이명령어번들 (bundle, 묶음 ) 형식사용 번들당 41 비트길이명령어슬롯 (instruction slot) 3 개 실제프로세서들은여러개명령어번들형식을사용 템플릿 (template) 번들내에포함된명령슬롯이실행되는방법을적어놓은표 하드웨어자원이부족할때는병렬처리않고일부명령만임시로정지할수있도록지정해주는역할 5 비트 0x01~1F 에서최대 32 가지실행방법 0x00 정지하지말고동시에모두실행 0x03 명령슬롯 1, 2 의실행뒤한번씩정지

VLIW 와파이프라인 VLIW 실행차수 v 를정의 VLIW 구조에서하나의명령어번들형식에포함되어동시에병렬처리로실행될수있는명령어의개수 (ex.) VLIW 실행차수 v=3, 파이프라인단계수 N=4

intel vs. ARM processor 프로세서산업의양대산맥 intel vs. ARM

MPU 시장점유율 Top 5 ( 금액기준, 2013 ) 인텔이여전히시장지배적인사업자 인텔 + AMD 66.8% x86 호환범용 PC 와서버용 이동용 CPU 의시장점유율이지속상승 (26% 31%) ARM 기반이동용 (mobile) RISC 프로세서

ARM Holdings 는어떤회사? ARM Holdings (1990) 영국에있는다국적반도체및소프트웨어설계회사 영국의 Acorn Computers 와미국의 Apple Computer, VLSI Technology 사의합작투자 ARM : Acorn RISC Machine (1983) Advanced RISC Machines (1990) RISC 기반의 ARM 프로세서설계와라이선스판매 이동용 (mobile) 기기및내장형 (embedded) 시스템용프로세서시장에서독보적인위치 2014 현재라이선스현황 라이선스계약건수 1,198 개 ARM 기반반도체부품생산업체 389 개

지적재산권 (intellectual property, IP) 업 체 ARM Holdings 는반도체 IP 업체 설계만하고생산은전문반도체제조사에서함 각사가기능추가및다른하드웨어와조합해설계 (ex.) 엔비디아, 퀄컴, 삼성의 ARM 기반프로세서들

ARM 프로세서혹은 ARM 구조 (architecture) RISC 기반의 ARM 프로세서 명령어수가적어적은수의트랜지스터로설계 칩의크기작고, 비용, 발열, 소비전력이낮음 가장널리사용되던 32 비트명령어세트구조에서 64 비트 ARMv8 구조로이동용및서버시장확대 ARM 프로세서의시장점유율 ( 수량기준, 2014 ) ARM 칩판매 : 120 억개, 시장점유율 37% 54 억개 이동용 (mobile) 기기의프로세서 스마트폰, 이동용컴퓨터등 시장점유율 86% 66 억개 내장형 (embedded) 시스템등의프로세서 디지털 TV, 소형가전, 자동차, 산업용디지털기기등 인텔 +AMD 등이 63%

ARM 프로세서기반칩의수요 용도및사용프로세서라이선스비율 (2014)

멀티코어 ARM 프로세서의예 ARM Cortex-A15 MPCore 프로세서 (2012) 비순차적슈퍼스칼라파이프라인명령어세트 ARMv7 구조 32 비트 RISC 적용예 Broadcom SoC HiSilicon K3V3 Nvidia Tegra 4 Samsung Exynos 5 etc. 쿼드코어

64 비트 ARM 프로세서의예 기존 32 비트 ARMv7 구조와의호환성포함 64 비트운영체제와 32/64 응용프로그램지원 ARMv8 (2013) 32 비트구조 64 비트구조

4.6 병렬컴퓨터

4.6 병렬컴퓨터 플린의분류법 벡터프로세서 다중프로세서 하이퍼스레딩 비노이만형컴퓨터

병렬컴퓨터 (parallel computer) 다중프로세서 (multi-processor), 병렬컴퓨터구조 복수의프로세서를연결해동시처리 복수의프로세서가복수의프로그램을처리하거나, 하나의프로그램을복수의프로세서에분할해처리 대규모 (massively) 병렬컴퓨터, 초병렬컴퓨터 수만개이상프로세서를서로연결해사용하는구조 최근경향 멀티코어프로세서를집중연결해설계 대규모프로세서를갖는컴퓨터시스템 그리드컴퓨팅 (grid computing) 분산된지역에서필요할때상호연결되어성능발휘 클러스터컴퓨팅 (cluster computing) 한군데모여공동의작업

미국의슈퍼컴퓨터사례 Mira IBM 설치 (2012), 78 만개이상의프로세서코어사용 (cf.) 미국아르곤 (Argonne) 국립연구소 에너지와국방과학을주로연구하는핵물리학연구소 시스템보드가장착된랙 (rack, 선반 ) 과캐비닛을고속광네트워크로연결

플린의분류법 플린의분류법 (Flynn's taxonomy, 1966) 컴퓨터의구조를명령어 (instruction) 와자료의흐름 (data stream) 으로분류해서설명 병렬컴퓨터라고할수있는것 SIMD, MIMD

플린의분류법 SISD(single instruction, single data stream) 단일명령, 단일데이터흐름구조 하나의처리장치나프로세서를갖고단일명령으로단일데이터를순차적으로처리 이구조는파이프라인기법으로병렬처리효과가능 SIMD(single instruction, multiple data stream) 단일명령, 복수데이터흐름구조 복수의처리장치나프로세서를갖고단일명령으로복수의데이터를처리 벡터프로세서나그래픽처리장치가해당 각배열은동일연산을수행하나처리데이터는다른, 비슷한패턴을갖는멀티미디어데이터처리에적합

플린의분류법 MISD(multiple instruction, single data stream) 복수명령, 단일데이터흐름구조 복수의처리장치나프로세서를갖고복수의명령으로단일데이터를처리 복수의처리장치가명령은다르나자료는같은비실용 존재하기힘든구조, 우주왕복선을제어하는컴퓨터들 MIMD(multiple instruction, multiple data stream) 복수명령, 복수데이터흐름구조 복수의처리장치나프로세서를갖고복수의명령으로복수의데이터를동시에처리 명령과데이터가독립적으로실행되는다중프로세서 일을균등하게배분해야고효율, 분산처리시스템등

벡터프로세서 벡터프로세서 (vector processor) 복수의연산장치를병렬로연결해큰규모의행렬이나배열연산을고속으로한꺼번에처리하는장치 배열프로세서 (array processor) 라고도함 (cf.) 스칼라프로세서 (scalar processor) 한번의명령으로하나의데이터를처리, SISD 구조 SIMD 구조의하나 SIMD 는명령어하나로대량의데이터를처리할수있는구조나명령어기술 데이터속성상비슷한패턴을갖게되는멀티미디어데이터를빠르게처리하기에적합 계속반복되는루프를단하나의명령어로실행 펜티엄 MMX 등 1990 s 말프로세서들도이미채택

벡터프로세서와파이프라인 SIMD 구조를갖는벡터프로세서와파이프라인구조를적용한명령어처리과정

다중프로세서 멀티프로세서 (multi-processor, 다중프로세서 ) 구조 = 병렬컴퓨터 동시에동작하는여러개의프로세서를병렬로연결 외부기억장치나입출력장치는공유할수있지만, 내부레지스터와실행장치는독립적으로사용해야함 다중프로세서를구성하는방법 하나의칩에여러코어를내장한멀티코어프로세서 하나의시스템보드에여러개의프로세서칩을장착 한컴퓨터내에여러개의시스템보드를장착 여러대의컴퓨터를공동의작업을위해병렬로연결

다중프로세서 ( 병렬컴퓨터 ) 구성방법

멀티코어프로세서 멀티코어 (multi-core, 다중코어 ) 프로세서 칩 - 레벨다중프로세서, 병렬컴퓨터의가장기본형태 인텔은 2000 s 중반부터대부분의프로세서에채택 코어로불리는 2 개이상의독립적인실제 CPU 내장 듀얼코어 (dual-core) 2 개, 쿼드코어 (quad-core) 4 개, 옥타코어 (octa-core) 8 개등 (cf.) 멀티프로세서, 멀티 CPU 물리적으로분리됨 칩내부코어가동일다이에존재하지않을수있음 다이 (die) 실리콘소자의반도체표면위에집적회로를만들고회로판을잘라낸것 칩 (chip) 보통반도체부품을가리키나, 반도체공정상의다이, 인쇄회로기판의표면실장부품등지칭

멀티코어의동작 < 각코어들은강하게또는약하게결합 > 공유캐시를사용할수도사용하지않을수도 코어간통신을위한공유메모리, 명령어인출및해독장치부분은공유가능 그래픽처리장치 (GPU) 등내장코어가꼭동일치않음 다중작업설계에유리 하드웨어의효율적구성 프로세서간연동에유리 칩당소비전력은증가하지만분리된칩보다절감 소프트웨어알고리즘도이에맞게설계해야 각코어가일반적으로같은일을나눔 OS 가각코어에작업량을적절히분산시키고 응용프로그램도멀티코어에적합하게새로설계해야

하이퍼스레딩 멀티스레드개념과 CPU 활용도 파이프라인단계수가많아지면 각단계길이는줄고, 작업은더욱세분화 모든스레드가각단계를다거치는것이아님 일하지않고쉬는유휴단계가발생 < 하나의실행장치에서두개의스레드를겹치지않게동시에작업할수있도록설계 > 작업이할당되지않은실행단계는다른스레드의작업을함께끼워넣어동시에작업 하이퍼스레딩 CPU 가놀지않게쥐어짜려는기술 하이퍼 (hyper-) < 지나치거나과도한것 >

하이퍼스레딩 인텔의하이퍼스레딩 (hyper-threading) 기술 혹은동시멀티스레딩 (simultaneous multi-threading) 일종의멀티스레드, 하나의물리적인프로세서가 2 개의가상프로세서처럼동작하도록만든기술 하나의 CPU 코어내부에 2 개의 ALU 장치와하나의명령어실행장치를넣어가상의듀얼코어로작동 운영체제에서보면마치 2 개의 CPU 가있는것처럼보이나, 실제듀얼코어에비해성능은떨어짐 파이프라인의단계수가많고, 각단계의길이가짧고, CPU 클럭이높을때더욱유리 2000 s 초개발했으나 CPU 소비전력증가문제로 2000 s 말대중화

비노이만형컴퓨터 노이만형 (Neumann type) 컴퓨터 폰노이만 (Von Neumann) 구조, 노이만모델 1940 s 폰노이만이제안한원리를기초에두고프로그램내장방식과명령의순차실행을특징으로함 병렬처리를하지않는과거전통방식의 SISD 구조 비노이만형 (non-neumann type) 컴퓨터 노이만타입이아닌컴퓨터를통칭하는말 순차실행아닌, 데이터가준비되는상태에따라연산 병렬처리가능한명령을골라실행순서를변경 명령생략, 하드웨어로데이터자체에처리방법부여 병렬컴퓨터인 SIMD, MIMD 와데이터플로우구조

데이터플로우구조 데이터플로우구조 (dataflow architecture) 비노이만형컴퓨터구조의하나 프로그램의실행에필요한데이터를모두갖춘상태에서다음처리장치로보내연산하는컴퓨터 컴퓨터내부각장치는데이터가도착할때마다차례로처리되기때문에대량의데이터를고속으로처리 비록이구조로성공한범용프로세서는없지만 디지털신호처리, 네트워크라우팅, 그래픽처리, 원격계측, 데이터창고업등특정하드웨어에성공적구현 데이터베이스엔진이나병렬계산체계를설계하는소프트웨어구조에도유용하게사용

데이터플로우구조 최소한개념적으로는프로그램카운터가필요없음 함수의변수를변경하면결과가자동재계산되는원리 유효한데이터가입력되는지에따라실행장치작동

세계 500 대슈퍼컴퓨터 (2015.06) Rank 이름 제조사 국가 제작 코어수 PFLOPS MW 구조 프로세서계열 GHz OS 1 Tianhe-2 NUDT China 2013 3,120,000 33.86 17.81 Cluster Intel IvyBridge 2.2 Linux 2 Titan Cray Inc. USA 2012 560,640 17.59 8.21 MPP AMD x86_64 2.2 Linux 3 Sequoia IBM USA 2011 1,572,864 17.17 7.89 MPP PowerPC 1.6 Linux 4 Fujitsu Japan 2011 705,024 10.51 12.66 Cluster Sparc 2.0 Linux 5 Mira IBM USA 2012 786,432 8.59 3.95 MPP PowerPC 1.6 Linux 6 Piz Daint Cray Inc. Switzerland 2012 115,984 6.27 2.33 MPP Intel SandyBridge 2.6 Linux 7 Shaheen II Cray Inc. Saudi 2015 196,608 5.54 2.83 Cluster Intel Haswell 2.3 Linux 8 Stampede Dell USA 2012 462,462 5.17 4.51 Cluster Intel SandyBridge 2.7 Linux 9 JUQUEEN IBM Germany 2012 458,752 5.01 2.30 MPP PowerPC 1.6 Linux 10 Vulcan IBM USA 2012 393,216 4.29 1.97 MPP PowerPC 1.6 Linux 193 Uri Cray Inc. Korea 2014 10,752 0.35 0.16 Cluster Intel Haswell 2.6 Linux FLOPS(FLoating point Operations Per Second, 플롭스 ) 초당실행되는부동소수점연산명령의개수 컴퓨터의연산속도를나타내는척도 PFLOPS(petaFLOPS)=10 15 FLOPS MPP massive parallel processing ( 혹은 computing) 대규모병렬처리 ( 혹은계산 ), grid + cluster 방식

슈퍼컴퓨터의컴퓨팅구조 (1993~) 슈퍼컴퓨터 Top 500 컴퓨팅구조변화 클러스터 86.4% 대규모병렬 13.6% (2015.06) 86.4%

슈퍼컴퓨터의프로세서기술 (1993~) 슈퍼컴퓨터 Top 500 프로세서기술변화 인텔프로세서계열 86.2% 431 대 (2015.06) 86.2%

슈퍼컴퓨터의보조프로세서 (2006~) 슈퍼컴퓨터 Top 500 코프로세서변화 NVIDIA 9.6% 48 대, Intel 6.6% 33 대 (2015.06) 82.4% 412 대는별도의코프로세서가없다. 88 대

슈퍼컴퓨터보유국가비교 (1) 슈퍼컴퓨터 Top 500 국가별대수점유율 미국 46.6% 일본 7.8% 중국 7.4% (2015.06) 한국 1.8% 9 대 한국포함상위 10 개국합계 87.8% 439 대

슈퍼컴퓨터보유국가비교 (2) 슈퍼컴퓨터 Top 500 국가별성능점유율 미국 44.4% 중국 13.6% 일본 9.3% (2015.06) 한국 0.7% 대수는미국 > 일본 > 중국성능은미국 > 중국 > 일본

슈퍼컴퓨터제조사비교 (1) 슈퍼컴퓨터 Top 500 제조사별대수점유율 HP 35.6% IBM 18.2% Cray 14.2% (2015.06) HP, IBM, Cray 상위 3 개업체합계 68% (340 대 )

슈퍼컴퓨터제조사비교 (2) 슈퍼컴퓨터 Top 500 제조사별성능점유율 Cray 23.9% IBM 20.2% HP 14.2% (2015.06) 대수는 HP > IBM> Cray 성능은 Cray > IBM> HP

데이터마이닝 (data mining) 채광 (mining) 대규모데이터집합에서새로운패턴이나정보를찾아내는것 광석을캐는과정에비유, 데이터베이스에서지식을발견하는분석단계 방대한데이터자료에서새로운유용한정보를발견하기위한분석기법 데이터집합에숨겨진정보의연관성을파악해가치있는정보로가공 최종목적은추출한정보를향후활용이가능한구조로바꾸는것 종종마케팅용어에서대규모데이터나정보처리의형태로잘못사용됨

디지털시대진입으로데이터가폭 발적증가

빅데이터 빅데이터 (big data) 데이터가너무크고복잡해전통적인관리도구나처리프로그램으로다루기어려운대규모데이터집합 센서, 카메라, 무선기기의발달등과함께고속인터넷과네트워크서버의증가로데이터규모가급증함 자료의수집, 저장, 검색, 공유, 전송, 분석등이방대함 큰데이터집합에서얻을수있는어떤경향에대한추가적인정보는향후추세를예측할수있게해줌 사회현상의새로운법칙이나변화의시각을발견 소비자나업계동향을파악하고상품연구의질을결정 질병이나범죄를예견하고막을수있음 실시간교통상황을파악해통제에이용등

Practice 프로세서확인 ( 실습 ) 윈도우 7 < 시작 > < 컴퓨터 > 에서마우스우측버튼 < 속성 > 프로세서, 메모리, 운영체제버전확인

Practice 멀티코어동작확인 ( 실습 ) 윈도우 7 < 작업표시줄 > 에서마우스우측버튼 < 작업관리자시작 > < 성능 > 멀티코어확인

Practice 프로세서확인 ( 실습 ) 윈도우 8.1 < 시작 > 에서마우스우측버튼 < 시스템 > 프로세서, 메모리크기, 운영체제버전확인

Practice 멀티코어동작확인 ( 실습 ) 윈도우 8.1 < 시작 > 에서마우스우측버튼 < 작업관리자 > < 성능 > < 리소스모니터열기 > 멀티코어

Project Presentation ( 발표과제 ) < 발표과제 > 4 장주제추가 ARM 프로세서응용사례 현재우리나라는 ARM 프로세서설계수요가많음 이동용 (mobile) 기기 스마트폰, 태블릿컴퓨터등 내장형 (embedded) 시스템 디지털 TV, 소형가전, 자동차, 산업용디지털기기등 ARM 프로세서를이용한응용제품설계사례조사 개인자율로독창적인제품주제를선택할것을권장 제품사진첨부, 사용된 ARM 프로세서를간략히설명 이해어려운부분은자신이할수있는만큼만조사 < 발표과제 > 요령 1 장요령과동일

Assignment final term report < 기말리포트 > 주제 ARM 프로세서응용사례 현재우리나라는 ARM 프로세서설계수요가많음 이동용 (mobile) 기기 스마트폰, 태블릿컴퓨터등 내장형 (embedded) 시스템 디지털 TV, 소형가전, 자동차, 산업용디지털기기등 ARM 프로세서를이용한응용제품설계사례조사 개인자율로독창적인제품주제를선택할것을권장 제품사진첨부, 사용된 ARM 프로세서를간략히설명 이해어려운부분은자신이할수있는만큼만조사 < 리포트 > 작성요령 A4 용지표지포함 2~5 Page 정도 기말고사이전까지제출

- End of Chapter -