Review of Aleph One s Smashing The Stack For Fun And Profit by vangelis(vangelis@wowsecurity.org) 888 888 888 888 888 888 888 888 888.d88b. 888 888 888 88888b. 8888b..d8888b 888 888.d88b. 888d888 888 888 888 d88""88b 888 888 888 888 "88b "88b d88p" 888.88P d8p Y8b 888p 888 888 888 888 888 888 888 888 888 888.d888888 888 888888K 88888888 888 Y88b 888 d88p Y88..88P Y88b 888 d88p 888 888 888 888 Y88b. 888 "88b Y8b. 888 "Y8888888P" "Y88P" "Y8888888P" 888 888 "Y888888 "Y8888P 888 888 Y8888 888
Aleph One의 Smashing the Stack for Fun and Profit는버퍼오버플로우 (buffer overflow) 에대한문서로서는고전중의고전이된글이다. 실력있는해커가되기위해다방면의글을읽어야하는데, Aleph One의이글을읽지않고시스템해킹분야를공부한다는것은상상도할수없는일이다. 이글이쓰여져 Phrack에발표된것이 1996년 11월 8일이지만여전히그영향력은무시할수없는무게를지니고있다. 거의모든오버플로우관련글들이이문서를바탕으로쓰여졌고, 쓰여지고있는것을생각한다면이글의무게는미루어짐작할수있다. 그럼에도불구하고아직이문서에대해서자세한설명글이아직발표되지않은것은유감스러운일이다. 고전을읽는즐거움은커지만그고전을완벽하게이해하고분석한다는것은그렇게용이한일이아니다. 그이유는고전이가지고있는무게를분석글이감당하기에는너무버거운것이기때문이다. 그러나그런버거운부담에도불구하고이분석글을쓰고있는첫번째이유는필자개인의지적호기심을충족시키기위한것이고, 둘째는이글의독자들이좀더쉽게다가갈수있도록작은도움을주기위한것이다. 이글이고전이라면나름대로의준비과정을거치고읽는것이좋을것이다. 사전지식없이이글을읽게된다면그결과는뻔한것이다. 이글을제대로이해하기위해서는 기본적인어셈블리어 1 지식, 가상메모리에대한개념, gdb 의사용법 2, 그리고버퍼 (buffer) 에 대한확실한이해가필요하다. 물론 C언어와유닉스계열시스템에대한이해도필수적이다. 특히이글의모든테스트들이대부분 intel x86 CPU 3 와리눅스에서이루어진것이므로리눅스에대한이해도필수적이라하겠다. 각종책이나인터넷상으로구할수있는정보를이용하여먼저공부한후이글을읽어보는것이현명한선택이라고생각한다. 빨리가고싶거든여유있게시작하자! 우선이글은버퍼오버플로우에대해알아보는글이므로당연이버퍼 (buffer) 가무엇인지알아보고넘어가야한다. 버퍼는같은데이터형태를가진연속된컴퓨터메모리블록인데, 오버플로우를이야기할때는보통문자배열 (character array) 를말한다. 보통문자열을저장하기위한영역을확보하기위해배열이나 malloc() 함수등을사용하는것은잘알고있을것이다. 문자배열에대해서는따로설명할필요는없을것으로생각한다. C 언어의지극히기초부분이기때문에이에대한설명은하지않겠다. 하지만좀더깊은공부를위해서 1 http://linuxassembly.org 참고 2 http://sources.redhat.com/gdb/current/onlinedocs/gdb_toc.html 참고 3 http://www.intel.com/design/pentium4/manuals 참고 1
이글을읽는독자는반드시배열에대해서다시공부하자. 기초를다시공부한다고해서흠이될것은없다. 배열은 C 언어의다른변수들과마찬가지로정적 (static) 또는동적 (dynamic) 으로선언될수있다. 변수가선언된다 는것은메모리에특정데이터를받아들이는데필요한공간을할당받는다는것을의미한다. 변수 (variable) 라함은메모리내에독특한이름을가지고있는데이터저장영역을말한다는것을다들알고있을것이다. 변수는저장될데이터가초기화되거나프로그램실행시데이터가입력되는초기화되지않은변수가있다. 우리가다루는이글에서는문제가되는것들은대부분초기화되지않은변수들이며, 선언된변수를위해할당된공간에인수로데이터를입력받을수있는형태를보통가지고있다. 변수를분류하는방법에대해서는 C 언어의기초를가지고있는사람이라면잘알고있을것이므로변수의분류에대해서는별도설명은하지않겠다. 대신필요한부분이있다면설명을하도록하겠다. 정적변수는로딩시에데이터세그먼트 (segment) 4 에할당된다. 이에비해동적변수는실행시스택에할당된다. 즉, 소스코드를컴파일한후실행파일을실행시킬때인자로데이터를입력받게되는것이다. 이글의중심은동적버퍼의오버플로우, 즉, 스택기반의오버플로우에대한것이다. 다음은동적변수가사용되고있는예로서, 독자들도한눈에알수있듯이오버플로우취약점을가지고있는소스코드이다. 여기서문제가되는동적변수는 char buffer[10]; 부분이다. 변수 char buffer[10] 에는프로그램을실행할때데이터가입력되게된다. 그래서 동적이다 라는표현을사용하는것이다. 그런데이것이문제가되는것은 strcpy() 함수의사용때문임을알수있다. strcpy() 함수는메모리에할당된크기보다더많은데이터를입력할수있어오버플로우문제를일으킬수있는대표적인함수이다. 이에대해서는뒤에서좀더자세하게설명하도록하겠다. 다음은소스코드를작성하고, 컴파일하여프로그램을실행하고, 데이터를입력하며, 그결과오버플로우가발생하는과정을보여준다. [vangelis@localhost test]$ vi example.c <- 소스코드작성 #include <stdio.h> 4 데이터가주기억장치로들어오고나가는스와핑이일어날때, 데이터의크기가고정되어있는페이지와 는달리, 크기가가변적인데이터단위를말한다. 메모리관리에대한세부적인것은박장수님이쓴 리 눅스커널분석 2.4 라는책을읽기권한다. http://kernelman.com 사이트참조바람. 2
#include <string.h> main() { char buffer[10]; char str; printf("put strings into buffer:"); scanf("%s",&str); strcpy(buffer,str); [vangelis@localhost test]$ gcc -o example example.c <- 컴파일 [vangelis@localhost test]$./example <- 프로그램실행 Put strings into buffer :aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa aaaaaaaaaaaaaaaaaaaaaa Segmentation fault <- 데이터입력 <- 오버플로우발생 [vangelis@localhost test]$ 프로세스메모리구성앞에서우리는버퍼에대해서간단히알아보았다. 그런데버퍼를제대로이해하기위해서는프로세스 (process) 5 가메모리에서어떻게구성되는지먼저이해를해야한다. Aleph One은그의글에서프로세스를설명하는데스택영역을제외하고는비교적간단하게프로세스의영역들에대해설명하고있다. 그리고도표또한마찬가지이다. 이것은그의글이스택오버플로우를중심으로설명하고있기때문이다. 필자는원문을충실이따르면서동시에메모리의다른영역에대해서도설명을덧붙일생각이다. 일반적으로프로세스는세영역으로나누어져있다. 그세영역은 text, data, stack이다. 5 process는컴퓨터내에서실행중인프로그램의 instance이다. 굳이쉽게생각하자면실행중인프로그램이라고하면되겠다. 리눅스와같은멀티유저환경에서는하나의프로그램에대해 2 개이상의프로세스가존재할수있다. 하나의프로그램은 5명의사용자들이공유하고있고, 그사용자들이그하나의프로그램을동시에사용하고있다면기본적으로사용자의수만큼의프로세스가존재할것이다. 이해가안된다면멀티유저환경하에서프로그램사용에대해공부하길바란다. 3
먼저 text 영역에대해알아보자. text 영역은인스트럭션 (instruction 프로그램의기계어코드 ) 들을포함하고있으며, 읽기전용이다. 읽기전용이기때문에이영역에쓰기를시도하면 Segmentation violation 또는 Segmentation fault가발생한다. Segmentation violation은특정영역에대한각종형태의침범의결과로발생하는것을의미한다. 여기서말한 각종형태의침범 에대해서는오버플로우를공부할때마다자주접하게될것이다. 이제 data 영역에대해서알아보자. 이영역은초기화된데이터와초기화되지않은데이터를포함하고있다. 정적변수 (static variable) 가이영역에저장되어있다. 우리가변수를몇가지종류로나누어공부해야하는이유는변수의범위가중요하기때문이다. 변수의범위는프로그램에서사용된각변수의유효한생명력, 메모리에서변수의값이보존되는기간과그변수를저장하기위한저장영역의할당및해제에영향을미치기때문이다. 프로그램에서사용되는각종함수들은각종데이터들을사용하는데, 이함수들이사용할데이터는변수에할당되어있거나프로그램실행시할당되는것들이다. 변수는크게외부변수와지역변수로구분할수있는데, main() 함수가시작되기전에선언된것이외부변수또는전역 (global) 변수라하고, 지역 (local) 변수는특정함수내에서선언된것을말한다. 로컬변수는기본적으로자동변수인데, 이것은변수가정의되어있는함수가호출될때마다변수의값을보존하지않는것을의미한다. 그러나함수가호출될때마다변수의값을보존하고자한다면 static이란키워드를이용하여정적변수 (static variable) 로정의해야한다. 정적변수는함수가처음호출될때초기화되고, 그값이그대로보존된다. 다음소스를컴파일하여실행해보자. 정적변수에대해쉽게알수있을것이다. [vangelis@localhost test]$ vi static.c #include <stdio.h> void func(void); main() { int c; for(c=0; c<5; c++) { printf("c 가 %d 일때, ", c); func(); return 0; void func(void) 4
{ static int a = 0; int b = 0; printf("a=%d, b=%d\n", a++, b++); [vangelis@localhost test]$ gcc -o static static.c [vangelis@localhost test]$./static c가 0일때, a=0, b=0 c가 1일때, a=1, b=0 c가 2일때, a=2, b=0 c가 3일때, a=3, b=0 c가 4일때, a=4, b=0 위의소스에서변수 a 앞에 static이란키워드가붙어있다. 실행결과를보면 1씩더해져값이출력되고있다. 이것은처음초기화된이후부터값이보존되었기때문이다. 소스와이실행결과를보고도이해가되지않는사람은 C 언어에대해서먼저공부해야할것이다. data 영역을이야기할때함께이야기할것이 data와 bss이다. data와 bss 영역둘다전역변수에제공되며, 컴파일때할당된다. data 영역은초기화된정적 (static) 데이터를, bss 영역은초기화되지않은데이터를포함하고있다. 이영역은 brk 시스템호출 (system call) 6 에의해크기가변경될수있다. 만약이영역들의사용가능한메모리가고갈될경우실행중인프로세스가중단되고재실행되도록조절된다. 메모리가부족할경우프로세스는그임무를할수없기때문에다시충분한메모리공간을할당받아야하기때문이다. 새로운메모리는 data와 stack 세그먼트사이에추가된다. 리눅스에서메모리할당시스템은몇가지가있다. 그러나이글에서다룰내용은아닌것같다. 앞으로도이글의진행을위해필요한부분이나올경우에만언급하도록하겠다. 6 brk 은 sbrk 와함께호출된프로세스의데이터세그먼트을위해할당된공간의영역을동적으로변경하기위해사용된다. 이변경은프로세스의 break value 을다시세팅하고, 적절한양의공간을할당함으로써이루어진다. break value 는 data segment 의끝넘어처음으로할당된것의주소이다. 할당된공간은 break value 가증가하면서늘어난다. 새로할당된공간은 0 으로설정된다. 하지만, 만약같은메모리공간이같은프로세스에다시할당되면그것의내용은정의되어있지않다. 다음은 brk 의시놉시스 (synopsis) 이다. 시놉시스란간단한개요를의미한다. #include <unistd.h> int brk (void *endds); void *sbrk (ssize_t incr); 5
이제부터 Aleph One의글이 stack overflow를다루는것이므로스택에대해자세하게알아보도록하겠다. 그전에앞에서살펴보았던프로세스의메모리구성도를하나추가하도록하겠다. high address env string argv string env pointer argv pointer argc stack heap bss data text low adresses [ 표 1] 프로세스메모리구성도 위의도표에서 stack에서는화살표가아래로, heap영역에서는화살표가위를가리키고있다. 이것은스택이함수를호출할때인자나호출된함수의지역변수를저장하기위해아래방향으로크기가커진다 ( 보통스택은가상주소 0xC0000000로부터 아래로자란다 (grow down, 낮은메모리주소로자란다 ) 는표현을사용한다 ) 는것을의미하며, 반면프로그램수행중에 malloc() 이나 mfree() 라이브러리함수를이용해동적으로메모리공간을할당받을수 6
있는데, 이공간을 heap 영역이라한다. 힙영역은위의도표에서도알수있듯이데이터세그먼트의끝이후부분을차지한다. 힙영역은가상주소위방향으로자라기때문에위의도표에서화살표가위로향해있다. 위의도표를좀더잘이해하기위해다음프로그램을보고, 다음프로그램의각요소들이어디에위치하는지확인해보도록하자. 도표는단순화시켰다. 다음표와소스는 리눅스매니아를위한커널프로그래밍 ( 조유근외 2명지음, 교학사 ) 이라는책을참고했다. #include <stdio.h> int a,b; int global_variable = 3; char buf[100]; main(int argc, char *argv[]) { int i=1; int local_variable; a=i+1; printf( a=%d\n,a); 커널공간 (kernel space) kernel 높은 메모리주소 stack argc, argv, i, local_variable 사용자공간 (user space) data a, b, global_variable 낮은 메모리주소 text a=i+1; printf( a=%d n,a); 7
스택이란무엇인가스택은컴퓨터과학에서자주사용되는추상적인데이터타입이다. 추상적인데이터타입이기때문에눈을통해입체적으로확인할수는없다. 그래서독자들은스택의구조와그용도에대해추상성을전제로하고공부를할필요가있다. 스택의경우, 스택에위치한마지막오브젝트가먼저제거되는속성을지니고있다. 이속성을보통 last in first out queue, 또는 LIFO라고지칭된다. 몇가지오퍼레이션이스택에정의되어있다. 가장중요한것중두가지가 PUSH와 POP이다. PUSH는스택의꼭대기에요소를더하고, POP은반대로스택의꼭대기에있는마지막요소를제거함으로써스택의크기를줄인다. 필수적인오퍼레이션을이해하기위해기본적인어셈블리어공부가필요하다. 어셈블리어는컴퓨터에대해직접적인통제를할수있도록해주는언어이다. 어셈블리어에대한정보는인터넷상에서도많이구할수있으며, 가장대표적인사이트가 http://www.linuxassembly.org이다. 초보자들이볼만한책으로는 BOB Neveln이쓴 Linux Assembly Language Programming을권한다. 번역이되어나왔는지모르겠다. 영어실력이된다면원서를볼것을권한다. 왜스택을사용하는가? 현대컴퓨터들은높은수준의언어들을염두에두고고안되었다. 높은수준의언어들에 의해도입된프로그램들을구조화하기위한가장중요한테크닉은프로시저 (procedure) 7 또는 함수 (function) 이다. 하나의관점에서보면프로시저호출은 jump 8 가하는것과같이통제흐름을변경할수있다. 하지만 jump와는달리프로시저가그것의임무를수행하는것을끝마쳤을때함수는그호출을뒤따르는문장 (statement) 또는명령 (instruction) 에게통제권을리턴한다. 이것은 gdb를이용해함수호출과정을살펴보면쉽게알수있다. 다음간단한소스를이용해이과정을알아보도록하자. [vangelis@localhost test]$ cat > e.c 7 프로그래밍에서 procedure 란함수 (function) 와거의유사한뜻으로사용된다. 함수는일정한동작을수행하고, 함수를호출한프로그램에리턴값 ( 결과값 ) 을돌려주는프로그래밍언어의독립적인코드이다. C 언어나다른종류의언어를공부한사람이라면굳이설명할필요도없을것이다. 프로그래밍이아닌일반적인상황에서프로시저는어떤임무를수행하기위한일련의작업절차를의미한다. 8 프로그램내에서프로세스를다른위치로전환시키는것으로써, branch 한다고도말하는데, 어셈블리어에서대표적인명령어가 jmp 이다. jmp 는 C 언어의함수와는달리리턴정보를기록하지는않는다. 8
#include <stdio.h> int a, b, c; int function(int, int); main() { printf("input a number for a: "); scanf("%d",&a); printf("input a number for b: "); scanf("%d",&b); c=function(a,b); printf("the value of a+b is %d", c); return 0; int function(int a, int b) { c=a+b; [vangelis@localhost test]$ gcc -o e e.c [vangelis@localhost test]$ gdb e GNU gdb 5.3 Copyright 2002 Free Software Foundation, Inc. GDB is free software, covered by the GNU General Public License, and you are welcome to change it and/or distribute copies of it under certain conditions. Type "show copying" to see the conditions. There is absolutely no warranty for GDB. Type "show warranty" for details. This GDB was configured as "i686-pc-linux-gnu"... disas main Dump of assembler code for function main: 0x8048490 <main>: push %ebp 0x8048491 <main+1>: mov %esp,%ebp 0x8048493 <main+3>: sub $0x8,%esp 0x8048496 <main+6>: sub $0xc,%esp 9
0x8048499 <main+9>: push $0x8048598 0x804849e <main+14>: call 0x8048370 <printf> 0x80484a3 <main+19>: add $0x10,%esp 0x80484a6 <main+22>: sub $0x8,%esp 0x80484a9 <main+25>: push $0x8049714 0x80484ae <main+30>: push $0x80485af 0x80484b3 <main+35>: call 0x8048340 <scanf> 0x80484b8 <main+40>: add $0x10,%esp 0x80484bb <main+43>: sub $0xc,%esp 0x80484be <main+46>: push $0x80485b2 0x80484c3 <main+51>: call 0x8048370 <printf> 0x80484c8 <main+56>: add $0x10,%esp 0x80484cb <main+59>: sub $0x8,%esp 0x80484ce <main+62>: push $0x804970c 0x80484d3 <main+67>: push $0x80485af 0x80484d8 <main+72>: call 0x8048340 <scanf> 0x80484dd <main+77>: add $0x10,%esp 0x80484e0 <main+80>: sub $0x8,%esp 0x80484e3 <main+83>: 0x80484e9 <main+89>: pushl 0x804970c pushl 0x8049714 0x80484ef <main+95>: call 0x804851c <function> 0x80484f4 <main+100>: add $0x10,%esp 0x80484f7 <main+103>: mov %eax,%eax 0x80484f9 <main+105>: mov %eax,0x8049710 0x80484fe <main+110>: sub $0x8,%esp 0x8048501 <main+113>: pushl 0x8049710 0x8048507 <main+119>: push $0x80485c9 0x804850c <main+124>: call 0x8048370 <printf> 0x8048511 <main+129>: add $0x10,%esp 0x8048514 <main+132>: mov $0x0,%eax 0x8048519 <main+137>: leave 10
0x804851a <main+138>: 0x804851b <main+139>: ret nop End of assembler dump. disas function Dump of assembler code for function function: 0x804851c <function>: push %ebp 0x804851d <function+1>: mov 0x804851f <function+3>: mov 0x8048522 <function+6>: add 0x8048525 <function+9>: mov 0x804852a <function+14>: pop %esp,%ebp 0xc(%ebp),%eax 0x8(%ebp),%eax %eax,0x8049710 %ebp 0x804852b <function+15>: ret 0x804852c <function+16>: nop 0x804852d <function+17>: nop 0x804852e <function+18>: nop 0x804852f <function+19>: nop End of assembler dump. 이결과를보면어떤특정한과정과명령을통해각함수들이호출되고있는것을알수있다. 이특정한과정에대해서는 shellcode 섹션에서상세하게알아볼것이다. 이높은수준의추상성은스택이란개념이있기때문에구현될수있는것이다. 또한함수에서사용되는로컬변수를위한공간을동적으로할당하고, 함수에파라미터 (parameter) 9 를건네주고, 그함수로부터리턴값을돌려주기위해사용되기도한다. 9 파라미터 (parameter 매개변수또는인자 ) 는함수의헤더에포함되는내용으로, 아규먼트 (argument - 인수 ) 에대응하여영역을확보하는역할을한다. 함수의파라미터는고정적인것이므로프로그램이실행되는동안변하지않는다. 이에반해아규먼트는함수를호출하는프로그램에의해서함수로전달되는실제값이다. 함수가호출될때다른인수값이전달될수있다. 함수는인수에대응하는파라미터의이름을통해값을받아들인다. 앞에서제시했던 e.c의소스코드의 int function(int a, int b) 에서파라미터는 a와 b이다. 그리고아규먼트는프로그램실행시입력될 a와 b의데이터 (int형숫자 ) 이다. 11
스택영역이제부터스택영역에대해서좀더자세히알아보자. 다시강조하지만 Aleph One의글이다루는분야는오버플로우중에서도스택오버플로우이다. 스택은데이터를포함하고있는메모리의연속된블록이다. 연속된블록이라는것은스택이파편적으로흩어져있는것이아니라메모리에서특정한위치를연속적으로차지하고있다는것을의미한다. 블록 (block) 은주기억장치의기억공간의물리적구조와는관계없이연속된정보를의미하는데, 주로입출력시에사용되는하나의입출력명령에의해이동되는정보의단위이다. SP(stack pointer) 라는레지스터 (register) 가스택의꼭대기를가리키고있다. 스택의바닥은고정된주소에있다. 스택의크기는프로그램실행시커널에의해동적으로조정되는데, 이것은데이터의크기와관련되어있기때문이다. 이것에대해서는앞에서메모리할당시스템에대해이야기할때언급했었다. 여기서우리는레지스터에대해먼저알아볼필요는느끼게된다. 먼저레지스터에대해간단히알아본후다음부분으로넘어가자. 컴퓨터시스템에서제일중요한기능을하는부분이바로 CPU이다. 이것은 CPU가연산을포함해직접적인역할을다하기때문이다. CPU는프로그램을수행하는장치로서 instruction의수행기능가질뿐만아니라 instruction들의수행순서를제어하는기능을가지고있다. 이런한기능을수행하기위해 CPU는연산장치 (ALU), 레지스터와플래그 (flag), 내부버스 (internal bus), 제어장치 (CU) 와같은하드웨어요소를가지고있다. 우리가지금알아보는것이레지스터이므로레지스터와관련된것만집중적으로알아보도록하겠다. 다음내용의일부분은 컴퓨터구조화 ( 조정완저 ) 라는책을참고했다. 미리말해둘것은모든부분을그대로옮길수필요성을느끼지못했기때문에약간의통일성이떨어지고, 내용이빈약할수있다. 그러니이글을읽는독자들은좀더자세히설명되어있는책이나자료를참고하길바란다. 이글은레지스터자체에대한설명글이아니라는것을염두에두길바란다. 레지스터 (register) 는정보저장기능을가진요소로서데이터나주소를기억시키는데필요하며, 플래그는연산결과의상태를나타내는데사용된다. 레지스터는직렬로연결된플립-플롭 (flip-flop) 이나래치 (latch) 로구성되어있다. 간단히정리하면다음과같은특징을레지스터는가지고있다. 프로그램의수행에필요한정보나수행중에발생하는정보를기억하는장소이다. 레지스터에기억된정보는주기억장치에기억시킨후에디스크에기억시켜야한다. 정보를기억시키거나기억된정보를이용하기위해서는주소를사용하여지정해야한다. 레지스터지정에사용되는주소를레지스터주소혹은레지스터번호라고한다. 12
이제레지스터의종류에대해알아보자. 레지스터를분류하는방법에는두가지가있는데, 첫번째는 프로그래머가레지스터에기억된내용을변경시키거나기억된내용을사용할수 있는가시레지스터 (visible register) 와그렇지않은불가시레지스터 (invisible register) 로나눌수있다. 가시레지스터에는연산레지스터, 인덱스레지스터, 프로그램주소카운터레지스터가있고, 불가시레지스터는인스트럭션레지스터 (instruction register), 기억장치주소레지스터 (memory address register: MAR), 그리고기억장치버퍼 ( 데이터 ) 레지스터 (memory buffer(data) register: MBR(MDR)) 가있다. 둘째분류방법은레지스터에기억시키는정보의종류에따라분류하는방법이다. 이분류에의한종류는데이터레지스터 (data register), 주소레지스터 (address register), 그리고상태레지스터 (status register) 가있다. 우리가이글을다루면서주로살펴보아야할것은데이터레지스터이다. 데이터레지스터는함수연산기능의 instruction의수행시사용되는데이터를기억시키는레지스터이다. 그래서데이터레지스터에는수, 논리값, 문자들이기억될수있다. 데이터레지스터에는 AC(accumulator: 연산전담레지스터 ), GPR(general purpose register: 범용레지스터 ), 스택 (stack) 등이있다. 우리는여기서스택에대해서만알아보기로한다. 다른것들은관련책이나문서들을참고하길바란다. 스택은기억된정보를처리하는순서가특수한구조로, 스택에기억되는역순서로처리되는구조이다. 스택을레지스터로구현할때는적어도 2개이상의데이터레지스터가필요한데, 반드시주소레지스터인스택포인터 (stack pointer) 가필요하다. 여기서주소레지스터는기억된정보에접근하는데필요한정보인주소를기억하는레지스터를말한다. 스택포인터레지스터는스택의최상단, 즉, 최근스택에입력된데이터위치의주소를기억하고있다. 스택에데이터를기억시킬때스택포인터 SP를 1 증가시키고그것이지정하는위치에기억시킨다. 그리고스택에기억된데이터를처리하기위해접근할때는 SP가지정하는곳에기억된데이터에접근한후스택포인터는 1 감소된다. Aleph One의글로다시돌아가기전에우리가공부하는데도움이될수있는부분에대해다음과같이레지스터에대해간단히정리해보자. 레지스트는크게 4 부분으로나눌수있으며, 각이름앞에붙어있는 e 는 extended 를의미한다. 즉, 16 비트구조에서 32 비트구조로확장되었다는것을의미하는것이다. 참고로여기서는 x86 시스템을기준으로하고있다. 1. 일반적인레지스트 : data를주로다루는레지스트로, %eax, %ebx, %ecx, %edx 등이있다. 2. 세그먼트레지스트 : 메모리주소의첫번째부분을가지고있는레지스트로, 16비 13
트 %cs, %ds, %ss 등이있다. 3. offset 레지스트 : 세그먼트레지스트에대한 offset을가리키는레지스트이다. %eip(extended instruction pointer): 다음에실행될명령어에대한주소 %ebp(extended base pointer): 함수의지역변수를위한환경이시작되는곳 %esi(extended source index): 메모리블록을이용한연산에서데이터소스 offset 을가지고있다. %edi(extended destination index): 메모리블록을이용한연산에서목적지데이터 offset을가지고있다. %esp(extended stack pointer): 스택의꼭대기를가리킨다. 4. 특별한레지스트 : CPU에의해서사용되는레지스트이다. Theo Chakkapark 는레지스터와 Intel x86 Assembly OPCode 를다음과같이정리 10 하고 있으며, 이것은많은도움이되리라생각된다. 범용레지스터 (General Purpose Registers) Name 32-Bit 16-Bit Accumulator EAX AX Base Register EBX BX Count Register ECX CX Data Register EDX DX Stack Pointer ESP SP Base Pointer EBP BP Source Index ESI SI Destination Index EDI DI Flags Register EFlags Flags Instruction Pointer EIP IP 세그먼트레지스터 (Segment Registers) Name Register 10 http://www.suteki.nu/x86 참고 14
Code Segment Data Segment Stack Segment Extra Segment CS DS SS ES FS GS EFlags Register Bit Flag Desc Bit Flag Desc 0 CF Carry Flag 16 RF Resume Flag 1 1 None 17 VM Virtual-8086 Mode 2 PF Parity Flag 18 AC Alignment Check 3 0 None 19 VIF Virtual Interrupt Flag 4 AF Aux. Carry 20 VIP Virtual Interrupt Pending 5 0 None 21 ID Identification Flag 6 ZF Zero Flag 22 7 SF Sign Flag 23 8 TF Trap Flag 24 9 IF Interrupt Enable Flag 25 10 DF Direction Flag 26 0 None 11 OF Overflow Flag 27 12 IOPL I/O Privilege Level 28 13 29 14 NT Nested Task 30 15 0 None 31 오퍼랜드축약 (Operand Abbreviations) 축약 acc dst src reg segreg imm mem gdt 의미 Register AL, AX, or EAX A register or memory location A register, memory location, or a constant Any register other than a segment register Visible part of CS, DS, SS, ES, FS, or GS A constant A memory location Global Descriptor Table 15
idt Interrupt Descriptor Table port An input or output port 이동명령 (Movement Instructions) OPCode Operation MOV dst src dst «src reg16 src8 MOVZX reg32 src8 reg «zero-extended src reg32 src16 reg16 src8 MOVSX reg32 src8 reg «sign-extended src reg32 src16 LEA reg32 mem reg32 «offset(mem) XCHG dst src temp «dst; dst «src; src «temp 스택명령 (Stack Instructions) OPCode Operation BYTE imm8 ESP «ESP - 4; mem32[esp] «sign-extended imm8 WORD imm16 ESP «ESP - 2; mem16[esp] «imm16 PUSH DWORD imm32 ESP «ESP - 4; mem32[esp] «imm32 src16 src32 ESP «ESP - sizeof(src); mem[esp] «src segreg src16 dst«mem[esp]; ESP «ESP + sizeof(dst) POP src32 segreg PUSHF None ESP «ESP - 4; mem32[esp] «EFlags POPF None EFLAGS «mem32[esp]; ESP «ESP + 4 PUSHA None Pushes EAX, ECX, EDX, EBX, orig. ESP, EBP, ESI, EDI POPA None Pops EDI, ESI, EBP, ESP (discard), EBX, EDX, ECX, EAX Enter imm16, 0 Push EBP, EBP «ESP; ESP «ESP - imm16 Leave None ESP «EBP; pop EBP 가감명령 (Addition Instructions) OPCode Operation Flags ADD dst src dst «dst + src OF, SF, ZF, AF, CF, PF ADC dst src dst «dst + src + CF 16
SUB dst src dst «dst - src SBB dst src dst «dst - src -CF CMP dst src dst «src; numeric result discarded INC dst dst «dst + 1 OF, SF, ZF, AF, PF DEC dst dst «dst - 1 NEG dst dst «-dst OF, SF, ZF, AF, PF; CF=0 iif dst is 0. 곱하기및나누기명령 (Multiply and Divide Instructions) OPCode Operation Comment Flags MUL IMUL DIV IDIV src8 src16 src32 src8 src16 src32 src8 src16 src32 src8 src16 src32 AX «AL x src8 DX.AX «AX x src16 EDX.EAX «EAX x src32 AX «AL x src8 DX.AX «AX x src16 EDX.EAX «EAX x src32 AL«quotient(AX / src8) AX «quotient(dx.ax / src16) EAX «quotient(edx.eax / src32) AL«quotient(AX / src8) AX «quotient(dx.ax / src16) EAX «quotient(edx.eax / src32) Use MUL with unsigned operands. Use IMUL with signed operands. Use DIV with unsigned operands. Use IDIV with signed operands. CBW None AX «Sign-extended AL None None CWD None DX.AX «Sign-extended AX None None CDQ None EDX.EAX «Sign-extended EAX None None CWDE None EAX «Sign-extended AX None None Sets CF & 0F if product overflows lower half OF, SF, ZF, AF, CF, PF become undefined Bitwise Instructions OPCode Operation Flags AND dst src dst «dst & src OR dst src dst«dst & src XOR dst src dst «dst ^ src TEST dst src dst & src; bitwise result discarded NOT dst dst «~dst None SF, ZF, PF; (OF, CF are cleared, AF becomes undefined) 17
Jump Instructions OPCode Label Operation Comment Flags JMP label Jump to label None JA / JNBE label Jump if above / Jump if not below or equal JAE / JNB label JBE / JNA label JB / JNAE label JG / JNLE label JGE / JNL label JLE / JNG label JL / JNGE label Jump if above or equal / Jump if not below Jump if below or equal / Jump if not above Jump if below / Jump if not above or equal Jump if greater / Jump if not less or equal Jump if greater or equal / Jump if not less Jump if less or equal / Jump if not greater Jump if less / Jump if not greater or equal JE / JZ label Jump if equal / Jump if zero (ZF = 1) JNE / JNZ label Jump if not equal / not zero (ZF = 0) JC label Jump if CF = 1 None JNC label Jump if CF = 0 None JS label Jump if SF = 1 None JNS label Jump if SF = 0 None Use when comparing unsigned operands. Use when comparing signed operands Equality comparisons None 이제다시 Aleph One의글로돌아가자. 앞의첫문단에이어두번째문단으로부터시작한다. 여기서는앞에서다루었던내용이반복되어나올수있으나괘념치말고보길바란다. 스택은어떤함수를호출할때 push되고, 함수의역할을마치고리턴할때 pop되는논리적스택구조로구성되어있다. 이것은앞에서프로그램을 gdb를이용했을때의결과에서보았던내용이며, 뒤에서도좀더자세히다룰것이다. 이스택프레임은함수에대한파라미터, 로컬변수, 그리고함수호출시에 IP(instruction pointer) 의값을포함하여이전스택프레임을복구하기위해필요한데이터를가지고있다. 이역시앞에서도표를통해확인했던내용이다. 혹시라도혼란스럽다면앞부분을다시보길바란다. 스택을구현하는방법에따라스택이아래로자라거나 ( 낮은메모리주소쪽으로 ) 위로자랄수있는데, Aleph One의글에서는 Intel x86 CPU와리눅스시스템을테스트용으로사용하고있고, Intel x86 CPU 계열은아래로자라는스택을구현하고있다. 이와같은구현방법을 사용하고있는것이 Motorola, SPARC, 그리고 MIPS 11 등이다. 필자는 Motorola 와 MIPS CPU 를 사용해본적이없다. 사용해본적이없기때문에무책임한발언은하지않겠다. 혹시라도 11 프랙 56 호 Writing MIPS/IRIX Shellcode (http://phrack.org/show.php?p=56&a=15) 참고. 18
관심이있는독자라면개별적으로확인해보기바란다. 그리고 SPARC 시스템의스택과레지스터에대해좀더많이알고싶은독자는 Understanding stacks and registers in the Sparc architecture(s) 12 라는글을참고하길바란다. 스택포인터 (SP, stack pointer) 또한스택과마찬가지로구현방법에따라아키텍처별로다를수있다. 그러나이글은 Intel x86 CPU를기준으로하고있다고했기때문에스택상의마지막주소를 SP가가리킨다는것을염두에두고글을읽어야겠다. 다음은프레임포인터 (FP, frame pointer) 에대해알아보자. 스택의꼭대기를가리키는레지스터 SP이외에스택을구현하기위해프레임포인터 (FP, frame pointer) 가사용된다. FP는논리적인스택프레임에서고정된위치를가리키고있다. 고정된위치를가리키고있기때문에 SP에비해또다른편이성이있다. 원리상지역변수는 SP로부터오프셋 (offset) 13 을줌으로써참조될수있다. 하지만 word 단위로각종데이터가스택에 push 또는 pop되기때문에오프셋이변한다. 어떤경우에는컴파일러가스택에들어가는데이터의 word 수를추적할수있지만그렇지않을수도있다. 그리고인텔기반의프로세서와같은몇몇프로세서에서는 SP로부터알려진거리에있는어떤변수에접근하는것은많은명령 (instruction) 들이필요한다. 이런이유들때문에지역변수와파라미터를참조하기위해많은컴파일러들은제 2의레지스터 FP를사용한다. 이것은 FP로부터의거리가 push와 pop이되도변하지않기때문이다. 인텔 CPU에서는이 FP 기능을하는것이 BP(EBP) 이다. 이글이다루고있는인텔 CPU의경우스택이아래로자란다고앞에서이야기했는데, 이것때문에실제파라미터는 FP로부터양수의오프셋을가지고, 지역변수는음의오프셋을가진다. 이에대해서는아래에서다룰 function() 이라는함수가호출될때스택의모양을보면알수있다. 다시한번더이부분에대해설명하도록하겠다. 어떤프로시저가호출될때처음으로하는것은이전의프레임포인터 (FP) 를저장하는것이다. 이전프레임포인터를저장하는것은프로시저가 exit될때원상태를복원하기위해서이다. 프로시저가 exit되었는데원상태로복원되지않는다면불필요한메모리사용으로이어질것이다. 그다음단계는새로운프레임포인터를만들기위해스택포인터 (SP) 를프레임포인터로복사하며, 지역변수를위한공간을확보하기위해스택포인터에서사용되는변수의크기만큼뺀다. 이과정을보통 procedure prolog라고부른다. 이에비해프로시저가 12 http://www.sics.se/~psm/sparcstack.html 13 offset 은기준이되는주소로부터또다른주소를만들때그기준이되는주소에더해지는값을의미 한다. 예를들어, 기준이되는주소 a 가 100 이고, 새로운주소 b 의값이 150 이라고하자. 그러면오프셋 은 50 이될것이다. 오프셋을이용하여주소를나타내는것을상대주소지정방식이라고한다. 19
종료될때원래의상태로돌아가기위해스택이비워진다. 이때의과정을보통 procedure epilog라고부른다. 이에대한자세한내용은뒤에서곧알아볼것이다. 먼저원문에나오는내용으로설명을하고, 그다음으로필자의시스템에서의결과를제시하며다시설명하는방법을취하겠다. 다음소스코드를보자. ------ example1.c ----------------------------------------------------------------------- void function(int a, int b, int c){ char buffer1[5]; char buffer2[10]; void main(){ function(1,2,3); ------------------------------------------------------------------------------------ 위의소스에서 function() 이라는함수를호출하기위해프로그램은어떤과정을거치는지 알아보기위해 -S 스위치를주고컴파일하면어셈블리어코드를추출할수있다. 참고로 Gnu C 컴파일러의컴파일과정은다음과같다. 소스코드의이름을 prog.c 라고하자. Source code Translation Unit Assembly Object Executable File prog.c prog.i prog.s prog.o a.out(prog) 위의소스를다음과같이컴파일한다. $ gcc S o example1.s example1.c example1.s 의결과는보면다음과같은부분이나온다. pushl $3 pushl $2 pushl $1 call function 20
이것을보면 3개의아규먼트를스택안으로함수에대해 push하는데, 그순서가역순으로되어있다. 그런다음함수를호출하고있다. 혹시라도기초가부족한독자들을위해아규먼트와파라미터를다시설명한다. 위의소스에서 void function(int a, int b, int c) 부분에는 a, b, c는파라미터이고, 이파라미터에직접대입될값이정의되어있는 function(1, 2,3) 에서 1, 2, 3이 아규먼트이다. call function 부분에서 call 이라는명령은스택에 IP(instruction pointer) 를 push 한다. 이때스택에저장된 IP 를리턴어드레스 (RET, return address) 라고부를것이다. 함수호출이있은후처음으로이루어지는것은앞에서잠시이야기했던 procedure prolog 이다. 다음을보자. push mov sub %ebp %esp,%ebp $20,%esp 먼저프레임포인터로사용되는 ebp를스택에 push한다 (push %ebp). 왜프레임포인터를사용하는지에대해서는앞에서도이미언급했지만, 고정된위치를가지는프레임포인터가지역변수와파라미터등을참조하기에유용하기때문이다. 그런다음현재 sp를 ebp 위로복사하고, 복사된 sp를새로운프레임포인터로만든다 (mov %esp,%ebp). 앞으로도복사되어새로운프레임포인터가된것을 저장된 FP (SFP, Saved Frame Pointer) 라고부를것이다. 그런다음 SP로부터크기를빼지역변수를위한공간을할당한다 (sub $20,%esp). 이것은어떤함수를처리하기위해그함수내에서사용되는지역변수가들어갈공간이필요하기때문이다. 이상과같이 procedure prolog라고불리는과정을알아보았다. 그런데 procedure prolog에서지역변수를위해 20 바이트를할당하고있는데, 이것은메모리가 word 단위로정렬되기때문이다. 1 word는 4 바이트 (32 비트 ) 크기이며, 그래서 buffer1[5] 은실제 8 바이트, buffer2[10] 는 12 바이트의메모리를차지하게된다. 따라서 20 바이트를 SP에서빼게된다. 간단히표를통해알아보자. [ buffer1 ] 1 word buffer1[0] buffer1[1] buffer1[2] buffer1[3] 2 word buffer1[4] char 형은데이트는 1 바이트의메모리를차지한다는것은잘알고있을것이다. buffer1 에 5 21
바이트가할당되므로 2개의 word를사용해야한다. 2개의 word에서실제사용되는 5바이트이외의나머지 3바이트는데이터처리와상관없이메모리낭비가되는것이다. 결국 buffer1은 2개의 word를사용하므로 8바이트의메모리가할당되었다. 참고로위의표에서왜 buffer1[0] 으로시작되는지이해가되지않는사람은이글을읽을자격이없다. [ buffer2 ] 1 word buffer2[0] buffer2[1] buffer2[2] buffer2[3] 2 word buffer2[4] buffer2[5] buffer2[6] buffer2[7] 3 word buffer2[8] buffer2[9] 10바이트를실제사용하게되는 buffer2[10] 의경우 3개의 word가사용되어야한다. 결국 12바이트의메모리가할당되는것이다. 앞에서언급한것을염두에두고 function() 이라는함수가호출될때스택의모양을살펴보면다음과같다. 낮은 메모리주소 buffer2 buffer1 SFP ret a b c [12 byte] [8 byte] [4 byte] [4 byte] [4 byte] [4 byte] [4 byte] 높은메모리주소 스택의꼭대기 스택의 바닥 위의표에서화살표가 쪽으로나와있는데, 스택의꼭대기로데이터가쌓이고, 대신메모리주소는낮아지는것이다. 앞에서도잠시언급했듯이프레임포인터 (SFP) 를기준으로보면지역변수의오프셋은음수이고, 파라미터들은양수임을알수있다. 이것은스택이아래로자라기때문이다. 초등학교수학시간에배운것을생각해보자. 기준점이되는 SFP가 0이고, 좌측에있는지역변수는음수의오프셋을가지게되고, 우측에있는파라미터들은양수의오프셋을가지게될것이다. 유치할지도모르는비유를하나하자. 나무가한그루자란다. 줄기는위로자라고, 뿌리는아래로자란다. 메모리의입장에서는줄기쪽으로커가고, 22
스택은뿌리쪽으로커간다. 정상적인우리인간의사고로보면줄기쪽으로생각한다. 그러나스택을이야기할때는거꾸로생각하자. 이제앞에서살펴보았던내용을현재우리가주로사용하고있는시스템에서의결과를알아보도록하겠다. 필자가테스트용으로사용하고있는시스템은 Red Hat 8.0버전이다. 그리고먼저언급해야할것은 gcc 버전에따른결과값이다르다는것이다. Aleph One의글에서사용된 gcc 버전은 2.96 이하버전이다. 바로앞에서도살펴보았지만지역변수를위해할당하는공간의크기를우리는쉽게이해할수있었다. 그러나보안상의이유인지모르겠으나 gcc 2.96 이후버전부터는결과값을분석하기가그만큼어려워졌다. 하지만포기하면해커의자질이없는것이다. 뭔가실마리를찾아야한다. 그래서 gcc 버전별차이가어떤지확인을해볼것이다. 먼저다음은필자의시스템에서나온결과이다. [vangelis@localhost test]$ uname -a Linux localhost.localdomain 2.4.18-14 #1 Wed Sep 4 13:35:50 EDT 2002 i686 i686 i386 GNU/Linux [vangelis@localhost test]$ gcc -v gcc version 3.2 20020903 (Red Hat Linux 8.0 3.2-7) [vangelis@localhost test]$ vi example1.c /* example1.c by Aleph One */ void function(int a, int b, int c){ char buffer1[5]; char buffer2[10]; void main(){ function(1,2,3); ~ ~ [vangelis@localhost test]$ gcc -o ex ex.c ex.c: In function `main': ex.c:6: warning: return type of `main' is not `int' 23
[vangelis@localhost test]$ gdb ex GNU gdb Red Hat Linux (5.2.1-4) Copyright 2002 Free Software Foundation, Inc. GDB is free software, covered by the GNU General Public License, and you are welcome to change it and/or distribute copies of it under certain conditions. Type "show copying" to see the conditions. There is absolutely no warranty for GDB. Type "show warranty" for details. This GDB was configured as "i386-redhat-linux"... disas main Dump of assembler code for function main: 0x80482fc <main>: push %ebp 0x80482fd <main+1>: mov %esp,%ebp 0x80482ff <main+3>: sub $0x8,%esp 0x8048302 <main+6>: and $0xfffffff0,%esp 0x8048305 <main+9>: mov $0x0,%eax 0x804830a <main+14>: sub %eax,%esp 0x804830c <main+16>: sub $0x4,%esp 0x804830f <main+19>: push $0x3 0x8048311 <main+21>: push $0x2 0x8048313 <main+23>: push $0x1 0x8048315 <main+25>: call 0x80482f4 <function> 0x804831a <main+30>: add $0x10,%esp 0x804831d <main+33>: 0x804831e <main+34>: 0x804831f <main+35>: leave ret nop End of assembler dump. disas function Dump of assembler code for function function: 0x80482f4 <function>: push %ebp 0x80482f5 <function+1>: mov 0x80482f7 <function+3>: sub %esp,%ebp $0x28,%esp 24
0x80482fa <function+6>: leave 0x80482fb <function+7>: ret End of assembler dump. q [vangelis@localhost test]$ gdb를사용하여추출한 function 함수부분을보면다음과같은결과가나왔다. 0x80482f4 <function>: push %ebp 0x80482f5 <function+1>: mov %esp,%ebp 0x80482f7 <function+3>: sub $0x28,%esp 그런데 -S 스위치를사용하여추출한아래의경우는다음과같은결과가나왔다. function: pushl movl subl %ebp %esp, %ebp $40, %esp 둘을비교해보면뭔가차이점을볼수있는데, gdb를이용했을때는 16진수로값 ($0x28) 으로표시되어있고, -S 스위치를사용하여추출한어셈블리어코드에는십진수 ($40) 로되어있다는것을알수있다. 이상할것없다 16진수 0x28은십진수 40이기때문이다. 단지표현하는방식이다를뿐이다. 그리고다른차이점은 gdb를이용했을때는 push 라고되어있지만아래의어셈블리어코드에서는 pushl 로표현되어있다. 이역시표현의차이이지같은명령어이므로초보자들은헷갈리지않도록하자. 아래는 -S 스위치를사용하여추출한어셈블리어코드이다. [vangelis@localhost test]$ gcc -S -o ex.s ex.c ex.c: In function `main': ex.c:6: warning: return type of `main' is not `int' [vangelis@localhost test]$ cat ex.s.file "ex.c".text.align 2.globl function 25
function:.type function,@function pushl movl subl %ebp %esp, %ebp $40, %esp leave ret.lfe1:.size function,.lfe1-function.globl main.align 2.type main,@function main: pushl movl subl andl movl subl subl %ebp %esp, %ebp $8, %esp $-16, %esp $0, %eax %eax, %esp $4, %esp pushl $3 pushl $2 pushl $1 call addl function $16, %esp leave ret.lfe2:.size main,.lfe2-main.ident "GCC: (GNU) 3.2 20020903 (Red Hat Linux 8.0 3.2-7)" [vangelis@localhost test]$ 26
위의결과를보면 Aleph One 의테스트결과와필자의시스템에서나온결과는다르다. 표를 통해알아보도록하자. 구분소스결과차이점 Aleph One (gcc 2.96 이전 ) void function(int a, int b, int c) { char buffer1[5]; push mov sub %ebp %esp,%ebp $20,%esp char buffer2[10]; 지역변수를위한 메모리할당량이 필자의시스템 void main(){ function(1,2,3); push mov %ebp %esp,%ebp 달라짐 (gcc 2.96 이후 ) sub $40,%esp 아마도초보자들이느끼는가장큰어려움중의하나가시스템의차이때문에참고하는문서의테스트결과와자신의테스트결과가다르게나와혼란을겪는것일것이다. 그러면왜이런차이가날까? 이제 gcc 2.96버전이전과이후의차이점에대해서간단히알아보도록하자. gcc 2.96 버전이채택된것은 Red Hat 7.0부터이다. 7.0 버전에설치된 gcc 2.96버전에버그가있어 Red Hat Linux 7.1 - i386에서수정된 gcc 2.96버전이설치되었다. 그러나 2.96과 2.97 버전은공식 릴리즈가아니라개발버전이라는것을염두에두자. 14 필자가이글을위해사용하고있는 Red Hat 8.0 에서는 3.2 버전이사용되고있다. 그러면우선다음테스트결과를보자. [vangelis@localhost gdb]$ vi e1.c void function(int a, int b, int c){ char buffer1[5]; 14 http://www.gnu.org/software/gcc/gcc-2.96.html 27
char buffer2[10]; void main(){ function(1,2,3); ~ ~ [vangelis@localhost gdb]$ gcc -o e1 e1.c e1.c: In function `main': e1.c:6: warning: return type of `main' is not `int' [vangelis@localhost gdb]$ gdb e1 GNU gdb Red Hat Linux (5.2.1-4) Copyright 2002 Free Software Foundation, Inc. GDB is free software, covered by the GNU General Public License, and you are welcome to change it and/or distribute copies of it under certain conditions. Type "show copying" to see the conditions. There is absolutely no warranty for GDB. Type "show warranty" for details. This GDB was configured as "i386-redhat-linux"... disas main Dump of assembler code for function main: 0x80482fc <main>: push %ebp 0x80482fd <main+1>: mov %esp,%ebp 0x80482ff <main+3>: sub $0x8,%esp 0x8048302 <main+6>: and $0xfffffff0,%esp 0x8048305 <main+9>: mov $0x0,%eax 0x804830a <main+14>: sub %eax,%esp 0x804830c <main+16>: sub $0x4,%esp 0x804830f <main+19>: push $0x3 0x8048311 <main+21>: push $0x2 0x8048313 <main+23>: push $0x1 0x8048315 <main+25>: call 0x80482f4 <function> 0x804831a <main+30>: add $0x10,%esp 0x804831d <main+33>: leave 0x804831e <main+34>: ret 0x804831f <main+35>: nop End of assembler dump. disas function Dump of assembler code for function function: 0x80482f4 <function>: push %ebp 0x80482f5 <function+1>: mov %esp,%ebp 0x80482f7 <function+3>: sub $0x28,%esp 0x80482fa <function+6>: leave 0x80482fb <function+7>: ret End of assembler dump. 28
q -------------------------------------------------------------- [vangelis@localhost gdb]$ vi e2.c void function(int a, int b, int c){ char buffer1[1]; char buffer2[12]; void main(){ function(1,2,3); disas function Dump of assembler code for function function: 0x80482f4 <function>: push %ebp 0x80482f5 <function+1>: mov %esp,%ebp 0x80482f7 <function+3>: sub $0x28,%esp 0x80482fa <function+6>: leave 0x80482fb <function+7>: ret End of assembler dump. -------------------------------------------------------------- [vangelis@localhost gdb]$ vi e3.c void function(int a, int b, int c){ char buffer1[16]; char buffer2[16]; void main(){ function(1,2,3); ~ disas function Dump of assembler code for function function: 0x80482f4 <function>: push %ebp 0x80482f5 <function+1>: mov %esp,%ebp 0x80482f7 <function+3>: sub $0x28,%esp 0x80482fa <function+6>: leave 29
0x80482fb <function+7>: ret End of assembler dump. -------------------------------------------------------------- [vangelis@localhost gdb]$ vi e4.c void function(int a, int b, int c){ char buffer1[17]; char buffer2[16]; void main(){ function(1,2,3); ~ disas function Dump of assembler code for function function: 0x80482f4 <function>: push %ebp 0x80482f5 <function+1>: mov %esp,%ebp 0x80482f7 <function+3>: sub $0x38,%esp 0x80482fa <function+6>: leave 0x80482fb <function+7>: ret End of assembler dump. -------------------------------------------------------------- [vangelis@localhost gdb]$ vi e5.c void function(int a, int b, int c){ char buffer1[17]; char buffer2[17]; void main(){ function(1,2,3); ~ disas function Dump of assembler code for function function: 0x80482f4 <function>: push %ebp 30
0x80482f5 <function+1>: mov 0x80482f7 <function+3>: sub 0x80482fa <function+6>: leave 0x80482fb <function+7>: ret End of assembler dump. %esp,%ebp $0x48,%esp -------------------------------------------------------------- [vangelis@localhost gdb]$ vi e6.c void function(int a, int b, int c){ char buffer1[33]; char buffer2[25]; void main(){ function(1,2,3); ~ disas function Dump of assembler code for function function: 0x80482f4 <function>: push %ebp 0x80482f5 <function+1>: mov %esp,%ebp 0x80482f7 <function+3>: sub $0x58,%esp 0x80482fa <function+6>: leave 0x80482fb <function+7>: ret End of assembler dump. -------------------------------------------------------------- [vangelis@localhost gdb]$ vi e7.c void function(int a, int b, int c){ char buffer1[49]; char buffer2[25]; void main(){ function(1,2,3); ~ disas function Dump of assembler code for function function: 31
0x80482f4 <function>: push %ebp 0x80482f5 <function+1>: mov %esp,%ebp 0x80482f7 <function+3>: sub $0x68,%esp 0x80482fa <function+6>: leave 0x80482fb <function+7>: ret End of assembler dump. -------------------------------------------------------------- 결과를살펴보면조금복잡해보이지만뭔가규칙성이보인다. 그규칙성만찾아내면우리의 공부가한층쉬워질수있을것이다. 이제그규칙성을찾아내기위해다음과같은간단한 소스를이용해보자. ---------------------------------------------------------------------------------------- void main() { char buffer[1]; ---------------------------------------------------------------------------------------- char buffer[1] 부분은그데이터의양을 4 바이트씩증가시키면서테스트를할것이다. 이렇게하는이유는 word 단위로데이터가메모리에들어가기때문이다. 아래의테스트에서실행파일의이름은데이터의양과일치한다는것을참고로이야기한다. 그리고각각의소스는생략한다. [vangelis@localhost gdb]$ vi 1.c void main() { char buffer[1]; ~ ~ [vangelis@localhost gdb]$ gcc -o 1 1.c [vangelis@localhost gdb]$ gdb 1 GNU gdb Red Hat Linux (5.2.1-4) Copyright 2002 Free Software Foundation, Inc. GDB is free software, covered by the GNU General Public License, and you are 32
welcome to change it and/or distribute copies of it under certain conditions. Type "show copying" to see the conditions. There is absolutely no warranty for GDB. Type "show warranty" for details. This GDB was configured as "i386-redhat-linux"... disas main Dump of assembler code for function main: 0x80482f4 <main>: push %ebp 0x80482f5 <main+1>: mov %esp,%ebp 0x80482f7 <main+3>: sub $0x8,%esp 0x80482fa <main+6>: and $0xfffffff0,%esp 0x80482fd <main+9>: mov $0x0,%eax 0x8048302 <main+14>: sub %eax,%esp 0x8048304 <main+16>: leave 0x8048305 <main+17>: ret 0x8048306 <main+18>: nop 0x8048307 <main+19>: nop End of assembler dump. [vangelis@localhost gdb]$ gdb 4 disas main Dump of assembler code for function main: 0x80482f4 <main>: push %ebp 0x80482f5 <main+1>: mov %esp,%ebp 0x80482f7 <main+3>: sub $0x8,%esp 0x80482fa <main+6>: and $0xfffffff0,%esp 0x80482fd <main+9>: mov $0x0,%eax 0x8048302 <main+14>: sub %eax,%esp 0x8048304 <main+16>: leave 0x8048305 <main+17>: ret 0x8048306 <main+18>: nop 0x8048307 <main+19>: nop End of assembler dump. [vangelis@localhost gdb]$ gdb 5 disas main Dump of assembler code for function main: 0x80482f4 <main>: push %ebp 0x80482f5 <main+1>: mov %esp,%ebp 0x80482f7 <main+3>: sub $0x18,%esp 0x80482fa <main+6>: and $0xfffffff0,%esp 0x80482fd <main+9>: mov $0x0,%eax 0x8048302 <main+14>: sub %eax,%esp 0x8048304 <main+16>: leave 33
0x8048305 <main+17>: 0x8048306 <main+18>: 0x8048307 <main+19>: End of assembler dump. ret nop nop [vangelis@localhost gdb]$ gdb 8 disas main Dump of assembler code for function main: 0x80482f4 <main>: push %ebp 0x80482f5 <main+1>: mov %esp,%ebp 0x80482f7 <main+3>: sub $0x18,%esp 0x80482fa <main+6>: and $0xfffffff0,%esp 0x80482fd <main+9>: mov $0x0,%eax 0x8048302 <main+14>: sub %eax,%esp 0x8048304 <main+16>: leave 0x8048305 <main+17>: ret 0x8048306 <main+18>: nop 0x8048307 <main+19>: nop End of assembler dump. [vangelis@localhost gdb]$ gdb 12 disas main Dump of assembler code for function main: 0x80482f4 <main>: push %ebp 0x80482f5 <main+1>: mov %esp,%ebp 0x80482f7 <main+3>: sub $0x18,%esp 0x80482fa <main+6>: and $0xfffffff0,%esp 0x80482fd <main+9>: mov $0x0,%eax 0x8048302 <main+14>: sub %eax,%esp 0x8048304 <main+16>: leave 0x8048305 <main+17>: ret 0x8048306 <main+18>: nop 0x8048307 <main+19>: nop End of assembler dump. [vangelis@localhost gdb]$ gdb 16 disas main Dump of assembler code for function main: 0x80482f4 <main>: push %ebp 0x80482f5 <main+1>: mov %esp,%ebp 0x80482f7 <main+3>: sub $0x18,%esp 0x80482fa <main+6>: and $0xfffffff0,%esp 0x80482fd <main+9>: mov $0x0,%eax 34
0x8048302 <main+14>: sub %eax,%esp 0x8048304 <main+16>: leave 0x8048305 <main+17>: ret 0x8048306 <main+18>: nop 0x8048307 <main+19>: nop End of assembler dump. [vangelis@localhost gdb]$ gdb 17 disas main Dump of assembler code for function main: 0x80482f4 <main>: push %ebp 0x80482f5 <main+1>: mov %esp,%ebp 0x80482f7 <main+3>: sub $0x28,%esp 0x80482fa <main+6>: and $0xfffffff0,%esp 0x80482fd <main+9>: mov $0x0,%eax 0x8048302 <main+14>: sub %eax,%esp 0x8048304 <main+16>: leave 0x8048305 <main+17>: ret 0x8048306 <main+18>: nop 0x8048307 <main+19>: nop End of assembler dump. [vangelis@localhost gdb]$ gdb 20 disas main Dump of assembler code for function main: 0x80482f4 <main>: push %ebp 0x80482f5 <main+1>: mov %esp,%ebp 0x80482f7 <main+3>: sub $0x28,%esp 0x80482fa <main+6>: and $0xfffffff0,%esp 0x80482fd <main+9>: mov $0x0,%eax 0x8048302 <main+14>: sub %eax,%esp 0x8048304 <main+16>: leave 0x8048305 <main+17>: ret 0x8048306 <main+18>: nop 0x8048307 <main+19>: nop End of assembler dump. [vangelis@localhost gdb]$ gdb 24 disas main Dump of assembler code for function main: 0x80482f4 <main>: push %ebp 0x80482f5 <main+1>: mov %esp,%ebp 0x80482f7 <main+3>: sub $0x28,%esp 35
0x80482fa <main+6>: and $0xfffffff0,%esp 0x80482fd <main+9>: mov $0x0,%eax 0x8048302 <main+14>: sub %eax,%esp 0x8048304 <main+16>: leave 0x8048305 <main+17>: ret 0x8048306 <main+18>: nop 0x8048307 <main+19>: nop End of assembler dump. [vangelis@localhost gdb]$ gdb 28 disas main Dump of assembler code for function main: 0x80482f4 <main>: push %ebp 0x80482f5 <main+1>: mov %esp,%ebp 0x80482f7 <main+3>: sub $0x28,%esp 0x80482fa <main+6>: and $0xfffffff0,%esp 0x80482fd <main+9>: mov $0x0,%eax 0x8048302 <main+14>: sub %eax,%esp 0x8048304 <main+16>: leave 0x8048305 <main+17>: ret 0x8048306 <main+18>: nop 0x8048307 <main+19>: nop End of assembler dump. [vangelis@localhost gdb]$ gdb 32 disas main Dump of assembler code for function main: 0x80482f4 <main>: push %ebp 0x80482f5 <main+1>: mov %esp,%ebp 0x80482f7 <main+3>: sub $0x28,%esp 0x80482fa <main+6>: and $0xfffffff0,%esp 0x80482fd <main+9>: mov $0x0,%eax 0x8048302 <main+14>: sub %eax,%esp 0x8048304 <main+16>: leave 0x8048305 <main+17>: ret 0x8048306 <main+18>: nop 0x8048307 <main+19>: nop End of assembler dump. [vangelis@localhost gdb]$ gdb 33 disas main Dump of assembler code for function main: 0x80482f4 <main>: push %ebp 36
0x80482f5 <main+1>: mov %esp,%ebp 0x80482f7 <main+3>: sub $0x38,%esp 0x80482fa <main+6>: and $0xfffffff0,%esp 0x80482fd <main+9>: mov $0x0,%eax 0x8048302 <main+14>: sub %eax,%esp 0x8048304 <main+16>: leave 0x8048305 <main+17>: ret 0x8048306 <main+18>: nop 0x8048307 <main+19>: nop End of assembler dump. -- 중략 -- [vangelis@localhost gdb]$ gdb 48 disas main Dump of assembler code for function main: 0x80482f4 <main>: push %ebp 0x80482f5 <main+1>: mov %esp,%ebp 0x80482f7 <main+3>: sub $0x38,%esp 0x80482fa <main+6>: and $0xfffffff0,%esp 0x80482fd <main+9>: mov $0x0,%eax 0x8048302 <main+14>: sub %eax,%esp 0x8048304 <main+16>: leave 0x8048305 <main+17>: ret 0x8048306 <main+18>: nop 0x8048307 <main+19>: nop End of assembler dump. [vangelis@localhost gdb]$ gdb 49 disas main Dump of assembler code for function main: 0x80482f4 <main>: push %ebp 0x80482f5 <main+1>: mov %esp,%ebp 0x80482f7 <main+3>: sub $0x48,%esp 0x80482fa <main+6>: and $0xfffffff0,%esp 0x80482fd <main+9>: mov $0x0,%eax 0x8048302 <main+14>: sub %eax,%esp 0x8048304 <main+16>: leave 0x8048305 <main+17>: ret 0x8048306 <main+18>: nop 0x8048307 <main+19>: nop End of assembler dump. 37
[vangelis@localhost gdb]$ gdb 64 disas main Dump of assembler code for function main: 0x80482f4 <main>: push %ebp 0x80482f5 <main+1>: mov %esp,%ebp 0x80482f7 <main+3>: sub $0x48,%esp 0x80482fa <main+6>: and $0xfffffff0,%esp 0x80482fd <main+9>: mov $0x0,%eax 0x8048302 <main+14>: sub %eax,%esp 0x8048304 <main+16>: leave 0x8048305 <main+17>: ret 0x8048306 <main+18>: nop 0x8048307 <main+19>: nop End of assembler dump. [vangelis@localhost gdb]$ gdb 65 disas main Dump of assembler code for function main: 0x80482f4 <main>: push %ebp 0x80482f5 <main+1>: mov %esp,%ebp 0x80482f7 <main+3>: sub $0x58,%esp 0x80482fa <main+6>: and $0xfffffff0,%esp 0x80482fd <main+9>: mov $0x0,%eax 0x8048302 <main+14>: sub %eax,%esp 0x8048304 <main+16>: leave 0x8048305 <main+17>: ret 0x8048306 <main+18>: nop 0x8048307 <main+19>: nop End of assembler dump. [vangelis@localhost gdb]$ gdb 80 disas main Dump of assembler code for function main: 0x80482f4 <main>: push %ebp 0x80482f5 <main+1>: mov %esp,%ebp 0x80482f7 <main+3>: sub $0x58,%esp 0x80482fa <main+6>: and $0xfffffff0,%esp 0x80482fd <main+9>: mov $0x0,%eax 0x8048302 <main+14>: sub %eax,%esp 0x8048304 <main+16>: leave 0x8048305 <main+17>: ret 0x8048306 <main+18>: nop 38
0x8048307 <main+19>: nop End of assembler dump. [vangelis@localhost gdb]$ gdb 81 disas main Dump of assembler code for function main: 0x80482f4 <main>: push %ebp 0x80482f5 <main+1>: mov %esp,%ebp 0x80482f7 <main+3>: sub $0x68,%esp 0x80482fa <main+6>: and $0xfffffff0,%esp 0x80482fd <main+9>: mov $0x0,%eax 0x8048302 <main+14>: sub %eax,%esp 0x8048304 <main+16>: leave 0x8048305 <main+17>: ret 0x8048306 <main+18>: nop 0x8048307 <main+19>: nop End of assembler dump. [vangelis@localhost gdb]$ gdb 96 disas main Dump of assembler code for function main: 0x80482f4 <main>: push %ebp 0x80482f5 <main+1>: mov %esp,%ebp 0x80482f7 <main+3>: sub $0x68,%esp 0x80482fa <main+6>: and $0xfffffff0,%esp 0x80482fd <main+9>: mov $0x0,%eax 0x8048302 <main+14>: sub %eax,%esp 0x8048304 <main+16>: leave 0x8048305 <main+17>: ret 0x8048306 <main+18>: nop 0x8048307 <main+19>: nop End of assembler dump. [vangelis@localhost gdb]$ gdb 97 disas main Dump of assembler code for function main: 0x80482f4 <main>: push %ebp 0x80482f5 <main+1>: mov %esp,%ebp 0x80482f7 <main+3>: sub $0x78,%esp 0x80482fa <main+6>: and $0xfffffff0,%esp 0x80482fd <main+9>: mov $0x0,%eax 0x8048302 <main+14>: sub %eax,%esp 0x8048304 <main+16>: leave 0x8048305 <main+17>: ret 0x8048306 <main+18>: nop 39
0x8048307 <main+19>: End of assembler dump. nop [vangelis@localhost gdb]$ gdb 112 disas main Dump of assembler code for function main: 0x80482f4 <main>: push %ebp 0x80482f5 <main+1>: mov %esp,%ebp 0x80482f7 <main+3>: sub $0x78,%esp 0x80482fa <main+6>: and $0xfffffff0,%esp 0x80482fd <main+9>: mov $0x0,%eax 0x8048302 <main+14>: sub %eax,%esp 0x8048304 <main+16>: leave 0x8048305 <main+17>: ret 0x8048306 <main+18>: nop 0x8048307 <main+19>: nop End of assembler dump. [vangelis@localhost gdb]$ gdb 113 disas main Dump of assembler code for function main: 0x80482f4 <main>: push %ebp 0x80482f5 <main+1>: mov %esp,%ebp 0x80482f7 <main+3>: sub $0x88,%esp 0x80482fd <main+9>: and $0xfffffff0,%esp 0x8048300 <main+12>: mov $0x0,%eax 0x8048305 <main+17>: sub %eax,%esp 0x8048307 <main+19>: leave 0x8048308 <main+20>: ret 0x8048309 <main+21>: nop 0x804830a <main+22>: nop 0x804830b <main+23>: nop End of assembler dump. q [vangelis@localhost gdb]$ 편의를위해위의결과를표로작성해보자. 40
데이터량 메모리할당값 데이터량 메모리할당값 (buffer의크기 ) 16진수 10진수 (buffer의크기 ) 16진수 10진수 1 0x8 8 23 0x28 40 2 0x8 8 24 0x28 40 3 0x18 24 25 0x28 40 4 0x8 8 26 0x28 40 5 0x18 24 27 0x28 40 6 0x18 24 28 0x28 40 7 0x18 24 29 0x28 40 8 0x8 8 30 0x28 40 9 0x18 24 31 0x28 40 10 0x18 24 32 0x28 40 11 0x18 24 33 0x38 56 12 0x18 24 48 0x38 56 13 0x18 24 49 0x48 72 14 0x18 24 64 0x48 72 15 0x18 24 65 0x58 88 16 0x18 24 80 0x58 88 17 0x28 40 81 0x68 104 18 0x28 40 96 0x68 104 19 0x28 40 97 0x78 120 20 0x28 40 112 0x78 120 21 0x28 40 113 0x88 136 22 0x28 40 위를보면 1 부터 16 까지 8 바이트와 24 바이트가불규칙하게분포되어있지만, 대부분 24 바이트가할당되어있다. 그리고초록색음영이들어가있는부분을보면한가지공통점이 41
있다. 드디어우리가어려워했던부분이해결됨셈이다. 위의표를보고정리를하면다음과같다. 어떤함수가호출될때지역변수를위해공간을할당하는방식은데이트의양과상관없이 16 바이트를다채운다는것이다. 즉, 예를들어지역변수 buffer[5] 에게는 gcc 2.96 이전버전에서는 word 단위로메모리에데이터가적재되기때문에 8 바이트가할당되지만, 2.96 버전이후의경우 16 바이트가할당된다는것이다. 그래서 buffer[17] 의경우 2.96 이전버전에서는 20 바이트가할당되지만이후버전에서는 32 바이트가할당된다. 오버플로우공격시이점을염두에두고덮어쓰기를해야한다. 다시 Aleph One의 example1.c의경우에대해마지막으로간단히설명해보자. 앞에서정리했던표를다시보자. 구분소스결과차이점 Aleph One (gcc 2.96 이전 ) void function(int a, int b, int c) { char buffer1[5]; push mov sub %ebp %esp,%ebp $20,%esp char buffer2[10]; 지역변수를위한 메모리할당량이 필자의시스템 void main(){ function(1,2,3); push mov %ebp %esp,%ebp 달라짐 (gcc 2.96 이후 ) sub $40,%esp 위의표를보면 gcc 2.96 이전버전을보면 20 바이트가할당되어있는데, 이것은앞에서설명한 것처럼다음과같다. char buffer1[5](8 바이트 ) + char buffer2[10](12 바이트 ) = 20 바이트 42
그런데 gcc 2.96 이후버전을보면 40 바이트가할당되어있으며, 이것은다음과같이설명할수 있다. char buffer1[5](16 바이트 ) + char buffer2[10](16 바이트 ) + dummy(8 바이트 ) = 40 바이트 위의내용을보면, char buffer1[5] 의경우데이터값이 5이므로 16 바이트이하이다. 그래서 16 바이트전체가할당되고, char buffer2[10] 의경우역시데이터값이 10이므로 16 바이트이하이다. 그래서 16 바이트가할당된다. 이것만계산하면 32 바이트가되겠지만테스트결과는 40 바이트였다. 이것은 dummy값 8 바이트가할당되기때문이다. 그래서우리가앞에서살펴보았던원문에나오는표는다음과같이수정해야한다. buffer2 buffer1 dummy SFP ret a b c 16 byte 16 byte 8 byte 4 byte 4 byte 4 byte 4 byte 4 byte 여기서 dummy값 8 바이트가왜생겼는지에대해간단히알아보자. 위의표를보면 buffer2와 buffer1에도각각 16 바이트가할당되어있다. gcc 2.96 이전버전의경우 12 바이트와 8 바이트가할당되어야하지만, gcc 2.96 이후버전에서는스택의정렬 (alignment) 을 16 바이트씩유지한다는원칙에의해각각 16 바이트씩할당된것이다. 그런데위의표에서 ret에서 buffer1까지의거리가 dummy값을제외한다면 8 바이트밖에안된다. 그러면스택의기본정렬규칙이깨지게되므로스택정렬원칙을유지하기위해 buffer1과 sfp 사이에 dummy값 8 바이트가들어간것이다. 이제지루한기초지식을다알아본셈이다. 지금부터본격적으로버퍼오버플로우공격에대해알아보자. Buffer Overflows 버퍼오버플로우는버퍼안에다룰수있는것보다더많은데이터를집어넣고자할때발생하는결과이다. 이것은프로그래머의잘못된코딩에기인하고, 이취약점을공격자로하여금공격자가원하는코드를실행할수있게해준다. 버퍼가수용할수있는것보다더많은데이터를넣을수있는상황은바운드체킹을하지않는 strcpy() 와같은함수를사용할 43
때대부분발생한다. 예를들면, 버퍼가수용할수있는데이터의양을 50으로설정해두었고, 버퍼에데이터를넣어주는함수를 strcpy() 를사용한다면, strcpy() 함수의경우바운드체킹을하지않는함수이기때문에버퍼에데이터를입력할때지정된데이터의양보다더많은데이터를입력하는것이가능하고, 그결과리턴어드레스도조작할수있게된다. 이때쉘을실행하는쉘코드를같이입력하고, 조작된리턴어드레스가쉘코드를가리키도록한다면함수가자신의일을마치고리턴할때쉘을실행하게될것이고, 만약취약한프로그램이 setuid 0으로설정되어있다면루트쉘을실행하게될것이다. 앞에서리턴어드레스가어떻게조작될수있는지에대해서이미알아보았다. 이제부터본격적인버퍼오버플로우기법에대해알아보도록한다. 물론 Aleph One의글에한정지어서할것이다. 그이유는수많은기법들이발표되었기때문에그기법들을모두알아보기위해서는별도의글이필요할것이다. 다음소스를보자. ------ example2.c ----------------------------------------------------------------------- void function(char *str){ char buffer[16]; strcpy(buffer, str); void main(){ char large_string[256]; int; for(i=0; i<255; i++) large_string[i]= A ; function(large_string); ------------------------------------------------------------------------------------ 위의소스를언뜻살펴보아도버퍼오버플로우취약점을가지고있다는것을알수있다. 위와 44
같이코딩을할프로그래머는없을것이다. 어디까지나오버플로우공부를위해제시한프로그램일뿐이다. 그래서오버플로우취약점을가진프로그램을분석해서취약점을찾아내고, 그프로그램을공략하기까지는많은열정이필요할것이다. 위의프로그램은독자들도잘알고있듯이 strcpy() 함수를사용하여바운드체킹을하지않아오버플로우문제가생긴다. 만약 strncpy() 15 함수를사용한다면바운드체킹을하게되어오버플로우문제는발생하지않을 것이다. 다음간단한예를보자. ---------------------------------------------------------------------------------------- #include <stdio.h> #include <string.h> int main () { char buf1[]= "wowhacker"; char buf2[6]; strncpy (buf2,buf1,5); /* 복사되어야할문자가 5로설정되어있음 */ buf2[5]=' 0'; puts (buf2); return 0; ---------------------------------------------------------------------------------------- 위의프로그램을실행하면결과는 wowha 로나올것이다. 버퍼에들어갈데이터의양을지정해두었기때문에오버플로우의위험이없다. 다시 Aleph One의소스로돌아가면, 이프로그램을실행하게되면세그멘테이션오류를일으키게될것이다. 함수를호출하게될때스택의모양은대략다음과같을것이다. 물론요즘환경에서는더미값이 buffer와 sfp사이에들어갈것이다. 이것은앞에서살펴본바다. 15 strncpy() 함수의시놉시스는다음과같다. char * strncpy ( char * dest, const char * src, sizet_t num ); 45
낮은메모리주소 buffer [ ] sfp [ ] ret [ ] *str [ ] 높은메모리주소 스택의꼭대기 스택의 바닥 이제좀더자세히앞의소스를살펴보자. 먼저왜세그멘테이션오류가발생하는가? 이미수차례살펴보았듯이 strcpy() 함수는널문자가스트링에서발견될때까지 buffer[] 에 *str(large_string[]) 의내용을복사한다. 소스에서도볼수있듯이 buffer[] 의크기는 *str보다휠씬더작다. buffer[] 의크기는 16 바이트이고, buffer[] 에 256 바이트를넣으려고한다. 이것은스택의버퍼다음에 250 바이트전체가덮어쓰인다는것을의미한다. 그래서 sfp, ret, 그리고심지어 *str까지덮어쓰게된다. 결국 A 라는문자로 large_string을가득채우게된다. A 의 16진수값은 0x41이므로, A 로덮어쓰여진리턴어드레스는 0x41414141이된다. 이것은리턴어드레스가 4 바이트이기때문이다. 이제함수가리턴할때세그멘테이션오류를일으킨주소 0x41414141로부터다음 instruction을읽으려고시도할것이고, 이것때문에세그멘테이션오류가나는것의이유이다. 여태까지알아본것을통해우리는버퍼오버플로우를통해함수의리턴어드레스를변경시킬수있다는것을알았다. 리턴어드레스가변경되면당연히프로그램의실행흐름도역시변경된다. 여기서우리가처음보았던 example1.c의경우로다시돌아가보자. 이예를통해리턴어드레스를조작하는것과임의의코드를실행할수있는방법에대해알아보도록한다. example1.c의소스코드는다음과같다. ------ example1.c ----------------------------------------------------------------------- void function(int a, int b, int c){ char buffer1[5]; char buffer2[10]; void main(){ function(1,2,3); 46
---------------------------------------------------------------------------------------- function() 이라는함수가호출될때스택의모양을살펴보면다음과같다. 낮은 메모리주소 buffer2 buffer1 SFP ret a b c [12 byte] [8 byte] [4 byte] [4 byte] [4 byte] [4 byte] [4 byte] 높은메모리주소 스택의꼭대기 스택의 바닥 스택상에서 buffer1 앞에 SFP가있고, SFP 앞에 ret이있다. 그것은 buffer1[] 의끝에서 4 바이트거리이다. 하지만 buffer1[] 은실제 2 word이며, 그래서 8 바이트이다. 결국리턴어드레스는 buffer1[] 의시작부분부터 12 바이트가된다. 리턴값을변경하기위해 Aleph One은함수호출이 jump한후할당식 x=1; 을이용하는방식을사용하고있다. 이를위해리턴어드레스에 8 바이트를추가하고, 코드는다음과같다. ------ example3.c ----------------------------------------------------------------------- void function(int a, int b, int c){ char buffer1[5]; char buffer2[10]; int *ret; ret = buffer1+12; (*ret)+=8; void main(){ int x; x=0; 47
function(1,2,3); x=1; printf( %d\n,x); ---------------------------------------------------------------------------------------- example1.c과 example3.c와다른점은 example3.c에서는 buffer1[] 의주소에 12를더한것이다 (ret = buffer1+12;). 이새로운어드레스는리턴어드레스가저장되어있는곳이기도하다. buffer1에서 ret까지의거리가 12가된다는것을앞에서도살펴본바다. 그리고우리는 printf 콜에대한할당을지나스킵하기를원한다. 그런데리턴어드레스에 8을더하는것을어떻게알았는가? 이것은 gdb를이용해알아낼수있다. -------------------------------------------------------------------------- [aleph1]$ gdb example3 GDB is free software and you are welcome to distribute copies of it under certain conditions; type "show copying" to see the conditions. There is absolutely no warranty for GDB; type "show warranty" for details. GDB 4.15 (i586-unknown-linux), Copyright 1995 Free Software Foundation, Inc... (no debugging symbols found)... disassemble main Dump of assembler code for function main: 0x8000490 <main>: pushl %ebp /* procedure prolog */ 0x8000491 <main+1>: movl %esp,%ebp 0x8000493 <main+3>: subl $0x4,%esp /* 정수형변수 x 를위한공간확보 */ 0x8000496 <main+6>: movl $0x0,0xfffffffc(%ebp) /* x=0; */ 0x800049d <main+13>: pushl $0x3 /* function(1,2,3); 파라미터 push */ 0x800049f <main+15>: pushl $0x2 0x80004a1 <main+17>: pushl $0x1 0x80004a3 <main+19>: call 0x8000470 <function> /* function(); 호출 */ 0x80004a8 <main+24>: addl $0xc,%esp /* function(int a, int b, int c) */ 0x80004ab <main+27>: movl $0x1,0xfffffffc(%ebp) /* x=1; ebp-4(x) 에 1 복사 */ 48
0x80004b2 <main+34>: movl 0xfffffffc(%ebp),%eax /* x=1; ebp-4(x) 을 eax로복사 */ 0x80004b5 <main+37>: pushl %eax /* x=1; 스택에복사 */ 0x80004b6 <main+38>: pushl $0x80004f8 0x80004bb <main+43>: call 0x8000378 <printf> /* printf(); 호출 */ 0x80004c0 <main+48>: addl $0x8,%esp 0x80004c3 <main+51>: movl %ebp,%esp /* procedure epilog */ 0x80004c5 <main+53>: popl %ebp 0x80004c6 <main+54>: ret 0x80004c7 <main+55>: nop ------------------------------------------------------------------------------ function() 을호출할때 RET이 0x8004a8이된다는것을알수있으며, 0x80004ab에있는할당식을지나 jump하기를원한다. 우리가실행하고자원하는다음 instruction은 0x80004b2이다. 이둘사이의거리는 0x80004b2 0x80004ab = 7 처럼간단한계산을통해 8이라는것을알수있다. 49
Shell Code 앞장에서살펴본것은오버플로우취약점을이용해리턴어드레스를변조하여우리가원하는코드를실행하고, 이것을통해프로그램의실행흐름을바꿀수있다는것이었다. 그럼여기서 우리가실행하고자원하는코드 는무엇인가? 대부분쉘을실행하는쉘코드이다. 쉘을우리가획득하게되면, 특히루트쉘을획득하게되면우리가원하는작업은무엇이든할수있게된다. 그럼우리에게남은것은어떻게쉘코드를만들것이며, 그쉘코드를취약한프로그램의특정주소에쉘코드를어떻게위치시킬것인가이다. 먼저간단히말한다면, 덮어쓰고자하는버퍼에우리가실행하고자하는쉘코드를넣고, 취약한프로그램의특정리턴어드레스를덮어쓰고, 그것이버퍼내에있는쉘코드의리턴어드레스를가리키게하면쉘을실행할수있다. 이것에대해서는나중에다시더자세히알아볼것이다. 이제쉘코드를어떻게만들것인지에대해알아보도록하자. Aleph One의글에나오는것을보면쉘코드를만드는것이결코만만치않다는겁부터먹을수있다. 그러나쉘코드를만드는방법은 Aleph One의글이후로많은발전을보였으며, 쉘코드의종류역시다양해졌다. 그모든방법을여기서모두언급할수없을정도이다. 그래서이글에서는먼저 Aleph One의글에나오는것을원문에충실하게설명한후, 최근시스템에그대로적용시키켜쉘코드를만들고, 그런다음쉘코드를만드는간단한방법에대해서설명하도록하겠다. 다양한쉘코드에대해더많은것을알고싶은독자들은프랙에발표된다양한쉘코드관련글들을참고하길바란다. 쉘코드를만들때는먼저가장필수적인사전지식이 gdb 사용법과기초적인어셈블리어지식이다. 적어도어셈블리어에서사용되는명령어들만이라도철저하게이해를하도록해야한다. 앞에서도 Intel x86 Assembly OPCode를제시했었는데, 이정도는알고있어야될것이다. 쉘코드를만들어보기전에독자들은다시한번어셈블리어명령어에대해공부하도록하자. 이설명글에서는간단한 comment를붙이는정도가될것이다. 쉘코드를만들기전에알아야할것중하나가 gdb의사용법이라고했는데, 여기에대해서간단히알아보도록하자. 더상세한것은 gdb의매뉴얼 16 을참고하길바란다. 아래내용은필자가전에 Red Hat 7.1을이용해정리해둔것이다. 우선가장기본적인 GDB의사용법부터알아보자. GDB를실행시키기위해다음과같이프롬프트상에 "gdb" 명령을내리면된다. [vangelis@localhost gdb]$ gdb 16 http://sources.redhat.com/gdb/current/onlinedocs/gdb_toc.html 참고 50