2012 년 6 월전자공학회논문지제 49 권 TC 편제 6 호 39 논문 2012-49TC-6-5 Q-Learning 을이용한릴레이선택기법 (A Relay Selection Scheme with Q-Learning ) 정홍규 *, 김광열 *, 신요안 ** * (Hongkyu Jung, Kwangyul Kim, and Yoan Shin ) 요 약 차세대무선통신시스템에서다중경로페이딩의영향을효율적으로감소시키기위한방법으로최근협력통신시스템이각광을받고있다. 협력통신시스템은정보를전송하기위해서다양한페이딩계수를가지고있는협력릴레이를사용하기때문에, 모든릴레이를협력통신에참여시키는것은자원의낭비를초래한다. 그러므로무선자원을효율적으로사용하기위해서는최적의릴레이를선택적으로사용할필요가있다. 본논문에서는무선협력통신네트워크에서발생하는이러한문제를해결하기위하여 Q-Learning 알고리즘을이용한협력릴레이선택기법을제안한다. Q-Learning 에서는자가학습을위해서상태, 행동, 그리고보상에대한파라미터를정의한다. 이러한파라미터가잘정의될때 Q-Learning 을이용하여우수한통신성능을얻을수있다. Q-Learning 알고리즘의우수성을보이기위해서, 수학적인분석을통해서최적의협력릴레이를얻는기법과통신성능을비교하였다. 모의실험결과, 제안된기법에서 Q-Learning 알고리즘내의보상을주는방식에따라, 비교기법과유사한심벌오율성능을얻으면서보다더적은협력릴레이를선택하는것을보였다. 따라서본논문에서제안된기법은다수의릴레이를사용하는차세대무선통신시스템의성능향상을위한좋은접근방식의하나로판단된다. Abstract As a scheme to efficiently reduce the effects of multipath fading in next generation wireless communication systems, cooperative communication systems have recently come into the spotlight. Since these cooperative communication systems use cooperative relays with diverse fading coefficients to transmit information, having all relays participate in cooperative communication may result in unnecessary waste of resources, and thus relay selection schemes are required to efficiently use wireless resources. In this paper, we propose an efficient relay selection scheme through self-learning in cooperative wireless networks using Q-learning algorithm. In this scheme, we define states, actions and two rewards to achieve good SER (Symbol Error Rate) performance, while selecting a small number of cooperative relays. When these parameters are well-defined, we can obtain good performance. For demonstrating the superiority of the proposed Q-learning, We compared the proposed scheme with Q-learning and a relay selection scheme with a mathematical analysis. The simulation results show that, compared to a scheme that obtains optimum relays through a mathematical analysis, the proposed scheme uses resources efficiently by using smaller numbers of relays with comparable SER performance. According to these simulation results, the proposed scheme can be considered as a good attempt for future wireless communication. Keywords: Cooperative Communication, Relay Selection, Self-Learning, Q-Learning, Amplify and Forward * ** 학생회원, 평생회원, 숭실대학교정보통신전자공학부 (School of Electronic Engineering, Soongsil University) 본연구는지식경제부및정보통신산업진흥원의대학IT연구센터지원사업 (NIPA-2012-H0301-12- 1005) 및교육과학기술부의재원으로한국연구재단의중견연구자지원사업의지원을받아수행된연구임 (No. 2012-17220103). 접수일자 : 2012년 4월 28일, 수정완료일 : 2012년 6월 14일 (440)
40 Q-Learning 을이용한릴레이선택기법정홍규외 Ⅰ. 서론무선통신시스템에서공간다이버시티이득을얻기위한방법으로다중릴레이를이용한협력통신이최근에많은주목을받고있다. 협력릴레이를이용하는방법은협력통신을구현하기위한중요한접근방법가운데하나이다. 지금까지협력릴레이를이용하기위해서다양한프로토콜이제안되어왔다 [1]. 그중에서도, 릴레이가소스로부터전달받은신호를단순히증폭시켜서목적지로재전송하는 AF (Amplify-and-Forward) 방식과소스로부터전달받은신호를복호후에전송하는 DF (Decode-and-Forward) 방식이협력통신을위해서주로사용된다. 협력통신네트워크의이득을최대화시키기위한핵심은무선자원을효율적으로이용하는것이다. 특히, 협력통신네트워크에서통신성능을개선시키고전력과대역폭자원을효율적으로사용하기위해서전력할당과릴레이선택에관한문제를해결하기위한연구가활발하게진행되고있다. 지금까지많은논문들이다중릴레이로구성된협력통신네트워크에서수학적인분석으로최적화문제를해결하는것에의해협력릴레이를선택하고최적의전력을할당하는기법들을연구해왔다 [2~6]. 하지만이러한수학적인분석은결과적으로이상적인최적의심벌오율 (Symbol Error Rate; SER) 성능을구할수있으나, 실제릴레이선택을위해서는대단히높은복잡도를가지는연산을수행해야하는단점이있다. 또한수학적인분석을통해서결정된협력릴레이개수보다더적은릴레이를사용하면서최적의 SER 성능과매우유사한성능을보이는통신시스템을구축할수있음에도불구하고, 수학적인분석을통한릴레이선택기법으로구축된협력시스템은이러한상황에적응적으로동작하지못한다. 따라서본논문에서는이러한문제를해결하기위한방안으로 Q-Learning을이용한자가학습릴레이선택기법을제안하였다. Q-Learning은기계학습분야에서강화학습 (Reinforcement Learning) 에속하는알고리즘중에하나로 [7], 최근에또하나의차세대무선통신시스템으로주목받고있는인지무선통신 (Cognitive Radio) [8~9] 에적용하는연구가많이진행되고있다. 특히, 다중사용자와다중채널인지무선통신시스템에 서이차사용자사이의협상없이채널을선택하기위해서 Q-Learning이사용되었고 [10], 인지무선통신에서사용자들의스펙트럼센싱시간을공유하고전력을효율적으로할당하기위해서분산된 Q-Learning 알고리즘이사용되었다 [11]. 한편, [12] 에서는인지무선통신기술을사용하는멀티미디어센서네트워크에서협력릴레이를선택하기위하여 Q-Learning이사용되었다. 하지만 [12] 은 Q-Learning을위한보상값이데이터비트를받고보내는데필요한에너지로구성되는등주로 MAC 계층관점에서연구가수행되었고, 협력릴레이를선택하기위해서 Q-Learning을이용하는전반적인전략은잘구성되어있으나상태와행동등이명확하게정의가되어있지않다. 반면에본논문에서는물리계층관점에서 Q-Learning을위한상태, 행동, 보상을명확하게정의하고전체기법을제안하였다는데차별성이있다. 본논문의제안기법에대한모의실험결과를통해, Q-Learning을이용한제안기법은수학적인분석을통해서릴레이를선택하는기법과비교했을때시스템의복잡도를효율적으로저감시키며유사한 SER 성능을보였다. 특히, 이러한결과는 Q-Learning 알고리즘이차세대무선통신시스템의성능향상을위해서효과적으로사용될수있음을보여준다. 본논문의구성은다음과같다. 제 Ⅱ장에서는협력통신네트워크모델에대해서분석한다. 제 Ⅲ장에서는 Q-Learning과제안된릴레이선택기법에대해서서술한다. 제 Ⅳ장에서는제안된기법의모의실험결과에대해서분석하고, 마지막으로제 Ⅴ장에서는본논문의결론을맺는다. Ⅱ. 협력통신네트워크모델 1. Amplify-and-Forward 릴레이에기반을둔협력통신에서 MRC 출력의수학적인분석본논문에서는그림 1과같이 개릴레이의도움을받아서목적지로정보를전송하는무선협력통신네트워크를고려한다. 소스와릴레이사이의채널과릴레이와목적지사이의채널은각각독립적이라고가정한다. 협력통신은소스의정보를전달하기위해서두번의과정을거친다. 첫번째과정에서, 소스는목적지와각릴레이들에게자신의정보를전달한다. 두번째과정에서, 각릴레이들은전송받은소스의정보를증폭하여목적 (441)
2012 년 6 월전자공학회논문지제 49 권 TC 편제 6 호 41 P 1 Forward Feedback S h s, r 1 h s, r 2 h s, rn P 2 R 1 R 2 h s, d R N h r 2, d h r 1, d h r N, d 그림 1. 릴레이를이용하는협력통신네트워크시스템 Fig. 1. A cooperative relaying network system. 지로그정보를전달한다. 첫번째과정에서, 릴레이 와목적지가소스로부터받은정보는다음수식과같다. (1) (2) 여기서, 는소스에서의송신전력, 는전송된정보심벌을의미한다. 그리고 와 는각각목적지와릴레이 에서의가우시란랜덤변수로모델링되는잡음성분을의미한다. 또한 와 는각각소스-목적지채널과소스-릴레이채널의채널계수를의미한다. 두번째과정에서, 릴레이 는소스로부터받은신호를증폭하고목적지에증폭된신호를재전송한다. 릴레이 로부터목적지에서받은신호는다음수식과같다 [13]. (3) 여기서 는전력제한을만족시키는비례계수로다음과같다. (4) D 고가정하면, MRC 검출기의출력은다음식과같다. (5) 여기서 이고 이다. 이러한다중릴레이를이용하는무선협력통신네트워크에서목적지의신호대잡음비 (Signal-to-Noise ratio; SNR) 는다음과같이표현된다. (6) 여기서 이고 이다. 알고리즘의복잡도를낮추기위해서, 목적지의 은다음과같이근사화할수있다 [4]. (7) 이러한결과를정리하면, 개릴레이를이용하는협력통신에서목적지의총 SNR은다음과같다. (8) 2. MRC 에기반을둔릴레이선택기법 에기반을두어 [4] 에서는다음과같은릴레이선택기법을제안하였다. 위식에서 는릴레이 의송신전력을의미하고, 채 널계수 는분산이 이고평균이 인복소가우시안랜덤변수로모델링된다. 한편잡음은분산이 이고평균이 인복소가우시안랜덤변수로모델링된다. 수신기에서순시채널이득에대한정보를모두안다 협력통신에모든릴레이들이참여한다고가정하고, 이릴레이들의집합을 로정의한다. 모든릴레이들의인덱스집합이다음과같이정렬된다고가정한다. (9) 목적지에서의총 SNR을증가시키기위해서, 다 (442)
42 Q-Learning 을이용한릴레이선택기법정홍규외 음식을만족하도록한다. (10) Q-function Agent 식 (10) 에식 (8) 을대입하여다음과같이간단하게정리한다. state st reward rt rt+1 st+1 Environment action at (11) 여기서 와 은하나의릴레이가협력릴레 이집합에서제거되었을때의소스와각릴레이 에서의송신전력을의미한다. 모든릴레이선택구간동안다음의알고리즘으로협력릴레이개수를선택한다. 1 만약 이면, 릴레이집합 에서릴레이 을제외시키고 를업데이트하고, 그렇지않으면단계 3으로이동함 2 으로설정하고, 를업데이트함. 만약 이면단계 3으로이동하고, 그렇지 않으면단계 1 로이동함 3 협력릴레이 개를선택후종료함 제 IV장에서, [4] 에서제안한이러한릴레이선택기법과본논문에서제안한 Q-Learning을이용한릴레이선택기법의통신성능을비교한다. Ⅲ. Q-Learning을이용한제안된릴레이선택기법 1. Q-Learning 이론 Q-Learning은기본적으로환경, 에이전트, 상태, 행동, 그리고보상으로구성된강화학습알고리즘이다. Q-Learning 알고리즘에서환경은유한상태이산시간확률시스템 (Finite-State Discrete-Time Stochastic System) 으로구성된다. 을주어진시스템에서가능한모든상태들의집합, 을가능한모든행동들의집합이라고하자. 에이전트는환경 에서행동 를취한다. 그리고학습하기위해서 그림 2. Q-Learning 에서에이전트와환경간의반복 Fig. 2. Agent-environment iteration in Q-Learning. 그환경으로부터두종류의피드백을받는다. 첫째로, 에이전트가현재취한행동으로인한즉각적인보상 을받는다. 두번째로, 현재행동으로인해서나타나는미래환경에대한보상인 Q-Value 을받는다. Q-Learning의핵심은환경으로부터이러한피드백들을최대한긍정적으로받고, 그후에 Q-Value 들로구성된 Q-Table을업데이트하는것이다. 이때기본적인 Q-Function 은다음과같다. (12) 여기서, 는현재의환경 에서행동 를취했을때나타나는다음환경, 은 에서취할수있는가능한모든행동들을의미한다. 또한, 은할인계수 (Discount Factor) 로미래의상황이현재의학습에얼마나영향을미칠것인가를결정한다. 즉, Q-Learning 은반복된학습에의해서축적된보상값을이용하여주어진환경에서최적의행동을찾아나가게된다. 이러한과정은그림 2와같이묘사되어질수있다. 2. Q-Learning 을이용한제안된릴레이선택기법 본논문에서는다음과같이 Q-Learning을위한상태, 행동, 그리고보상을정의한다. 가. 상태 (State) 본논문에서는 개의릴레이를가지고있는무선협력통신네트워크에서릴레이선택을위한 Q-Learning 알고리즘을제안하므로, 상태는 으로정의한다. 여기서 는협력통신을위해서선택된협력릴레이들의수를의미한다. 나. 행동 (Action) 릴레이선택을위해행동 를행하는것은이용가 (443)
2012 년 6 월전자공학회논문지제 49 권 TC 편제 6 호 43 능한 개릴레이로부터 개릴레이를선택하는것을의미한다. 즉, 행동 는 로정의된다. 결과적으로, 행동은 개릴레이를사용하는상태에서 개릴레이를사용하는상태로이동하는것을의미한다. 이러한행동을취함으로인해서 SER 성능이좋아지거나또는나빠지는것은현재상태에서는고려하지않는다. 이것은적절한보상이현재행동을위해서주어짐으로써, 시간이지남에따라에이전트에의해학습된다. 다. 보상 (Reward) Q-Learning을위해서보상 을정의하는것은중요한이슈이다. 본논문에서는적은개수의협력릴레이들을이용하면서, 동시에우수한 SER 성능을얻기위하여 을다음식과같이정의한다. (13) 여기서 과 는각각현재상태와행동을취한후의다음상태에서 MRC 출력의 SNR을의미한다. 이식에서 가 보다작다면부정적인보상받을것이고, 그반대의경우에는긍정적인보상을받을것이다. 또한, 항으로다음상태와현재상태에서의 의차이를나누는것에의해서, 단순히높은 를갖는릴레이개수를선택했을때높은보상을받기보다는적은릴레이개수로적절한 를갖는상태로이동하도록행동을취했을때높은보상을받도록하였다. 본논문에서는식 (13) 에서정의된보상 이외에다음식과같이보상 을추가로정의하였다. (14) 여기서는식 (13) 에 를곱해줌으로써식 (13) 에비해서긍정적인보상과부정적인보상에대한격차를더크게주었다. 릴레이선택을위해서제안된 Q-Learning 알고리즘은다음과같이동작한다. 협력통신에모든릴레이들이참여하고, 모든릴레이들의인덱스집합은 [4] 에서제안한것과같은방법으로정렬된다고가정한다. Q-Table을초기화하고, 초기상태를랜덤하게선택한다. 모든릴레이선택구간동안다음알고리즘으로협력릴레이개수를선택한다. 1 현재상태에서가능한모든행동들로부터하나의행동을선택함 2 선택된행동을사용해서, 다음상태 으로이동함 3 가능한모든행동들에기반하여, 다음상태 가운데 Q-Value 의최대값을가지는행동 을선택함 4 식 (12) 를사용해서 Q-Value 를업데이트함 5 Q-Table에서최대의 Q-Value 를가지는협력릴레이개수를선택함 6 다음상태 을현재상태로설정함위와같은릴레이선택과정에서, 제안기법은단순히 Q-Learning을위한행동을취하고그행동에대한보상을받은후 Q-Table을업데이트하게된다. 또한, 제안기법에서보상은식 (8) 을두번만계산하면되므로알고리즘적인복잡도와계산량이크게감소한다. 반면에다음장의모의실험결과를통해알수있듯이수학적인분석을통한릴레이선택기법과비교했을때제안기법은적은개수의릴레이를사용하지만거의유사한 SER 성능을얻는것을보인다. Ⅳ. 모의실험결과본장에서는 Q-Learning을이용하는제안된릴레이선택알고리즘의성능을모의실험을통해검증한다. 통신을위해서 QPSK (Quadri-Phase Shift Keying) 변조방식을사용하였고비트에너지를 1로정규화하였다. 소스와목적지사이의채널계수는 1로고정되어있고, 소스와각릴레이사이의채널계수와각릴레이와목적지사이의채널계수는 [1,10] 의균등분포를가지고있다고가정하였다. 잡음분산은 1로정규화하였으며, 하나의전송블록에서채널계수는변하지않으나서로다른블록사이의채널계수는독립적으로변한다고가 (444)
44 Q-Learning 을이용한릴레이선택기법정홍규외 SER 10 0 10-1 10-2 10-3 10-4 10-5 All relays (N=10) Proposed Average number of selected relays 30 25 20 15 10 5 All relays Q-learning 10-6 0 2 4 6 8 10 12 SNR [db] 그림 3. 릴레이개수 일때다양한기법에대한 SER 성능 Fig. 3. SER performance for various schemes with relays. 0 5 10 15 20 25 30 Number of relays 그림 5. SNR = 10 db 일때다양한기법에서선택된릴레이의평균개수비교 Fig. 5. Comparison of average number of selected relays at SNR = 10 db. Average number of selected relays 11 10 9 8 7 6 5 4 3 2 All relays (N=10) Proposed SER 10 0 10-1 10-2 10-3 10-4 10-5 (N=10) Proposed (N=10) (N=20) Proposed (N=20) (N=30) Proposed (N=30) 1 0 2 4 6 8 10 12 SNR [db] 그림 4. 개의릴레이중에서선택된평균릴레이 개수 Fig. 4. The average number of selected relays among relays. 정하였다. 협력통신네트워크에서중요하게다루어야하는송신전력의경우, 비교되는릴레이선택기법과제안된릴레이선택기법의복잡도를낮추기위해서본논문에서는동등전력할당을사용하였다. 동등전력할당은전체전력 의절반은소스와선택되어진협력릴레이집합에각각할당되고, 협력릴레이집합에할당된전체전력 의절반은다시선택된각협력릴레이들에게동등하게분배되는것을가정한다. 그림 3부터그림 5까지보이는실험결과는이용가능한전체릴레이개수가 임을가정한것이고, 그림 3부터그림 6까지보이는실험결과는식 (13) 의보상방안을 10-6 0 2 4 6 8 10 12 SNR [db] 그림 6. 협력통신에참여할수있는다양한릴레이개수에대한 SER 성능 Fig. 6. SER performance for various relay numbers that can participate in cooperative communication. 이용한것이다. 그림 3은모든릴레이가참여할때, [4] 에서제안한릴레이선택기법이사용되었을때, 그리고 Q-Learning 을이용한제안된릴레이선택기법이사용되었을때의 SER 성능을보여준다. 그림 3에서 SNR = 8 db까지본논문에제안된기법과 [4] 에서제안한기법의 SER 성능이매우유사하고, 그이후에는제안기법의 SER 성능이약간악화되는것을관찰할수있다. 그림 4는협력통신을위해서사용된평균릴레이개수를보여준다. 여기서, 본논문에서제안된기법이 [4] 에서제안한기법보다약 2.5개의릴레이를절약하고, (445)
2012 년 6 월전자공학회논문지제 49 권 TC 편제 6 호 45 SER 10 0 10-1 10-2 10-3 10-4 10-5 10-6 All relays (N=10) Proposed 10-7 0 2 4 6 8 10 12 SNR [db] 그림 7. 식 (14) 의보상방안이용시릴레이개수 일때다양한기법에대한 SER 성능 Fig. 7. SER performance for various schemes with relays when using a reward in (14). Average number of selected relays 30 25 20 15 10 5 All relays Proposed 0 5 10 15 20 25 30 Number of relays 그림 8. 식 (14) 의보상방안이용시 SNR = 10 db일때다양한기법에서선택된릴레이의평균개수비교 Fig. 8. Comparison of average number of selected relays at SNR = 10 db when using a reward in (14). 모든릴레이가협력통신에참여했을때보다약 7.5개의릴레이를더적게사용하는것을확인할수있다. 그림 5는 SNR = 10 db에서이용가능한릴레이개수가증가함에따라서협력통신을위해선택된평균릴레이개수를보여준다. 이결과로부터, [4] 에서제안한릴레이선택기법과다르게본논문에서제안된기법은이용가능한릴레이개수가증가함에도불구하고평균적으로약 2.5개의고정된개수의릴레이를선택하는것을보여준다. 그림 6은협력통신에참여하는다양한릴레이개수 에따른 SER 성능을보여준다. 그림 5와 6에서볼수있듯이, 참여가능한릴레이개수가증가함에따라선택되는협력릴레이개수또한증가하는것이 SER 성능을증가시키기위해서합리적인접근이다. 하지만, 실험결과를통해서 SNR이 8 db 보다작을때, 협력릴레이개수가약간감소하는것은 SER 성능에거의영향을미치지못하고, 더나아가서 SNR이 8 db 이상일때는비록 SER 성능이약간저하되지만협력릴레이개수를급격하게줄일수있다는것을보여준다. 그림 7과 8은식 (14) 의보상방안을이용했을때에대한실험결과를보여준다. 앞서언급한바와같이, 식 (14) 는식 (13) 에 항을추가함으로써긍정적인보상과부정적인보상의격차를크게만든것이다. 그림 7과 8에서볼수있듯이, 식 (14) 의보상을이용한릴레이선택기법은 [4] 에서제안한기법과비교했을때 SER 성능과협력릴레이개수에대한측면에서매우비슷한성능을보인다. 하지만식 (13) 을사용할때와비교해서보상의정의만바뀌었으므로, 여전히수학적인분석을통해서릴레이를선택하는 [4] 의기법에비해서알고리즘적인복잡도와계산량은적다. 이러한실험결과는 Q-Learning에서보상 을정의하는형태에따라서시스템의목적을다르게설정할수있음을보여준다. 지금까지의실험결과들은제안된기법이행동에대한보상을주고 Q-Table을업데이트하는간단한릴레이선택과정과함께협력릴레이개수를급격하게감소시키지만우수한 SER 성능을얻을수있음을보여준다. Ⅴ. 결론본논문은무선협력통신네트워크에서 Q-Learning 을이용하는릴레이선택기법을제안하였다. 제안된기법에서, Q-Learning을위하여상태, 행동, 보상을적절히정의하는것에의해서복잡한수학적계산없이우수한 SER 성능을얻는시스템이고안되었다. 특히, [4] 에서제안한기법에서는이용가능한릴레이개수가증가함에따라서협력릴레이개수또한선형적으로증가하였지만, 본논문에서제안된기법은평균적으로약 2.5 개의협력릴레이만을사용하였다. 또한, [4] 는릴레이선택을위해서최악의경우식 (11) 을 번계산하 (446)
46 Q-Learning 을이용한릴레이선택기법정홍규외 지만, 본논문에서제안된기법은식 (8) 을오직두번만계산한다. 그러므로본논문에서제안된기법은복잡도면에서매우우수하다고할수있다. 이러한결과들은적은개수의협력릴레이를사용하는것에의해무선자원이용의효율성을개선시킬수있음을보여준다. 또한, Q-Learning에서보상 을정의하는방법에따라서시스템의목적을다르게설정할수있음을보여주었다. 본논문의연구결과는자가학습을하는 Q-Learning이다수의릴레이를사용하는미래의무선통신네트워크를위해서효율적으로사용될수있음을보여준다. 참고문헌 [1] A. Nosratinia, T. E. Hunter, and A. Hedayat, Cooperative communication in wireless networks, IEEE Commun. Mag., vol. 42, pp. 74-80, October 2004. [2] Y. Zhao, R. S. Adve, and T. J. Lim, Improving amplify-and-forward relay networks: Optimal power allocation versus selection, IEEE Trans. Wireless Commun., vol. 6, no. 8, pp. 3114-3123, August 2007. [3] Z. Kenan and T. M. Lok, A relay selection scheme under optimal power allocation, Proc. ICCS 2008, pp. 1609-1613, Guangzhou, China, November 2008. [4] H. Wu, Y. Wang, C. Xiong, and D. Yang, A novel relay selection scheme with simplified power allocation for wireless relay networks, Proc. IEEE GLOBECOM 2009, pp. 1-5, Honolulu, USA, December 2009. [5] F. Ke, S. Feng, and H. Zhuang, Relay selection and power allocation for cooperative network based on energy pricing, IEEE Commun. Lett., vol. 14, no. 5, pp. 396-398, May 2010. [6] L. Song, Relay selection for two-way relaying with amplify-and-forward protocols, IEEE Trans. Veh. Technol., vol. 60, no. 4, pp. 1954-1959, April 2011. [7] R. S. Sutton and A. G. Barto, Reinforcement Learning, MIT Press, 1998. [8] 김재명, Cognitive Radio 기술개요및발전방향, 대한전자공학회지, 제 36 권, 제 6 호, 20-27 쪽, 2009 년 6 월. [9] 조정일, 서종필, 유재호, 정재학, Cognitive Radio 의네트워크및물리계층연구동향, 대한전자공학회지, 제 36 권, 제 6 호, 39-51 쪽, 2009 년 6 월. [10] A. Galindo-Serrano and L. Giupponi, Distributed Q-learning for aggregated interference control in cognitive radio networks, IEEE Trans. Veh. Technol., vol. 59, no. 4, pp. 1823-1834, April 2010. [11] O. V. Den Biggelaar, Sensing time and power allocation for cognitive radios using distributed Q-learning, EURASIP Jour. Wireless Commun. & Networking, vol. 2012, no. 138, April 2012. [12] J. Peng, J. Li, S. Li, and Jing Li, Multi-relay cooperative mechanism with Q-learning in cognitive radio multimedia sensor networks, Proc. IEEE TrustCom-11/IEEE ICESS-11/ FCST-11, pp. 1624-1629, Changsha, China, November 2011. [13] K. J. R. Liu, A. K. Sadek, W. Su, and A. Kwasinski, Cooperative Communication and Networking, Cambridge University Press, 2009. (447)
2012 년 6 월전자공학회논문지제 49 권 TC 편제 6 호 47 정홍규 ( 학생회원 ) 2012 년숭실대학교정보통신전자공학부학사졸업. 2012 년 3 월 현재숭실대학교정보통신공학과석사과정. < 주관심분야 : 무선통신시스템, 통신신호처리 > 신요안 ( 평생회원 )- 교신저자 1987 년 2 월서울대학교전자공학과졸업 ( 공학사 ). 1989 년 2 월서울대학교대학원전자공학과졸업 ( 공학석사 ). 1992 년 12 월 Univ. of Texas at Austin 전기및컴퓨터공학과졸업 ( 공학박사 ). 1992 년 12 월 1994 년 7 월오스틴소재 MCC (Microelectronics & Computer Technology Corp.) Member of Technical Staff. 1994 년 9 월 현재숭실대학교정보통신전자공학부전임강사 / 조교수 / 부교수 / 교수, 학부장. 2009 년 9 월 2010 년 8 월 Univ. of British Columbia 전기및컴퓨터공학과방문교수. 2005 년 1 월 2006 년 12 월한국통신학회부호및정보이론연구회위원장. 2007 년 1 월 2008 년 12 월대한전자공학회이사. 2008 년 1 월 2008 년 12 월한국통신학회이동통신연구회위원장. 2011 년 1 월 현재한국통신학회집행이사. < 주관심분야 : 무선및이동통신시스템, 통신신호처리 > 저자소개 김광열 ( 학생회원 ) 2007 년공주대학교정보통신공학과학사졸업. 2007 년 ~2009 년한국전자통신연구원위촉연구원. 2009 년 9 월 ~ 현재숭실대학교정보통신공학과석박사통합과정. < 주관심분야 : 무선통신시스템, 최적화알고리즘 > (448)