딥러닝과 생명과학 블로그가 새롭게 태어났습니다. 새로운 주소는 아래와 같습니다! 

https://taehojo.github.io/

 

딥러닝과 생명과학 · Deep learning Study, Deep learning in Science, Alphafold study

딥러닝과 생명과학 딥러닝을 공부하고 딥러닝이 적용된 사례를 연구하는 페이지입니다. 알파폴드 스터디 알파폴드 리뷰와 해석 알파폴드2 논문 스터디 딥러닝과 생명과학 딥러닝과 알츠하이머

taehojo.github.io

알파폴드 리뷰 및 스터디, 딥러닝과 생명과학에 관한 연구 소개, 딥러닝 학습의 내용으로 구성되어 있습니다. 새 블로그에서 만나요~!

조태호 드림

 



‘빅데이터 딥러닝’ 이용해, 단백질 3D구조 찾기


일문일답/ 제1저자 조태호 박사가 해설하는 딥러닝과 연구논문


한겨레 사이언스온  오철우 기자
 2015. 12. 17


신약개발에 중요한 단백질 3차원 접힘구조 규명

빅데이터서 구조 예측 정보 찾는 알고리즘 개발


00proteinfolding2.jpg» 단백질의 3차원 접힘구조를 보여주는 다양한 예. 출처/ Wikimedia Commons 


청난 양의 자료 더미에서 최적의 유용한 정보를 ‘똑똑하게’ 찾아내는 기계학습 알고리즘인 ‘딥러닝(deep learning)’이 요즘, 빅데이터를 다루는 정보통신기술 분야뿐 아니라 이제 생물학 연구실에서도 관심사로 등장하는 모양이다. 


단백질의 3차원 구조에 맞추는 신약의 개발 등 분야에서 매우 중요하지만 또한 매우 어려운 과제인 ‘단백질의 3차원 접힘구조’ 연구 분야에서도 딥러닝을 이용한 연구개발 기법(알고리즘)이 개발됐다. 단백질의 3차원 접힘구조는 다른 단백질이나 약물과 상호작용을 하는 데에 중요한 요소가 되기 때문에 접힘의 3차원 구조는 곧 그 단백질의 기능과도 관련되며, 이 때문에 신약개발에서 접힘구조는 중요한 정보로 다뤄진다.


미국 미시건대학과 미주리대학 연구진은 최근 단백질의 3차원 접힘구조를 찾아가는 과정에서 비교분석의 틀로 이용할 수 있는 최적의 단백질 구조 정보를 빅데이터에서 효과적으로 찾아내는 알고리즘을 딥러닝 기법으로 개발해, 네이처출판그룹의 공개접근 학술지 <사이언티픽 리포츠(Scientific Reports)>에 발표했다.


제1저자인 조태호 미시건대학 박사후연구원은 “딥러닝을 단백질 접힘구조 예측 분야에 도입한 것은 우리 연구진이 알기로는 이번이 처음”이라며 “기존의 다른 알고리즘과 비교해도 상당히 좋은 결과물을 얻을 수 있었다”고 말했다. 연구진은 이런 알고리즘을 이용할 수 있는 웹사이트(http://iris.rnet.missouri.edu/dnfold/)를 만들어 공개했다. 다음은 제1저자인 조태호 박사후연구원이 들려주는 딥러닝과 이번 논문에 관한 일문일답 형식의 해설이다.

00proteinfolding1.jpg» 단백질 접힘구조를 이루기 이전의 아미노산 사슬(왼쪽)과 접힘 이후의 단백질 3차원 구조. 출처/ Wikimedia Commons 


 제1저자가 해설하는 딥러닝과 연구논문/ 조태호 박사 



 사이언스온

단백질 접힘구조를 예측하는 기존 알고리즘이 있을 텐데요. 이번 논문은 그 기존 알고리즘의 개선을 위해 딥러닝 기법의 도입을 시도했다는 데 의미가 있는 것 같은데, 그런가요?

 

 조태호 박사

“네, 맞습니다. 단백질이 모든 생명 활동의 기본 단위인 만큼, 이 단백질이 어떤 구조와 방식으로 움직이는지를 이해하는 것은 생명 현상을 연구하는 데 필수적이라 할 수 있습니다. 특별히 신약 개발 및 난치병 치료를 위해서는 단백질 구조를 알아야 하는 경우가 많은데, 단백질이 어떤 3차원 구조를 지니는지는 디엔에이(DNA) 염기서열만으론 알 수 없습니다. 그래서 단백질이 3차원적으로 어떤 구조를 가지는지를 연구하게 되는데, 이를 단백질 접힘(Protein Folding) 연구, 또는 단백질 구조 예측 연구라 하지요.

단백질 구조 예측의 성과는 2년마다 세계 각 연구팀이 모여 자신의 예측방법을 콘테스트 방식으로 경연하는 세계 단백질 구조 예측대회(CASP)를 통해 확인할 수 있는데, 현재 크게 두 가지의 접근 방식으로 나누어집니다.

첫째는 단백질을 구성하는 원자 간의 상호 에너지를 컴퓨터로만 계산하여 가장 안정한 구조를 예측하는 앱 이니시오 방법(Ab Initio modeling)인데, 아직까지는 물리적, 이론적 한계로 인하여 이 방법만으로 완전한 구조를 예측하기는 어렵습니다. 둘째는 기존에 엑스(X)선 결정학 또는 핵자기공명 분광학 연구를 통해 구조가 확정된 데이터를 이용하는 방식입니다. 기존에 밝혀진 구조를 템플릿(주형)으로 삼아 아직 구조가 밝혀지지 않은 단백질을 예측하는 템플릿 기반 방법(Template-basedmodeling)인데, 앱 이니시오 방법과 그 결과보다 월등히 뛰어난 구조 예측이 가능합니다.  

이번에 나온 논문은 이 템플릿 기반 방법에 관한 것입니다. 템플릿 기반 방법의 첫 번째 단계은 기존의 수많은 템플릿 데이터 중에서 가장 필요한 템플릿을 정확하게 골라내는 것입니다. 여기에서 ‘빅데이터 기반 기계학습’과의 연결점이 생기지요. 

갑작스럽지만 잠시 구글 이야기를 해야 할 것 같습니다. 구글은 아시다시피 엄청난 정보 데이터 중에서 사용자가 원하는 정보를 정확히 골라 내놓기 위해, 그동안 상당한 투자를 해왔지요. 이 노력이 지금의 구글을 만들었다고 해도 과언이 아닐 테고요. 이러한 구글이 현재 자사의 검색엔진, 키워드 광고, 맵, 포토, 유투브에 적극적으로 도입한 알고리즘이 바로 “딥러닝”입니다. 

구글은 이 딥러닝 알고리즘의 도입을 위해 2011년부터 구글 브레인(Google Brain)을 설립해 운영해 왔습니다. 구글뿐이 아닙니다. 페이스북, 트위터, 마이크로소프트, 국내의 네이버와 다음카카오 등도 딥러닝에 대한 투자와 연구가 한창입니다. 그만큼 성과가 뛰어난 알고리즘이지요. 지난해 CASP 3위(종합)를 차지한 미주리대학교 지알린 챙 교수 연구실에 박사후연구원으로 들어가 제가 한 일은 구글이 도입한 딥러닝을 그대로 템플릿 기반 단백질 구조 예측 방법에 도입해 이 방식으로 최적의 템플릿을 찾을 수 있는지를 연구하는 것이었습니다. 기존에는 챙 교수가 쓴 서포트벡터머신(SVM) 기반 방법이나 제가 쓴 랜덤 포레스트(Random Forest) 기반 방법의 연구 논문은 있었지만, 딥러닝을 이 분야에 도입한 것은 챙 교수와 제가 아는 한 처음입니다.”



한글 위키백과에서 사전적 정의를 찾아보니 딥러닝에 대한 설명이 이렇군요. “딥 러닝(deep learning)은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화(abstractions, 다량의 데이터나 복잡한 자료들 속에서 핵심적인 내용 또는 기능을 요약하는 작업)를 시도하는 기계학습(machine learning) 알고리즘의 집합”(위키백과 참조). 단백질 접힘 구조 예측에, 딥러닝 개념을 적용/도입하자는 그 기본 아이디어는 무엇인지요?


“딥러닝을 쉽게 말하면, 컴퓨터로 하여금 사람처럼 생각하고 판단하게 만드는 최신 기술의 하나라고 할 수 있습니다. 사람의 인지 과정과 비슷하게 딥러닝을 이용한 컴퓨터는 뉴럴 네트워크(신경망)을 이용해 판단하고 응답하지요. 차이가 있다면 사람의 기억에는 한계가 있지만 컴퓨터는 이와 비교도 안 될 만큼 커다란 데이터를 기반으로 판단을 내릴 수 있다는 것입니다.

딥러닝의 기원을 거슬러 올라가려면 1955년, 그러니까 60여 년 전에 뉴럴 모델링의 개념이 처음 등장했을 때로 가야 할 듯합니다. 이때 등장한 단층 퍼셉트론(single layer perceptron)이 뉴럴 모델링의 기원이라고 할 수 있지요. 원리는 간단합니다. 입력값을 내재 함수에 넣어 보고 참/거짓을 내놓는 알고리즘입니다. 그런데 이 방식은 너무 단순했습니다. 쉽게 말해 2차원 평면상에서 직선 밖에 그리지 못하는 수준의 결과였지요. 만일 주어진 과제가 직선을 가지고선 해결될 수 없는 경우에는(예컨대, 비선형 분리 문제, XOR 문제) 사용할 수 없었습니다. 따라서 이 모델링은 1976년 다중 퍼셉트론 (multi layer perceptron) 방식이 등장하고 나서야, 비로소 다시 주목을 받게 되지요. 

다중 퍼셉트론은 단층 퍼셉트론을 여러 층으로 쌓아 올린 것입니다. 여러 번 반복하면서 결과를 보완해 나가는 방식이, 직선을 여러 개 긋는 효과를 가져와 기존에 풀지 못한 문제를 해결할 수 있게 된 것이지요. 이때부터 이 방식에는 뉴럴 네트워크(Neural network) 또는 인공 신경망이라는 이름이 따라다닙니다. 사람의 인지 과정처럼 작은 신경망 단위(단층 퍼셉트론)이 복잡하게 쌓여(다중 퍼셉트론) 결정을 내기 때문에 이를 인공지능의 시발점으로 여겨 수많은 과학적 상상력의 기반이 되기도 했지요. 

그런데 인공 신경망 방식은 또 다른 한계를 만납니다. 이 방식은 기존에 미리 학습된 데이타(labeled training data)를 필요로 하고, 층이 늘어날수록 매우 느려진다는 것, 그리고 가장 중요한 것으로 진짜 값을 찾기 전에 미리 결론을 수렴하여 학습이 도중에 중단되는 지역 최적해(localminimum) 문제를 해결할 수 없었다는 것입니다. 이러한 단점으로 인해 1980년대 후반부터 2000년대 중반까지 사실상 큰 발전이 없는 상태로 차츰 관심을 잃어갑니다. 그 사이에 SVM, 랜덤 포레스트 같은 새로운 접근법이 등장하면서 인공신경망 방식은 사실상 큰 주목을 받지 못하는 “어둠의 시대”를 지나게 되지요. 그런데 이 어둠의 시대를 단번에 종식시킨 것이 바로 “딥러닝”입니다. 

딥러닝은 2006년 캐나다 토론토대학의 제프리 힌튼 교수가 그 개념을 발표하면서 처음 알려지기 시작했습니다. 원리를 간단히 말하면, 기존의 다층 퍼셉트론 방식이 여러 층을 다 지난 후에 역-전파(Backpropagation) 방법으로 결과를 내는 방식인 데 비해, 한 층 한 층을 ‘제한된 볼츠만 기계(Restricted Boltzman Machine, RBM)’ 방식으로 따로 따로 학습하여 각 층마다 비지도 학습(Unsupervised learning)을 일으킨 후, 최종적으로 각 층의 결과를 역-전파 방법으로 도출해 내는 방식입니다. 

이 방법이 처음 나왔을 때의 문제점은 알고리즘 자체가 컴퓨터 자원을 많이 잡아먹어 현실적인 활용이 어렵다는 것이었지요. 그런데 시간이 지나면서 3차원(3D) 시뮬레이션이나 게임 등 분야에서 엄청나게 빠른 연산속도의 필요성이 대두되자 이를 해결하기 그래픽처리장치(GPU) 등 최신 하드웨어가 속속 등장합니다. 이러한 장비의 개발이 바로 딥러닝의 문제도 해결해 준 것입니다. 복잡한 알고리즘이 충분히 돌아갈 만한 하드웨어의 보급으로 딥러닝은 바야흐로 전성기를 맞이하게 되지요.

앞서 말씀 드렸듯이, 딥러닝은 여러 입력 데이터를 통해 원하는 결과를 도출해 내는 데에 현재로선 가장 뛰어난 성과를 보이고 있습니다. 페이스북이 운영하는 딥러닝연구팀이 영상인식학회(CVPR)에서 발표한 자료를 보면, 딥러닝의 사진 얼굴 인식 성공률을 97.25%로 인간의 평균 인식 성공률 97.53%과 거의 차이가 없습니다. 딥러닝의 판단이 사람의 판단과 거의 유사할 만큼 뛰어나다는 뜻이지요. 단백질 구조 연구의 템플릿 기반 연구에도 이러한 최고의 기계학습 알고리즘이 필요합니다. 기존의 데이터베이스를 기반으로, 구조를 알고 싶은 새로운 입력 데이터에 가장 적합한 결과를 뽑아내는 부분이 바로 그것지요. 이것이 단백질 접힘 구조 예측에 딥러닝 개념을 적용/도입하게 된 기본 출발이 되었습니다.”


  

그런 아이디어에서 시작된 연구개발의 결과물은 결국 어떤 알고리즘인가요?

“단백질 구조를 예측하기 위해 사용되는 템플릿들, 즉 기존에 X-선 결정학 또는 핵자기공명 분광학 연구를 통해 그 3차원 구조가 밝혀진 데이터들은 단백질 데이터 뱅크(Protein Data Bank, PDB.org)에 가면 축적되어 있습니다. 지금 답변을 쓰는 현재 총 11만 4000여 개의 단백질 구조들이 저장되어 있네요. 

그런데 최근 CASP(세계 단백질 구조 예측대회)의 결과만 보아도 단백질 구조 예측에 사용되는 핵심적인 템플릿은 겨우 1~2개, 많아야 4~5개를 넘지 않는 것이 대부분입니다. 11만 4000여 개의 단백질 템플릿 중에서 최고의 템플릿 1~5개를 뽑아 내야 하는 문제가 생기는 것이지요. 이를 위해 사용되는 방법은 크게 두 가지입니다.

첫째는 아미노산 배열의 유사성을 진화적 해석을 포함한 계산법을 통해 공통 조상의 템플릿을 선정하는 방법으로, 상동성 모델링 또는 호몰로지 모델링이라고 불리는 방법이지요. 또 다른 방법은 공통 조상을 따지지 않고 아미노산 배열의 단순 중복 비율을 계산해 그 구조를 가져와 적용하는 방법입니다. 이번에 발표된 논문은 아미노산 배열의 형태에서 패턴을 찾고 기존 구조가 밝혀진 단백질의 아미노산 배열을 비교하여 최적의 후보 단백질을 산출하는 방식으로서 두 번째 방식이 적용되었다고 할 수 있습니다. 패턴을 찾고 비교하는 부분에서 바로 딥러닝이 사용된 것이지요.”


그런 알고리즘의 효과, 효율은 어떤 방식으로 입증되었는지요?


“연구를 위해 먼저 딥러닝 알고리즘을 구축하고, SCOP 데이터를 통해 학습하였습니다. SCOP 데이터란, 단백질의 구조적 유사성을 기반으로 3차원 구조가 알려진 모든 단백질을 체계적으로 분류해 놓은 데이터입니다. SCOP를 이용해 학습하고, 테스트 하는 방식은 2000년 스톡홀롬대학 엘로프손(Elofsson) 교수팀이 사용한 이래, 많은 팀들이 같은 방법으로 자신의 기술을 검증하여 발표하고 있습니다. 같은 데이터를 놓고 테스트 하여 서로 다른 방법 간의 비교를 용이하게 만드는 것입니다. 우리 팀도 이 검증 방법으로 그 효과를 수치화하여, 기존의 타 연구팀의 결과 18개와 비교해 논문에 실었습니다. 각 방법마다 특색이 있어서 어떤 방법이 가장 뛰어나다고 비교하여 말하기는 어렵지만,딥러닝을 사용한 결과가 다른 연구결과와 비교할 때 상당히 좋은 성과를 보여주고 있습니다.”



설명을 종합하면, 이번에 개발된 알고리즘은 염기서열 정보만으로 단백질 접힘구조를 예측하는 용도의 알고리즘은 아니며, 그런 예측 알고리즘에서 중요하게 사용되는 ‘최적의 템플릿’ 정보를 찾아내고자 딥러닝 기법을 이용해 새롭게 개발한 알고리즘이라고 보아도 될런지요? 또한 이 알고리즘을 이용해 이미 알려진 단백질 접힘구조 정보 데이터베이스에서 최적의 템플릿을 찾는 실행을 해본 결과, 상당히 좋은 결과물을 내어놓아, 딥러닝을 이용한 단백질 구조 예측용 알고리즘 개발에 청신호를 보여준 것으로 풀이해도 될런지요? 제가 제대로 이해했는지 모르겠습니다.


“네 맞습니다. 단백질 구조 예측은 먼저 템플릿을 골라내어 이를 기반으로 모델링 하고 앱 이시니오 방법을 더해 최적의 결과를 내는 방향으로 흘러 왔습니다. 단백질 구조 예측의 일반적 수순 중 가장 처음 단계가 바로 기존 데이터를 검색해 템플릿을 고르는 단계인데, 이 단계는 이하의 모든 단계를 합한 것보다도 결과에 끼치는 영향력이 큽니다. 따라서 가장 정확한 템플릿을 골라내기 위한 노력이 다양한 방법으로 오랜 기간 진행되어 왔고, 챙 교수팀은 이 분야에 기계학습 방법을 도입하여 좋은 성과를 내고 있었습니다. 

이번에 처음으로 딥러닝을 도입하여 또다시 좋은 성과를 낸 것은, 생명과학 분야도 정보기술(IT)업계처럼 빅데이터를 해결하기 위한 최적의 알고리즘을 개발하고 이를 적용하는 것이 중요하다는 것을 말해주고 있습니다. 딥러닝은 학습 데이터의 패턴 인식 향상에 따라 그 결과가 민감하게 영향을 받는데, 이 학습의 핵심이 되는 PDB(단백질 데이터 뱅크)의 데이터가 지금도 꾸준히 쌓이고 있는 중입니다. 결국 시간이 지날수록 빅데이터를 사이에 둔, 최신 분류 알고리즘간의 승부가 될 것이라고 예상됩니다. 현존하는 알고리즘들 중 가장 낫다는 평가를 받는 딥러닝이 앞으로도 단백질 접힘구조 연구는 물론, 데이터를 다루는 각종 생명과학 연구에서 계속 주목받을 것으로 여겨지는 이유가 바로 이것입니다.”



공개하신 아래 사이트는 어떤 성격의 사이트인지요?

http://iris.rnet.missouri.edu/dnfold/


“구조가 알려진 PDB 파일들을 딥러닝을 이용해 학습해 놓은 모델(model) 파일을 누구나 자유롭게 사용할 수 있도록 해 놓은 사이트입니다. 기계학습, 특히 딥러닝의 복잡한 과정을 직접 구현하지 않고도, 자신이 원하는 단백질의 아미노산 배열 입력만을 통해 최적의 템플릿들을 찾아낼 수 있습니다.”



연구진(공동저자 4명)을 아주 간략히 소개해주시면...

“네, 저(조태호)는 도쿄 의과치과대학에서 호몰로지 모델링 연구로 박사학위를 받고 이화학연구소 특별연구원(2년)을 거쳐 현재 미시건대학교 생화학과 박사후연구원으로 있습니다. 이 연구는 제가 미주리대학교 컴퓨터공학과 지알린 챙(Jianlin Cheng) 교수팀에 박사후 과정 연구원으로 있을 때 실험한 것으로, 공동 저자인 Jesse Eickholt Jie Hou는 당시 함께 있었던 챙 교수의 박사과정생들입니다.”



이번 결과와 관련한 후속 연구계획을 듣고 싶군요. 미국에 계신 분께 이런 질문 드리는 게 적절한지 모르겠으나, 이 분야의 일반적인 학계 동향을 잘 아실테니까 여쭙습니다만, 한국 내에서도 딥러닝을 생물학 분야에 응용하는 연구가 많이 이뤄지고 있는지요?


“현재 저는 딥러닝을 이용한 연구를 계속해서 다른 분야로 확대하는 중입니다. 지금 미시건대학교에서는 게놈 염기서열에서 전사를 조절하는 특정 단백질의 위치를 예측하는 프로젝트를 진행 중입니다. 데이터만 있으면 딥러닝은 어디에나 도입할 수 있습니다. 한국에서도 딥러닝을 이용한 생물학 분야의 연구가 활발히 진행되는 것으로 알고 있습니다. 지난해 말 한국에서 3개월 가량 방문연구원으로 일하며 딥러닝에 대한 지대한 관심을 체험한 바 있습니다. 한국에서 딥러닝에 관하여 협업할 수 있는 기회가 계속해서 있으면 좋겠습니다. 이렇게 인터뷰해 주셔서 감사합니다. 


 이렇게 친절한 설명을 해주시니 제가 더 고맙습니다. 앞으로도 좋은 연구성과 있길 기대합니다.


오철우 기자 cheolwoo@hani.co.kr     

@한겨레 과학웹진 사이언스온

하나의 나뭇가지는 부러지기 쉽지만, 여러개가 뭉치면 강해 지듯이,
하나의 Decision Tree는 에러의 확률이 높지만, Decision Tree를 아주 많이 뭉쳐 놓으면 결과가 훨씬 향상됩니다.

 

이것을 이용한 Machine learning 알고리즘이 바로 Random Forest 입니다. 'Tree'가 뭉쳤으니 'Forest'가 되었고, 랜덤하게 뽑아 뭉치니 Random Forest가 되었습니다.

 

Random Forest를 단백질 접힘 인식 문제에 도입한 연구 결과가 BMC Bioinformatics에 발표되었습니다.

Random Forest 알고리즘으로 최적의 단백질 폴딩 구조를 찾는 RF-fold 시스템을 만든 뒤, 

기존의 유사한 연구를 발표한 17개 연구 결과와 비교했습니다. 

 

결과의 일부를 옮겨 봅니다. RF-fold는 기존의 어떠한 결과와 1:1 비교를 해 보아도 우수한 인식률을 보이고 있으며, 특히 많은 연구팀이 사용해 온 SVM보다 월등히 앞선 결과를 보였습니다.

 

 


전체 논문의 내용은 아래로 가시면 보실 수 있습니다. Random Forest 알고리즘에 관심이 있으신 분들, 또는 Fold recognition 연구에 흥미가 있으신 분들께 일독을 권합니다.

 

논문 보기: http://www.biomedcentral.com/1471-2105/15/S11/S14


이 논문에 사용된 데이터와 프로그램은 아래 링크에서 다운받으실 수 있습니다.
http://calla.rnet.missouri.edu/rf-fold/

 

 

 

인용: Taeho Jo, and Jianlin Cheng. "Improving protein fold recognition by random forest." BMC bioinformatics 15.Suppl 11 (2014): S14.

Homology Modeling of an Algal Membrane Protein, Heterosigma Akashiwo Na^+-ATPase  

 

Taeho Jo, Mariko Shono, Masato Wada, Sayaka Ito, Junko Nomoto, and Yukichi Hara

Membrane 35(2), 80-85, 2010-03-01 

日本膜学会

 

[Abstract]

The three–dimensional structure of Heterosigma akashiwoNa+–ATPase (HANA) was predicted by means of homology modelingbased on the crystal structure of the K+–bound form of shark Na+/K+–ATPase (PDB ID: 2ZXE). The overall structure of HANA appearsto be similar to that of shark Na+/K+–ATPase.Both contain three characteristic cytoplasmic domains, A, N and P, which are uniqueto P–type ATPases.HANA has a long TM7–8 junction as a large extracellular domain, in place of theβ–subunit of shark Na+/K+–ATPase.Two putative K+–binding sites in the transmembranedomain of HANA were identified by means of valence mappingbased on the constructed structure. The presence of K+–bindingsites and the reported ion requirements for ATPase activity and EPformation indicate thatHANA may transport K+ ions in the samemanner as animal Na+/K+–ATPases.

 

Key words:Heterosigma akashiwo/marine alga/Na+/K+–ATPase/homology modeling/K+–binding sites 

Citation information

MLA
Jo, Taeho, et al. "Homology Modeling of an Algal Membrane Protein, Heterosigma Akashiwo Na^+-ATPase." Membrane 35.2 (2010): 80-85.
APA
Jo, T., Shono, M., Wada, M., ITO, S., NOMOTO, J., & HARA, Y. (2010). Homology Modeling of an Algal Membrane Protein, Heterosigma Akashiwo Na^+-ATPase. Membrane, 35(2), 80-85.
Chicago
Jo, Taeho, Mariko Shono, Masato Wada, Sayaka ITO, Junko NOMOTO, and Yukichi HARA. "Homology Modeling of an Algal Membrane Protein, Heterosigma Akashiwo Na^+-ATPase." Membrane 35, no. 2 (2010): 80-85.

 

CiNII

http://ci.nii.ac.jp/naid/10026877117/

 

Download

HomologyModeling_Akashiwo.pdf


 

 

 

 

 

 

*This concept is freely opened for any collaboration works

 (ex, Bioinformatics, Metabolic networks, Protein/RNA structure visualization)



 

 

바로가기: 르몽드 디플로마티크



(세미나에 참석해 토론에 열중하고 있는 교토대 학생들-한겨레)




"세계 제일이 아니라, 세계 유일을 추구하기 때문."

일본 교토대 화학과 출신으로 2001년 노벨화학상을 받은 노요리 료지 이화학연구소 소장의 명쾌한 대답이다.

교토대에서 또다시 노벨상 수상자가 나왔다.2012년 교토대 IPS(만능세포)연구소의 야마나카 신야 교수가 올해 노벨생리의학상을 받음으로써, 일본이 받은 총 19개 노벨상 가운데 8개를 교토대가 배출하게 되었다.일본의 제1, 제2 노벨상을 안겨준 물리학자 유카와 히데키와 도모나가 신이치로도 교토대 출신이며, 일본 최고의 지성이라고 불리는 도쿄대보다 더 많은 노벨상 수상자를 배출한 곳이 교토대이다.이처럼 교토대가 많은 노벨상 수상자를 배출한 저력은 무엇일까?


(본 기사는 유료기사이며, 전문은 르몽드 디플로마티크 2012년 11월호에서 보실수 있습니다. 바로가기)



조태호 (일본 이화학연구소 특별연구원)


바로가기: 한겨레 신문




00RedQueen.jpg» 출처 / <거울나라의 앨리스>, Nature:http://www.nature.com/news/2009/091209/full/news.2009.1134.html붉은 여왕의 손을 잡고 한참을 정신없이 달리던 앨리스, 문득 아무리 달려도 주위 풍경이 전혀 변하지 않는다는 것을 깨닫고, 붉은 여왕을 향해 가뿐 숨을 들이쉬며 물어본다.  
“이상해요. 제가 있던 세상에서는, 이렇게 빨리 뛰면 보통 어딘가 다른 곳에 도착하게 되거든요. 그런데 여기선 왜 주위 풍경들이 그대로죠?”
“거긴 느려 터진 세상인가 보군.” 여왕이 대답한다. “여기에선 보다시피 네가 할 수 있는 만큼 힘껏 뛰어야 제자리에 머무를 수 있단다. 만일 어딘가로 가고 싶으면 두 배로 빨리 뛰어야만 해!”


루이스 캐럴의 소설 <이상한 나라의 앨리스>의 속편인 <거울나라의 앨리스>에 나오는 한 장면이다. 주변 환경이 워낙 빨리 변하기 때문에 제자리에 머무는 것조차 부단한 노력이 필요하다는 붉은 여왕의 이야기는 진화생물학에서도 등장한다. 미국 시카고대학의 진화학자 밴 베일른은 종들이 자신의 존재를 유지하기 위해선 끊임없이 자신을 위협하는 주변 환경과 싸워야 한다는 사실을 두고 ‘붉은 여왕의 가설(Red Queen’s Hypothesis)‘이라는 의미 있는 이름을 붙였다.


가만히 있는 것은 그 자리에 머물러 있다는 의미가 아니라 뒤쳐지고 있다는 의미이다. 적어도 종들간의 진화 경쟁에서는 그렇다. 알고 보니 우리는 그냥 멀쩡히 살아 있는 게 아니었다. 치열하게 싸우며 살아 있는 중이다. 우리 눈에 보이지 않는 몸 안의 전쟁, 세포와 바이러스간의 전쟁을 생생히 볼 수 있다면, 수백만 년에 걸쳐 끊임없이 우리의 생존을 위협해온 바이러스를 물리치고 존재해 있는 인간의 몸에 대해, 감사를 넘어 경외심마저 느끼게 될지 모르겠다. 


그런데 우리 몸의 천연 방어막이 역대 최악의 강적을 만난 듯하다. 바로 에이즈를 일으키는 인간면역결핍 바이러스, 즉 HIV(Human immunodeficiency virus)다. 유엔 산하의 에이즈 전담기구인 유엔 에이즈계획(UNAIDS)의 2009년 발표1)에 따르면, 전세계 3330만 명의 사람이 현재 HIV에 감염되어 있고, 260만 명이 해마다 새롭게 감염되며, 180만 명이 해마다 에이즈로 생명을 잃는다. 에이즈로 인해 숨진 사람의 숫자는 3000만 명을 넘어섰다. 아래 그림은 HIV 감염 정도를 나타낸 세계지도이다. ’붉은 여왕의 전쟁‘에서 한 걸음 뒤쳐져 버린 현실이 이처럼 세계 지도를 붉은 빛으로 물들이고 있다. 


00HIV1.jpg» 전세계 HIV 감염 지도. 출처/ UNAIDS Report on the Global AIDS Epidemic 2010 



인간 면역체제와 SIV 간의 치열한 싸움


HIV는 오래 전부터 원숭이면역결핍 바이러스, 즉 SIV(Simian immunodeficiency virus)의 형태로 원숭이, 침팬지 등에 존재했던 바이러스다. 수십만 년의 기원을 거슬러 올라가는 이 바이러스가 인간에 침투하기 시작한 것은 고작 100여 년 전 일이며2), 이렇게 많은 생명을 앗아가기까지는 고작 20여 년이 걸렸다. 우리는 인류 역사상 가장 강하고 빠르며 치명적인 적을 만났지만, 아직까지 이렇다 할 완치의 방법을 찾지 못하고 있다. 우리 생체의 고유한 방어 시스템과 원숭이의 SIV 사이에서는 그동안 어떤 일들이 일어났을까. 어째서 수십만 년 간 SIV로부터 우리 몸을 지켜오던 인체내 방어막이 갑작스레 제 역할을 하지 못하고 있는 것일까? 


인간의 몸 안에는 유전체(게놈)에 포함되어 우리가 자연스럽게 지니고 태어나는 두 가지의 방어 무기가 있다. 첫번째는 APOBEC3s란 이름을 지닌 유전자다. APOBEC3s는 HIV가 침입하면, HIV의 핵심 유전자에 돌연변이를 일으키고, 결과적으로 체내에 침입한 HIV의 복제를 막는 역할을 한다.3)


두번째는 BST2, CD317, HM1.24 등으로 다양하게 불리다가 최근에 그 기능이 좀더 명확히 보고됨과 동시에 테터린(Tetherin)이라는 이름을 지니게 된 단백질이다. HIV는 레트로바이러스(아래 용어 설명)의 한 종류로서, 우리몸의 면역 세포 안에 침입해 자신의 유전자를 정상 유전자에 주입하여 오염시킨 다음, 숙주세포로 하여금 HIV 복제 바이러스를 만들게 하는 방식으로 체내에 전파된다. 이렇게 막 복제된 HIV가 다른 면역세포를 공격하기 위해 밖으로 빠져 나오려는 순간, 이를 못 나가게 붙잡는 단백질이 바로 테터린이다. 테터린은 HIV뿐 아니라 같은 레트로 바이러스에 속한 에볼라 바이러스, 인플렌자A 바이러스 등에도 반응하는 것이 밝혀진바 있다.4)


00HIV2.jpg» 테터린이 레트로바이러스를 호스트 세포막에 결박한 모습. 그림 출처/ 미국 예일대학교 시옹연구실 The Xiong Laboratory at YALE UNIVERSITY 
  

[용어 설명] 레트로바이러스란? 

레트로바이러스는 숙주 세포에 침입하여 자신의 RNA를 DNA로 합성(역전사)한 뒤, 이렇게 만든 오염된 DNA를 숙주 세포의 DNA와 바꿔치기 하는 유형의 바이러스입니다. 이렇게 바뀌어진 DNA는 숙주 세포 내에서 없어지지 않고 계속 남아, 레트로바이러스의 RNA를 복제하게 되며 복제된 바이러스는 숙주세포를 빠져 나와, 또 다시 다른 세포를 공격합니다. 숙주 세포를 죽이지 않고 이용만 하기 때문에, 면역 체계가 바이러스만 인식해서 공격하거나 감염된 세포를 없애기 힘들게 됩니다. 백혈병을 일으키는 RNA종양바이러스와 후천성면역결핍증(AIDS)를 일으키는 HIV가 가장 대표적인 레트로바이러스입니다.


하지만 안타깝게도 이 두가지 인체 방어 무기를 무력화하는 유전자군이 HIV의 유전체 안에도 존재한다. HIV는 이 유전자군을 이용해 자신의 번식 활동을 돕기 위한 7가지의 보조 단백질을 만드는데, 이를 HIV의 ’액서서리 단백질‘이라 부른다. HIV의 활동에 반드시 필요한 7가지의 액서서리 단백질은 각각 tat, rev, vpr, vif, nef, vpu, tev 라는 이름을 지니고 있는데, 그 중 조금 전에 소개한한 두 가지 인체 방어 무기인 APOBEC3s와 테터린의 무력화를 담당하는 것이 vif5)와 vpu6)이다. vif는 APOBEC3s가 HIV의 핵심 유전자에 돌연변이를 일으키기 위해 또 다른 유전자인 APOBEC3G와 결합하는 것을 방해함으로써 결국에 이 활동을 중단시키고, vpu는 테터린의 세포막 부분에 결합하여 활동을 무력화한다. 


00HIV4.jpg» HIV에 감염된 숙주 세포의 전자현미경 사진(왼쪽)와 HIV의 3차원 일러스트(오른쪽, 내부 구조가 보이도록 그렸다). 출처/ wikipedia, http://visualscience.ru 

 
그런데 여기에서, 과학자들의 관심을 끌어오고 있는 사실이 하나 있다. 이 vpu라는 단백질은 원숭이 체내에서도 같은 역할을 하고 있는데, 침팬지의 체내에서만은 nef라는 또다른 액서서리 단백질이 이 기능을 수행하고 있다는 사실이다. 이미 알려졌다시피 사람의 HIV는 침팬지의 SIV한테서 전염된 것이다. 따라서 vpu와 nef의 이 기능 교환 현상을 분석하며 수십만 년 간 침팬지와 더불어 존재하면서도 그동안 사람이 SIV에 감염되지 않을수 있었던 원인의 실마리를 찾을수 있게된 것이다. 


vpu와 nef의 기능 교환 현상을 다시 설명하자면, SIV가 원숭이에서 침팬지로 종간 장벽을 뛰어넘는 순간, 과거의 공격 무기인 vpu를 버리고 새로운 무기인 nef로 무장했다는 뜻이며, 이는 SIV가 종간 장벽을 뛰어넘기 위해 스스로 진화했음을 의미하고 있다. 하지만 침팬지에서 인간으로 다시 한 번 장벽을 넘어 침투하는 것이 쉽지 않았던 것은, 인간의 테터린이 nef의 활동을 막기 위한 대비가 되어 있었기 때문이다. nef의 활동 방식은 세포막을 비집고 들어가야 하는 vpu와는 달리 테터린의 세포질 영역에 직접 작용하는 방식이다. 인간은 이 nef의 공격 대상이 되는 세포질 영역이 침팬지와는 미세하게 다르다. nef의 공격에 반드시 필요한 핵심적인 5개의 아미노산이 아예 없는 것이다. 마치 SIV의 '공격 예상로'를 미리 감지해 nef의 공격을 사전에 차단한 것처럼 보이는 현상이다. 


이 5개의 아미노산 탈락 현상은 네안데르탈인 유전자 조사에서도 확인된 바 있다. 즉 인간의 몸이 이미 최소 80만 년 전부터 SIV의 침입에 대비해 왔다는 뜻이며7), 이것이 SIV가 사람에게 전염되지 못하게 하는 데에 기여해 온 것이다. 


그런데 어째서 현재는 SIV가 인간 몸에 침투하는 데 성공했을까? 그것은 SIV가 nef를 통한 공격 방식에서 vpu를 이용한 공격 방식으로 그 패턴을 바꾸었기 때문이다. 인간의 테터린은 nef에 대한 대비는 되어 있었으나 ’구식 무기‘인 vpu에 대한 대비는 되어 있지 않았다.  이런 작은 변화가 SIV를 HIV로 진화시키는 데 크게 기여했으며, 인류를 붉은 여왕의 전쟁에서 뒤쳐지게 만들어, 결과적으로 인류에 커다란 재앙을 불러 일으키고 있다는 설명이 가능해진 것이다. 



복잡하고 정교한 바이러스에 맞선 싸움


SIV는 인간에게 침투하기 위해 80만년 이상을 기다린 셈이다. 그 오랜 세월 무너지지 않았던 인간의 방어막이 제 역할을 수행하지 못하고, SIV가 HIV라는 이름을 얻으며 사람 몸에 스며든 것은 알고 보니 아주 최근에 발생한 일이다. 돌아보면, 제너의 실험 이후에 파스퇴르가 ’백신‘이란 이름을 붙인 뒤 인간에게 면역학이 정립되기 시작한 것도 겨우 1880년일이다. 수백만 년 전으로 거슬러 올라가는 인간의 길고 긴 진화의 역사를 생각해 보면, 사람이 스스로 백신을 만들어 바이러스를 통제하기 시작한 때와 SIV가 인간을 향한 공격을 시작한 시기가 거의 일치하는 셈이다.


요즘 나는 HIV 발현 이유를 진화적 관점에서 해석하며 치료의 실마리를 찾는 프로젝트에 참여 중인데, 연구를 하다보면 간혹 HIV라는 존재가 혹시 지적 능력을 통해 스스로 한 단계 업그레이드 하려는 인간을 견제하고자 만들어진, 차원 높은 자연의 섭리는 아닐까 하는 생각이 들곤 한다. 그리고 이런 사색은, 신이 만든 바이러스라 불릴 만큼 복잡하고 정교한 HIV라는 존재를, 백신을 만들어낸 우리의 궁극적 무기인 ’지적 능력‘을 통하여 끝내 이겨낼 수 있을까 하는 질문으로 이어진다. 
 

이 붉은 여왕의 전쟁에서 과연 인류는 HIV를 끝내 이겨낼 수 있을까? 


조태호 (일본 이화학연구소 특별연구원)





1) http://www.unaids.org/globalreport/

2) Worobey, M., Telfer, P., Souquiere, S.,Hunter,M.,Coleman,C.A.,Metzger,M. J., Reed, P., Makuwa, M., Hearn,G., Honarvar, S., Roques, P., Apetrei,C., Kazanji, M., and Marx, P. A.(2010). Island biogeography reveals the deep history of SIV. Science 329, 1487

3) Madani, N., and Kabat, D. (1998).An endogenous inhibitor of human immunode?ciency virus in human lymphocytes is overcome by the viral Vif protein. J. Virol. 72, 10251-10255.

4) Neil, S. J., Zang, T., and Bieniasz, P. D. (2008). Tetherin inhibits retrovirus release and is antagonized by HIV-1 Vpu. Nature 451, 425-430.

5) Simon, J. H., Gaddis,N. C., Fouchier, R.A., and Malim, M. H. (1998). Evidence for a newly discovered cellular anti-HIV-1 phenotype. Nat. Med. 4, 1397-1400. 

6) Varthakavi, V., Smith, R. M., Bour, S. P., Strebel, K., and Spearman, P (2003). Viral protein U counteracts a human host cell restriction that inhibits HIV-1 particle production. Proc. Natl. Acad. Sci. U.S.A. 100, 15154-15159.

7) Sauter, D., Specht, A., and Kirchhoff, F. (2010). Tetherin: Holding On an. Cell. 141, 392-398




바로가기 : 한겨레 사이언스 온


미연구팀, ‘배 부르다’ 뇌에 알리는 유전자의 ‘변이 메커니즘’ 규명

한두개 유전자가 결정?... 결정적 영향은 아닌듯 환경 요인도 중요


00obesity1시민들이 '비만 체험복'을 입고서 운동하고 있다. 2010년 7월 촬영. 한겨레




<상특급>이란 미국 드라마가 국내에 방영된 적이 있었다. 초자연 현상이나 과학으로 설명할 수 없는 기묘한 이야기들을 옴니버스 식으로 보여준 드라마인데, 그중 한 에피소드에 식욕을 참지 못해 끊임없이 먹어야 하는 사람이 등장한다. 극 후반, 어느 후미진 중식당에서 게걸스럽게 먹어대던 이 사람 손에 ‘행운의 과자’가 쥐어지고, 그 안에선 ‘당신은 이미 죽었습니다’란 으스스한 글귀가 나온다는 내용이다.


배가 부르지만 식욕을 억제하지 못해 끊임없이 먹는 사람들이 있다. 비만으로 치닫는 자신의 체형을 미약한 의지 탓으로 돌릴 수 밖에 없던 이들에게, 최근 <네이처 의학(Nature Medicine)>에 발표된 논문 하나가 새로운 변명거리를 선사할지도 모르겠다. 배가 불러도 식욕을 억제하지 못하는 것은 바로 특정 유전자의 기능이 망가졌을 때 생길 수 있다는 것. 미국 조지타운대학 메디컬센터 연구팀은 ‘뇌 유래 신경영양 인자 BDNF (Brain-derived Neurotropic Factor, BDNF)’에 관한 연구1)를 통해 이 유전자가 ‘배가 고프다’는 신호를 뇌의 시상하부에 전달하는 메카니즘을 비교적 상세히 규명했다. 이 유전자에 변이가 생기면 배가 부르다는 화학신호를 적절히 뇌에 전달하지 못해 결국 과식과 비만을 유도한다는 것이다.



■ 비만과 ‘비만 유전자’


만과 유전의 상관관계는 오랫동안 연구되어 온 과제 중 하나이다. 일란성 쌍둥이 중 한쪽이 비만일 경우에 나머지 한쪽도 비만일 확률이 이란성 쌍동이의 경우보다 훨씬 높다던지, 부모와 친자 간의 비만 상관관계가 부모와 양자 사이의 관계보다 강하다는 통계는 비만이 유전적 요인에 영향을 받음을 보여주는 오랜 자료로 사용되고 있다. 최근 유전자에 관한 연구가 더욱 활발해지면서 비만에 관여하는 유전자들의 정체가 하나둘씩 드러나고 있는데, 위에 소개된 BDNF 유전자의 경우도 그 중 하나로 볼수 있다.


BDNF 유전자의 구체적 메카니즘이 규명된 것은 이번이 처음이지만, 사실 이 유전자가 식욕을 억제하는 렙틴이란 물질을 만드는 데 관여한다는 것은 이미 실험용 쥐(마우스)를 통해 밝혀진 바 있다. 당시 식욕을 억제하는 물질 생성에 관여한다는 이유로 ‘비만 유전자’라는 별칭과 함께 스포트라이트을 받던 이 유전자는 인류의 비만마저도 유전적 치료로 해방할 수 있다는 희망적 메시지와 함께 보도되기도 했다. 이번에 BDNF 유전자의 메카니즘을 규명한 바오지 수 박사도 최근 영국 언론매체 <데일리 메일>과 한 인터뷰2) 에서 자신의 목표는 BDNF 유전자를 제어해 비만을 억제하는 약을 만드는 것이라 말한 바 있다. 쉽게 살을 빼고 싶어 하는 사람들의 관심과 욕구는, 유전자를 이용해 비만을 치료하고자 하는 여러 연구자들의 동기를 부여해 주었고, 지금도 많은 노력들이 진행되고 있는 것이다.



■ 쉽지 않은 유전자 치료의 길


렇다면 과연 유전자를 이용해 비만을 효과적으로 억제 할 수 있을까? 안타깝게도 길은 아직 요원해 보인다. 가장 최근 발표된 예인 BDNF 유전자도 이를 이용해 비만을 치료할수 있는지에 대해선 비관적인 전망이 많다. 인간의 비만은 실험용 쥐처럼 단순하지 않기 때문이다. 예를 들어, 미국 소크연구소(Salk Institute) 연구팀은 피파델타(Peroxisome Proliferator-Activated Receptor Delta, PPARδ) 유전자가 지방 축적과 지방 연소의 균형을 잡아주는 메카니즘을 보고한 바 있다.3) PPARδ 변이 유전자의 보유 여부에 따라 같은 칼로리를 섭취해도 지방으로 축적되는 양이 다르기 때문에 결국 비만 체형이 될 가능성도 달라지는 것이다. 인간의 비만에 관여하는 유전자는 다양하며, 대략 100여 가지 이상의 유전적 요인이 결합된다고 알려져 있다. 인간 비만은 단지 한두 가지 유전자로 쉽게 결정되는 것은 아니다.


비만은 유전적 요인 뿐 아니라 환경적 요인에도 커다란 영향을 받는다. 미국 애리조나주의 ‘피마(Pima) 인디언’을 상대로 행해 진 연구는 비만의 원인이 단지 유전적 요인에만 있지 않음을 잘 보여준다. 9세기~13세기 사이에 미 대륙으로 이주해 온 이들 네이티브 인디언들은 멕시코와 미국 두 나라로 나뉘어 살게 되는데, 이중 멕시코 영토에 거주한 이들은 보통 멕시코인들과 큰 차이가 없는 체형을 지니는 반면, 미국 영역에서 거주한 인디언들은 64%이상이 비만 체형을 지니게 된다.

 

00obesity2비만과 당뇨병 연구와 실험에 자주 이용되는 비만 형질의 쥐(왼쪽)와 당뇨병 형질의 쥐. 사진/ 미국 국립오크리지연구소(ORNL)

 


■ 같은 유전자, 다른 체형


골로이드 계에 해당하는 이들 피마 인디언들은 비만 관련 유전자로 알려진 PPARγ, UCP 등을 공통적으로 지니고 있다. 미국 대륙 이주 초기에 건조한 사막 기후에 적응해가며 밀, 콩, 호박 등의 식물성 음식을 주로 섭취해야 했던 이들에게 이 비만 유전자들은 적절한 지방을 체내에 축적하여 기아에 대비하는 중요한 역할을 했던것으로 보인다. 하지만 이들 중 미국 애리조나 지역에 속하게 된 인디언들이 다른 미국인들과 똑같이 고지방, 고칼로리 음식을 먹기 시작하면서 문제가 생긴다. 식생활의 단기적 변화는 이들 체형의 급격한 변화를 가져왔으며, 세계 최고의 당뇨병 발병을 보이는 민족이라는 불명예도 동시에 안겨주게 된 것이다.


내게도 비만 유전자가 있을까? 이 질문은 그다지 중요하지 않을 수도 있다. 위의 예에서 설명했듯이 비만 유전자의 보유 여부가 실제로 비만으로 이어지지 않을 수 있기 때문이다. 단지 하나의 유전자 때문에 비만이 될 만큼 인간의 몸은 단순하지 않다. 이 사실이 비만 유전자 보유자들에겐 희소식이 되겠지만, 유전자를 통해 비만 퇴치의 길을 찾고자 하는 이들에겐 아직 가야할 길을 요원하게 만드는 걸림돌이 되고 있기도 하다.



조태호 (일본 이화학연구소 특별연구원)


1) Liao GY, An JJ, Gharami K, Waterhouse EG, Vanevski F, Jones KR, Xu B., "Dendritically targeted Bdnf mRNA is essential for energy balance and response to leptin",  Nature Medicine, Mar 18 2012.

2) http://www.dailymail.co.uk/health/article-2116792/Georgetown-University-Medical-Centre-Scientists-discover-greedy-gene-makes-eat-full.html

3) Chih-Hao L, Ajay C, Ned U, Debbie L, William A. Boisvert, Ronald M. E., "Transcriptional Repression of Atherogenic Inflammation: Modulation by PPARδ",  Science 302 (5644): 453-457.






00kcomputer

일본 이화학연구소(RIKEN)의 슈퍼컴퓨터 '케이 컴퓨터'.




름부터 '슈퍼' 컴퓨터다.


올림픽 금메달을 따기 위해 수년 간 혼신을 다하는 선수들이 있듯이, 세계 각국에는 세계 랭킹 1위의 ‘슈퍼’ 컴퓨터를 만들기 위해 혼신을 다하는 과학자들이 있다.   해마다 열리는 국제 슈퍼컴퓨팅 컨퍼런스(ISC)에선, 세계 도처에 흩어져 있는 슈퍼컴퓨터들의 성능을 평가해 1위부터 500위까지 순위를 발표한다(http://www.top500.org/).  그동안 슈퍼컴퓨터 최강자의 자리는 줄곧 미국이 차지했으나, 과학 기술에 공격적인 투자를 선언한 중국이 2010년 6월 감격의 첫 1위를 차지하여 그 해 톱 뉴스에 올랐고,  곧 일본이 압도적 성능을 선보이며 6개월 만에 중국을 2위로 밀어내고 정상을 차지해 지진 여파로 우울해진 일본의 전 국민에게 희망을 주고 있다. 그렇다면 우리나라 대한민국의 슈퍼컴퓨터 순위는 과연 몇 위일까?


국가 기술 경쟁력의 척도라 일컬어지는 슈퍼컴퓨터란 무엇이며, 무슨 목적으로 사용되는지, 우리가 보유한 기술력은 어느 정도인지를 쉽게 정리해 보았다.



슈퍼컴퓨터의 정의



퍼컴퓨터의 정의를 단순히 컴퓨터 사양이나 속도로 표현할 수는 없다. 지금 이글을 쓰고 있는 순간에도 슈퍼컴퓨터의 사양은 신속히 업그레이드 되고 있기 때문이다.  슈퍼컴퓨터의 사양이 시대에 따라 급속히 변하기 때문에 '위키피디아'에서는 슈퍼컴퓨터를 이렇게 정의하고 있다.


‘현 시점을 기준으로 최고의 기술, 최신의 사양을 접목하여 가장 빠른 성능을 보여주는 컴퓨터를 지칭하는 말.’ 일면 추상적이지만 이 정의가 지향하는 바는 명확하다. 인간이  컴퓨터란 장치를 만든 이후 현재까지 개발한  모든 기술을 조합하여 보여줄 수 있는 최고 성능의 컴퓨터. 인류 컴퓨터 기술의 정점을 구체화한 장치를 상징하는 단어가 곧 ‘슈퍼컴퓨터’인 것이다.


세계 최고의 슈퍼컴퓨터 속도를 이해하기 쉽게 비유하자면 다음과 같다.


전 세계 70억 인구를 일렬로 세워놓고 계산기를 하나씩 준다.  이들 모두에게 수학 문제집을 주고 1초에 한문제씩 풀게 한다. 이렇게 해서 17일간 밤낮으로 계산을 시켰을때 얻을 수 있는 총 계산량, 이것이 바로 현존하는 최고의 슈퍼컴퓨터가 단 '1초'에 계산할 수 있는 양이다.


슈퍼컴퓨터의 성능은  1초에 몇 번의 연산을 할 수 있는지를 나타내는 '플롭스(Flops)'라는 단위로 표현하는데,  우리나라에서 최초로 도입된 키스티(KISTI, 한국과학기술정보연구원)의 슈퍼컴퓨터가 2 기가플롭스, 즉  1초에  20억 번의 연산을  행할 수 있었다.  최근 세계 슈퍼컴퓨터 랭킹 500 순위를 보면 500위로 턱걸이를 한 미국의 휼릿패커드 프롤라이언트(HP ProLiant)가 50.9 테라 플롭스, 즉 1초에 50조번의 연산이 가능하다.  1위를 차지한  일본 이화학연구소의 케이 컴퓨터(K computer, 京) 는 10.51 페타플롭스의 속도인데 이는  1초에1경회(1경은 1조의 1만배)의 연산을 할 수 있는 능력이다.


00tianhe1중국 국방과기대학이 지난 2009년 10월 공개한 슈퍼 컴퓨터 톈허1. 중국국방과기대학 자료 사진



슈퍼컴퓨터로 무엇을 할 수 있나?



이 질문은 슈퍼컴퓨터를 처음 접하는 사람이라면 당연히 던질 만한 질문이지만, 대답하기가 상당히 애매모호한 질문이기도 하다.  1980년대 후반에 16비트 컴퓨터를 사달라고 졸라대던 중학생 시절의 필자에게 컴퓨터를 사주면 뭘 할수 있냐고 물어보시던 부모님의 질문과 통하는 바가 있다. 당시 중2짜리가 최선을 다해 답변한 대답은  ‘그냥 모든 걸 다 할 수 있어요’였다.  안타깝게도 부모님의 지갑을 열게 하는 데 실패한 답변이었지만, 지금 물어보아도 나는 그보다 나은  답을 찾을 수 없을 것 같다.


터넷 서핑, 게임에서부터 캐드(CAD), 프로그래밍에 이르기까지 일반 컴퓨터하나만 가져도 그 사용처가 무궁무진하듯이, 슈퍼컴퓨터도 역시 다양한 곳에서 여러 목적으로 이용될 수 있다.  만일 슈퍼컴퓨터 소유자가 게임을 즐기고 싶으면 엄청나게 비싼 장비를 이용하는 게임 유저가 될 수도 있는 것이고 슈퍼컴퓨터로 영화관 예약을 원한다면 빛처럼 빠른 스피드로 예약하고 있는 자신을 발견할 수도 있을 것이다.  다만 현실적으로 볼 때 슈퍼컴퓨터의 유지 및 관리에는 엄청난 비용과 공간이 필요하므로 대부분 여러 인원이 함께 참여하는 대형 프로젝트의 일환으로 사용된다.


현재 슈퍼컴퓨터가 사용되는 곳을 정리해 보면, 일기 예보, 기상 연구,  단백질 입체 구조 예측, 양자 역학, 생물학적 화합물의 성질 계산, 항공기의 비행 및 충돌 시뮬레이션, 핵 무기의 폭발 시뮬레이션, 핵융합의 연구, 우주 탐사, 경기 예측 등이 있다. 이밖에도 일반 컴퓨터로는 수행하기어려운 각종 프로젝트나 무한한 계산 자원이 필요한 각종 시뮬레이션에 반드시 슈퍼컴퓨터가 사용되고 있다.



슈퍼컴퓨터, 가격은 얼마 정도 하나?



물론 슈퍼컴퓨터를 아들한테 생일 선물로 사줄 수는 없다. 실은 대기업 몇 군데가 모여도 단 한 대를 구매하는 데 부담을 느낄 만큼 고가의 장비가 바로 슈퍼컴퓨터이다.  일본 문부과학성 발표자료를 보면, 일본 이화학연구소의  케이 컴퓨터를 구축하는 데 든 비용이 1120억 엔이었다. 우리돈으로 무려 1조 7천억 원의 예산을 들여 컴퓨터 한 대를 만든 것이다.  2010년 6월 세계 1위를 차지했던  중국의 톈허-1(Tianhe-1, 天河一号)의 경우에는 1070억 원, 2009년 11월까지 1위였던 미국의 로드러너(Roadrunner)의 경우에는 1770억 원가량의 제작 비용이 들어갔다.


만드는 것으로 끝나지 않는다.  유지비로도 상상을 초월하는 비용이 소요된다.  케이 컴퓨터를 유지하는 데에 연간 1200억 원의 경비가 들어가며 톈허-1에는 연간 약 200억 원의 경비가 들어간다. 이토록 비싼 제작비와 유지비는 아무리 슈퍼컴퓨터를 원해도 함부로 슈퍼컴퓨터를 제작하거나 도입할 수 없게 하는 주된 이유가 되기도 한다.

 

00KMAcomputer

 


슈퍼컴퓨터와 국가의 기술력



퍼컴퓨터 한대 정도 있다고 국가의 기술력이 당장에 향상되는 것은 아니라는 견해를 접할 때가 종종 있다. 그러나, 필자는 슈퍼컴퓨터가 한 대 완성될 때마다, 그 즉시 국가 기술력이 한단계씩 업그레이드 된다는 쪽에 동의하고 싶다.  슈퍼컴퓨터의 무시하지 못할 장점 중 하나가 바로 다수의 이용자가 원격지에서 공동으로 이용하는 것이 가능하다는 것이기 때문이다.

 

국가 공공사업을 위해 아무리 값비싼  실험이나 관측 장비가 도입된다 해도 이를 사용할 수 있는 사람과 공간은 대체로 한정되어져 있지만,  슈퍼컴퓨터는 멀리 떨어진 그룹도 원하는 과제를 마음껏 수행할 수 있게 해준다.  예를 들어 2011년 11월 기준으로 세계 슈퍼컴퓨터 랭킹  5위인  츠바메(TSUBAME)가 설치되어 있는 도쿄공업대학이 최근 발표한 바를 보면,  약  3년 동안 61개에 이르는 외부 과제가 이 컴퓨터를 이용해 수행되었다.  분야를 보면, 제약 기술, 유전자 해석 기술, 나노 재료 가공 디바이스의 개발, 사회적 리스크 관리를 위한 시물레이션 등이며, 정부 기관뿐 아니라 민간 기업에도 슈퍼컴퓨터를 개방해 국가 기술력 전반에 걸쳐 약 5년에서 10년가량 기술력을 향상시키는 데 기여하였다고 자평하고 있다.  슈퍼컴퓨터와 관련없는 미츠비시화학 과학기술 연구센터가 이 슈퍼컴퓨터를 이용해 최소 5년가량 앞당겨 차세대 기술을 확립했다고 발표한 사례는 이러한 좋은 예가 될 수 있다.


슈퍼컴퓨터를 제대로 활용하면, 다양한 분야에서 많은 정보를 남보다 빨리 얻어낼 수 있다. 정보의 획득 속도가 곧 경쟁력이며 이것이 때로는 국가 경제에 지대한 영향력을 끼치기 때문에 , 세계 각국이 앞다투어 슈퍼컴퓨터 개발에 힘을 쏟고 있는 것이다. 과학 기술의 선진국임을 자처하는 국가가 수천억 원의 자본을 들여 최고의 슈퍼컴퓨터를 만들기 위해 애쓰는 데에는 그만한 이유가 있다.  슈퍼컴퓨터의 순위는 현재 해당 국가의 경제상황 및 국가 경쟁력과 밀접한 관련이 있는 것이다.


렇다면 한국의 슈퍼컴퓨터 경쟁력은 어떠한가. 최근 세계 슈퍼컴퓨터 순위에서 우리나라에서 가장 성능이 좋은 기상청 슈퍼컴퓨터 3호기(해온)가  31위를 차지했다.  2009년까지만 해도 500위권에 들지 못했던 것을 생각하면 많은 발전이 있었다고 할 수 있다. 그러나 과학 기술력을 따라잡기 위해  국가 차원의 대규모 투자를 아끼지 않는 중국(랭킹 2위, 4위)과, 동북아 대지진의 여파에서 탈출구를 찾으려 전력 투구 중인 일본(랭킹 1위, 5위)이 전통적 슈퍼컴퓨터의 강국인 미국(3위)을 제치고 최근 상위권을 차지한 것은 '슈퍼컴퓨터 31위'인 대한민국이 한번쯤 짚고 넘어가야 하지 않을까 싶다. 


조태호 (일본 이화학연구소 특별연구원)


바로가기: 한겨레 사이언스온


게임해서 노벨상을 받는다구요?


 동네 오락실에서 게임에 열중하던 아이들을 꾸짖으며 끌고 나오는 1980, 90년대의 어머니들을 굳이 떠올리지 않아도, 국내에서만 연간 6조 5천억원의 거대한 시장을 형성하고 있는 현 시대 게임 산업의 위상은, 게임에 대한 시대적 관심과 기술적 배경이 과거와 크게 달라 졌음을 시사하고 있다.

 지난 2008년, 워싱턴 대학의 한 단백질 구조 연구팀이 ‘게임에 참여해서 노벨상에 도전하세요’ 라는 구호를 내 걸고 폴드 잇(Fold it)’ 이란 이름의 게임을 세상에 내 놓았을 때, 제 아무리 게임의 위상이 달라 졌다 한 들 설마 게임만 한다고 진짜 노벨상을 받겠냐며 웃어 넘긴 이들도, 이 게임으로 인해 만들어진 단백질 구조가 며칠전 세계적인 과학저널 <네이처>에 실렸다는 소식 만큼은 그냥 넘어가기 힘들것 같다. 

관련 기사: 조선일보 9월 20일 [게이머가 암/에이즈를 치료 실마리 3주만에 찾았다]

 

세계적인 석학, 세계적인 아이디어

 ‘폴드잇’ 개발팀을 이끄는 데이비드 베이커 교수는 현재 세계적으로 가장 많이 사용되는 단백질 구조 예측 시스템인 ‘로제타(ROSETTA)’를 개발한 생화학자다. 그는 2000년대 중반에, 단백질 구조 예측에는 고도의 성능을 지닌 컴퓨터 시스템 자원이 필요하다는 기존의 관념을 뒤엎고, 세계 네티즌이 가지고 있는 무수한 개인용 컴퓨터(PC)들의 남아도는 자원을 짬짬이 활용하는 ‘로제타엣홈(Rosetta@home)’을 개발하는 데 성공했다. 이런 성공 사례는 많은 전문가들이 베이커 교수를 왜 이 분야의 세계 최고라고 일컫는 데 주저함이 없는지 잘 말해주고 있다.
 

그동안 독특한 아이디어와 이를 통한 실제 성과를 선보이며 주목받은 그였기에, 이러한 ‘노벨상 게임’ 제작과 발표는, 세계 관련 과학자들의 관심을 집중시키기에 충분했다. 그리고 이 게임을 이용해 HIV 같은 난치병의 원인으로 알려진 프로테아제 효소의 구조를 밝혀냈다는 이번 <네이처> 논문은 그의 새로운 도전에 대한 검증 결과가 확연한 성공을 가리키고 있음을 보여주어 다시 한 번 놀라움과 함께 그가 개발한 게임을 주목하게 하고 있다.
 

의외로 쉬운 원리의 ‘노벨상 게임’

 예상과 달리 폴드잇 게임의 기본 원리는 상당히 단순하다. 단백질 구조는 알파 헤릭스와 베타 시트, 그리고 이 둘 사이를 이어주는 루프로 이루어져 있다. 기존의 구조 예측 방법은, 각종 환경 변수와 에너지 함수의 복잡한 관계를 컴퓨터로 계산해 이들 세 가지 구성 요소들을 입체 공간 안에 실제와 가장 유사하게 배치하는 것이었다.
 
 하지만 폴드잇은 이런 접근 방식에서 완전히 벗어났다. 즉, 이들 각 구성 요소의 위치를 전 세계에서 자원하여 참여한 네티즌 게이머들로 하여금 직접 예측해보게 설계했다. 단백질 구조를 모르는 게이머들을 위해 알파 헤릭스는 스프링 모양으로, 베타 시트는 지그재그 모양의 화살표로, 루프는 단순한 선으로 바꾸어, 참여한 게이머들이 마우스를 사용해 이들을 쉽게 움직이게 만들어 놓았다.

 이리 저리 움직여가며 최적의 에너지값을 가지는 위치, 곧 ‘가장 안정된 입체 구조’를 찾는 순간에 게임은 종료되고 하나의 단백질 구조 예측이 끝나게 된다. 이런 새로운 접근 방식이, 복잡한 형태로 인해 지난 10여 년 동안 그 내부 구조를 알수 없었던 난치병의 원인 단백질을 단 3주 만에 밝혀낼 수 있게 한 것이다.

 

폴드잇을 이용해 게임을 실행한 모습폴드잇을 통해 구조가 밝혀진 프로테아제 효소의 구조

 

아이디어를 실현해 내는 그들의 저력

 아이디어는 단순했을지 몰라도, 이 아이디어를 실제로 구현하여 결과를 내기 위해서는 단백질 구조에 대해 전혀 모르는 게이머들을 보이지 않게 안내하는 수천 가지의 함수들이 필요했으며, 갖가지 돌발 변수에 철저히 대비해야 하는 정교한 프로그래밍의 배경이 뒷받침되어야 한다. 베이커 교수가 이를 구현해 내기까지 세계적인 인재들로 구성된 개발팀이 중추적 역할을 해냈지만, 이들의 든든한 재정적 배경이 된 미국 국방고등연구계획국(DARPA), 미국과학재단(NSF) 같은 정부기구들과, 마이크로소프트나 어도비처럼 미국에 근거를 둔 세계적인 소프트웨어 기업의 다양한 협력도 뒤에 있었다.

 아이디어를 내는 사람과 인적 자원, 재정과 사회적 지원이 일사불란하게 움직여 게임 하나를 통해서도 노벨상을 노리게 만드는 이들의 모습은, 노벨상 수상자를 한 명도 배출하지 못한 국내 과학계와는 어디에서 차이가 시작되고 있는지 돌아보게 만드는 한 가지 사례가 되는 듯하다.


조태호 (일본 이화학연구소 특별연구원) 


+ Recent posts