랜덤 포레스트를 이용한 단백질 접힘 인식률 향상

2014. 11. 7. 13:35

하나의 나뭇가지는 부러지기 쉽지만, 여러개가 뭉치면 강해 지듯이,
하나의 Decision Tree는 에러의 확률이 높지만, Decision Tree를 아주 많이 뭉쳐 놓으면 결과가 훨씬 향상됩니다.

이것을 이용한 Machine learning 알고리즘이 바로 Random Forest 입니다. 'Tree'가 뭉쳤으니 'Forest'가 되었고, 랜덤하게 뽑아 뭉치니 Random Forest가 되었습니다.

Random Forest를 단백질 접힘 인식 문제에 도입한 연구 결과가 BMC Bioinformatics에 발표되었습니다.

Random Forest 알고리즘으로 최적의 단백질 폴딩 구조를 찾는 RF-fold 시스템을 만든 뒤,

기존의 유사한 연구를 발표한 17개 연구 결과와 비교했습니다.

결과의 일부를 옮겨 봅니다. RF-fold는 기존의 어떠한 결과와 1:1 비교를 해 보아도 우수한 인식률을 보이고 있으며, 특히 많은 연구팀이 사용해 온 SVM보다 월등히 앞선 결과를 보였습니다.

전체 논문의 내용은 아래로 가시면 보실 수 있습니다. Random Forest 알고리즘에 관심이 있으신 분들, 또는 Fold recognition 연구에 흥미가 있으신 분들께 일독을 권합니다.

이 논문에 사용된 데이터와 프로그램은 아래 링크에서 다운받으실 수 있습니다.
http://calla.rnet.missouri.edu/rf-fold/

인용: Taeho Jo, and Jianlin Cheng. "Improving protein fold recognition by random forest." BMC bioinformatics 15.Suppl 11 (2014): S14.

딥러닝과 생명과학 새 주소 안내 (0)	2021.08.07
빅데이터 딥러닝 이용해 단백질 3D 구조 찾기 (0)	2016.06.16
Homology Modeling of an Algal Membrane Protein, Heterosigma Akashiwo Na^+-ATPase (0)	2014.06.12
The concept of multi-agent instance (0)	2014.03.20

딥러닝과 생명과학