저가의 CPU기반 마이크로 프로세서나 GPU기반의 Co-processor등을 네트워크로 연결, 분산처리 메커니즘에 의해 병렬 프로세싱을 구현, CAE작업 즉, 유한요소해석(FEA), 전산유체역학(CFD), 다물체동력학(MBD), 최적화등 과학연산시뮬레이션과 AI 딥러닝 및 머신러닝을 수행하기 위하여 최적화된 맞춤형 고성능 AI & HPC 클러스터 솔루션을 말하며, 작게는 수십게 코어로 구성된 중소규모부터, 몇백만개 코어로 구성되는 대규모 시스템까지 다양하게 지원한다.
이러한 클러스터 병렬컴퓨팅은 HPC(High Performance Computing)라고도 하는데, 마이크로 프로세서의 고성능화와 네트워크 기술의 발전으로, 비용대비 성능이 뛰어난 시스템으로 인정되며, 최근 컴퓨터이용공학(CAE:Computer Aided Engineering)의 대표적인 해석방식으로 자리 잡고 있다.
HPC Korea는 국내 최고(最古)의 HPC Cluster 전문업체로, 축적된 기술과 경험의 클러스터솔루션 CAE-Simulator ThunderBolt를 공급하고 있는, 해당 분야의 대표적인 전문기업이다.
CAE-Simulator ThunderBolt는 Abaqus, Ansys, Ansys Cfx/Fluent, AVL Fire, CFD-ACE/CFD-Fastran, LS-DYNA, PAM Crash, StarCD, Star-CCM+, Magma, Amber, Gaussian/Linda, Gamess, Vasp, Siesta, Accelrys Material Studio, Mcnp, Gulp, Lammps, meep 등 다양한 과학연산 프로그램과 딥러닝을 위한 Caffe, CNTK, TensorFlow, Theano, Torch등 다양한 AI Frameworks에 최적화 되어, 윈도우 PC와 연동되어 누구나 쉽게 사용할 수 있도록 개발됨으로써, 쉬운 인터페이스등을 통해 폭 넓은 사용자층을 확보하고 있는 고성능 AI & HPC 클러스터 표준 플랫폼이다.
CAE-Simulator ThunderBolt를 위한 소프트웨어 구조는 OS, MiddleWare, Application등으로 이루워져 있다.
1. Operating System(운영체제)
CAE-Simulator ThunderBolt 운영체제는 Linux를 기반으로 CAE-Simulatr 환경에 적합하도록 패치 및 보완을 하여 H/W에 최적화 하였으며, Multi-User 환경에서 잘 작동하도록 구성하였다. 특히, Firewall 패키지인 ThunderFirewall-v2 를 탑재하여, 해킹으로 부터 안전하도록 구성하였다.
2. MiddleWare(미들웨어)
(1) DreamFast Server - 자체개발솔루션
Sub-module(Computation)의 O/S 운영을 관장하는 DreamFast Server는 쉬운 모듈 관리 및 쉬운 프로그램 배포등 Admin User의 시스템관리에 들어가는 TCO(총비용)를 최소화 시켜준다. 또한 Disk 및 Diskless 모듈에도 적용가능하도록 유연성을 제공한다.
특히 서브모듈 O/S를 RAMROM기반으로 램에 탑재되어 작동되도록 작은 크기로 모듈화하여, 기존 시스템 및 타시스템 보다 수십배 빠른 O/S 응답 및 처리속도와 안정성을 구현하였다.
(2) DTK - 자체개발솔루션
Console 기반의 Cluster Management Tool로 아래와 같은 기능을 제공한다.
• Terminal base Cluster Management tools
• dtk_mond_clt Client Daemon
• dtk_mond_svr Server Daemon
• Cluster User Management(add, del, change)
• Cluster Process Management(job allocation, monitoring, kill)
• Cluster Node Management(Node halt & reboot)
(3) ThunderManager - 자체개발솔루션
Windows PC에서도 쉽게 사용할 수 있는Web기반의 CAE-Simulator Management Solution 으로, ① 모니터링 ② 사용자관리, ③ 시스템관리 ④ 라이센스관리, ⑤ 시스템무결성관리 ⑥ 서브노드관리 ⑦ Extra Tools, ⑧ 스토리지 관리 등으로 구성된다.
① 모니터링
• 모듈당 CPU/GPU 사용율 및 사용유저별 CPU 사용률, 프로세스 리스트, 업타임
• 모듈당 메모리 사용상황, 캐쉬 및 스왑메모리 상태, Disk I/O 상태
• 모듈당 네트워크 및 Infiniband 사용상황, 네트워크 파일 시스템 리스트
• 모듈별 top 프로세스 모니터링
• CAE-Simulator 사용자 Login Status
• CAE-Simulator Scheduler 작업 상태 모니터링
② 사용자 관리
CAE-Simulaotr 사용자의 일괄관리를 처리하는 부분으로 사용자 추가, 사용자 삭제, 사용자 변경, 그룹추가, 그룹삭제, 사용자 동기화등을 처리할 수 있다.
③ 시스템 관리
CAE-Simulaotr 시스템을 관리하는 부분으로 디스플레이설정(Remote PC/RDP/공유기지원), 파워온/오프/리부트, 네트워크 주소설정, 보안기능설정, 쉘(Shell) 환경설정등을 할 수 있다.
④ 라이센스 관리
Fluent, Abaqus, CFX, CFD-ACE등 FlexLM 을 기반으로 하는 application의 라이센스를 일괄관리 하도록 지원한다.
⑤ 시스템무결성관리
정기적으로 시스템 무결성을 체크하고, 그 결과를 리포트 해 준다.
⑥ 서브모듈관리
서브모듈의 부팅모드(Hybrid의 경우 Linux 또는 Windows) 설정, 모듈 콘솔실행, 스크래치 파일 삭제, PBS 로그삭제, 캐쉬제거등을 지원한다.
⑦ Tools : Webterm, Ganglia, Webmin, Samba등 3rd Part Program을 지원한다.
⑧ 보고서기능 : 시스템의 각종 항목에대한 사용이력을 그래프로 보고하는 기능을 제공한다.