시스템 모니터입니다.
최근에 장애가 많았는데, 이유는 신규 서버 추가, 테스트, 여러 튜닝 때문입니다.
방금 신규 서버 세팅 완료했습니다.
중고 장비에 비해 신규 장비가 고장날 확률이 초창기에 높은데, 고장만 안 나면 이론상 기존에 비해 서비스가 안정화되었을 것 입니다.
질문)
서버 왜 이래? 시모 일하냐?
서버 샀지?
답변)
최근에는 일을 하고 있어서 장애 나는 것으로 전에 공지한 것 처럼 대부분의 에펨코리아 장애는 하드웨어 문제 보다는 소프트웨어 문제입니다.
물론 전에 하드웨어가 대량으로 고장나면서 장애가 발생한 적도 있긴 합니다.
이번에 파일 서버 용량이 차서 95 TB 이상 고성능 기업용 SSD 기반의 용량 증설을 오늘 새벽에 완료했고,
데이터베이스 서버로 AMD EPYC 128 코어 + 기업용 nvme 드라이브를 어제 추가했으며,
웹 서버로 함께 AMD EPYC 128 코어 + 기업용 nvme 드라이브를 어제 추가했습니다.
데이터베이스는 한대가 고장나더라도 10초 이내에 사이트 전체가 자동 복구되는 고가용성 세팅을 완료하고 테스트했습니다(어제 장애 일부가 관련 세팅 및 테스트). 즉, 망치로 데이터베이스 서버 한대 뽀개도 사이트가 10초 이내에 복구됩니다.
다만, 파일, 캐싱 서버, 네트워크 장비들은 고강용성 세팅이 어렵거나 비용 문제로 실패했습니다(어제 장애 일부가 관련 테스트 실패). 장애 발생하면 제가 수동으로 고쳐야 하는 경우들입니다. 현실적인 범위로 사이트 안정성을 구축하고 있으며, 완벽하게 만들려고 하면 오히려 복잡해서 장애가 늘어나는 경우도 많은 것 같습니다(어제 장애가 대부분 그런 경우 ^^;;). 엄밀히 따지면 억대 넘는 솔루션을 사서 적용하면 해결되겠지만, 그것 보다는 차라리 클라우드로 통채로 미래에 옮기는 것이 나을 것 같습니다. 지금의 경우 직접 운영이 몇 배로 저렴해서, 비용 문제를 포함해서 대부분의 서버 인프라는 직접 운영중이지만 클라우드 이전도 미래에 고려중이긴 합니다.
원래 과거에 4~5년 이상 사용하려고 구매했던 파일 서버 용량이 1년안에 가득 차서, 이번에 서버 자원을 크게 확장했습니다.
관련 파란색이 용량 차는 모습:
[요약]
- 현실적으로 최고 사양의 고성능 서버 정말로 샀고, 세팅 및 튜닝 때문에 최근 며칠간 불안정 했음
- 파일 서버 용량이 가득 차고있었는데, 어제 크게 확장함
- 일을 안해서가 아니라 일을 해서 장애남 ;;