핵심 역량 (Core Competencies)

클라우드 인프라 설계 및 운영
AWS, GCP 기반 멀티·하이브리드 클라우드 아키텍처 설계 및 운영 경험
  • AWS EKS, GCP GKE 프로덕션 환경 운영 및 비용 최적화 (월 $60,000 → $48,000, 50% 절감 등 실 성과)
  • Terraform을 활용한 IaC 기반 인프라 자동화 및 버전 관리 (GCP 리소스 100% 코드화)
  • 온프레미스-클라우드 하이브리드 아키텍처 설계 및 마이그레이션 경험
CI/CD 파이프라인 구축 및 GitOps
GitOps 기반 배포 자동화를 통한 개발 생산성 극대화
  • GitHub Actions, GitLab CI, ArgoCD를 활용한 CI/CD 파이프라인 설계 및 고도화
  • 배포 시간 50~67% 단축, 롤백 시간 95% 감소 (30분 → 1~2분) 달성
  • Jenkins 기반 Unity Android/iOS 빌드 자동화 및 Slack 연동 배포 알림 구축
모니터링 및 옵저버빌리티 시스템 구축
장애 사전 감지 및 신속한 대응 체계 수립
  • PLG Stack (Prometheus, Loki, Grafana) 기반 메트릭·로그 통합 모니터링 구축
  • ELK Stack (Elasticsearch, Logstash, Kibana, Filebeat) 기반 중앙 집중식 로깅 시스템 구축
  • 장애 대응 시간 60~70% 감소, 서비스 가용성 99.9% 달성
자동화 및 효율화
Python, Bash를 활용한 운영 업무 자동화 및 개발 생산성 도구 구축
  • 데이터 수집, 배포 프로세스, 문서 관리 자동화로 수동 작업 90% 이상 감소
  • 내부 LLM 서비스(Ollama + Open WebUI) 구축을 통한 개발팀 생산성 향상
  • GitLab Webhook 기반 문서 자동 동기화, Slack Bot 기반 APK 배포 알림 등 사내 도구 개발

주요 경력 (Professional Experience)

팬텀(콘크릿트 스튜디오)
DevOps Engineer
2024.10 ~ 현재
게임 개발사의 DevOps 인프라 전담 엔지니어로, AWS 기반 클라우드와 온프레미스 서버를 설계·구축·운영하고 있습니다. 개발 서버와 테스트 서버는 온프레미스에, QA와 Production 서버는 AWS에 구축하여 하이브리드 아키텍처를 운영 중입니다.

현재 서비스 중인 게임 '소울즈'에 대해 퍼블리셔와 협업하여 2차 기술지원 및 운영을 담당하고 있으며, 개발 중인 신규 게임 프로젝트의 개발 생산성 향상을 위해 온프레미스·AWS 인프라를 구축하고 있습니다.
프로젝트 1: AWS-온프레미스 하이브리드 클라우드 아키텍처 구축
기여도 100% (단독 설계 및 구현) 6개월 (2024.10 ~)
문제
전체 인프라를 AWS에서 운영하던 중 월 $60,000의 높은 클라우드 비용이 발생하여 비용 최적화가 필요했습니다.
접근 전략
워크로드별 비용 분석을 수행한 결과, 개발·테스트 환경은 트래픽 변동이 적어 클라우드의 탄력성이 불필요했고, QA·Production 환경만 확장성과 안정성이 요구되는 상황이었습니다. 이에 개발·테스트 환경은 온프레미스로 전환하고, QA·Production 환경은 AWS에 유지하는 하이브리드 아키텍처를 설계했습니다. 양쪽 환경은 VPN 연결 없이 역할을 명확히 분리하여 독립 운영함으로써, 장애 전파를 원천 차단하는 구조를 채택했습니다.
트러블슈팅
  • EKS 환경에서 ALB Ingress 구성 시, 게임 클라이언트 버전별로 다른 백엔드로 라우팅해야 하는 요구사항 발생. ALB의 조건부 라우팅 규칙에서 커스텀 헤더 기반 라우팅과 Target Group을 조합하여 해결
  • Kubernetes IPVS 모드에서 ClusterIP 서비스 간 통신 시 간헐적 타임아웃 발생. Cilium eBPF 패킷 흐름을 분석하고 IPVS 커넥션 트래킹 테이블 설정을 조정하여 해결
  • EFS 마운트 시 Pod 스케줄링이 지연되는 문제 발생. EFS CSI Driver의 마운트 옵션 최적화 및 StorageClass 설정을 조정하여 해결
성과
  • 월 인프라 비용 20% 절감 ($60,000 → $48,000), 연간 약 $144,000 비용 절약
  • 개발·테스트 환경의 온프레미스 마이그레이션 완료로 AWS 리소스 사용량 최적화
  • 환경별 역할 분리를 통해 운영 안정성 확보 및 장애 전파 방지
기술 스택
AWS (EKS, EC2, ALB, Route53, ACM, EFS, Aurora MySQL, ElastiCache, CloudFront) Kubernetes Terraform Helm
프로젝트 2: 온프레미스 CI/CD 파이프라인 구축 및 고도화
기여도 100% (인프라 및 파이프라인 전체 담당) 6개월 (2024.12 ~)
문제
개발자가 수동으로 빌드 후 서버에 배포하는 방식으로, 배포 시 평균 30분이 소요되었으며 휴먼 에러로 인한 장애가 빈번하게 발생했습니다.
접근 전략
GitLab CI와 ArgoCD를 조합한 GitOps 기반 자동 배포 환경을 구축했습니다. 개발자가 Git Push만 하면 자동으로 빌드→테스트→배포가 진행되며, ArgoCD가 Kubernetes 클러스터 상태를 모니터링하여 선언적 배포를 수행합니다. Kaniko를 활용한 Docker 이미지 빌드로 Docker-in-Docker 의존성을 제거하고, 멀티 환경(alpha/review/dev/staging) 배포를 단일 파이프라인에서 관리하도록 구성했습니다.
트러블슈팅
  • GitLab CI 파이프라인에서 Alpine 기반 컨테이너의 OpenSSL 버전 불일치로 Harbor 레지스트리와의 TLS 핸드셰이크가 실패. 원인을 추적하여 베이스 이미지를 OpenSSL 3.x 호환 버전으로 교체하여 해결
  • GitLab 업그레이드 후 GPG 키 만료로 CI Runner에서 패키지 설치 실패. GPG 키 갱신 프로세스를 자동화하여 재발 방지
  • Kaniko 빌드 시 캐시 무효화로 빌드 시간이 급증하는 문제 발생. -cache=true --cache-ttl=24h --snapshot-mode=redo 옵션을 조합하여 캐시 적중률을 높이고 빌드 시간을 안정화
성과
  • 배포 시간 67% 단축 (30분 → 10분)
  • 수동 작업 자동화 90% 달성 (빌드, 배포, 설정 적용)
  • 주간 배포 횟수 3배 이상 증가 (1~2회 → 5~7회), 릴리즈 사이클 단축으로 개발 생산성 향상
기술 스택
GitLab CI/CD ArgoCD Jenkins Kaniko Kubernetes Docker Harbor
프로젝트 3: ELK 기반 통합 모니터링 및 로깅 시스템 구축
기여도 100% (시스템 설계 및 구축) 4개월 (2025.06 ~)
문제
온프레미스 환경에서 서버 및 컨테이너 로그가 분산되어 있어 장애 발생 시 원인 파악에 많은 시간이 소요되었으며, 통합 모니터링 체계가 부재했습니다.
접근 전략
Elasticsearch, Logstash, Kibana, Filebeat를 활용한 중앙 집중식 로깅 시스템을 구축했습니다. 모든 서버와 컨테이너의 로그를 Filebeat로 수집하고, Logstash에서 JSON 파싱 및 필드 매핑을 처리한 뒤 Elasticsearch에 저장하여 Kibana 대시보드를 통한 실시간 모니터링 및 검색이 가능하도록 했습니다.
트러블슈팅
  • 게임 서버 로그에 포함된 null 바이트(\x00)로 인해 Logstash 파싱이 실패하는 문제 발생. mutate 필터에서 gsub으로 null 바이트를 사전 제거하는 전처리 단계를 추가하여 해결
  • Elasticsearch 인덱스에서 동일 필드명에 서로 다른 데이터 타입이 들어와 필드 매핑 충돌(mapper_parsing_exception) 발생. 인덱스 템플릿에서 명시적 매핑을 정의하고, Logstash에서 타입 변환 필터를 적용하여 해결
  • 로그 양 급증 시 Elasticsearch 디스크 워터마크 초과로 인덱스가 read-only 모드로 전환. ILM(Index Lifecycle Management) 정책을 적용하여 7일 초과 인덱스를 자동 삭제하고 디스크 사용량을 안정화
성과
  • 로그 검색 시간 90% 단축 (개별 Pod 접속 확인 → Kibana 단일 인터페이스)
  • 장애 원인 파악 시간 70% 감소 (통합 로그 분석 및 상관관계 추적)
  • 일 평균 20GB의 로그 데이터를 실시간 처리 및 7일간 보관
기술 스택
Elasticsearch Logstash Kibana Filebeat Kubernetes
프로젝트 4: 개발 생산성 도구 구축 (문서 자동화 · LLM 서비스 · APK 배포 봇)
기여도 100% (전체 시스템 설계 및 개발) 2024.12 ~ 2026.01
개발팀의 반복적인 수동 작업을 자동화하고 생산성을 높이기 위해, 3가지 사내 도구를 설계·개발·운영했습니다.
4-1. GitLab-Google Drive 문서 자동화 시스템 (2주, 2025.08)
문제
기술 문서를 GitLab에 마크다운으로 작성한 뒤 Google Drive에 수동 업로드하는 이중 작업이 발생
해결
GitLab Webhook과 Google Drive API를 연동하여 Push 시 자동 동기화. Python으로 마크다운→Google Docs 변환 후 업로드
성과
문서 관리 시간 80% 감소 (문서당 10분 → 2분), GitLab을 Single Source of Truth로 일원화
기술 스택
GitLab Webhook Google Drive API Python Bash Script
4-2. 내부 LLM 서비스 구축 (4주, 2026.01)
문제
개발팀의 LLM 활용 수요 증가, 외부 SaaS 사용 시 비용 부담 및 사내 데이터 보안 우려
해결
온프레미스 GPU 서버(RTX 3060)에 Ollama와 Open WebUI를 Kubernetes 위에 배포. NFS 스토리지로 모델 저장소 구성
성과
외부 LLM API 비용 절감 및 데이터 유출 리스크 제거, 개발팀 전원이 코드 리뷰·문서 작성·디버깅 보조에 활용
기술 스택
Ollama Open WebUI Kubernetes NFS GPU (RTX 3060)
4-3. Slack APK 배포 자동화 봇 (4주, 2025.02)
문제
APK 빌드 완료 후 QA팀 전달이 수동으로 이루어져 공유 지연 및 버전 혼동 발생
해결
Jenkins APK 빌드 완료 시 Slack에 빌드 완료 메시지와 다운로드용 QR 코드를 자동 전송하는 Python 봇 개발, Kubernetes에 배포
성과
QA팀 전달 시간 90% 단축, QR 코드 기반 즉시 설치로 버전 혼동 제거, 빌드 이력 자동 기록
기술 스택
Python Slack Bot API Jenkins Kubernetes Docker
너디스타
DevOps Engineer
2023.03 ~ 2024.07
게임 및 블록체인 기반 스타트업에서 DevOps 엔지니어로 근무하며, AWS에서 GCP로의 대규모 클라우드 마이그레이션 프로젝트를 총괄했습니다.

GCP Startup Program을 활용한 비용 최적화와 GCP의 글로벌 네트워크 성능을 활용하기 위해 전환을 진행했으며, 전체 서비스 마이그레이션을 성공적으로 완료했습니다. 온프레미스 환경은 GitLab, Production 환경은 GitHub로 소스를 관리하는 프로젝트별 이원화 체계를 운영했습니다.
프로젝트 1: AWS → GCP 대규모 클라우드 마이그레이션 및 CI/CD 재구축
기여도 70~100% (인프라 설계·마이그레이션 총괄 70%, CI/CD 파이프라인 구축 100%) 7개월 (2023.05 ~ 2023.12)
문제
AWS 비용이 지속적으로 상승하고 있었으며(월 $10,000+), 특히 NAT Gateway와 데이터 전송 비용이 높았습니다. 또한 멀티 리전 게임 서비스를 위해 GCP의 글로벌 로드밸런싱이 필요했으며, 기존 Jenkins 기반 배포 시스템은 설정 관리가 복잡하고 배포 이력 추적이 불가능했습니다.
접근 전략
3단계 마이그레이션 전략을 수립하여 순차적으로 진행했습니다. 1단계로 개발 환경을 GCP에 먼저 구축하여 검증하고, 2단계로 QA 환경을 이전한 뒤, 3단계로 프로덕션 환경을 이전했습니다. Terraform으로 GCP 인프라를 코드화하고(IAM 제외 100%), 마이그레이션 완료 후 GitLab CI와 ArgoCD를 조합한 GitOps 기반 CI/CD 파이프라인을 재구축했습니다. Helm Chart로 환경별 설정을 표준화하고 Git 커밋 기반 배포 이력 관리 체계를 확립했습니다.
트러블슈팅
  • AWS ALB 기반 라우팅을 GCP 글로벌 로드밸런서로 전환하는 과정에서 헬스체크 방식과 백엔드 서비스 구성 차이로 트래픽 라우팅 이슈 발생. GCP NEG(Network Endpoint Group) 구조를 분석하여 GKE 워크로드에 맞는 설정으로 재구성
  • AWS RDS에서 Cloud SQL로 데이터 마이그레이션 시 캐릭터셋 차이로 인한 데이터 깨짐 발생. 사전 검증 스크립트를 작성하고 단계별 데이터 정합성 체크 프로세스를 도입하여 해결
  • AWS와 GCP의 서브넷 모델 차이(AZ 기반 vs 리전 기반)로 인한 네트워크 설계 이슈. CIDR 블록을 재설계하고 방화벽 규칙을 GCP 태그 기반으로 전환
성과
  • 클라우드 비용 50% 절감 (월 $10,000 → $5,000), 연간 약 $60,000 비용 절약
  • 3단계 전략으로 서비스 마이그레이션 완료
  • 전체 GCP 인프라를 Terraform으로 IaC 관리 체계 구축
  • 배포 시간 50% 단축 (40분 → 20분), 롤백 시간 95% 감소 (30분 → 1~2분)
  • 주간 배포 횟수 3배 증가 (2회 → 6회), Git 커밋 기반 배포 이력 100% 추적 가능
기술 스택
GCP (GKE, Cloud SQL, Cloud Storage, VPC, Global LB 등) Terraform GitLab CI ArgoCD GitHub Actions Kubernetes Helm Docker
프로젝트 2: 게임 데이터 수집 자동화 시스템 개발
기여도 100% (Python 스크립트 개발 및 운영) 3개월 (2024.01 ~ 2024.03)
문제
게임 및 블록체인 데이터를 수동으로 수집하고 있어 분석가가 매일 2~3시간을 데이터 수집에 소비했으며, 휴먼 에러로 인한 데이터 누락이 빈번하게 발생했습니다.
접근 전략
Python으로 게임 API 및 블록체인 RPC를 호출하여 데이터를 수집하는 자동화 스크립트를 Cloud Functions로 개발했습니다. Cloud Scheduler로 주기적 실행을 스케줄링하고, Google Sheets API를 활용하여 수집한 데이터를 스프레드시트에 자동 적재함으로써 분석팀이 별도 도구 없이 즉시 조회·분석할 수 있도록 했습니다.
성과
  • 데이터 수집 자동화 95% 달성 (일 2~3시간 수동 작업 제거)
  • 데이터 처리량 10배 증가 (일 10GB → 100GB)
  • 자동화를 통한 휴먼 에러 제거로 데이터 누락률 0% 달성
기술 스택
Python Cloud Functions Cloud Scheduler Google Sheets API Docker
프로젝트 3: PLG Stack 기반 모니터링 시스템 구축
기여도 100% (시스템 설계 및 구축) 1개월 (2024.04)
문제
Kubernetes 클러스터와 애플리케이션에 대한 실시간 모니터링 체계가 부재하여 장애 발생 시 사후 대응만 가능했으며, 원인 파악에 과도한 시간이 소요되었습니다.
접근 전략
Prometheus로 메트릭을, Loki로 로그를 수집하여 Grafana 대시보드로 통합 시각화하는 PLG Stack을 구축했습니다. CPU·메모리·네트워크 사용률과 애플리케이션 로그를 실시간으로 모니터링하고, 임계치 초과 시 Slack 알림을 자동 발송하도록 구성했습니다.
성과
  • 임계치 기반 알림을 통한 장애 사전 감지율 80% 달성
  • 실시간 모니터링 및 알림 체계로 장애 대응 시간 60% 감소
  • 서비스 가용성 99.5% → 99.9% 향상
기술 스택
Prometheus Loki Grafana Promtail Fluent-bit Slack API
아이오차드
Infra Engineer
2022.04 ~ 2023.03
PaaS(Kubernetes + OpenStack + Ceph) 기반 인프라 솔루션을 고객사에 구축하고 기술 지원을 제공하는 역할을 수행했습니다. 금융권 및 공공기관 고객을 대상으로 온프레미스 클라우드 인프라를 설계·구축하고, 고객사 운영팀 대상 교육을 진행했습니다.
프로젝트 1: 고객사 맞춤형 PaaS 솔루션 구축
기여도 100% (인프라 설계 및 Kubernetes 클러스터 구축 담당) 11개월 (2022.04 ~ 2023.03)
문제
고객사마다 요구하는 환경과 서버 스펙이 상이하여, 표준화된 솔루션으로는 대응이 어려웠습니다.
접근 전략
고객사 요구사항에 맞춰 Kubernetes 클러스터를 HA(High Availability) 구성으로 설계하고, OpenStack으로 가상머신 관리 환경을 구축했습니다. Ceph를 통해 블록·파일·오브젝트 스토리지를 통합 제공하고, 고객사 운영팀을 대상으로 인프라 운영 교육을 병행했습니다.
성과
  • 5개 고객사에 PaaS 솔루션 성공적으로 구축 및 납품
  • Kubernetes 클러스터 HA 구성으로 99.9% 가용성 달성
  • Ansible 기반 구축 자동화로 고객사별 배포 시간 단축
기술 스택
Kubernetes OpenStack Ceph Ansible Rocky Linux/CentOS
프로젝트 2: DP사 Kubernetes 운영 교육 프로그램 수행
기여도 100% (교육 설계 및 진행) 6개월 (2022.06 ~ 2022.11)
문제
DP사 운영팀이 Kubernetes 및 컨테이너 기반 인프라에 대한 운영 경험이 부족하여, PaaS 솔루션 도입 후 자체 운영에 어려움이 예상되었습니다.
접근 전략
Kubernetes 기초부터 클러스터 운영·트러블슈팅까지 단계별 교육 커리큘럼을 설계하고, 실습 환경을 구성하여 실무 중심의 교육을 진행했습니다. OpenStack 및 Ceph 스토리지 운영에 대한 교육도 병행하여 전체 PaaS 스택에 대한 운영 역량을 확보할 수 있도록 지원했습니다.
성과
  • DP사 운영팀의 Kubernetes 자체 운영 체계 확립
  • 교육 완료 후 고객사 기술 문의 건수 감소, 자체 장애 대응 가능 수준 달성
  • 교육 자료를 표준화하여 이후 타 고객사 교육에도 재활용
기술 스택
Kubernetes OpenStack Ceph Ansible Rocky Linux/CentOS
프로젝트 3: Kubernetes 인증서 자동 갱신 프로세스 개선
기여도 100% (단독 수행) 2주 (2022.11)
문제
Kubernetes 클러스터 인증서가 1년마다 만료되어 고객사마다 연간 약 5시간의 갱신 작업이 필요했으며, 만료 시 서비스 장애가 발생할 위험이 있었습니다.
접근 전략
Kubernetes 인증서 관리 프로세스를 분석하고, kubeadm 설정을 수정하여 인증서 유효기간을 1년에서 10년으로 연장했습니다. 기존 운영 중인 클러스터에도 적용 가능한 자동화 스크립트를 개발하여 전체 고객사에 배포했습니다.
성과
  • 인증서 갱신 주기 10배 연장 (연 1회 → 10년에 1회)
  • 고객사 운영 부담 연간 약 50시간 절감 (고객사 10곳 기준)
  • 인증서 만료로 인한 장애 리스크 제거
기술 스택
Kubernetes kubeadm Bash Script OpenSSL