반응형

Trouble Shooting 15

Jenkins 서버 정전 후 복구 - 플러그인 버전 불일치 해결 가이드

Overview갑작스러운 서버 정전은 Jenkins 환경에 예상치 못한 문제를 일으킬 수 있다. 특히 정전 전에 개발자가 플러그인을 업데이트한 경우, 재시작 후 플러그인 버전 불일치로 인해 Jenkins가 정상적으로 작동하지 않을 수 있다. 이번 글에서는 서버 정전 후 Jenkins가 깨져서 Job이 보이지 않는 문제를 Jenkins 업그레이드를 통해 해결한 경험을 공유하겠다. macOS, Linux, Docker 컨테이너, Kubernetes 환경 등 다양한 플랫폼별 해결 방법을 다룬다. 문제 상황 발생한 문제갑작스러운 서버 정전으로 Jenkins가 비정상 종료정전 전 개발자가 플러그인을 업데이트했고, 재시작 과정에서 플러그인 버전이 상승Jenkins 재시작 후 UI가 깨지면서 Jo..

Trouble Shooting 2026.01.23

Supermicro 서버 IPMI 설정 및 팬 제어 가이드

Overview 서버 관리에서 하드웨어 모니터링과 원격 관리는 필수적인 요소다. 특히 Supermicro 서버의 경우 IPMI(Intelligent Platform Management Interface)를 통해 강력한 하드웨어 관리 기능을 제공한다. 이번 글에서는 실제 서버 환경에서 IPMI 설정과 팬 제어를 시도했던 과정을 단계별로 살펴보고, 각 단계에서 마주친 문제점과 해결 방법을 공유하겠다. Supermicro 서버 IPMI 설정 및 팬 제어 가이드 서버 환경 확인먼저 서버의 기본 정보를 확인해보았다.sensors... (정상적인 온도 출력) ...sensors | grep -i fan# 아무런 결과도 나오지 않음sudo pwmconfig# pwmconfig version 3.6.0...

Trouble Shooting 2026.01.20

Kubernetes Redis 클러스터 장애 처리 및 복구 가이드

OverviewRedis 클러스터는 고가용성과 확장성을 제공하는 강력한 분산 캐시 솔루션이다. 하지만 Kubernetes 환경에서 운영하다 보면 네트워크 분할, 노드 재시작, 설정 문제 등으로 인해 클러스터 상태가 불안정해질 수 있다. 본 글에서는 Redis 클러스터에서 자주 발생하는 "ClusterAllFailedError"와 "Cluster state changed: fail" 문제를 진단하고 해결하는 실무적인 방법을 다룬다. 특히 `slots cache` 갱신 실패 문제부터 클러스터 완전 복구까지의 단계별 접근법을 상세히 알아보겠다. 📅 관련 글2022.09.26 - [Open Source Software] - Redis(Remote Dictionary Server)란?2025.04.02 ..

Trouble Shooting 2026.01.13

GitLab VM 장애 복구: NBD 마운트와 백업 복원으로 서비스 재구축하기

Overview GitLab VM이 갑작스럽게 rescue 모드로 돌입하면서 서비스가 중단되는 치명적인 장애가 발생했다. GRUB 복구도 불가능한 상황에서, 다행히 중요한 데이터들은 NFS에 저장되어 있어 완전한 데이터 손실은 피할 수 있었다.이번 포스팅에서는 NBD(Network Block Device)를 활용해 손상된 VM의 qcow2 디스크를 마운트하고, 백업 데이터를 추출한 후 새로운 환경에서 GitLab을 복구하는 전체 과정을 다룬다. 또한 복구 과정에서 발생한 Prometheus 권한 문제와 GitLab 버전 다운그레이드 방법도 함께 소개한다. 문제 상황 분석 주요 증상GitLab VM이 rescue 모드로 부팅됨GRUB 복구 시도 실패시스템 부팅 불가 상태 긍정적 요소핵심 데이터가 ..

Trouble Shooting 2025.12.10

NVIDIA Driver/Library Version Mismatch 오류 해결하기

Overview서버에 GPU 드라이버를 설치하고 `nvidia-smi` 를 실행했는데 아래와 같은 오류가 발생한 적 있으신가요?nvidia-smiFailed to initialize NVML: Driver/library version mismatch 이 오류는 대부분 NVIDIA 드라이버 커널 모듈과 유틸리티 라이브러리 간의 버전 불일치로 인해 발생한다. 본 글에서는 이 문제의 원인 분석부터 해결 방법, 그리고 향후 재발 방지 팁까지 단계별로 소개한다. 문제 증상nvidia-smiFailed to initialize NVML: Driver/library version mismatch `dmesg` 확인dmesg | grep NVRM...NVRM: API mismatch: the client ..

Trouble Shooting 2025.09.17

Terraform 상태 관리 오류 해결 완전 가이드

OverviewTerraform은 Infrastructure as Code(IaC)의 핵심 도구로, 인프라 상태를 선언적으로 관리한다. 하지만 실제 운영 환경에서는 다양한 상태 불일치 문제가 발생할 수 있다. 특히 상태 파일(Terraform State)과 실제 클라우드 리소스 간의 불일치, State Lock 문제, 그리고 팀 협업 과정에서의 동시 접근 충돌 등이 주요 장애 요인이다. 본 가이드에서는 Terraform 상태 관리에서 발생하는 다양한 문제들을 체계적으로 진단하고 해결하는 방법을 다룬다. 디버깅을 위한 고급 로깅 기법부터 State Lock 해제, 리소스 상태 동기화, 그리고 예방을 위한 모범 사례까지 실무에서 바로 활용할 수 있는 종합적인 솔루션을 제공한다. 주요 Terrafor..

Trouble Shooting 2025.09.02

Kubernetes Pod 재시작 시 에러 해결

OverviewKubernetes 환경에서 Rolling Update나 장애 복구 등으로 인해 Pod가 재시작될 때, 애플리케이션이 아직 준비되지 않았거나 안전하게 종료되지 않아 다음과 같은 문제가 발생할 수 있다.서비스 응답 지연 또는 실패readiness/liveness probe 실패로 인한 재시작 루프사용자가 체감하는 간헐적인 오류 이 글에서는 실제 현업에서 자주 마주치는 이러한 이슈를 해결하기 위한 세 가지 방법을 소개한다. 핵심은 probe 설정 최적화와 lifecycle 훅의 적절한 활용, 그리고 종료 유예 시간 설정이다. 방법 1: Probe 설정 최적화Pod가 시작되면 Kubernetes는 설정된 `readinessProbe` 에 따라 애플리케이션의 준비 상태를 판단..

Trouble Shooting 2025.08.20

DB Connection Error (ECONNRESET) 문제 해결

OverviewKubernetes 환경에서 MySQL 또는 RDS 같은 데이터베이스와의 연결이 불안정할 때 "ECONNRESET" 오류가 발생하는 경우가 있다. 특히 IPVS 환경을 사용할 때, 대량의 동시 연결 또는 네트워크 세션이 누적되면 DB 연결이 비정상적으로 종료되는 현상이 자주 발생한다. 이 글에서는 conntrack, IPVS, 그리고 TCP keepalive 관련 설정을 조정하여 DB 연결 해제 문제를 해결한 사례를 공유한다. 문제 상황서비스에서 MySQL로 쿼리를 날릴 때 read ECONNRESET 오류가 빈번하게 발생함OpenSearch 또는 Loki 로그를 통해 에러를 확인해보면 대부분 소켓 단에서 연결이 갑자기 끊기는 패턴을 보임Kubernetes는 kube-pr..

Trouble Shooting 2025.08.06

Cockpit에서 VM 간 네트워크 통신 문제 해결하기

OverviewCockpit을 사용해서 가상머신(VM)을 관리하다 보면 종종 네트워크 통신 문제를 마주하게 된다. 특히 "Direct" 네트워크 모드로 VM들을 구성했을 때, 외부 통신은 되지만 VM 간 내부 통신이 안 되는 문제가 자주 발생한다. 이 글에서는 실제 겪었던 네트워킹 문제를 단계별로 해결해가는 과정을 공유하며, Kubernetes 클러스터 구성을 위한 네트워크 설계 방법까지 다뤄보겠다. 문제 상황VM들이 같은 물리 NIC에 macvtap으로 연결VM 간 ping 통신 실패 (100% packet loss)외부 통신은 정상 작동Kubernetes 클러스터 구성 시 Pod 간 통신 문제 예상 환경 정보물리 서버: Ubuntu 22.04 LTS가상화: KVM/QEMU with libvirt..

Trouble Shooting 2025.07.28

Intel Turbo Boost 끄고 CPU 발열 잡기

Overview개발이나 빌드 작업 중 CPU 온도가 90도 이상 치솟는 경험을 한 적 있나요? 특히 여름철이나 발열에 취약한 노트북 환경에서는 Intel Turbo Boost 기능이 오히려 성능 저하나 시스템 다운의 원인이 되기도 한다. 이번 글에서는 Intel Turbo Boost 비활성화를 통해 CPU 발열 문제를 해결한 실제 사례를 소개한다. `sensors` 명령어로 확인한 온도 변화와 적용한 설정 과정을 정리했다. 문제 상황Gitlab Runner가 Kubernetes에서 실행 될때 팬 소음이 과하게 발생하고, 시스템이 눈에 띄게 느려지기 시작했다.이상 징후를 감지한 후 sensors 명령어로 온도를 확인해 본 결과Package id 0: +93.0°CCore 0~7: +8..

Trouble Shooting 2025.06.30
반응형