반응형

Trouble Shooting 8

Intel Turbo Boost 끄고 CPU 발열 잡기

Overview개발이나 빌드 작업 중 CPU 온도가 90도 이상 치솟는 경험을 한 적 있나요? 특히 여름철이나 발열에 취약한 노트북 환경에서는 Intel Turbo Boost 기능이 오히려 성능 저하나 시스템 다운의 원인이 되기도 한다. 이번 글에서는 Intel Turbo Boost 비활성화를 통해 CPU 발열 문제를 해결한 실제 사례를 소개한다. `sensors` 명령어로 확인한 온도 변화와 적용한 설정 과정을 정리했다. 문제 상황Gitlab Runner가 Kubernetes에서 실행 될때 팬 소음이 과하게 발생하고, 시스템이 눈에 띄게 느려지기 시작했다.이상 징후를 감지한 후 sensors 명령어로 온도를 확인해 본 결과Package id 0: +93.0°CCore 0~7: ..

Trouble Shooting 2025.06.30

Fluent Bit → OpenSearch 중복 로그 이슈

OverviewEKS 환경에서 Fluent Bit을 통해 OpenSearch로 로그를 전달할 때, 같은 로그가 중복으로 저장되는 문제를 경험한 적이 있는가? 우리도 비슷한 문제를 겪었다. 로그 내용과 타임스탬프가 완전히 동일한데도 OpenSearch에는 두 번씩 저장되어 지표나 검색 결과가 과도하게 부풀려지는 현상이 반복되었다. 조사 결과, 각 로그가 서로 다른 `_id` 값을 가지고 있어 OpenSearch가 이를 서로 다른 문서로 인식하고 있었던 것이 원인이었다. 이 글에서는 Fluent Bit의 설정만으로 이 문제를 해결한 실제 사례를 공유한다. 특히 `_id` 충돌이 아닌, 내용은 동일하지만 `_id` 가 달라 중복 저장되는 현상에 대해 설명하고, 이를 Generate_ID 설정으로 해결한 과정을..

Trouble Shooting 2025.06.23

[필독!] Github 계정 복구(suspended시)

OverviewGithub 계정이 중단되었다?.. 해결방법에 대해서 알아본다.  Suspended Massageaccess to your account has been suspended due to a violation of our Terms of Service. Please contact support for more information.​      Github 계정 복구 과정  먼저 Github 계정이 Suspended 당했다면, 404가 뜨면서 계정에 로그인이 되지 않고 당연히 내계정으로 접근도 불가능하다. 계정 Locked에 걸렷다고 볼 수 있다. 따라서 Contact로 티켓을 설정해야 한다.https://docs.github.com/ko/support/contacting-github-suppo..

Trouble Shooting 2025.02.21

K8s Worker Node에 지정한 Pod 배치하기(Taint, Tolerations)

Overview이번 글에서는 쿠버네티스 클러스터 내에서 특정 Pod가 과도한 CPU 및 메모리를 사용해 워커 노드에 영향을 주는 문제를 해결하기 위해, 특정 노드에만 Pod를 배치하는 방법에 대해 알아본다. Kubernetes의 Taints와 Tolerations, nodeSelector를 활용하면 특정 노드에만 Pod가 배치되도록 제한할 수 있다. 이 방식은 자원 사용량이 큰 애플리케이션을 격리하거나, 특수 하드웨어가 장착된 노드에 특정 워크로드를 배치하고자 할 때 매우 유용하다. 실습에서는 Taint가 적용된 노드에 Toleration이 있는 Pod만 배치하고, Helm Chart 내에서 nodeSelector와 tolerations를 정의하여 안정적으로 노드 배치를 제어해본다. 또한, 실제 클러스터..

Trouble Shooting 2024.06.17

Terraform State Error 시 해결 방법

OverviewTerraform을 실행할 때 간혹 무한 로딩 상태로 멈추거나 apply가 진행되지 않는 경우가 있다.이러한 현상은 대부분 Terraform의 상태 파일(Terraform State) 과 실제 클라우드 리소스(GCP, AWS 등)의 상태가 불일치할 때 발생한다.이 글에서는 디버깅을 위한 `TF_LOG` 환경변수 활용 방법, 문제 원인 식별을 위한 로그 분석, 그리고 terraform state rm 명령어를 통해 상태 파일에서 수동으로 삭제된 리소스를 제거하는 해결 절차를 설명한다.      Terraform State Error Terraform 실행시에 State 상태에서 멈춰서 동작이 하지 않을때가 있다. Terraform은 `TF_LOG` 환경 변수를 통해 로깅을 제공한다. 따라서 ..

Trouble Shooting 2024.05.29

ACM(AWS Certificate Manager) 인증서 갱신 오류 해결 방법

Overview이 글에서는 AWS Certificate Manager(ACM) 인증서 갱신 오류 발생 시 DNS 검증 방식에서 발생할 수 있는 문제를 중심으로 트러블슈팅 방법을 다룬다.AWS는 자동 갱신을 위해 DNS 방식의 검증을 활용하며, 만약 필요한 CNAME 레코드가 삭제되었거나 존재하지 않으면 인증서가 자동으로 갱신되지 않는다.이 글에서는 해당 문제의 원인 파악부터 해결을 위한 DNS 레코드 확인 및 추가 방법, 인증서 갱신까지의 전체 흐름을 살펴본다.             ACM(AWS Certificate Manager) 인증서 갱신 오류 먼저 아래의 사진을 보면, AWS Certificate Manager가 DNS 검증을 사용하여 인증서를 자동으로 갱신할 수 없다는 것이다. 만료 날짜(20..

Trouble Shooting 2024.05.07

ArgoCD Ingress 오류 해결 가이드 (GKE)

Overview이번 글에서는 GKE(Google Kubernetes Engine) 환경에서 ArgoCD Ingress를 구성할 때 발생하는 502 Server Error 및 LoadBalancer Health Check 실패 문제를 다뤄본다. Google Cloud Load Balancer는 백엔드 서비스에 대한 헬스체크를 통해 트래픽을 분배하는데, ArgoCD Ingress 구성 시 내부 HTTP → HTTPS 리디렉션으로 인해 헬스체크가 실패하며 외부에서 ArgoCD UI 접근이 되지 않는 문제가 발생할 수 있다. 해당 문제는 argocd-server의 TLS 설정(`--insecure`)을 적절히 구성하여 해결할 수 있다. 본 포스팅에서는 다음과 같은 흐름으로 트러블슈팅을 진행한다.GKE LoadB..

Trouble Shooting 2024.04.26

Harbor Garbage Collection(GC) 오류 해결 방법

Overview이 글에서는 Harbor의 Garbage Collection(GC) 실행 시 발생하는 에러를 트러블슈팅한 과정을 공유한다.Harbor는 사용되지 않는 이미지와 태그를 정리하기 위해 Garbage Collection 기능을 제공하지만, GC 실행 중 registryctl 컨테이너와의 통신 오류로 인해 실패하는 경우가 발생할 수 있다. 해당 사례에서는 registryctl 컨테이너가 누락되어 있었고, 이로 인해 GC가 실행되지 못하고 실패하였다.이 문제를 해결하기 위해 로그 확인, 컨테이너 상태 점검, 누락된 컨테이너 재기동 등을 수행하였으며, 최종적으로 GC 작업을 정상적으로 완료할 수 있었다.          Harbor Garbage Collection(GC) Error   Garbage..

Trouble Shooting 2024.04.23
반응형