사이트 안정성 엔지니어링(SRE)
이점
속도와 안정성 사이의 균형 유지
속도의 이점 활용
코드 작성부터 프로덕션 서비스 실행까지 모두 자동화하세요. 공유된 목표에 맞게 개발 및 운영을 조정하여 더 빠르게 진행합니다. 수작업을 최소화할 수 있을 때 이슈 관리 등 익숙한 도구를 사용할 수 있습니다.
검증된 SRE 원칙으로 안정성 향상
Google에서 개발하고 대규모 작동이 입증된 SRE 원칙을 활용합니다. Google Cloud 운영 제품군으로 SRE 권장사항을 쉽게 구현하여 문제 해결 속도를 높이고 안정성을 개선할 수 있습니다.
SRE 여정에서 고객의 요구를 충족시켜 드립니다.
회사 규모, 업종 또는 VM, Kubernetes 또는 서버리스 사용 여부에 관계없이 소프트웨어 배포를 촉진합니다. 무료 도구 또는 유료 서비스를 선택하여 SRE 여정을 바로 시작하세요.
주요 특징
운영 및 SRE팀 운영을 개선하는 SRE 도구 및 리소스
SRE 원칙을 사용하여 서비스 상태 모니터링
서비스 상태를 모니터링하고 기본적으로 제공되는 서비스 모니터링 지원을 사용하여 개발자와 함께 변경 속도를 높이세요. SLI 측정항목을 선택하고, SLO를 설정하고, 오류 예산을 추적하여 서비스 위험을 완화할 수 있습니다. 강력한 대시보드에서 골든 신호 등 측정항목과 로그를 집계하여 MTTR을 줄이고 서비스 상태에 대한 질문에 신속하게 답할 수 있습니다.
즉시 사용 가능한 통합으로 자동화 향상 및 수작업 감소
즐겨 사용하는 도구와 함께 기본 제공되는 통합 기능을 사용하여 이슈 발생 시 신속하게 문제를 해결합니다. 점진적 출시를 구현하고 변경사항을 안전하게 롤백합니다. Cloud Build와 사전 빌드된 통합을 사용하면 CI/CD의 일부로서 Google Kubernetes Engine, App Engine, Cloud Functions, Firebase, Cloud Run에 아티팩트를 빌드, 테스트, 배포할 수 있습니다.
빠른 통합을 위한 하나의 통합 뷰
로그, 이벤트, 측정항목, SLO 전반에서 단일 통합 뷰를 제공합니다. Google Kubernetes Engine, Cloud Run, Compute Engine, Anthos, 기타 런타임의 서비스 콘솔 내에서 바로 컨텍스트 내 관측 가능성 데이터를 가져옵니다. 설정 없이 측정항목, trace, 로그를 수집합니다. 1초 미만의 수집 지연 시간과 테라바이트 단위의 초당 수집 속도를 통해 대규모 실시간 로그 관리 및 분석을 수행할 수 있습니다.
Google Cloud SRE 전문가의 추가 지원 받기
여정 전반에서 더 많은 직접적인 지원을 받고 싶은 경우 Google 컨설팅 서비스 등 고려해 볼 만한 추가 서비스가 있습니다. 조직에 적합한 옵션에 대해 알아보려면 영업팀에 문의하세요. CRE팀과 고객 성공사례에서 Google Cloud 도구 및 관행을 사용하여 다른 기업이 조직에 SRE를 구현하는 데 어떻게 도움이 되었는지 알아보세요.
'원점 회귀' 관측 가능성으로 SRE/개발자 공동작업 추진
개발자는 OpenTelemetry(OT) 패키지 및 Google Exporter를 사용하여 Cloud Trace로 추적 데이터를 계측하고 내보낼 수 있습니다. 새로운 통합 작업 에이전트(미리보기)는 측정항목과 로그를 수집하고 OpenTelemetry를 지원하여 측정항목을 캡처하고 전송합니다. Google은 다수의 클라우드 제품에서 OT 라이브러리를 즉시 사용할 수 있는 기능으로 구현하기 위해 노력하고 있습니다. 이러한 노력의 하나로 Cloud SQL Insights가 있습니다.
관련 서비스
SRE 통합 및 제품
Google Cloud에서 새로운 클라우드 애플리케이션을 빌드 및 배포하고, 아티팩트를 저장하고, 앱 보안 및 안정성을 모니터링할 수 있습니다.
문서
이러한 리소스로 조직에서 SRE를 구현하는 방법을 알아보세요.
Google 사이트 안정성 엔지니어링
SRE 도서에 액세스하고 SRE의 이야기를 듣고 Google의 SRE 방식을 알아보세요.
SLO 만들기
서비스를 모니터링하려면 서비스 수준 목표(SLO)가 하나 이상 필요합니다. Cloud Monitoring에서 첫 번째 SLO를 만드는 방법을 단계별로 알아보세요.
실무형 실습: SRE용 GKE의 워크로드 문제 해결
GKE의 리소스 페이지를 탐색하고, GKE 대시보드를 사용하고, 로그 기반 측정항목을 만들고, SLO를 만들고, SRE 담당자에게 이슈를 알리는 알림을 정의하는 방법을 알아봅니다.
안정성을 위한 엔지니어링
Google Cloud 운영 제품군에서 SLO를 정의 및 보호하고 Google Cloud에서 실행되는 애플리케이션의 관측 가능성을 개선하는 방법을 알아봅니다.
SRE: 안정성 측정 및 관리
이 과정에서는 원하는 서비스 안정성을 설명하고 측정하는 원칙인 서비스 수준 목표(SLO) 이론을 설명합니다.
Google SRE 문화 개발
이 과정에서는 Google SRE의 주요 관행과 SRE 조직 도입의 성공에서 중요한 IT 및 비즈니스 리더의 역할을 소개합니다.