企業が成長を続けていく中、それを支えるシステムは大規模かつ複雑になっていく。これを安定的に運用し、信頼性を確保するためには、ダウンタイムを可能な限り短縮する必要があるが、人手による作業には限界がある。こうした背景から、業務の効率化・自動化を推進するために、多くの企業がサイトリライアビリティエンジニアリング(SRE)の担当者を採用している。
SREとはGoogleが提唱した概念であり、「ソフトウェアエンジニアが運用を設計したらどうなるのか」という発想から生まれている。もともとはGoogleをはじめ、NetflixやAmazonなどの大企業で浸透していたが、中小企業への緩やかなトリクルダウン効果が生まれたことで、現在では規模の小さな企業でも取り組みが進められている。
SREは職能上の枠を超え、開発、運用とさまざまな領域でその役割を果たす。本資料では、SREの基本となる哲学と原則から、SREを成功させる要因、ツールやプロセスまでを詳しく解説する。SREの役割は企業によって大きく異なるため、理解を深めるために活用してほしい。