この記事は、アソビュー! Advent Calendar 2022の12日目です。(裏面です)
アソビューでSREユニットに所属をしている三森です。この記事では弊社のSREについて紹介をしようと思います。
アソビューでのSREとは?
アソビューでのSREとはGoogleが提唱した「Site Reliability Engineering」の考え方を基本にしておりますが、インフラ/運用の上に乗るサービス、その先に居る顧客までを見据えて改善活動を積み上げるチームとしています。
SREの指針とは?
アソビューはビジョンとして、「2025年までに、4000万もの人々に遊びを通じて、素敵な思い出をお届けする」を掲げています。 このビジョンの実現するために、SREユニットでは「2025年までに4,000万人のアクセスに耐えられるインフラと高い信頼性をDevOpsを通して実現し、ゲスト・パートナーに提供する」を方針として掲げています。この方針をもとに、以下の観点で日々の改善活動を行なっています。
信頼性
ゲスト・パートナーがプロダクトを使いたくなくなる理由を減るような改善をおこなっていきます。
全体最適
SREの責任範疇としてAWSアカウントの全体、横断的な部分やplatformといった部分の管理運用を行っていき、個別最適をアプリケーション開発部隊に任せられる組織づくりや施策をおこなっていきます。例えばコストの例ではAWSアカウント全体としてはSRE、個別のアプリケーションのコスト最適化は開発チームで最適化していく、という形で責任分担をしていきます。
DevSecOps
開発と運用(セキュリティ)のバランスをとり、それぞれが最大のパフォーマンスを出せる仕組みやKPIの設定、サポートや権限移譲を行います。 また、属人化の防止や、お互いのチームを尊重できるような施策を実施していきます。
こういうことやってるよ!
例えば、信頼性の観点で言うと、障害発生時の対応やその後のポストモーテム(障害時の対応や原因の振り返りと再発防止をエンジニア組織全体で考える機会)を実施し、 再発防止の検討と実施をしています。サービス基盤における運用/監視では、緊急度にわけてslackにて通知管理をしております。特にクリティカルなもの(DBの負荷やEKSの負荷の高騰)については、専用のチャネルを作りすぐに対応できるような仕組みを作っています。また、他にも一部ではありますが、以下の取り組みもSREで行なっています。
- 24/365体制での運用体制の構築
- ITインフラのメンテナンス
- 大量のリクエストに耐えうるようにサービス基盤の増強 etc
全体最適として取り組んでいることとしては、サービス基盤のメンテナンスや開発環境の性能改善を行なっています。 全体最適の一環として、複数のAWSアカウントで稼働しているプラットフォームを統一をすることで、運用コストの最適化を図っています。 その他にも現行バージョンのEOLに伴うAuroraクラスターのバージョンアップを実施したり、これからの取り組みとしてEKSのバージョンアップ実施を予定しております。
全体最適の事例としては以下です。
SREで全体最適を担う一方で個別の最適化に関しては、各開発チームから選出されたメンバーで構成したEmbedded SREという取り組みを行っております。 詳細は18日目のアドベントカレンダーのブログをご覧ください。
DevSecOpsの取り組みとしては、Datadogを活用したSLO管理を開発チームと一緒に考えたり、(属人化を防ぐと言う意味で)SRE不在でも開発環境を用意できるように、 開発チームを巻き込んだEKSでの開発方法やTerraformの勉強会を実施などをしております。
また、セキュリティ向上という観点では以下の取り組みが一事例です。
最後に
いかがでしたでしょうか?アソビューのSREチームについて少しでも理解を深まったなら嬉しいです。 アソビューではSREエンジニアを募集しております。 少しでも興味を持っていただきましたら、カジュアルにお話しだけでもできるのでご応募お待ちしております!