はじめに
こんにちは、アソビューSREチームの森です。
今回は長くアプリケーション開発を中心にやってきた私が、SREに異動したときの苦労と、そこから得た学びを共有します。
これからSREへ挑戦しようとしている方の助けになれば幸いです。
アソビューでのSREのミッションはSLI/SLOの運用によるシステム信頼性向上、IaC(インフラのコード化)、CI/CDパイプラインの整備、監視・可観測性の設計など、開発タスクにも深く関わりながらシステムの信頼性を継続的に高めることです。
経歴
SREとしての学びを共有する前に、前提として私の経歴を簡単に紹介します。
アソビューに入社前は派遣としてWeb/クライアント/組み込み/ソーシャルゲームなどの開発に約10年携わり、入社後はバックエンドを約2年担当してきました。
開発の土台はある一方で、SREやインフラ領域はほぼ手つかずで、実務で触れたのはAmazon S3を少し扱った程度。
ネットワークやCI/CD、システム監視といった分野はゼロからのスタートでした。
なぜSREに挑戦したのか?
いつか個人でサービスを立ち上げ、運用まで一人でやり切れる人になりたい、その思いを上司との1on1で話していました。
ちょうどSREの人員が不足し、キャリアチャレンジ制度で社内公募が始まった際に声をかけてもらったことをきっかけに、挑戦することを決めました。
アソビューではキャリアチャレンジ制度があり、社内公募などを通じて別部署へ異動することが可能になっています。 従業員自らがキャリアを能動的に考え選択していくことで、成長実感、貢献実感を持ち続け、成果最大化に貢献し、働き続けることを支援する制度です。
実際に異動してみて
いざタスクに取り組もうとすると、チケットに書かれている内容や用語そのものがわからない。
初めてプログラミングに触れたときのような感覚で、通信経路のどこでエラーが起きているのかさえ追えませんでした。
実際に役に立っている実感も持てず、久しぶりに自信が打ち砕かれる思いをしました。
どのように業務をこなせるようになったか
結論から言うと、基本を地道に積み上げただけです。特に次の2点がよく効きました。
- エラーを「インフラ観点」でトレースする
最初は原因も通信経路も把握できず、到達点の特定すら困難でした。
SREチームのメンバーと毎週ペアでトラブルシュートし、次のことを整理・確認することを繰り返したことで、頭の中で経路図を描けるようになりました。
・ 通信経路
・ 各リソースのログ(Route53/CloudFront/ALBなど)
・ 想定される障害点
- ChatGPTでの「壁打ち」を習慣化する
異動直後は知識がほぼゼロだったため、構成資料やPull Requestを読みつつ、わからない用語や構成の意味をChatGPTにその都度解説してもらい、理解を加速させました。
時間を気にせず何度でも質問できる点が、学習にとても役立ちました。
SREとアプリ開発で違いを感じたところ
- 実装が正しくても失敗することがある
たとえば 「CloudFrontに古いキャッシュが残ってフロントのJSとAPIスキーマが不整合」、「Podは正常でもDBの接続プールが枯渇」といったケースです。
このため、どこで・何が原因でエラーになっているかの特定には、トレーシング/メトリクス/ログをまたいだ突き合わせと経験が必要でした。
- ログの解釈はケースバイケース
1例としてKubernetesのPodがエラーで起動できないケースでも原因は、アプリ起因とインフラ起因が混在します。
アプリ起因の例:
環境変数の不整合、DB接続エラーや資格情報不足
インフラ起因の例:
CrashLoopBackOff(連続再起動)/Probe失敗(Liveness/Readiness)/ImagePullBackOff(イメージ取得失敗)
それぞれなぜ起きるかとどう対処するかを理解する必要がありました。
- 信頼性への意識向上
エラーハンドリング、リカバリ、DB負荷や応答性、データのトレーサビリティーなど、システム全体で安定性を設計する視点が求められ、広い視野の大切さを痛感しました。
開発者がSREになって感じたメリット
- 信頼性への意識が変わる
以前はアプリケーションエラーへの対応に意識が偏りがちでしたが、今はデータ整合性、インフラ負荷、システム構造の妥当性まで含めて広く見るようになりました。
- 実装・設計時の視野が広がる
インフラ設計の妥当性(トラフィック、負荷、データ量)や、堅牢なデータの扱い(タイムアウト、リトライ、冪等性など)を最初から意識するようになりました。
- インフラ環境を自分で用意できる
開発に必要な検証用インフラを自分で設計し、短時間で構築できるようになりました。
最後に
最初は「今さらインフラに触れても、ついていけないかも…」と不安でした。
それでもSREとして必死に取り組むうちに、結果がついてきて、開発者としてのスキルも確実に底上げされた実感があります。
この記事が、私と同じようにインフラに興味はあるけれど一歩を踏み出せない方の後押しになればうれしいです。