メンバー一人ひとりの
尖ったスキルと
チームワークが大事

武川がリードするSRE(Site Reliability Engineering)チームは、去年の7月に結成された新しい組織だ。cloudpackのマネージドサービスのSLAでは対応しきれないような、さらに緊急性の高いイベントに特化した対応を実施している。イベントが開催される特定の時間帯に監視体制を敷き、テレビ番組やスポーツ中継などの裏側でリソースの増減に合わせた構成の変更などを手がけている。同時に自動化を促進するために、効率化ツールの開発にも取り組む。

ポートレート写真2

造詣の深い分野がひとつあればいい

イベント向けの対応というのは、あらかじめ試合日時や放送日時が決まっている。完璧な運用ができるなら、そのための手段は問わない。したがってボトルネックになりそうな、あらゆる箇所を事前に洗い出し、点検し、チューニングする力が求められる。

「例えば、コンピュータが遅いときにその原因を調べて改善するには、問題の本質を見抜く力が必要です。

いまのシステムは、調査対象となる範囲が広いので、一人がぜんぶを深く知るのは難しい。なので、人材としてはOSでもサーバーやネットワークでも、何かしらひとつでも造詣の深い分野が必要です。残りの不得意な分野の情報は、他のメンバーから引き出せればよいので。むしろチームワークの方が大事です」

武川チームの仕事では、サイトの性能を深いレベルで見ることができる。システムのボトルネックを洗い出す過程で、限界性能を知ることも多い。こうしてエンジニアの好奇心さえ満たせるのだと言う。

ポートレート写真3

自動化ツールも内製

イベント運用を円滑に進めるために、人手による運用を極力減らし、可能な限りの自動化を進めている。AWSの機能を工夫して利用し、効率化につながる自動化ツールの開発も、スクリプト言語を駆使して内製している。
「Python、Rubyも少し。Luaなんかも使います。それからLinux、Windowsいずれかに精通した人材は魅力的です。あ!DBなんかにも詳しい人がいたら嬉しい」

一見して範囲が広すぎるようにも思えるが、オンプレミスでもクラウドでも、一人ひとりが何かしら特定の専門分野を持つことが求められる証とも言える。イベント運用は、メンバー一人ひとりの尖ったスキルと、全員の総合力で乗り切る、それが武川チームのスタイルだ。