OpenAIがGoogleのTodd Underwood氏をSite Reliability Engineeringチームの責任者に採用

Google の Machine Learning Site Reliability Engineering (ML SRE)組織の創設者

OpenAIは研究とトレーニングのワークロードにフォーカスした新しいSite Reliability Engineering (SRE)チームを率いるポジションに Todd Underwood氏を雇用 することになりました。

Underwood 氏によると、OpenAIにはすでに、推論と API 製品を扱う応用サイドの SRE チームがあるということです。

その名が示すように、SREは信頼性が高くスケーラブルなソフトウェアシステムの構築と保守を任務としています。このコンセプトはGoogleで生まれたものですが、その後IT業界全体に広まりました。

「Googleでは、 Machine Learning Site Reliability Engineering(ML SRE)という組織を作りました」とUnderwood氏はLinkedInで述べています。「私たちは 2016 年に設立しました (すでに Cloud ML SRE チームがありましたが、内部サービス用に 1 つを構築し、それらを統合しました)。」

「組織再編でこれらのチームが分割された後、私はCapital Engineeringの仕事に就きました…。最近になって、SREの仕事に戻りたいという思いが強くなりましたが、MLのインフラ、特にトレーニングのインフラにもっと近づきたいと思うようになりました。それがOpenAIです!」

Underwood 氏は、14年9ヶ月をGoogleで過ごし、O’Reillyの書籍『Reliable Machine Learning』の共著者でもあります。

投稿の中で、 Underwood氏は「私は今、MLトレーニングインフラストラクチャーの新しいチームを、興味深い規模で 立ち上げる立場にいます(Google出身者にとっても興味深い、とあえて言っておきます)」と付け加えています。

「アクセラレータのハードウェアの健全性、ジョブのオーケストレーションと実行、モデルのダイナミクス、そしてもちろんメトリクスと測定に特別なフォーカスを置いて取り組む機会もあります。」

先週、サム・アルトマン最高経営責任者(CEO)の解雇という混乱の中でChatGPTに加わったUnderwood氏は、再雇用されないなら辞めてマイクロソフトに入社すると脅迫する書簡に署名した一人でした。アルトマン氏は5日後にはOpenAIに戻っていました。

「今まで経験したどの仕事よりも、少し面白い入社式だったと言えるでしょう」とUnderwood氏は語りました。「全容を知るには、飲み物とリラックスした環境が必要かもしれません」。

その週、OpenAIはまた、GoogleのTPU AIチップの元リードを新しいハードウェア部門の責任者として採用しました。

この記事は海外Data Centre Dynamics発の記事をData Center Cafeが日本向けに抄訳したものです。

関連記事一覧

  • コメント ( 0 )

  • トラックバックは利用できません。

  1. この記事へのコメントはありません。