iwiwi/2023-09-22 GPT-4 authors.ipynb

## 2023-09-22 GPT-4 authors.ipynb
{
 "cells": [
  {
   "cell_type": "markdown",
   "id": "af9ab4c0-cb84-4155-abb7-26066bb95eeb",
   "metadata": {},
   "source": [
    "# Raw Authors Data\n",
    "\n",
    "This is data extracted from the GPT-4 technical report and formatted by GPT-4."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "id": "3ddac922-0842-4cc7-bece-ccea0533aa5d",
   "metadata": {},
   "outputs": [],
   "source": [
    "authors = {\n",
    "  \"Pretraining\": {\n",
    "    \"Core contributors\": {\n",
    "      \"Christopher Berner\": \"Supercomputing lead\",\n",
    "      \"Greg Brockman\": \"Infrastructure lead\",\n",
    "      \"Trevor Cai\": \"Throughput lead\",\n",
    "      \"David Farhi\": \"Manager of optimization team\",\n",
    "      \"Chris Hesse\": \"Infrastructure usability co-lead\",\n",
    "      \"Shantanu Jain\": \"Infrastructure usability co-lead\",\n",
    "      \"Kyle Kosic\": \"Uptime and stability lead\",\n",
    "      \"Jakub Pachocki\": \"Overall lead, optimization lead\",\n",
    "      \"Alex Paino\": \"Architecture & data vice lead\",\n",
    "      \"Mikhail Pavlov\": \"Software correctness lead\",\n",
    "      \"Michael Petrov\": \"Hardware correctness lead\",\n",
    "      \"Nick Ryder\": \"Architecture & data lead\",\n",
    "      \"Szymon Sidor\": \"Optimization vice lead\",\n",
    "      \"Nikolas Tezak\": \"Execution lead\",\n",
    "      \"Phil Tillet\": \"Triton lead\",\n",
    "      \"Amin Tootoonchian\": \"Model distribution, systems & networking lead\",\n",
    "      \"Qiming Yuan\": \"Dataset sourcing and processing lead\",\n",
    "      \"Wojciech Zaremba\": \"Manager of dataset team\"\n",
    "    },\n",
    "    \"Compute cluster scaling\": [\n",
    "      \"Christopher Berner\", \"Oleg Boiko\", \"Andrew Cann\", \"Ben Chess\", \"Christian Gibson\", \"Mateusz Litwin\", \"Emy Parparita\", \"Henri Roussez\", \"Eric Sigler\", \"Akila Welihinda\"\n",
    "    ],\n",
    "    \"Data\": [\n",
    "      \"Sandhini Agarwal\", \"Suchir Balaji\", \"Mo Bavarian\", \"Che Chang\", \"Sheila Dunning\", \"Leo Gao\", \"Jonathan Gordon\", \"Peter Hoeschele\", \"Shawn Jain\", \"Shantanu Jain\", \"Roger Jiang\", \"Heewoo Jun\", \"Łukasz Kaiser\", \"Nitish Shirish Keskar\", \"Jong Wook Kim\", \"Aris Konstantinidis\", \"Chak Ming Li\", \"Todor Markov\", \"Bianca Martin\", \"David Mély\", \"Oleg Murk\", \"Hyeonwoo Noh\", \"Long Ouyang\", \"Alex Paino\", \"Vitchyr Pong\", \"Alec Radford\", \"Nick Ryder\", \"John Schulman\", \"Daniel Selsam\", \"Ian Sohl\", \"Chelsea Voss\", \"Lilian Weng\", \"Clemens Winter\", \"Tao Xu\", \"Qiming Yuan\", \"Wojciech Zaremba\"\n",
    "    ],\n",
    "    \"Distributed training infrastructure\": [\n",
    "      \"Greg Brockman\", \"Trevor Cai\", \"Chris Hesse\", \"Shantanu Jain\", \"Yongjik Kim\", \"Kyle Kosic\", \"Mateusz Litwin\", \"Jakub Pachocki\", \"Mikhail Pavlov\", \"Szymon Sidor\", \"Nikolas Tezak\", \"Madeleine Thompson\", \"Amin Tootoonchian\", \"Qiming Yuan\"\n",
    "    ],\n",
    "    \"Hardware correctness\": [\n",
    "      \"Greg Brockman\", \"Shantanu Jain\", \"Kyle Kosic\", \"Michael Petrov\", \"Nikolas Tezak\", \"Amin Tootoonchian\", \"Chelsea Voss\", \"Qiming Yuan\"\n",
    "    ],\n",
    "    \"Optimization & architecture\": [\n",
    "      \"Igor Babuschkin\", \"Mo Bavarian\", \"Adrien Ecoffet\", \"David Farhi\", \"Jesse Han\", \"Ingmar Kanitscheider\", \"Daniel Levy\", \"Jakub Pachocki\", \"Alex Paino\", \"Mikhail Pavlov\", \"Nick Ryder\", \"Szymon Sidor\", \"Jie Tang\", \"Jerry Tworek\", \"Tao Xu\"\n",
    "    ],\n",
    "    \"Training run babysitting\": [\n",
    "      \"Suchir Balaji\", \"Mo Bavarian\", \"Greg Brockman\", \"Trevor Cai\", \"Chris Hesse\", \"Shantanu Jain\", \"Roger Jiang\", \"Yongjik Kim\", \"Kyle Kosic\", \"Mateusz Litwin\", \"Jakub Pachocki\", \"Alex Paino\", \"Mikhail Pavlov\", \"Michael Petrov\", \"Nick Ryder\", \"Szymon Sidor\", \"Nikolas Tezak\", \"Madeleine Thompson\", \"Phil Tillet\", \"Amin Tootoonchian\", \"Chelsea Voss\", \"Ben Wang\", \"Tao Xu\", \"Qiming Yuan\"\n",
    "    ]\n",
    "  },\n",
    "  \"Long context\": {\n",
    "    \"Core contributors\": {\n",
    "      \"Gabriel Goh\": \"Long context co-lead\",\n",
    "      \"Łukasz Kaiser\": \"Long context lead\",\n",
    "      \"Ben Wang\": \"Attention architecture lead\",\n",
    "      \"Clemens Winter\": \"Long context co-lead\"\n",
    "    },\n",
    "    \"Long context research\": [\n",
    "      \"Mo Bavarian\", \"Gabriel Goh\", \"Heewoo Jun\", \"Łukasz Kaiser\", \"Chak Ming Li\", \"Ben Wang\", \"Clemens Winter\"\n",
    "    ],\n",
    "    \"Long context kernels\": [\n",
    "      \"Phil Tillet\"\n",
    "    ]\n",
    "  },\n",
    "  \"Vision\": {\n",
    "    \"Core contributors\": {\n",
    "      \"Trevor Cai\": \"Execution lead\",\n",
    "      \"Mark Chen\": \"Vision team co-lead, Deployment lead\",\n",
    "      \"Casey Chu\": \"Initial prototype lead\",\n",
    "      \"Chris Hesse\": \"Data load balancing & developer tooling lead\",\n",
    "      \"Shengli Hu\": \"Vision Safety Evaluations lead\",\n",
    "      \"Yongjik Kim\": \"GPU performance lead\",\n",
    "      \"Jamie Kiros\": \"Overall vision co-lead, deployment research & evals lead\",\n",
    "      \"Daniel Levy\": \"Overall vision co-lead, optimization lead\",\n",
    "      \"Christine McLeavey\": \"Vision team lead\",\n",
    "      \"David Mély\": \"Data lead\",\n",
    "      \"Hyeonwoo Noh\": \"Overall vision co-lead, research lead\",\n",
    "      \"Mikhail Pavlov\": \"Scaling engineering lead\",\n",
    "      \"Raul Puri\": \"Overall vision co-lead, engineering lead\",\n",
    "      \"Amin Tootoonchian\": \"Model distribution, systems & networking lead\"\n",
    "    },\n",
    "    \"Architecture research\": [\n",
    "      \"Casey Chu\", \"Jamie Kiros\", \"Christine McLeavey\", \"Hyeonwoo Noh\", \"Raul Puri\", \"Alec Radford\", \"Aditya Ramesh\"\n",
    "    ],\n",
    "    \"Compute cluster scaling\": [\n",
    "      \"Andrew Cann\", \"Rory Carmichael\", \"Christian Gibson\", \"Henri Roussez\", \"Akila Welihinda\"\n",
    "    ],\n",
    "    \"Distributed training infrastructure\": [\n",
    "      \"Trevor Cai\", \"Yunxing Dai\", \"Chris Hesse\", \"Brandon Houghton\", \"Yongjik Kim\", \"Łukasz Kondraciuk\", \"Hyeonwoo Noh\", \"Mikhail Pavlov\", \"Raul Puri\", \"Nikolas Tezak\", \"Amin Tootoonchian\", \"Tianhao Zheng\"\n",
    "    ],\n",
    "    \"Hardware correctness\": [\n",
    "      \"Oleg Boiko\", \"Trevor Cai\", \"Michael Petrov\", \"Alethea Power\"\n",
    "    ],\n",
    "    \"Data\": [\n",
    "      \"Jong Wook Kim\", \"David Mély\", \"Reiichiro Nakano\", \"Hyeonwoo Noh\", \"Long Ouyang\", \"Raul Puri\", \"Pranav Shyam\", \"Tao Xu\"\n",
    "    ],\n",
    "    \"Alignment data\": [\n",
    "      \"Long Ouyang\"\n",
    "    ],\n",
    "    \"Training run babysitting\": [\n",
    "      \"Trevor Cai\", \"Kyle Kosic\", \"Daniel Levy\", \"David Mély\", \"Reiichiro Nakano\", \"Hyeonwoo Noh\", \"Mikhail Pavlov\", \"Raul Puri\", \"Amin Tootoonchian\"\n",
    "    ],\n",
    "    \"Deployment & post-training\": [\n",
    "      \"Ilge Akkaya\", \"Mark Chen\", \"Jamie Kiros\", \"Rachel Lim\", \"Reiichiro Nakano\", \"Raul Puri\", \"Jiayi Weng\"\n",
    "    ]\n",
    "  },\n",
    "  \"Reinforcement Learning & Alignment\": {\n",
    "    \"Core contributors\": {\n",
    "      \"Greg Brockman\": \"Core infrastructure author\",\n",
    "      \"Arka Dhar\": \"Human data product manager\",\n",
    "      \"Liam Fedus\": \"Data flywheel lead\",\n",
    "      \"Tarun Gogineni\": \"Model creativity\",\n",
    "      \"Rapha Gontijo-Lopes\": \"Synthetic data\",\n",
    "      \"Joshua Gross\": \"Data collection engineering co-lead\",\n",
    "      \"Johannes Heidecke\": \"Refusals & model safety co-lead\",\n",
    "      \"Joost Huizinga\": \"Initial fine-tuning derisking\",\n",
    "      \"Teddy Lee\": \"Human data product manager\",\n",
    "      \"Jan Leike\": \"Alignment co-lead\",\n",
    "      \"Ryan Lowe\": \"Alignment co-lead\",\n",
    "      \"Luke Metz\": \"Infrastructure lead, ChatML format lead\",\n",
    "      \"Long Ouyang\": \"IF data collection lead\",\n",
    "      \"John Schulman\": \"Overall lead\",\n",
    "      \"Jerry Tworek\": \"Code lead\",\n",
    "      \"Carroll Wainwright\": \"IF data infrastructure lead\",\n",
    "      \"Jonathan Ward\": \"Data collection engineering co-lead\",\n",
    "      \"Jiayi Weng\": \"RL Infrastructure author\",\n",
    "      \"Sarah Yoo\": \"Human data operations manager\",\n",
    "      \"Wojciech Zaremba\": \"Human data lead\",\n",
    "      \"Chong Zhang\": \"Refusals & model safety co-lead\",\n",
    "      \"Shengjia Zhao\": \"Reward model lead\",\n",
    "      \"Barret Zoph\": \"Overall training lead\"\n",
    "    },\n",
    "    \"Dataset contributions\": [\n",
    "      \"Diogo Almeida\", \"Mo Bavarian\", \"Juan Felipe Cerón Uribe\", \"Tyna Eloundou\", \"Liam Fedus\", \"Tarun Gogineni\", \"Rapha Gontijo-Lopes\", \"Jonathan Gordon\", \"Joost Huizinga\", \"Shawn Jain\", \"Roger Jiang\", \"Łukasz Kaiser\", \"Christina Kim\", \"Jan Leike\", \"Chak Ming Li\", \"Stephanie Lin\", \"Ryan Lowe\", \"Jacob Menick\", \"Luke Metz\", \"Pamela Mishkin\", \"Tong Mu\", \"Oleg Murk\", \"Ashvin Nair\", \"Long Ouyang\", \"Alex Passos\", \"Michael (Rai) Pokorny\", \"Vitchyr Pong\", \"Shibani Santurkar\", \"Daniel Selsam\", \"Sarah Shoker\", \"Carroll Wainwright\", \"Matt Wiethoff\", \"Jeff Wu\", \"Kai Xiao\", \"Kevin Yu\", \"Marvin Zhang\", \"Chong Zhang\", \"William Zhuk\", \"Barret Zoph\"\n",
    "    ],\n",
    "    \"Data infrastructure\": [\n",
    "      \"Irwan Bello\", \"Lenny Bogdonoff\", \"Juan Felipe Cerón Uribe\", \"Joshua Gross\", \"Shawn Jain\", \"Haozhun Jin\", \"Christina Kim\", \"Aris Konstantinidis\", \"Teddy Lee\", \"David Medina\", \"Jacob Menick\", \"Luke Metz\", \"Ashvin Nair\", \"Long Ouyang\", \"Michael (Rai) Pokorny\", \"Vitchyr Pong\", \"John Schulman\", \"Jonathan Ward\", \"Jiayi Weng\", \"Matt Wiethoff\", \"Sarah Yoo\", \"Kevin Yu\", \"Wojciech Zaremba\", \"William Zhuk\", \"Barret Zoph\"\n",
    "    ],\n",
    "    \"ChatML format\": [\n",
    "      \"Ilge Akkaya\", \"Christina Kim\", \"Chak Ming Li\", \"Rachel Lim\", \"Jacob Menick\", \"Luke Metz\", \"Andrey Mishchenko\", \"Vitchyr Pong\", \"John Schulman\", \"Carroll Wainwright\", \"Barret Zoph\"\n",
    "    ],\n",
    "    \"Model safety\": [\n",
    "      \"Josh Achiam\", \"Steven Adler\", \"Juan Felipe Cerón Uribe\", \"Hyung Won Chung\", \"Tyna Eloundou\", \"Rapha Gontijo-Lopes\", \"Shixiang Shane Gu\", \"Johannes Heidecke\", \"Joost Huizinga\", \"Teddy Lee\", \"Jan Leike\", \"Stephanie Lin\", \"Ryan Lowe\", \"Todor Markov\", \"Luke Metz\", \"Tong Mu\", \"Shibani Santurkar\", \"John Schulman\", \"Andrea Vallone\", \"Carroll Wainwright\", \"Jason Wei\", \"Lilian Weng\", \"Kai Xiao\", \"Chong Zhang\", \"Marvin Zhang\", \"Barret Zoph\"\n",
    "    ],\n",
    "    \"Refusals\": [\n",
    "      \"Juan Felipe Cerón Uribe\", \"Tyna Eloundou\", \"Johannes Heidecke\", \"Joost Huizinga\", \"Jan Leike\", \"Stephanie Lin\", \"Ryan Lowe\", \"Pamela Mishkin\", \"Tong Mu\", \"Carroll Wainwright\", \"Lilian Weng\", \"Kai Xiao\", \"Chong Zhang\", \"Barret Zoph\"\n",
    "    ],\n",
    "    \"Foundational RLHF and InstructGPT work\": [\n",
    "      \"Diogo Almeida\", \"Joost Huizinga\", \"Roger Jiang\", \"Jan Leike\", \"Stephanie Lin\", \"Ryan Lowe\", \"Pamela Mishkin\", \"Dan Mossing\", \"Long Ouyang\", \"Katarina Slama\", \"Carroll Wainwright\", \"Jeff Wu\", \"Kai Xiao\", \"Marvin Zhang\"\n",
    "    ],\n",
    "    \"Flagship training runs\": [\n",
    "      \"Greg Brockman\", \"Liam Fedus\", \"Johannes Heidecke\", \"Joost Huizinga\", \"Roger Jiang\", \"Kyle Kosic\", \"Luke Metz\", \"Ashvin Nair\", \"Jiayi Weng\", \"Chong Zhang\", \"Shengjia Zhao\", \"Barret Zoph\"\n",
    "    ],\n",
    "    \"Code capability\": [\n",
    "      \"Ilge Akkaya\", \"Mo Bavarian\", \"Jonathan Gordon\", \"Shawn Jain\", \"Haozhun Jin\", \"Teddy Lee\", \"Chak Ming Li\", \"Oleg Murk\", \"Ashvin Nair\", \"Vitchyr Pong\", \"Benjamin Sokolowsky\", \"Jerry Tworek\", \"Matt Wiethoff\", \"Sarah Yoo\", \"Kevin Yu\", \"Wojciech Zaremba\", \"William Zhuk\"\n",
    "    ]\n",
    "  },\n",
    "  \"Evaluation & analysis\": {\n",
    "    \"Core contributors\": {\n",
    "      \"Sandhini Agarwal\": \"System card co-lead\",\n",
    "      \"Lama Ahmad\": \"Expert red teaming & adversarial testing program lead\",\n",
    "      \"Mo Bavarian\": \"Capability prediction co-lead\",\n",
    "      \"Tyna Eloundou\": \"Safety evaluations co-lead\",\n",
    "      \"Andrew Kondrich\": \"OpenAI Evals open-sourcing co-lead\",\n",
    "      \"Gretchen Krueger\": \"System card co-lead\",\n",
    "      \"Michael Lampe\": \"Privacy and PII evaluations lead\",\n",
    "      \"Pamela Mishkin\": \"Economic impact & overreliance evaluations lead\",\n",
    "      \"Benjamin Sokolowsky\": \"Capability prediction co-lead\",\n",
    "      \"Jack Rae\": \"Research benchmark execution lead\",\n",
    "      \"Chelsea Voss\": \"Eval execution lead\",\n",
    "      \"Alvin Wang\": \"OpenAI Evals lead\",\n",
    "      \"Kai Xiao\": \"Safety evaluations co-lead\",\n",
    "      \"Marvin Zhang\": \"OpenAI Evals open-sourcing co-lead\"\n",
    "    },\n",
    "    \"OpenAI Evals library\": [\n",
    "      \"Shixiang Shane Gu\", \"Angela Jiang\", \"Logan Kilpatrick\", \"Andrew Kondrich\", \"Pamela Mishkin\", \"Jakub Pachocki\", \"Ted Sanders\", \"Jessica Shieh\", \"Alvin Wang\", \"Marvin Zhang\"\n",
    "    ],\n",
    "    \"Model-graded evaluation infrastructure\": [\n",
    "      \"Liam Fedus\", \"Rapha Gontijo-Lopes\", \"Shixiang Shane Gu\", \"Andrew Kondrich\", \"Michael (Rai) Pokorny\", \"Wojciech Zaremba\", \"Chong Zhang\", \"Marvin Zhang\", \"Shengjia Zhao\", \"Barret Zoph\"\n",
    "    ],\n",
    "    \"Acceleration forecasting\": [\n",
    "      \"Alan Hickey\", \"Daniel Kokotajlo\", \"Cullen O’Keefe\", \"Sarah Shoker\"\n",
    "    ],\n",
    "    \"ChatGPT evaluations\": [\n",
    "      \"Juan Felipe Cerón Uribe\", \"Hyung Won Chung\", \"Rapha Gontijo-Lopes\", \"Liam Fedus\", \"Luke Metz\", \"Michael Rai Pokorny\", \"Jason Wei\", \"Shengjia Zhao\", \"Barret Zoph\"\n",
    "    ],\n",
    "    \"Capability evaluations\": [\n",
    "      \"Tyna Eloundou\", \"Shengli Hu\", \"Roger Jiang\", \"Jamie Kiros\", \"Teddy Lee\", \"Scott Mayer McKinney\", \"Jakub Pachocki\", \"Alex Paino\", \"Giambattista Parascandolo\", \"Boris Power\", \"Raul Puri\", \"Jack Rae\", \"Nick Ryder\", \"Ted Sanders\", \"Szymon Sidor\", \"Benjamin Sokolowsky\", \"Chelsea Voss\", \"Alvin Wang\", \"Rowan Zellers\", \"Juntang Zhuang\"\n",
    "    ],\n",
    "    \"Coding evaluations\": [\n",
    "      \"Ilge Akkaya\", \"Mo Bavarian\", \"Jonathan Gordon\", \"Shawn Jain\", \"Chak Ming Li\", \"Oleg Murk\", \"Vitchyr Pong\", \"Benjamin Sokolowsky\", \"Jerry Tworek\", \"Kevin Yu\", \"Wojciech Zaremba\"\n",
    "    ],\n",
    "    \"Real-world use case evaluations\": [\n",
    "      \"Andrew Kondrich\", \"Joe Palermo\", \"Boris Power\", \"Ted Sanders\"\n",
    "    ],\n",
    "    \"Contamination investigations\": [\n",
    "      \"Adrien Ecoffet\", \"Roger Jiang\", \"Ingmar Kanitscheider\", \"Scott Mayer McKinney\", \"Alex Paino\", \"Giambattista Parascandolo\", \"Jack Rae\", \"Qiming Yuan\"\n",
    "    ],\n",
    "    \"Instruction following and API evals\": [\n",
    "      \"Diogo Almeida\", \"Carroll Wainwright\", \"Marvin Zhang\"\n",
    "    ],\n",
    "    \"Novel capability discovery\": [\n",
    "      \"Filipe de Avila Belbute Peres\", \"Kevin Button\", \"Fotis Chantzis\", \"Mike Heaton\", \"Wade Hickey\", \"Xin Hu\", \"Andrew Kondrich\", \"Matt Knight\", \"Andrew Mayne\", \"Jake McNeil\", \"Vinnie Monaco\", \"Joe Palermo\", \"Joel Parish\", \"Boris Power\", \"Bob Rotsted\", \"Ted Sanders\"\n",
    "    ],\n",
    "    \"Vision evaluations\": [\n",
    "      \"Shixiang Shane Gu\", \"Shengli Hu\", \"Jamie Kiros\", \"Hyeonwoo Noh\", \"Raul Puri\", \"Rowan Zellers\"\n",
    "    ],\n",
    "    \"Economic impact evaluation\": [\n",
    "      \"Tyna Eloundou\", \"Sam Manning\", \"Aalok Mehta\", \"Pamela Mishkin\"\n",
    "    ],\n",
    "    \"Non-proliferation, international humanitarian law & national security red teaming\": [\n",
    "      \"Sarah Shoker\"\n",
    "    ],\n",
    "    \"Overreliance analysis\": [\n",
    "      \"Miles Brundage\", \"Michael Lampe\", \"Pamela Mishkin\"\n",
    "    ],\n",
    "    \"Privacy and PII evaluations\": [\n",
    "      \"Michael Lampe\", \"Vinnie Monaco\", \"Ashley Pantuliano\"\n",
    "    ],\n",
    "    \"Safety and policy evaluations\": [\n",
    "      \"Josh Achiam\", \"Sandhini Agarwal\", \"Lama Ahmad\", \"Jeff Belgum\", \"Tyna Eloundou\", \"Johannes Heidecke\", \"Shengli Hu\", \"Joost Huizinga\", \"Jamie Kiros\", \"Gretchen Krueger\", \"Michael Lampe\", \"Stephanie Lin\", \"Ryan Lowe\", \"Todor Markov\", \"Vinnie Monaco\", \"Tong Mu\", \"Raul Puri\", \"Girish Sastry\", \"Andrea Vallone\", \"Carroll Wainwright\", \"CJ Weinmann\", \"Lilian Weng\", \"Kai Xiao\", \"Chong Zhang\"\n",
    "    ],\n",
    "    \"OpenAI adversarial testers\": [\n",
    "      \"Josh Achiam\", \"Steven Adler\", \"Lama Ahmad\", \"Shyamal Anadkat\", \"Red Avila\", \"Gabriel Bernadett-Shapiro\", \"Anna-Luisa Brakman\", \"Tim Brooks\", \"Miles Brundage\", \"Chelsea Carlson\", \"Derek Chen\", \"Hyung Won Chung\", \"Jeremiah Currier\", \"Daniel Kokotajlo\", \"David Dohan\", \"Adrien Ecoffet\", \"Juston Forte\", \"Vik Goel\", \"Ryan Greene\", \"Johannes Heidecke\", \"Alan Hickey\", \"Shengli Hu\", \"Joost Huizinga\", \"Janko\", \"Tomer Kaftan\", \"Ali Kamali\", \"Nitish Shirish Keskar\", \"Tabarak Khan\", \"Hendrik Kirchner\", \"Daniel Kokotajlo\", \"Gretchen Krueger\", \"Michael Lampe\", \"Teddy Lee\", \"Molly Lin\", \"Ryan Lowe\", \"Todor Markov\", \"Jake McNeil\", \"Pamela Mishkin\", \"Vinnie Monaco\", \"Daniel Mossing\", \"Tong Mu\", \"Oleg Murk\", \"Cullen O’Keefe\", \"Joe Palermo\", \"Giambattista Parascandolo\", \"Joel Parish\", \"Boris Power\", \"Alethea Power\", \"Cameron Raymond\", \"Francis Real\", \"Bob Rotsted\", \"Mario Salterelli\", \"Sam Wolrich\", \"Ted Sanders\", \"Girish Sastry\", \"Sarah Shoker\", \"Shyamal Anadkat\", \"Yang Song\", \"Natalie Staudacher\", \"Madeleine Thompson\", \"Elizabeth Tseng\", \"Chelsea Voss\", \"Jason Wei\", \"Chong Zhang\"\n",
    "    ],\n",
    "    \"System card & broader impacts analysis\": [\n",
    "      \"Steven Adler\", \"Sandhini Agarwal\", \"Lama Ahmad\", \"Janko Altenschmidt\", \"Jeff Belgum\", \"Gabriel Bernadett-Shapiro\", \"Miles Brundage\", \"Derek Chen\", \"Tyna Eloundou\", \"Liam Fedus\", \"Leo Gao\", \"Vik Goel\", \"Johannes Heidecke\", \"Alan Hickey\", \"Shengli Hu\", \"Joost Huizinga\", \"Daniel Kokotajlo\", \"Gretchen Krueger\", \"Michael Lampe\", \"Jade Leung\", \"Stephanie Lin\", \"Ryan Lowe\", \"Kim Malfacini\", \"Todor Markov\", \"Bianca Martin\", \"Aalok Mehta\", \"Pamela Mishkin\", \"Tong Mu\", \"Richard Ngo\", \"Cullen O’Keefe\", \"Joel Parish\", \"Rai Pokorny\", \"Bob Rotsted\", \"Girish Sastry\", \"Sarah Shoker\", \"Andrea Vallone\", \"Carroll Wainwright\", \"CJ Weinmann\", \"Lilian Weng\", \"Dave Willner\", \"Kai Xiao\", \"Chong Zhang\"\n",
    "    ]\n",
    "  },\n",
    "  \"Deployment\": {\n",
    "    \"Core contributors\": {\n",
    "      \"Steven Adler\": \"Early stage program management lead\",\n",
    "      \"Sandhini Agarwal\": \"Launch safety lead\",\n",
    "      \"Derek Chen\": \"Monitoring & response lead\",\n",
    "      \"Atty Eleti\": \"GPT-4 API co-lead\",\n",
    "      \"Joanne Jang\": \"GPT-4 product co-lead\",\n",
    "      \"Angela Jiang\": \"GPT-4 product co-lead\",\n",
    "      \"Tomer Kaftan\": \"Inference infrastructure & deployment lead\",\n",
    "      \"Rachel Lim\": \"GPT-4 API co-lead\",\n",
    "      \"Kim Malfacini\": \"Usage policy lead\",\n",
    "      \"Bianca Martin\": \"Release program management lead\",\n",
    "      \"Evan Morikawa\": \"Engineering lead\",\n",
    "      \"Henrique Ponde de Oliveira Pinto\": \"Inference workflow lead\",\n",
    "      \"Heather Schmidt\": \"GPT-4 infrastructure management\",\n",
    "      \"Maddie Simens\": \"Design lead\",\n",
    "      \"Felipe Petroski Such\": \"Inference optimization & reliability lead\",\n",
    "      \"Andrea Vallone\": \"Detection & refusals policy lead\",\n",
    "      \"Lilian Weng\": \"Applied research lead\",\n",
    "      \"Dave Willner\": \"Trust & safety lead\",\n",
    "      \"Michael Wu\": \"Inference research lead\"\n",
    "    },\n",
    "    \"Inference research\": [\n",
    "      \"Paul Baltescu\", \"Scott Gray\", \"Yuchen He\", \"Arvind Neelakantan\", \"Michael Wu\"\n",
    "    ],\n",
    "    \"GPT-4 API & ChatML deployment\": [\n",
    "      \"Greg Brockman\", \"Brooke Chan\", \"Chester Cho\", \"Atty Eleti\", \"Rachel Lim\", \"Andrew Peng\", \"Michelle Pokrass\", \"Sherwin Wu\"\n",
    "    ],\n",
    "    \"GPT-4 web experience\": [\n",
    "      \"Valerie Balcom\", \"Lenny Bogdonoff\", \"Jason Chen\", \"Dave Cummings\", \"Noah Deutsch\", \"Mike Heaton\", \"Paul McMillan\", \"Rajeev Nayak\", \"Joel Parish\", \"Adam Perelman\", \"Eric Sigler\", \"Nick Turley\", \"Arun Vijayvergiya\", \"Chelsea Voss\"\n",
    "    ],\n",
    "    \"Inference infrastructure\": [\n",
    "      \"Brooke Chan\", \"Scott Gray\", \"Chris Hallacy\", \"Kenny Hsu\", \"Tomer Kaftan\", \"Rachel Lim\", \"Henrique Ponde de Oliveira Pinto\", \"Raul Puri\", \"Heather Schmidt\", \"Felipe Petroski Such\"\n",
    "    ],\n",
    "    \"Reliability engineering\": [\n",
    "      \"Haiming Bao\", \"Madelaine Boyd\", \"Ben Chess\", \"Damien Deville\", \"Yufei Guo\", \"Vishal Kuo\", \"Ikai Lan\", \"Michelle Pokrass\", \"Carl Ross\", \"David Schnurr\", \"Jordan Sitkin\", \"Felipe Petroski Such\"\n",
    "    ],\n",
    "    \"Trust & safety engineering\": [\n",
    "      \"Jeff Belgum\", \"Madelaine Boyd\", \"Vik Goel\"\n",
    "    ],\n",
    "    \"Trust & safety monitoring and response\": [\n",
    "      \"Janko Altenschmidt\", \"Anna-Luisa Brakman\", \"Derek Chen\", \"Florencia Leoni Aleman\", \"Molly Lin\", \"Cameron Raymond\", \"CJ Weinmann\", \"Dave Willner\", \"Samuel Wolrich\"\n",
    "    ],\n",
    "    \"Trust & safety policy\": [\n",
    "      \"Rosie Campbell\", \"Kim Malfacini\", \"Andrea Vallone\", \"Dave Willner\"\n",
    "    ],\n",
    "    \"Deployment compute\": [\n",
    "      \"Peter Hoeschele\", \"Evan Morikawa\"\n",
    "    ],\n",
    "    \"Product management\": [\n",
    "      \"Jeff Harris\", \"Joanne Jang\", \"Angela Jiang\"\n",
    "    ]\n",
    "  },\n",
    "  \"Additional contributions\": {\n",
    "    \"General contributors\": [\n",
    "      \"Sam Altman\", \"Katie Mayer\", \"Bob McGrew\", \"Mira Murati\", \"Ilya Sutskever\", \"Peter Welinder\"\n",
    "    ],\n",
    "    \"Blog post & paper content\": [\n",
    "      \"Sandhini Agarwal\", \"Greg Brockman\", \"Miles Brundage\", \"Adrien Ecoffet\", \"Tyna Eloundou\", \"David Farhi\", \"Johannes Heidecke\", \"Shengli Hu\", \"Joost Huizinga\", \"Roger Jiang\", \"Gretchen Krueger\", \"Jan Leike\", \"Daniel Levy\", \"Stephanie Lin\", \"Ryan Lowe\", \"Tong Mu\", \"Hyeonwoo Noh\", \"Jakub Pachocki\", \"Jack Rae\", \"Kendra Rimbach\", \"Shibani Santurkar\", \"Szymon Sidor\", \"Benjamin Sokolowsky\", \"Jie Tang\", \"Chelsea Voss\", \"Kai Xiao\", \"Rowan Zellers\", \"Chong Zhang\", \"Marvin Zhang\"\n",
    "    ],\n",
    "    \"Communications\": [\n",
    "      \"Ruby Chen\", \"Cory Decareaux\", \"Thomas Degry\", \"Steve Dowling\", \"Niko Felix\", \"Elie Georges\", \"Anna Makanju\", \"Andrew Mayne\", \"Aalok Mehta\", \"Elizabeth Proehl\", \"Kendra Rimbach\", \"Natalie Summers\", \"Justin Jay Wang\", \"Hannah Wong\"\n",
    "    ],\n",
    "    \"Compute allocation support\": [\n",
    "      \"Theresa Lopez\", \"Elizabeth Tseng\"\n",
    "    ],\n",
    "    \"Contracting, revenue, pricing, & finance support\": [\n",
    "      \"Brooke Chan\", \"Denny Jin\", \"Billie Jonn\", \"Patricia Lue\", \"Kyla Sheppard\", \"Lauren Workman\"\n",
    "    ],\n",
    "    \"Launch partners & product operations\": [\n",
    "      \"Filipe de Avila Belbute Peres\", \"Brittany Carey\", \"Simón Posada Fishman\", \"Isabella Fulford\", \"Teddy Lee\", \"Yaniv Markovski\", \"Tolly Powell\", \"Toki Sherbakov\", \"Jessica Shieh\", \"Natalie Staudacher\", \"Preston Tuggle\"\n",
    "    ],\n",
    "    \"Legal\": [\n",
    "      \"Jake Berdine\", \"Che Chang\", \"Sheila Dunning\", \"Ashley Pantuliano\"\n",
    "    ],\n",
    "    \"Security & privacy engineering\": [\n",
    "      \"Kevin Button\", \"Fotis Chantzis\", \"Wade Hickey\", \"Xin Hu\", \"Shino Jomoto\", \"Matt Knight\", \"Jake McNeil\", \"Vinnie Monaco\", \"Joel Parish\", \"Bob Rotsted\"\n",
    "    ],\n",
    "    \"System administration & on-call support\": [\n",
    "      \"Morgan Grafstein\", \"Francis Real\", \"Mario Saltarelli\"\n",
    "    ],\n",
    "    \"Authorship & credit attribution\": [\n",
    "      \"David Farhi\"\n",
    "    ]\n",
    "  }\n",
    "}"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "e51d0aed-fd3a-4d62-aab8-4019e318cf65",
   "metadata": {},
   "source": [
    "# Author Frequency"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "id": "98bbefb2-b07e-4cb9-96f6-91d3b9fd5cab",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Unique authors: 284\n",
      "Avg freq: 2.8732394366197185\n"
     ]
    }
   ],
   "source": [
    "from collections import defaultdict\n",
    "\n",
    "person_freq = defaultdict(int)\n",
    "for team in authors.values():\n",
    "    for role in team.values():\n",
    "        for author in role:\n",
    "            person_freq[author] += 1\n",
    "\n",
    "print(\"Unique authors:\", len(person_freq))\n",
    "print(\"Avg freq:\", sum(person_freq.values()) / len(person_freq))"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "a9cd6e99-1fc0-427d-aa05-9a86be4dfc33",
   "metadata": {},
   "source": [
    "# Approx Team Size\n",
    "\n",
    "We assume that authors who belong to multiple teams equally divide their time. Based on this assumption, we calculate the total number of people in each team."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "id": "0319609e-29f3-4a6b-b869-60e00a5ed5f6",
   "metadata": {},
   "outputs": [],
   "source": [
    "person_weight = {\n",
    "    name: 1 / freq\n",
    "    for name, freq in person_freq.items()\n",
    "}"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 19,
   "id": "ef566367-10e7-453a-a0c0-d5193224bd5c",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>team</th>\n",
       "      <th>size</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>Pretraining</td>\n",
       "      <td>34.529762</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>Long context</td>\n",
       "      <td>3.958333</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>Vision</td>\n",
       "      <td>22.298810</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>Reinforcement Learning &amp; Alignment</td>\n",
       "      <td>43.395238</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>Evaluation &amp; analysis</td>\n",
       "      <td>78.706349</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>Deployment</td>\n",
       "      <td>51.883333</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6</th>\n",
       "      <td>Additional contributions</td>\n",
       "      <td>49.228175</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                                 team       size\n",
       "0                         Pretraining  34.529762\n",
       "1                        Long context   3.958333\n",
       "2                              Vision  22.298810\n",
       "3  Reinforcement Learning & Alignment  43.395238\n",
       "4               Evaluation & analysis  78.706349\n",
       "5                          Deployment  51.883333\n",
       "6            Additional contributions  49.228175"
      ]
     },
     "execution_count": 19,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "import pandas as pd\n",
    "\n",
    "rows = []\n",
    "\n",
    "for team_name, team in authors.items():\n",
    "    team_size = 0\n",
    "    for role in team.values():\n",
    "        for author in role:\n",
    "            team_size += person_weight[author]\n",
    "    rows.append({\"team\": team_name, \"size\": team_size})\n",
    "\n",
    "pd.DataFrame(rows)"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.10.12"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}