/* terashim.com */

システム開発・データエンジニアリング・データ分析についての個人的なノート

航空便情報サンプルデータセット nycflights13 パッケージについて

公開日: 2020-07-05

nycflights13 とは、2013年のニューヨーク市発の航空便に関するデータセットを収めたRパッケージです。このデータの構造や出典、各列の意味に関してヘルプに記載された内容を和訳しておきます。


パッケージの概要

ニューヨーク市 (EWR, JFK, LGA などの空港) を出発地とし、米国、プエルトリコ、およびアメリカ領バージン諸島を目的地とする 2013年のすべての航空便(合計336,776便)に関するデータを収録したパッケージ。

他にも遅延の原因を探るのに有用なデータセットがいくつか用意されている。

このパッケージに含まれるデータテーブルは以下の通り:

  • flights: 2013年におけるすべてのニューヨーク発の航空便
  • weather: 各空港における毎時気象データ
  • planes: 各航空機の機体に関する情報
  • airports: 空港名と場所
  • airlines: 二文字のキャリアコードと名称の対応表

他にも以下のようなパッケージがあるので興味があれば参照のこと:

  • nycflights 昨年のニューヨーク発の航空便データ
  • anyflights あらゆる年度・出発地の航空便データ
  • airlines 全航空便データを収めたローカルSQLデータベースを構築する

パッケージをインストール

install.packages("nycflights13")

パッケージをロード

library(tidyverse)
library(nycflights13)

flights データ

2013年における全てのニューヨーク(JFK, LGA および EWR)出発便の定時運行データ

# 10行のみ表示
flights %>% head(10) %>% knitr::kable()
yearmonthdaydep_timesched_dep_timedep_delayarr_timesched_arr_timearr_delaycarrierflighttailnumorigindestair_timedistancehourminutetime_hour
201311517515283081911UA1545N14228EWRIAH22714005152013-01-01 05:00:00
201311533529485083020UA1714N24211LGAIAH22714165292013-01-01 05:00:00
201311542540292385033AA1141N619AAJFKMIA16010895402013-01-01 05:00:00
201311544545-110041022-18B6725N804JBJFKBQN18315765452013-01-01 05:00:00
201311554600-6812837-25DL461N668DNLGAATL116762602013-01-01 06:00:00
201311554558-474072812UA1696N39463EWRORD1507195582013-01-01 05:00:00
201311555600-591385419B6507N516JBEWRFLL1581065602013-01-01 06:00:00
201311557600-3709723-14EV5708N829ASLGAIAD53229602013-01-01 06:00:00
201311557600-3838846-8B679N593JBJFKMCO140944602013-01-01 06:00:00
201311558600-27537458AA301N3ALAALGAORD138733602013-01-01 06:00:00

flights データの構造

flights は 336,776 行 x 19 列 のデータフレーム(tibble)。

class(flights)
## [1] "tbl_df"     "tbl"        "data.frame"
dim(flights)
## [1] 336776     19
tibble::glimpse(flights)
## Rows: 336,776
## Columns: 19
## $ year           <int> 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, …
## $ month          <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, …
## $ day            <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, …
## $ dep_time       <int> 517, 533, 542, 544, 554, 554, 555, 557, 557, 558, 558,…
## $ sched_dep_time <int> 515, 529, 540, 545, 600, 558, 600, 600, 600, 600, 600,…
## $ dep_delay      <dbl> 2, 4, 2, -1, -6, -4, -5, -3, -3, -2, -2, -2, -2, -2, -…
## $ arr_time       <int> 830, 850, 923, 1004, 812, 740, 913, 709, 838, 753, 849…
## $ sched_arr_time <int> 819, 830, 850, 1022, 837, 728, 854, 723, 846, 745, 851…
## $ arr_delay      <dbl> 11, 20, 33, -18, -25, 12, 19, -14, -8, 8, -2, -3, 7, -…
## $ carrier        <chr> "UA", "UA", "AA", "B6", "DL", "UA", "B6", "EV", "B6", …
## $ flight         <int> 1545, 1714, 1141, 725, 461, 1696, 507, 5708, 79, 301, …
## $ tailnum        <chr> "N14228", "N24211", "N619AA", "N804JB", "N668DN", "N39…
## $ origin         <chr> "EWR", "LGA", "JFK", "JFK", "LGA", "EWR", "EWR", "LGA"…
## $ dest           <chr> "IAH", "IAH", "MIA", "BQN", "ATL", "ORD", "FLL", "IAD"…
## $ air_time       <dbl> 227, 227, 160, 183, 116, 150, 158, 53, 140, 138, 149, …
## $ distance       <dbl> 1400, 1416, 1089, 1576, 762, 719, 1065, 229, 944, 733,…
## $ hour           <dbl> 5, 5, 5, 5, 6, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 5, 6, 6, …
## $ minute         <dbl> 15, 29, 40, 45, 0, 58, 0, 0, 0, 0, 0, 0, 0, 0, 0, 59, …
## $ time_hour      <dttm> 2013-01-01 05:00:00, 2013-01-01 05:00:00, 2013-01-01 …

flights データのソース

RITA, Bureau of transportation statistics, https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236

flights データ各列の意味

  • year, month, day
    • 出発の日付。
  • dep_time, arr_time
    • 実際の出発・到着時間 (HHMM または HMM 形式)。現地時間。
  • sched_dep_time, sched_arr_time
    • 予定出発時刻と予定到着時刻 (HHMM または HMM 形式)。現地時間。
  • dep_delay, arr_delay
    • 出発・到着の遅延時間(分単位)。負の値は出発・到着の前倒しを表す。
  • carrier
    • 二文字の航空会社コード。会社名を取得したい場合は airlines を見よ。
  • flight
    • 便名(flight number)。
  • tailnum
    • 機体記号 (tail number)。その他の追加情報については planes を見よ。
  • origin, dest
    • 出発地と目的地。その他の追加情報については airports を見よ。
  • air_time
    • 飛行時間(分単位)。
  • distance
    • 空港間の距離(マイル単位)。
  • hour, minute
    • 予定出発時刻を時・分に分解したもの。
  • time_hour
    • POSIXct型で表した予定出発日時。originweather データとの結合に使用できる。

weather データ

LGA, JFK および EWR の毎時気象データ

# 10行のみ表示
weather %>% head(10) %>% knitr::kable()
originyearmonthdayhourtempdewphumidwind_dirwind_speedwind_gustprecippressurevisibtime_hour
EWR201311139.0226.0659.3727010.35702NA01012.0102013-01-01 01:00:00
EWR201311239.0226.9661.632508.05546NA01012.3102013-01-01 02:00:00
EWR201311339.0228.0464.4324011.50780NA01012.5102013-01-01 03:00:00
EWR201311439.9228.0462.2125012.65858NA01012.2102013-01-01 04:00:00
EWR201311539.0228.0464.4326012.65858NA01011.9102013-01-01 05:00:00
EWR201311637.9428.0467.2124011.50780NA01012.4102013-01-01 06:00:00
EWR201311739.0228.0464.4324014.96014NA01012.2102013-01-01 07:00:00
EWR201311839.9228.0462.2125010.35702NA01012.2102013-01-01 08:00:00
EWR201311939.9228.0462.2126014.96014NA01012.7102013-01-01 09:00:00
EWR2013111041.0028.0459.6526013.80936NA01012.4102013-01-01 10:00:00

weather データの構造

weather は 26,115行 x 15列 のデータフレーム(tibble)。

class(weather)
## [1] "tbl_df"     "tbl"        "data.frame"
dim(weather)
## [1] 26115    15
tibble::glimpse(weather)
## Rows: 26,115
## Columns: 15
## $ origin     <chr> "EWR", "EWR", "EWR", "EWR", "EWR", "EWR", "EWR", "EWR", "E…
## $ year       <int> 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013…
## $ month      <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1…
## $ day        <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1…
## $ hour       <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 13, 14, 15, 16, 17, 18,…
## $ temp       <dbl> 39.02, 39.02, 39.02, 39.92, 39.02, 37.94, 39.02, 39.92, 39…
## $ dewp       <dbl> 26.06, 26.96, 28.04, 28.04, 28.04, 28.04, 28.04, 28.04, 28…
## $ humid      <dbl> 59.37, 61.63, 64.43, 62.21, 64.43, 67.21, 64.43, 62.21, 62…
## $ wind_dir   <dbl> 270, 250, 240, 250, 260, 240, 240, 250, 260, 260, 260, 330…
## $ wind_speed <dbl> 10.35702, 8.05546, 11.50780, 12.65858, 12.65858, 11.50780,…
## $ wind_gust  <dbl> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, 20…
## $ precip     <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0…
## $ pressure   <dbl> 1012.0, 1012.3, 1012.5, 1012.2, 1011.9, 1012.4, 1012.2, 10…
## $ visib      <dbl> 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10…
## $ time_hour  <dttm> 2013-01-01 01:00:00, 2013-01-01 02:00:00, 2013-01-01 03:0…

weather データ各列の意味

  • origin
    • 気象観測機。flights データと結合しやすいように列名を origin としている。
  • year, month, day, hour
    • 観測時刻
  • temp, dewp
    • 気温 (temperature) と露点 (dewpoint)。単位は華氏温度(°F)。
  • humid
    • 相対湿度 (humidity)。
  • wind_dir, wind_speed, wind_gust
    • 風向(度)、風速(マイル毎時)および最大瞬間風速(マイル毎時)
  • precip
    • 降水量(インチ)
  • pressure
    • 海面気圧(ミリバール)
  • visib
    • 視程(マイル)
  • time_hour
    • POSIXct型の日時

weather データのソース

ASOS download from Iowa Environmental Mesonet, https://mesonet.agron.iastate.edu/request/download.phtml


planes データ

FAA aircraft registry にある全機体機号についての情報。American Airways (AA) および Envoy Air (MQ) については機体記号ではなく fleet number が与えられているため照合できない。

# 10行のみ表示
planes %>% head(10) %>% knitr::kable()
tailnumyeartypemanufacturermodelenginesseatsspeedengine
N101562004Fixed wing multi engineEMBRAEREMB-145XR255NATurbo-fan
N102UW1998Fixed wing multi engineAIRBUS INDUSTRIEA320-2142182NATurbo-fan
N103US1999Fixed wing multi engineAIRBUS INDUSTRIEA320-2142182NATurbo-fan
N104UW1999Fixed wing multi engineAIRBUS INDUSTRIEA320-2142182NATurbo-fan
N105752002Fixed wing multi engineEMBRAEREMB-145LR255NATurbo-fan
N105UW1999Fixed wing multi engineAIRBUS INDUSTRIEA320-2142182NATurbo-fan
N107US1999Fixed wing multi engineAIRBUS INDUSTRIEA320-2142182NATurbo-fan
N108UW1999Fixed wing multi engineAIRBUS INDUSTRIEA320-2142182NATurbo-fan
N109UW1999Fixed wing multi engineAIRBUS INDUSTRIEA320-2142182NATurbo-fan
N110UW1999Fixed wing multi engineAIRBUS INDUSTRIEA320-2142182NATurbo-fan

planes データの構造

class(planes)
## [1] "tbl_df"     "tbl"        "data.frame"
dim(planes)
## [1] 3322    9
tibble::glimpse(planes)
## Rows: 3,322
## Columns: 9
## $ tailnum      <chr> "N10156", "N102UW", "N103US", "N104UW", "N10575", "N105U…
## $ year         <int> 2004, 1998, 1999, 1999, 2002, 1999, 1999, 1999, 1999, 19…
## $ type         <chr> "Fixed wing multi engine", "Fixed wing multi engine", "F…
## $ manufacturer <chr> "EMBRAER", "AIRBUS INDUSTRIE", "AIRBUS INDUSTRIE", "AIRB…
## $ model        <chr> "EMB-145XR", "A320-214", "A320-214", "A320-214", "EMB-14…
## $ engines      <int> 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,…
## $ seats        <int> 55, 182, 182, 182, 55, 182, 182, 182, 182, 182, 55, 55, …
## $ speed        <int> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, …
## $ engine       <chr> "Turbo-fan", "Turbo-fan", "Turbo-fan", "Turbo-fan", "Tur…

planes は 3,322 行 x 9 列のデータフレーム(tibble)。

planes データ各列の意味

  • tailnum
    • 機体記号
  • year
    • 製造年
  • type
    • 航空機の種類
  • manufacturer, model
    • 製造者とモデル
  • engines, seats
    • エンジン数と座席数
  • speed
    • 平均航行速度(マイル毎時)
  • engine
    • エンジンの種類

planes データのソース

FAA Aircraft registry, http://www.faa.gov/licenses_certificates/aircraft_certification/aircraft_registry/releasable_aircraft_download/


airports データ

空港に関するメタ情報

# 10行のみ表示
airports %>% head(10) %>% knitr::kable()
faanamelatlonalttzdsttzone
04GLansdowne Airport41.13047-80.619581044-5AAmerica/New_York
06AMoton Field Municipal Airport32.46057-85.68003264-6AAmerica/Chicago
06CSchaumburg Regional41.98934-88.10124801-6AAmerica/Chicago
06NRandall Airport41.43191-74.39156523-5AAmerica/New_York
09JJekyll Island Airport31.07447-81.4277811-5AAmerica/New_York
0A9Elizabethton Municipal Airport36.37122-82.173421593-5AAmerica/New_York
0G6Williams County Airport41.46731-84.50678730-5AAmerica/New_York
0G7Finger Lakes Regional Airport42.88356-76.78123492-5AAmerica/New_York
0P2Shoestring Aviation Airfield39.79482-76.647191000-5UAmerica/New_York
0S9Jefferson County Intl48.05381-122.81064108-8AAmerica/Los_Angeles

airports データの構造

airports は 1,458 行 x 8 列のデータフレーム(tibble)

class(airports)
## [1] "tbl_df"     "tbl"        "data.frame"
dim(airports)
## [1] 1458    8
tibble::glimpse(airports)
## Rows: 1,458
## Columns: 8
## $ faa   <chr> "04G", "06A", "06C", "06N", "09J", "0A9", "0G6", "0G7", "0P2", …
## $ name  <chr> "Lansdowne Airport", "Moton Field Municipal Airport", "Schaumbu…
## $ lat   <dbl> 41.13047, 32.46057, 41.98934, 41.43191, 31.07447, 36.37122, 41.…
## $ lon   <dbl> -80.61958, -85.68003, -88.10124, -74.39156, -81.42778, -82.1734…
## $ alt   <dbl> 1044, 264, 801, 523, 11, 1593, 730, 492, 1000, 108, 409, 875, 1…
## $ tz    <dbl> -5, -6, -6, -5, -5, -5, -5, -5, -5, -8, -5, -6, -5, -5, -5, -5,…
## $ dst   <chr> "A", "A", "A", "A", "A", "A", "A", "A", "U", "A", "A", "U", "A"…
## $ tzone <chr> "America/New_York", "America/Chicago", "America/Chicago", "Amer…

airports データ各列の意味

  • faa
    • FAA (米連邦航空局) 空港コード
  • name
    • 空港の通称
  • lat, lon
    • 空港の位置。緯度 (latitude) と経度 (longitude)。
  • alt
    • 標高(フィート単位)
  • tz
    • GMTからの現地タイムゾーンのオフセット
  • dst
    • 夏時間タイムゾーン。A = 標準米国夏時間: 3月の第2日曜から11月の第1日曜まで。 U = 不明。N = 夏時間なし。
  • tzone
    • GeoNames ウェブサービスから取得した IANA タイムゾーン。

airports データのソース

http://openflights.org/data.html, 2014-06-27 ダウンロード


airlines データ

航空会社名と航空会社コードとの対応表

airlines %>% head(10) %>% knitr::kable()
carriername
9EEndeavor Air Inc.
AAAmerican Airlines Inc.
ASAlaska Airlines Inc.
B6JetBlue Airways
DLDelta Air Lines Inc.
EVExpressJet Airlines Inc.
F9Frontier Airlines Inc.
FLAirTran Airways Corporation
HAHawaiian Airlines Inc.
MQEnvoy Air

airlines データの構造

airlines は 16 行 x 2 列のデータフレーム(tibble)。

class(airlines)
## [1] "tbl_df"     "tbl"        "data.frame"
dim(airlines)
## [1] 16  2
tibble::glimpse(airlines)
## Rows: 16
## Columns: 2
## $ carrier <chr> "9E", "AA", "AS", "B6", "DL", "EV", "F9", "FL", "HA", "MQ", "…
## $ name    <chr> "Endeavor Air Inc.", "American Airlines Inc.", "Alaska Airlin…

airlines データ各列の意味

  • carrier
    • 2文字の航空会社コード
  • name
    • 航空会社の名称

airlines データのソース

https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236