航空便情報サンプルデータセット nycflights13 パッケージについて

nycflights13 とは、2013年のニューヨーク市発の航空便に関するデータセットを収めたRパッケージです。このデータの構造や出典、各列の意味に関してヘルプに記載された内容を和訳しておきます。。


パッケージの概要

ニューヨーク市 (EWR, JFK, LGA などの空港) を出発地とし、米国、プエルトリコ、およびアメリカ領バージン諸島を目的地とする 2013年のすべての航空便(合計336,776便)に関するデータを収録したパッケージ。

他にも遅延の原因を探るのに有用なデータセットがいくつか用意されている。

このパッケージに含まれるデータテーブルは以下の通り:

  • flights: 2013年におけるすべてのニューヨーク発の航空便
  • weather: 各空港における毎時気象データ
  • planes: 各航空機の機体に関する情報
  • airports: 空港名と場所
  • airlines: 二文字のキャリアコードと名称の対応表

他にも以下のようなパッケージがあるので興味があれば参照のこと:

  • nycflights 昨年のニューヨーク発の航空便データ
  • anyflights あらゆる年度・出発地の航空便データ
  • airlines 全航空便データを収めたローカルSQLデータベースを構築する

パッケージをインストール

install.packages("nycflights13")

パッケージをロード

library(tidyverse)
library(nycflights13)

flights データ

2013年における全てのニューヨーク(JFK, LGA および EWR)出発便の定時運行データ

# 10行のみ表示
flights %>% head(10) %>% knitr::kable()
year month day dep_time sched_dep_time dep_delay arr_time sched_arr_time arr_delay carrier flight tailnum origin dest air_time distance hour minute time_hour
2013 1 1 517 515 2 830 819 11 UA 1545 N14228 EWR IAH 227 1400 5 15 2013-01-01 05:00:00
2013 1 1 533 529 4 850 830 20 UA 1714 N24211 LGA IAH 227 1416 5 29 2013-01-01 05:00:00
2013 1 1 542 540 2 923 850 33 AA 1141 N619AA JFK MIA 160 1089 5 40 2013-01-01 05:00:00
2013 1 1 544 545 -1 1004 1022 -18 B6 725 N804JB JFK BQN 183 1576 5 45 2013-01-01 05:00:00
2013 1 1 554 600 -6 812 837 -25 DL 461 N668DN LGA ATL 116 762 6 0 2013-01-01 06:00:00
2013 1 1 554 558 -4 740 728 12 UA 1696 N39463 EWR ORD 150 719 5 58 2013-01-01 05:00:00
2013 1 1 555 600 -5 913 854 19 B6 507 N516JB EWR FLL 158 1065 6 0 2013-01-01 06:00:00
2013 1 1 557 600 -3 709 723 -14 EV 5708 N829AS LGA IAD 53 229 6 0 2013-01-01 06:00:00
2013 1 1 557 600 -3 838 846 -8 B6 79 N593JB JFK MCO 140 944 6 0 2013-01-01 06:00:00
2013 1 1 558 600 -2 753 745 8 AA 301 N3ALAA LGA ORD 138 733 6 0 2013-01-01 06:00:00

flights データの構造

flights は 336,776 行 x 19 列 のデータフレーム(tibble)。

class(flights)
## [1] "tbl_df"     "tbl"        "data.frame"
dim(flights)
## [1] 336776     19
tibble::glimpse(flights)
## Rows: 336,776
## Columns: 19
## $ year           <int> 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, …
## $ month          <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, …
## $ day            <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, …
## $ dep_time       <int> 517, 533, 542, 544, 554, 554, 555, 557, 557, 558, 558,…
## $ sched_dep_time <int> 515, 529, 540, 545, 600, 558, 600, 600, 600, 600, 600,…
## $ dep_delay      <dbl> 2, 4, 2, -1, -6, -4, -5, -3, -3, -2, -2, -2, -2, -2, -…
## $ arr_time       <int> 830, 850, 923, 1004, 812, 740, 913, 709, 838, 753, 849…
## $ sched_arr_time <int> 819, 830, 850, 1022, 837, 728, 854, 723, 846, 745, 851…
## $ arr_delay      <dbl> 11, 20, 33, -18, -25, 12, 19, -14, -8, 8, -2, -3, 7, -…
## $ carrier        <chr> "UA", "UA", "AA", "B6", "DL", "UA", "B6", "EV", "B6", …
## $ flight         <int> 1545, 1714, 1141, 725, 461, 1696, 507, 5708, 79, 301, …
## $ tailnum        <chr> "N14228", "N24211", "N619AA", "N804JB", "N668DN", "N39…
## $ origin         <chr> "EWR", "LGA", "JFK", "JFK", "LGA", "EWR", "EWR", "LGA"…
## $ dest           <chr> "IAH", "IAH", "MIA", "BQN", "ATL", "ORD", "FLL", "IAD"…
## $ air_time       <dbl> 227, 227, 160, 183, 116, 150, 158, 53, 140, 138, 149, …
## $ distance       <dbl> 1400, 1416, 1089, 1576, 762, 719, 1065, 229, 944, 733,…
## $ hour           <dbl> 5, 5, 5, 5, 6, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 5, 6, 6, …
## $ minute         <dbl> 15, 29, 40, 45, 0, 58, 0, 0, 0, 0, 0, 0, 0, 0, 0, 59, …
## $ time_hour      <dttm> 2013-01-01 05:00:00, 2013-01-01 05:00:00, 2013-01-01 …

flights データのソース

RITA, Bureau of transportation statistics, https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236

flights データ各列の意味

  • year, month, day
    • 出発の日付。
  • dep_time, arr_time
    • 実際の出発・到着時間 (HHMM または HMM 形式)。現地時間。
  • sched_dep_time, sched_arr_time
    • 予定出発時刻と予定到着時刻 (HHMM または HMM 形式)。現地時間。
  • dep_delay, arr_delay
    • 出発・到着の遅延時間(分単位)。負の値は出発・到着の前倒しを表す。
  • carrier
    • 二文字の航空会社コード。会社名を取得したい場合は airlines を見よ。
  • flight
    • 便名(flight number)。
  • tailnum
    • 機体記号 (tail number)。その他の追加情報については planes を見よ。
  • origin, dest
    • 出発地と目的地。その他の追加情報については airports を見よ。
  • air_time
    • 飛行時間(分単位)。
  • distance
    • 空港間の距離(マイル単位)。
  • hour, minute
    • 予定出発時刻を時・分に分解したもの。
  • time_hour
    • POSIXct型で表した予定出発日時。originweather データとの結合に使用できる。

weather データ

LGA, JFK および EWR の毎時気象データ

# 10行のみ表示
weather %>% head(10) %>% knitr::kable()
origin year month day hour temp dewp humid wind_dir wind_speed wind_gust precip pressure visib time_hour
EWR 2013 1 1 1 39.02 26.06 59.37 270 10.35702 NA 0 1012.0 10 2013-01-01 01:00:00
EWR 2013 1 1 2 39.02 26.96 61.63 250 8.05546 NA 0 1012.3 10 2013-01-01 02:00:00
EWR 2013 1 1 3 39.02 28.04 64.43 240 11.50780 NA 0 1012.5 10 2013-01-01 03:00:00
EWR 2013 1 1 4 39.92 28.04 62.21 250 12.65858 NA 0 1012.2 10 2013-01-01 04:00:00
EWR 2013 1 1 5 39.02 28.04 64.43 260 12.65858 NA 0 1011.9 10 2013-01-01 05:00:00
EWR 2013 1 1 6 37.94 28.04 67.21 240 11.50780 NA 0 1012.4 10 2013-01-01 06:00:00
EWR 2013 1 1 7 39.02 28.04 64.43 240 14.96014 NA 0 1012.2 10 2013-01-01 07:00:00
EWR 2013 1 1 8 39.92 28.04 62.21 250 10.35702 NA 0 1012.2 10 2013-01-01 08:00:00
EWR 2013 1 1 9 39.92 28.04 62.21 260 14.96014 NA 0 1012.7 10 2013-01-01 09:00:00
EWR 2013 1 1 10 41.00 28.04 59.65 260 13.80936 NA 0 1012.4 10 2013-01-01 10:00:00

weather データの構造

weather は 26,115行 x 15列 のデータフレーム(tibble)。

class(weather)
## [1] "tbl_df"     "tbl"        "data.frame"
dim(weather)
## [1] 26115    15
tibble::glimpse(weather)
## Rows: 26,115
## Columns: 15
## $ origin     <chr> "EWR", "EWR", "EWR", "EWR", "EWR", "EWR", "EWR", "EWR", "E…
## $ year       <int> 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013…
## $ month      <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1…
## $ day        <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1…
## $ hour       <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 13, 14, 15, 16, 17, 18,…
## $ temp       <dbl> 39.02, 39.02, 39.02, 39.92, 39.02, 37.94, 39.02, 39.92, 39…
## $ dewp       <dbl> 26.06, 26.96, 28.04, 28.04, 28.04, 28.04, 28.04, 28.04, 28…
## $ humid      <dbl> 59.37, 61.63, 64.43, 62.21, 64.43, 67.21, 64.43, 62.21, 62…
## $ wind_dir   <dbl> 270, 250, 240, 250, 260, 240, 240, 250, 260, 260, 260, 330…
## $ wind_speed <dbl> 10.35702, 8.05546, 11.50780, 12.65858, 12.65858, 11.50780,…
## $ wind_gust  <dbl> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, 20…
## $ precip     <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0…
## $ pressure   <dbl> 1012.0, 1012.3, 1012.5, 1012.2, 1011.9, 1012.4, 1012.2, 10…
## $ visib      <dbl> 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10…
## $ time_hour  <dttm> 2013-01-01 01:00:00, 2013-01-01 02:00:00, 2013-01-01 03:0…

weather データ各列の意味

  • origin
    • 気象観測機。flights データと結合しやすいように列名を origin としている。
  • year, month, day, hour
    • 観測時刻
  • temp, dewp
    • 気温 (temperature) と露点 (dewpoint)。単位は華氏温度(°F)。
  • humid
    • 相対湿度 (humidity)。
  • wind_dir, wind_speed, wind_gust
    • 風向(度)、風速(マイル毎時)および最大瞬間風速(マイル毎時)
  • precip
    • 降水量(インチ)
  • pressure
    • 海面気圧(ミリバール)
  • visib
    • 視程(マイル)
  • time_hour
    • POSIXct型の日時

weather データのソース

ASOS download from Iowa Environmental Mesonet, https://mesonet.agron.iastate.edu/request/download.phtml


planes データ

FAA aircraft registry にある全機体機号についての情報。American Airways (AA) および Envoy Air (MQ) については機体記号ではなく fleet number が与えられているため照合できない。

# 10行のみ表示
planes %>% head(10) %>% knitr::kable()
tailnum year type manufacturer model engines seats speed engine
N10156 2004 Fixed wing multi engine EMBRAER EMB-145XR 2 55 NA Turbo-fan
N102UW 1998 Fixed wing multi engine AIRBUS INDUSTRIE A320-214 2 182 NA Turbo-fan
N103US 1999 Fixed wing multi engine AIRBUS INDUSTRIE A320-214 2 182 NA Turbo-fan
N104UW 1999 Fixed wing multi engine AIRBUS INDUSTRIE A320-214 2 182 NA Turbo-fan
N10575 2002 Fixed wing multi engine EMBRAER EMB-145LR 2 55 NA Turbo-fan
N105UW 1999 Fixed wing multi engine AIRBUS INDUSTRIE A320-214 2 182 NA Turbo-fan
N107US 1999 Fixed wing multi engine AIRBUS INDUSTRIE A320-214 2 182 NA Turbo-fan
N108UW 1999 Fixed wing multi engine AIRBUS INDUSTRIE A320-214 2 182 NA Turbo-fan
N109UW 1999 Fixed wing multi engine AIRBUS INDUSTRIE A320-214 2 182 NA Turbo-fan
N110UW 1999 Fixed wing multi engine AIRBUS INDUSTRIE A320-214 2 182 NA Turbo-fan

planes データの構造

class(planes)
## [1] "tbl_df"     "tbl"        "data.frame"
dim(planes)
## [1] 3322    9
tibble::glimpse(planes)
## Rows: 3,322
## Columns: 9
## $ tailnum      <chr> "N10156", "N102UW", "N103US", "N104UW", "N10575", "N105U…
## $ year         <int> 2004, 1998, 1999, 1999, 2002, 1999, 1999, 1999, 1999, 19…
## $ type         <chr> "Fixed wing multi engine", "Fixed wing multi engine", "F…
## $ manufacturer <chr> "EMBRAER", "AIRBUS INDUSTRIE", "AIRBUS INDUSTRIE", "AIRB…
## $ model        <chr> "EMB-145XR", "A320-214", "A320-214", "A320-214", "EMB-14…
## $ engines      <int> 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,…
## $ seats        <int> 55, 182, 182, 182, 55, 182, 182, 182, 182, 182, 55, 55, …
## $ speed        <int> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, …
## $ engine       <chr> "Turbo-fan", "Turbo-fan", "Turbo-fan", "Turbo-fan", "Tur…

planes は 3,322 行 x 9 列のデータフレーム(tibble)。

planes データ各列の意味

  • tailnum
    • 機体記号
  • year
    • 製造年
  • type
    • 航空機の種類
  • manufacturer, model
    • 製造者とモデル
  • engines, seats
    • エンジン数と座席数
  • speed
    • 平均航行速度(マイル毎時)
  • engine
    • エンジンの種類

planes データのソース

FAA Aircraft registry, http://www.faa.gov/licenses_certificates/aircraft_certification/aircraft_registry/releasable_aircraft_download/


airports データ

空港に関するメタ情報

# 10行のみ表示
airports %>% head(10) %>% knitr::kable()
faa name lat lon alt tz dst tzone
04G Lansdowne Airport 41.13047 -80.61958 1044 -5 A America/New_York
06A Moton Field Municipal Airport 32.46057 -85.68003 264 -6 A America/Chicago
06C Schaumburg Regional 41.98934 -88.10124 801 -6 A America/Chicago
06N Randall Airport 41.43191 -74.39156 523 -5 A America/New_York
09J Jekyll Island Airport 31.07447 -81.42778 11 -5 A America/New_York
0A9 Elizabethton Municipal Airport 36.37122 -82.17342 1593 -5 A America/New_York
0G6 Williams County Airport 41.46731 -84.50678 730 -5 A America/New_York
0G7 Finger Lakes Regional Airport 42.88356 -76.78123 492 -5 A America/New_York
0P2 Shoestring Aviation Airfield 39.79482 -76.64719 1000 -5 U America/New_York
0S9 Jefferson County Intl 48.05381 -122.81064 108 -8 A America/Los_Angeles

airports データの構造

airports は 1,458 行 x 8 列のデータフレーム(tibble)

class(airports)
## [1] "tbl_df"     "tbl"        "data.frame"
dim(airports)
## [1] 1458    8
tibble::glimpse(airports)
## Rows: 1,458
## Columns: 8
## $ faa   <chr> "04G", "06A", "06C", "06N", "09J", "0A9", "0G6", "0G7", "0P2", …
## $ name  <chr> "Lansdowne Airport", "Moton Field Municipal Airport", "Schaumbu…
## $ lat   <dbl> 41.13047, 32.46057, 41.98934, 41.43191, 31.07447, 36.37122, 41.…
## $ lon   <dbl> -80.61958, -85.68003, -88.10124, -74.39156, -81.42778, -82.1734…
## $ alt   <dbl> 1044, 264, 801, 523, 11, 1593, 730, 492, 1000, 108, 409, 875, 1…
## $ tz    <dbl> -5, -6, -6, -5, -5, -5, -5, -5, -5, -8, -5, -6, -5, -5, -5, -5,…
## $ dst   <chr> "A", "A", "A", "A", "A", "A", "A", "A", "U", "A", "A", "U", "A"…
## $ tzone <chr> "America/New_York", "America/Chicago", "America/Chicago", "Amer…

airports データ各列の意味

  • faa
    • FAA (米連邦航空局) 空港コード
  • name
    • 空港の通称
  • lat, lon
    • 空港の位置。緯度 (latitude) と経度 (longitude)。
  • alt
    • 標高(フィート単位)
  • tz
    • GMTからの現地タイムゾーンのオフセット
  • dst
    • 夏時間タイムゾーン。A = 標準米国夏時間: 3月の第2日曜から11月の第1日曜まで。 U = 不明。N = 夏時間なし。
  • tzone
    • GeoNames ウェブサービスから取得した IANA タイムゾーン。

airports データのソース

http://openflights.org/data.html, 2014-06-27 ダウンロード


airlines データ

航空会社名と航空会社コードとの対応表

airlines %>% head(10) %>% knitr::kable()
carrier name
9E Endeavor Air Inc.
AA American Airlines Inc.
AS Alaska Airlines Inc.
B6 JetBlue Airways
DL Delta Air Lines Inc.
EV ExpressJet Airlines Inc.
F9 Frontier Airlines Inc.
FL AirTran Airways Corporation
HA Hawaiian Airlines Inc.
MQ Envoy Air

airlines データの構造

airlines は 16 行 x 2 列のデータフレーム(tibble)。

class(airlines)
## [1] "tbl_df"     "tbl"        "data.frame"
dim(airlines)
## [1] 16  2
tibble::glimpse(airlines)
## Rows: 16
## Columns: 2
## $ carrier <chr> "9E", "AA", "AS", "B6", "DL", "EV", "F9", "FL", "HA", "MQ", "…
## $ name    <chr> "Endeavor Air Inc.", "American Airlines Inc.", "Alaska Airlin…

airlines データ各列の意味

  • carrier
    • 2文字の航空会社コード
  • name
    • 航空会社の名称

airlines データのソース

https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236