nycflights13 とは、2013年のニューヨーク市発の航空便に関するデータセットを収めたRパッケージです。このデータの構造や出典、各列の意味に関してヘルプに記載された内容を和訳しておきます。
パッケージの概要
ニューヨーク市 (EWR, JFK, LGA などの空港) を出発地とし、米国、プエルトリコ、およびアメリカ領バージン諸島を目的地とする 2013年のすべての航空便(合計336,776便)に関するデータを収録したパッケージ。
他にも遅延の原因を探るのに有用なデータセットがいくつか用意されている。
このパッケージに含まれるデータテーブルは以下の通り:
flights
: 2013年におけるすべてのニューヨーク発の航空便weather
: 各空港における毎時気象データplanes
: 各航空機の機体に関する情報airports
: 空港名と場所airlines
: 二文字のキャリアコードと名称の対応表
他にも以下のようなパッケージがあるので興味があれば参照のこと:
- nycflights 昨年のニューヨーク発の航空便データ
- anyflights あらゆる年度・出発地の航空便データ
- airlines 全航空便データを収めたローカルSQLデータベースを構築する
パッケージをインストール
install.packages("nycflights13")
パッケージをロード
library(tidyverse)
library(nycflights13)
flights データ
2013年における全てのニューヨーク(JFK, LGA および EWR)出発便の定時運行データ
# 10行のみ表示
flights %>% head(10) %>% knitr::kable()
year | month | day | dep_time | sched_dep_time | dep_delay | arr_time | sched_arr_time | arr_delay | carrier | flight | tailnum | origin | dest | air_time | distance | hour | minute | time_hour |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2013 | 1 | 1 | 517 | 515 | 2 | 830 | 819 | 11 | UA | 1545 | N14228 | EWR | IAH | 227 | 1400 | 5 | 15 | 2013-01-01 05:00:00 |
2013 | 1 | 1 | 533 | 529 | 4 | 850 | 830 | 20 | UA | 1714 | N24211 | LGA | IAH | 227 | 1416 | 5 | 29 | 2013-01-01 05:00:00 |
2013 | 1 | 1 | 542 | 540 | 2 | 923 | 850 | 33 | AA | 1141 | N619AA | JFK | MIA | 160 | 1089 | 5 | 40 | 2013-01-01 05:00:00 |
2013 | 1 | 1 | 544 | 545 | -1 | 1004 | 1022 | -18 | B6 | 725 | N804JB | JFK | BQN | 183 | 1576 | 5 | 45 | 2013-01-01 05:00:00 |
2013 | 1 | 1 | 554 | 600 | -6 | 812 | 837 | -25 | DL | 461 | N668DN | LGA | ATL | 116 | 762 | 6 | 0 | 2013-01-01 06:00:00 |
2013 | 1 | 1 | 554 | 558 | -4 | 740 | 728 | 12 | UA | 1696 | N39463 | EWR | ORD | 150 | 719 | 5 | 58 | 2013-01-01 05:00:00 |
2013 | 1 | 1 | 555 | 600 | -5 | 913 | 854 | 19 | B6 | 507 | N516JB | EWR | FLL | 158 | 1065 | 6 | 0 | 2013-01-01 06:00:00 |
2013 | 1 | 1 | 557 | 600 | -3 | 709 | 723 | -14 | EV | 5708 | N829AS | LGA | IAD | 53 | 229 | 6 | 0 | 2013-01-01 06:00:00 |
2013 | 1 | 1 | 557 | 600 | -3 | 838 | 846 | -8 | B6 | 79 | N593JB | JFK | MCO | 140 | 944 | 6 | 0 | 2013-01-01 06:00:00 |
2013 | 1 | 1 | 558 | 600 | -2 | 753 | 745 | 8 | AA | 301 | N3ALAA | LGA | ORD | 138 | 733 | 6 | 0 | 2013-01-01 06:00:00 |
flights データの構造
flights
は 336,776 行 x 19 列 のデータフレーム(tibble)。
class(flights)
## [1] "tbl_df" "tbl" "data.frame"
dim(flights)
## [1] 336776 19
tibble::glimpse(flights)
## Rows: 336,776
## Columns: 19
## $ year <int> 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, …
## $ month <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, …
## $ day <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, …
## $ dep_time <int> 517, 533, 542, 544, 554, 554, 555, 557, 557, 558, 558,…
## $ sched_dep_time <int> 515, 529, 540, 545, 600, 558, 600, 600, 600, 600, 600,…
## $ dep_delay <dbl> 2, 4, 2, -1, -6, -4, -5, -3, -3, -2, -2, -2, -2, -2, -…
## $ arr_time <int> 830, 850, 923, 1004, 812, 740, 913, 709, 838, 753, 849…
## $ sched_arr_time <int> 819, 830, 850, 1022, 837, 728, 854, 723, 846, 745, 851…
## $ arr_delay <dbl> 11, 20, 33, -18, -25, 12, 19, -14, -8, 8, -2, -3, 7, -…
## $ carrier <chr> "UA", "UA", "AA", "B6", "DL", "UA", "B6", "EV", "B6", …
## $ flight <int> 1545, 1714, 1141, 725, 461, 1696, 507, 5708, 79, 301, …
## $ tailnum <chr> "N14228", "N24211", "N619AA", "N804JB", "N668DN", "N39…
## $ origin <chr> "EWR", "LGA", "JFK", "JFK", "LGA", "EWR", "EWR", "LGA"…
## $ dest <chr> "IAH", "IAH", "MIA", "BQN", "ATL", "ORD", "FLL", "IAD"…
## $ air_time <dbl> 227, 227, 160, 183, 116, 150, 158, 53, 140, 138, 149, …
## $ distance <dbl> 1400, 1416, 1089, 1576, 762, 719, 1065, 229, 944, 733,…
## $ hour <dbl> 5, 5, 5, 5, 6, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 5, 6, 6, …
## $ minute <dbl> 15, 29, 40, 45, 0, 58, 0, 0, 0, 0, 0, 0, 0, 0, 0, 59, …
## $ time_hour <dttm> 2013-01-01 05:00:00, 2013-01-01 05:00:00, 2013-01-01 …
flights データのソース
RITA, Bureau of transportation statistics, https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236
flights データ各列の意味
year
,month
,day
- 出発の日付。
dep_time
,arr_time
- 実際の出発・到着時間 (HHMM または HMM 形式)。現地時間。
sched_dep_time
,sched_arr_time
- 予定出発時刻と予定到着時刻 (HHMM または HMM 形式)。現地時間。
dep_delay
,arr_delay
- 出発・到着の遅延時間(分単位)。負の値は出発・到着の前倒しを表す。
carrier
- 二文字の航空会社コード。会社名を取得したい場合は
airlines
を見よ。
- 二文字の航空会社コード。会社名を取得したい場合は
flight
- 便名(flight number)。
tailnum
- 機体記号 (tail number)。その他の追加情報については
planes
を見よ。
- 機体記号 (tail number)。その他の追加情報については
origin
,dest
- 出発地と目的地。その他の追加情報については
airports
を見よ。
- 出発地と目的地。その他の追加情報については
air_time
- 飛行時間(分単位)。
distance
- 空港間の距離(マイル単位)。
hour
,minute
- 予定出発時刻を時・分に分解したもの。
time_hour
- POSIXct型で表した予定出発日時。
origin
やweather
データとの結合に使用できる。
- POSIXct型で表した予定出発日時。
weather データ
LGA, JFK および EWR の毎時気象データ
# 10行のみ表示
weather %>% head(10) %>% knitr::kable()
origin | year | month | day | hour | temp | dewp | humid | wind_dir | wind_speed | wind_gust | precip | pressure | visib | time_hour |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
EWR | 2013 | 1 | 1 | 1 | 39.02 | 26.06 | 59.37 | 270 | 10.35702 | NA | 0 | 1012.0 | 10 | 2013-01-01 01:00:00 |
EWR | 2013 | 1 | 1 | 2 | 39.02 | 26.96 | 61.63 | 250 | 8.05546 | NA | 0 | 1012.3 | 10 | 2013-01-01 02:00:00 |
EWR | 2013 | 1 | 1 | 3 | 39.02 | 28.04 | 64.43 | 240 | 11.50780 | NA | 0 | 1012.5 | 10 | 2013-01-01 03:00:00 |
EWR | 2013 | 1 | 1 | 4 | 39.92 | 28.04 | 62.21 | 250 | 12.65858 | NA | 0 | 1012.2 | 10 | 2013-01-01 04:00:00 |
EWR | 2013 | 1 | 1 | 5 | 39.02 | 28.04 | 64.43 | 260 | 12.65858 | NA | 0 | 1011.9 | 10 | 2013-01-01 05:00:00 |
EWR | 2013 | 1 | 1 | 6 | 37.94 | 28.04 | 67.21 | 240 | 11.50780 | NA | 0 | 1012.4 | 10 | 2013-01-01 06:00:00 |
EWR | 2013 | 1 | 1 | 7 | 39.02 | 28.04 | 64.43 | 240 | 14.96014 | NA | 0 | 1012.2 | 10 | 2013-01-01 07:00:00 |
EWR | 2013 | 1 | 1 | 8 | 39.92 | 28.04 | 62.21 | 250 | 10.35702 | NA | 0 | 1012.2 | 10 | 2013-01-01 08:00:00 |
EWR | 2013 | 1 | 1 | 9 | 39.92 | 28.04 | 62.21 | 260 | 14.96014 | NA | 0 | 1012.7 | 10 | 2013-01-01 09:00:00 |
EWR | 2013 | 1 | 1 | 10 | 41.00 | 28.04 | 59.65 | 260 | 13.80936 | NA | 0 | 1012.4 | 10 | 2013-01-01 10:00:00 |
weather データの構造
weather
は 26,115行 x 15列 のデータフレーム(tibble)。
class(weather)
## [1] "tbl_df" "tbl" "data.frame"
dim(weather)
## [1] 26115 15
tibble::glimpse(weather)
## Rows: 26,115
## Columns: 15
## $ origin <chr> "EWR", "EWR", "EWR", "EWR", "EWR", "EWR", "EWR", "EWR", "E…
## $ year <int> 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013…
## $ month <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1…
## $ day <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1…
## $ hour <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 13, 14, 15, 16, 17, 18,…
## $ temp <dbl> 39.02, 39.02, 39.02, 39.92, 39.02, 37.94, 39.02, 39.92, 39…
## $ dewp <dbl> 26.06, 26.96, 28.04, 28.04, 28.04, 28.04, 28.04, 28.04, 28…
## $ humid <dbl> 59.37, 61.63, 64.43, 62.21, 64.43, 67.21, 64.43, 62.21, 62…
## $ wind_dir <dbl> 270, 250, 240, 250, 260, 240, 240, 250, 260, 260, 260, 330…
## $ wind_speed <dbl> 10.35702, 8.05546, 11.50780, 12.65858, 12.65858, 11.50780,…
## $ wind_gust <dbl> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, 20…
## $ precip <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0…
## $ pressure <dbl> 1012.0, 1012.3, 1012.5, 1012.2, 1011.9, 1012.4, 1012.2, 10…
## $ visib <dbl> 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10…
## $ time_hour <dttm> 2013-01-01 01:00:00, 2013-01-01 02:00:00, 2013-01-01 03:0…
weather データ各列の意味
origin
- 気象観測機。
flights
データと結合しやすいように列名をorigin
としている。
- 気象観測機。
year, month, day, hour
- 観測時刻
temp
,dewp
- 気温 (temperature) と露点 (dewpoint)。単位は華氏温度(°F)。
humid
- 相対湿度 (humidity)。
wind_dir
,wind_speed
,wind_gust
- 風向(度)、風速(マイル毎時)および最大瞬間風速(マイル毎時)
precip
- 降水量(インチ)
pressure
- 海面気圧(ミリバール)
visib
- 視程(マイル)
time_hour
- POSIXct型の日時
weather データのソース
ASOS download from Iowa Environmental Mesonet, https://mesonet.agron.iastate.edu/request/download.phtml
planes データ
FAA aircraft registry にある全機体機号についての情報。American Airways (AA) および Envoy Air (MQ) については機体記号ではなく fleet number が与えられているため照合できない。
# 10行のみ表示
planes %>% head(10) %>% knitr::kable()
tailnum | year | type | manufacturer | model | engines | seats | speed | engine |
---|---|---|---|---|---|---|---|---|
N10156 | 2004 | Fixed wing multi engine | EMBRAER | EMB-145XR | 2 | 55 | NA | Turbo-fan |
N102UW | 1998 | Fixed wing multi engine | AIRBUS INDUSTRIE | A320-214 | 2 | 182 | NA | Turbo-fan |
N103US | 1999 | Fixed wing multi engine | AIRBUS INDUSTRIE | A320-214 | 2 | 182 | NA | Turbo-fan |
N104UW | 1999 | Fixed wing multi engine | AIRBUS INDUSTRIE | A320-214 | 2 | 182 | NA | Turbo-fan |
N10575 | 2002 | Fixed wing multi engine | EMBRAER | EMB-145LR | 2 | 55 | NA | Turbo-fan |
N105UW | 1999 | Fixed wing multi engine | AIRBUS INDUSTRIE | A320-214 | 2 | 182 | NA | Turbo-fan |
N107US | 1999 | Fixed wing multi engine | AIRBUS INDUSTRIE | A320-214 | 2 | 182 | NA | Turbo-fan |
N108UW | 1999 | Fixed wing multi engine | AIRBUS INDUSTRIE | A320-214 | 2 | 182 | NA | Turbo-fan |
N109UW | 1999 | Fixed wing multi engine | AIRBUS INDUSTRIE | A320-214 | 2 | 182 | NA | Turbo-fan |
N110UW | 1999 | Fixed wing multi engine | AIRBUS INDUSTRIE | A320-214 | 2 | 182 | NA | Turbo-fan |
planes データの構造
class(planes)
## [1] "tbl_df" "tbl" "data.frame"
dim(planes)
## [1] 3322 9
tibble::glimpse(planes)
## Rows: 3,322
## Columns: 9
## $ tailnum <chr> "N10156", "N102UW", "N103US", "N104UW", "N10575", "N105U…
## $ year <int> 2004, 1998, 1999, 1999, 2002, 1999, 1999, 1999, 1999, 19…
## $ type <chr> "Fixed wing multi engine", "Fixed wing multi engine", "F…
## $ manufacturer <chr> "EMBRAER", "AIRBUS INDUSTRIE", "AIRBUS INDUSTRIE", "AIRB…
## $ model <chr> "EMB-145XR", "A320-214", "A320-214", "A320-214", "EMB-14…
## $ engines <int> 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,…
## $ seats <int> 55, 182, 182, 182, 55, 182, 182, 182, 182, 182, 55, 55, …
## $ speed <int> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, …
## $ engine <chr> "Turbo-fan", "Turbo-fan", "Turbo-fan", "Turbo-fan", "Tur…
planes
は 3,322 行 x 9 列のデータフレーム(tibble)。
planes データ各列の意味
tailnum
- 機体記号
year
- 製造年
type
- 航空機の種類
manufacturer
,model
- 製造者とモデル
engines
,seats
- エンジン数と座席数
speed
- 平均航行速度(マイル毎時)
engine
- エンジンの種類
planes データのソース
FAA Aircraft registry, http://www.faa.gov/licenses_certificates/aircraft_certification/aircraft_registry/releasable_aircraft_download/
airports データ
空港に関するメタ情報
# 10行のみ表示
airports %>% head(10) %>% knitr::kable()
faa | name | lat | lon | alt | tz | dst | tzone |
---|---|---|---|---|---|---|---|
04G | Lansdowne Airport | 41.13047 | -80.61958 | 1044 | -5 | A | America/New_York |
06A | Moton Field Municipal Airport | 32.46057 | -85.68003 | 264 | -6 | A | America/Chicago |
06C | Schaumburg Regional | 41.98934 | -88.10124 | 801 | -6 | A | America/Chicago |
06N | Randall Airport | 41.43191 | -74.39156 | 523 | -5 | A | America/New_York |
09J | Jekyll Island Airport | 31.07447 | -81.42778 | 11 | -5 | A | America/New_York |
0A9 | Elizabethton Municipal Airport | 36.37122 | -82.17342 | 1593 | -5 | A | America/New_York |
0G6 | Williams County Airport | 41.46731 | -84.50678 | 730 | -5 | A | America/New_York |
0G7 | Finger Lakes Regional Airport | 42.88356 | -76.78123 | 492 | -5 | A | America/New_York |
0P2 | Shoestring Aviation Airfield | 39.79482 | -76.64719 | 1000 | -5 | U | America/New_York |
0S9 | Jefferson County Intl | 48.05381 | -122.81064 | 108 | -8 | A | America/Los_Angeles |
airports データの構造
airports
は 1,458 行 x 8 列のデータフレーム(tibble)
class(airports)
## [1] "tbl_df" "tbl" "data.frame"
dim(airports)
## [1] 1458 8
tibble::glimpse(airports)
## Rows: 1,458
## Columns: 8
## $ faa <chr> "04G", "06A", "06C", "06N", "09J", "0A9", "0G6", "0G7", "0P2", …
## $ name <chr> "Lansdowne Airport", "Moton Field Municipal Airport", "Schaumbu…
## $ lat <dbl> 41.13047, 32.46057, 41.98934, 41.43191, 31.07447, 36.37122, 41.…
## $ lon <dbl> -80.61958, -85.68003, -88.10124, -74.39156, -81.42778, -82.1734…
## $ alt <dbl> 1044, 264, 801, 523, 11, 1593, 730, 492, 1000, 108, 409, 875, 1…
## $ tz <dbl> -5, -6, -6, -5, -5, -5, -5, -5, -5, -8, -5, -6, -5, -5, -5, -5,…
## $ dst <chr> "A", "A", "A", "A", "A", "A", "A", "A", "U", "A", "A", "U", "A"…
## $ tzone <chr> "America/New_York", "America/Chicago", "America/Chicago", "Amer…
airports データ各列の意味
faa
- FAA (米連邦航空局) 空港コード
name
- 空港の通称
lat
,lon
- 空港の位置。緯度 (latitude) と経度 (longitude)。
alt
- 標高(フィート単位)
tz
- GMTからの現地タイムゾーンのオフセット
dst
- 夏時間タイムゾーン。A = 標準米国夏時間: 3月の第2日曜から11月の第1日曜まで。 U = 不明。N = 夏時間なし。
tzone
- GeoNames ウェブサービスから取得した IANA タイムゾーン。
airports データのソース
http://openflights.org/data.html, 2014-06-27 ダウンロード
airlines データ
航空会社名と航空会社コードとの対応表
airlines %>% head(10) %>% knitr::kable()
carrier | name |
---|---|
9E | Endeavor Air Inc. |
AA | American Airlines Inc. |
AS | Alaska Airlines Inc. |
B6 | JetBlue Airways |
DL | Delta Air Lines Inc. |
EV | ExpressJet Airlines Inc. |
F9 | Frontier Airlines Inc. |
FL | AirTran Airways Corporation |
HA | Hawaiian Airlines Inc. |
MQ | Envoy Air |
airlines データの構造
airlines
は 16 行 x 2 列のデータフレーム(tibble)。
class(airlines)
## [1] "tbl_df" "tbl" "data.frame"
dim(airlines)
## [1] 16 2
tibble::glimpse(airlines)
## Rows: 16
## Columns: 2
## $ carrier <chr> "9E", "AA", "AS", "B6", "DL", "EV", "F9", "FL", "HA", "MQ", "…
## $ name <chr> "Endeavor Air Inc.", "American Airlines Inc.", "Alaska Airlin…
airlines データ各列の意味
carrier
- 2文字の航空会社コード
name
- 航空会社の名称
airlines データのソース
https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236