Komisja NYC Taxi & Limousine - zielone rekordy przejazdów taksówką

Rekordy dotyczące przejazdów zielonymi taksówkami zawierają pola daty i godziny rozpoczęcia oraz zakończenia kursu, miejsca rozpoczęcia i zakończenia kursu, pokonanej odległości, wyszczególnionych opłat, taryfy, metody płatności oraz liczby pasażerów podanej przez kierowcę.

Uwaga

Firma Microsoft udostępnia zestawy danych Azure Open Datasets w zasadzie "tak jak to jest". Firma Microsoft nie udziela żadnych gwarancji, wyraźnych lub domniemanych, gwarancji ani warunków w odniesieniu do korzystania z zestawów danych. W zakresie dozwolonym na mocy prawa lokalnego firma Microsoft nie ponosi odpowiedzialności za wszelkie szkody lub straty, w tym bezpośrednie, wynikowe, specjalne, pośrednie, przypadkowe lub karne wynikające z korzystania z zestawów danych.

Zestaw danych jest udostępniany zgodnie z pierwotnymi warunkami, na jakich firma Microsoft otrzymała dane źródłowe. Zestaw danych może zawierać dane pozyskane z firmy Microsoft.

Wolumin i przechowywanie

Ten zestaw danych jest przechowywany w formacie Parquet. Łącznie od 2018 r. istnieje około 80 mln wierszy (2 GB).

Ten zestaw danych zawiera historyczne rekordy z lat 2009–2018. Aby pobrać dane z konkretnego przedziału czasowego, należy użyć ustawień parametrów w zestawie SDK.

Lokalizacja magazynu

Ten zestaw danych jest przechowywany w regionie platformy Azure Wschodnie stany USA. Zalecamy przydzielanie zasobów obliczeniowych w regionie Wschodnie stany USA z uwagi na koligację.

Dodatkowe informacje

Komisja ds. taksówek i limuzyn miasta Nowy Jork (TLC):

Dane zostały zebrane i przekazane komisji nowojorskiej Taxi and Limousine Commission (TLC) przez dostawców technologii autoryzowanych w ramach Taxicab & Livery Passenger Enhancement Programs (TPEP/LPEP). Dane dotyczące przejazdów nie zostały utworzone przez TLC i komisja nie gwarantuje rzetelności tych danych.

Wyświetl oryginalną lokalizację zestawu danych i oryginalne warunki użytkowania.

Kolumny

Nazwa Typ danych Unikatowe Wartości (przykład) Opis
doLocationId ciąg 264 74 42 DOLocationID: strefa taksówkowa TLC, w której wyłączono taksometr.
dropoffLatitude double 109,721 40.7743034362793 40.77431869506836 Przestarzałe od lipca 2016
dropoffLongitude double 75,502 -73.95272827148438 -73.95274353027344 Przestarzałe od lipca 2016
Dodatkowych double 202 0.5 1.0 Różne opłaty dodatkowe. Obecnie ta wartość obejmuje tylko opłaty w wysokości 0,50 USD i 1 USD stosowane w godzinach szczytu i w nocy.
fareAmount double 10,367 6.0 5.5 Opłata za czas i odległość według taksometru.
improvementSurcharge ciąg 92 0.3 0 Opłata dodatkowa na fundusz modernizacyjny w wysokości 0,30 USD, naliczana w momencie rozpoczęcia przejazdu (kurs niezaplanowany). Pobieranie tej opłaty dodatkowej rozpoczęto w roku 2015.
lpepDropoffDatetime sygnatura czasowa 58,100,713 2016-05-22 00:00:00 2016-05-09 00:00:00 Data i godzina wyłączenia taksometru.
lpepPickupDatetime sygnatura czasowa 58,157,349 2013-10-22 12:40:36 2014-08-09 15:54:25 Data i godzina włączenia taksometru.
mtaTax double 34 0.5 -0.5 Podatek miejski (MTA) w wysokości 0,50 USD, naliczany automatycznie w zależności od stosowanej taryfy taksometru.
pasażerCount int 10 1 2 Liczba pasażerów w pojeździe. Tę wartość wprowadza kierowca.
typ płatności int 5 2 1 Kod liczbowy oznaczający metodę płatności za przejazd. 1 = Karta kredytowa 2 = Gotówka 3 = Bez opłaty 4 = Spór 5 = Nieznany 6 = Nieważna podróż
pickupLatitude double 95,110 40.721351623535156 40.721336364746094 Przestarzałe od lipca 2016
pickupLongitude double 55,722 -73.84429931640625 -73.84429168701172 Przestarzałe od lipca 2016
puLocationId ciąg 264 74 41 Strefa taksówkowa TLC, w której włączono taksometr.
puMonth int 12 3 5
okres puYear int 14 2015 2016
rateCodeID int 7 1 5 Kod taryfy stosowanej w momencie zakończenia przejazdu. 1 = stawka standardowa 2 = JFK 3 = Newark 4 = Nassau lub Westchester 5 = wynegocjowana taryfa 6 = jazda grupowa
storeAndFwdFlag ciąg 2 N Y Ta flaga wskazuje, czy rekord podróży był przechowywany w pamięci pojazdu przed wysłaniem do dostawcy, znany również jako "przechowywanie i przekazywanie", ponieważ pojazd nie miał połączenia z serwerem. Y = przechować i przesyłać dalej N = nie sklep i podróż do przodu
tipAmount double 6,206 1.0 2.0 Kwota napiwku — pole wypełniane automatycznie w przypadku napiwków doliczonych do płatności kartą kredytową. Nie obejmuje napiwków w gotówce.
tollsAmount double 2,150 5.54 5.76 Łączna kwota wszystkich opłat drogowych uiszczonych podczas przejazdu.
totalAmount double 20,188 7.8 6.8 Łączna opłata obciążająca pasażerów. Nie obejmuje napiwków w gotówce.
tripDistance double 7,060 0.9 1.0 Odległość przejazdu w milach według taksometru.
tripType int 3 1 2 Kod określający rodzaj przejazdu: „z ulicy” lub wysłany przez dyspozytora. Jest określany automatycznie na podstawie stosowanej taryfy taksometru, ale może być zmieniony przez kierowcę. 1 = grad uliczny 2 = wysyłka
Vendorid int 2 2 1 Kod wskazujący dostawcę danego rekordu w ramach programu LPEP. 1 = Creative Mobile Technologies, LLC; 2 = VeriFone Inc.

Wersja zapoznawcza

Vendorid lpepPickupDatetime lpepDropoffDatetime pasażerCount tripDistance puLocationId doLocationId rateCodeID storeAndFwdFlag typ płatności fareAmount Dodatkowych mtaTax improvementSurcharge tipAmount tollsAmount totalAmount tripType okres puYear puMonth
2 24.06.2081 17:40:37 24.06.2081 18:42:47 1 16.95 93 117 1 N 1 52 1 0,5 0.3 0 2.16 55.96 1 2081 6
2 28.01.2030 12:19:29 11/28/2030 12:25:37 1 1.08 42 247 1 N 2 6.5 0 0,5 0.3 0 0 7.3 1 2030 11
2 11/28/2030 12:14:50 11/28/2030 12:14:54 1 0.03 42 42 5 N 2 5 0 0 0 0 0 5 2 2030 11
2 11.14.2020 11:38:07 11.14.2020 11:42:22 1 0.63 129 129 1 N 2 4.5 1 0,5 0.3 0 0 6.3 1 2020 11
2 11.14.2020 9:55:36 11.14.2020 10:04:54 1 3,8 82 138 1 N 2 12.5 1 0,5 0.3 0 0 14,3 1 2020 11
2 26.08.2019 16:18:37 26.08.2019 19:19:35 1 0 264 264 1 N 2 1 0 0,5 0.3 0 0 1.8 1 2019 8
2 7/1/2019 8:28:33 1.07.2019 8:32:33 1 0.71 7 7 1 N 1 5 0 0,5 0.3 1.74 0 7.54 1 2019 7
2 1.07.2019 12:04:53 1.07.2019 12:21:56 1 2.71 223 145 1 N 2 13 0,5 0,5 0.3 0 0 14,3 1 2019 7
2 1.07.2019 12:04:11 1.07.2019 12:21:15 1 3.14 166 142 1 N 2 14,5 0,5 0,5 0.3 0 0 18.55 1 2019 7
2 1.07.2019 12:03:37 1.07.2019 12:09:27 1 0,78 74 74 1 N 1 6 0,5 0,5 0.3 1.46 0 8.76 1 2019 7

Dostęp do danych

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://docs.microsoft.com/en-us/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

# Display data statistic information
display(nyc_tlc_df, summary = True)

Następne kroki

Wyświetl pozostałe zestawy danych w katalogu Open Datasets (Otwarte zestawy danych).