NYC Taxi & Limousine Commission - zielone rekordy przejazdów taksówką
Rekordy dotyczące przejazdów zielonymi taksówkami zawierają pola daty i godziny rozpoczęcia oraz zakończenia kursu, miejsca rozpoczęcia i zakończenia kursu, pokonanej odległości, wyszczególnionych opłat, taryfy, metody płatności oraz liczby pasażerów podanej przez kierowcę.
Uwaga
Microsoft udostępnia zestawy danych Usługi Azure Open na zasadzie "tak, jak to jest". Microsoft nie udziela żadnych gwarancji, wyraźnych ani domniemanych, gwarancji ani warunków w odniesieniu do korzystania z zestawów danych. W zakresie dozwolonym zgodnie z prawem lokalnym Microsoft nie ponosi odpowiedzialności za wszelkie szkody lub straty, w tym bezpośrednie, wynikowe, specjalne, pośrednie, przypadkowe lub karne wynikające z korzystania z zestawów danych.
Zestaw danych jest udostępniany zgodnie z pierwotnymi warunkami, na jakich firma Microsoft otrzymała dane źródłowe. Zestaw danych może zawierać dane pozyskane z firmy Microsoft.
Ilość i przechowywanie
Ten zestaw danych jest przechowywany w formacie Parquet. W sumie od 2018 r. istnieje około 80 mln wierszy (2 GB).
Ten zestaw danych zawiera historyczne rekordy z lat 2009–2018. Aby pobrać dane z konkretnego przedziału czasowego, należy użyć ustawień parametrów w zestawie SDK.
Lokalizacja magazynu
Ten zestaw danych jest przechowywany w regionie platformy Azure Wschodnie stany USA. Zalecamy przydzielanie zasobów obliczeniowych w regionie Wschodnie stany USA z uwagi na koligację.
Dodatkowe informacje
Komisja ds. taksówek i limuzyn miasta Nowy Jork (TLC):
Dane zostały zebrane i przekazane Komisji Taksówki i Limuzyny NYC (TLC) przez dostawców technologii upoważnionych w ramach Taxicab & Livery Passenger Enhancement Programs (TPEP/LPEP). Dane dotyczące przejazdów nie zostały utworzone przez TLC i komisja nie gwarantuje rzetelności tych danych.
Wyświetl oryginalną lokalizację zestawu danych i oryginalne warunki użytkowania.
Kolumny
Nazwa | Typ danych | Unikatowe | Wartości (przykład) | Opis |
---|---|---|---|---|
doLocationId | ciąg | 264 | 74 42 | DOLocationID: strefa taksówkowa TLC, w której wyłączono taksometr. |
dropoffLatitude | double | 109,721 | 40.7743034362793 40.77431869506836 | Przestarzałe od lipca 2016 |
dropoffLongitude | double | 75,502 | -73.95272827148438 -73.95274353027344 | Przestarzałe od lipca 2016 |
Dodatkowych | double | 202 | 0.5 1.0 | Różne opłaty dodatkowe. Obecnie ta wartość obejmuje tylko opłaty w wysokości 0,50 USD i 1 USD stosowane w godzinach szczytu i w nocy. |
fareAmount | double | 10,367 | 6.0 5.5 | Opłata za czas i odległość według taksometru. |
improvementSurcharge | ciąg | 92 | 0.3 0 | Opłata dodatkowa na fundusz modernizacyjny w wysokości 0,30 USD, naliczana w momencie rozpoczęcia przejazdu (kurs niezaplanowany). Pobieranie tej opłaty dodatkowej rozpoczęto w roku 2015. |
lpepDropoffDatetime | sygnatura czasowa | 58,100,713 | 2016-05-22 00:00:00 2016-05-09 00:00:00 | Data i godzina wyłączenia taksometru. |
lpepPickupDatetime | sygnatura czasowa | 58,157,349 | 2013-10-22 12:40:36 2014-08-09 15:54:25 | Data i godzina włączenia taksometru. |
mtaTax | double | 34 | 0.5 -0.5 | Podatek miejski (MTA) w wysokości 0,50 USD, naliczany automatycznie w zależności od stosowanej taryfy taksometru. |
pasażerCount | int | 10 | 1 2 | Liczba pasażerów w pojeździe. Tę wartość wprowadza kierowca. |
paymentType | int | 5 | 2 1 | Kod liczbowy oznaczający metodę płatności za przejazd. 1 = Karta kredytowa 2 = Gotówka 3 = Bez opłaty 4 = Spór 5 = Nieznany 6 = Anulowana podróż |
pickupLatitude | double | 95,110 | 40.721351623535156 40.721336364746094 | Przestarzałe od lipca 2016 |
pickupLongitude | double | 55,722 | -73.84429931640625 -73.84429168701172 | Przestarzałe od lipca 2016 |
puLocationId | ciąg | 264 | 74 41 | Strefa taksówkowa TLC, w której włączono taksometr. |
puMonth | int | 12 | 3 5 | |
okres puYear | int | 14 | 2015 2016 | |
rateCodeID | int | 7 | 1 5 | Kod taryfy stosowanej w momencie zakończenia przejazdu. 1 = stawka standardowa 2 = JFK 3 = Newark 4 = Nassau lub Westchester 5 = wynegocjowana taryfa 6 = jazda grupowa |
storeAndFwdFlag | ciąg | 2 | N Y | Ta flaga wskazuje, czy rekord podróży był przechowywany w pamięci pojazdu przed wysłaniem do dostawcy, znany również jako "przechowywanie i przekazywanie", ponieważ pojazd nie miał połączenia z serwerem. Y = przechować i przesyłać dalej N = nie sklep i podróż do przodu |
tipAmount | double | 6,206 | 1.0 2.0 | Kwota napiwku — pole wypełniane automatycznie w przypadku napiwków doliczonych do płatności kartą kredytową. Nie obejmuje napiwków w gotówce. |
tollsAmount | double | 2,150 | 5.54 5.76 | Łączna kwota wszystkich opłat drogowych uiszczonych podczas przejazdu. |
totalAmount | double | 20,188 | 7.8 6.8 | Łączna opłata obciążająca pasażerów. Nie obejmuje napiwków w gotówce. |
tripDistance | double | 7,060 | 0.9 1.0 | Odległość przejazdu w milach według taksometru. |
tripType | int | 3 | 1 2 | Kod określający rodzaj przejazdu: „z ulicy” lub wysłany przez dyspozytora. Jest określany automatycznie na podstawie stosowanej taryfy taksometru, ale może być zmieniony przez kierowcę. 1 = grad uliczny 2 = wysyłka |
Vendorid | int | 2 | 2 1 | Kod wskazujący dostawcę danego rekordu w ramach programu LPEP. 1 = Creative Mobile Technologies, LLC; 2 = VeriFone Inc. |
Wersja zapoznawcza
Vendorid | lpepPickupDatetime | lpepDropoffDatetime | pasażerCount | tripDistance | puLocationId | doLocationId | rateCodeID | storeAndFwdFlag | typ płatności | fareAmount | Dodatkowych | mtaTax | improvementSurcharge | tipAmount | tollsAmount | totalAmount | tripType | okres puYear | puMonth |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2 | 24.06.2081 17:40:37 | 24.06.2081 18:42:47 | 1 | 16.95 | 93 | 117 | 1 | N | 1 | 52 | 1 | 0,5 | 0.3 | 0 | 2.16 | 55.96 | 1 | 2081 | 6 |
2 | 28.01.2030 12:19:29 | 28.01.2030 12:25:37 | 1 | 1.08 | 42 | 247 | 1 | N | 2 | 6.5 | 0 | 0,5 | 0.3 | 0 | 0 | 7.3 | 1 | 2030 | 11 |
2 | 28.01.2030 12:14:50 | 28.01.2030 12:14:54 | 1 | 0.03 | 42 | 42 | 5 | N | 2 | 5 | 0 | 0 | 0 | 0 | 0 | 5 | 2 | 2030 | 11 |
2 | 11.14.2020 11:38:07 | 11.14.2020 11:42:22 | 1 | 0.63 | 129 | 129 | 1 | N | 2 | 4.5 | 1 | 0,5 | 0.3 | 0 | 0 | 6.3 | 1 | 2020 | 11 |
2 | 11.14.2020 9:55:36 | 11.14.2020 10:04:54 | 1 | 3,8 | 82 | 138 | 1 | N | 2 | 12.5 | 1 | 0,5 | 0.3 | 0 | 0 | 14,3 | 1 | 2020 | 11 |
2 | 26.08.2019 16:18:37 | 26.08.2019 16:19:35 | 1 | 0 | 264 | 264 | 1 | N | 2 | 1 | 0 | 0,5 | 0.3 | 0 | 0 | 1.8 | 1 | 2019 | 8 |
2 | 1.07.2019 8:28:33 | 7/1/2019 8:32:33 | 1 | 0.71 | 7 | 7 | 1 | N | 1 | 5 | 0 | 0,5 | 0.3 | 1.74 | 0 | 7.54 | 1 | 2019 | 7 |
2 | 7/1/2019 12:04:53 | 7/1/2019 12:21:56 | 1 | 2.71 | 223 | 145 | 1 | N | 2 | 13 | 0,5 | 0,5 | 0.3 | 0 | 0 | 14,3 | 1 | 2019 | 7 |
2 | 7/1/2019 12:04:11 | 7/1/2019 12:21:15 | 1 | 3.14 | 166 | 142 | 1 | N | 2 | 14,5 | 0,5 | 0,5 | 0.3 | 0 | 0 | 18.55 | 1 | 2019 | 7 |
2 | 7/1/2019 12:03:37 | 7.1.2019 12:09:27 | 1 | 0,78 | 74 | 74 | 1 | N | 1 | 6 | 0,5 | 0,5 | 0.3 | 1.46 | 0 | 8.76 | 1 | 2019 | 7 |
Dostęp do danych
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
# Display data statistic information
display(nyc_tlc_df, summary = True)
Następne kroki
Wyświetl resztę zestawów danych w katalogu Open Datasets (Otwarte zestawy danych).