Komisja Nowojorskiej Taksówki & Limuzyny - żółte rekordy przejazdów taksówką
Rekordy dotyczące przejazdów żółtymi taksówkami zawierają pola daty i godziny rozpoczęcia oraz zakończenia kursu, miejsca rozpoczęcia i zakończenia kursu, pokonanej odległości, wyszczególnionych opłat, taryfy, metody płatności oraz liczby pasażerów podanej przez kierowcę.
Uwaga
Firma Microsoft udostępnia zestawy danych Azure Open Datasets w zasadzie "tak jak to jest". Firma Microsoft nie udziela żadnych gwarancji, wyraźnych lub domniemanych, gwarancji ani warunków w odniesieniu do korzystania z zestawów danych. W zakresie dozwolonym na mocy prawa lokalnego firma Microsoft nie ponosi odpowiedzialności za wszelkie szkody lub straty, w tym bezpośrednie, wynikowe, specjalne, pośrednie, przypadkowe lub karne wynikające z korzystania z zestawów danych.
Zestaw danych jest udostępniany zgodnie z pierwotnymi warunkami, na jakich firma Microsoft otrzymała dane źródłowe. Zestaw danych może zawierać dane pozyskane z firmy Microsoft.
Wolumin i przechowywanie
Ten zestaw danych jest przechowywany w formacie Parquet. W sumie do 2018 r. istnieje około 1,5B wierszy (50 GB).
Ten zestaw danych zawiera historyczne rekordy z lat 2009–2018. Aby pobrać dane z konkretnego przedziału czasowego, należy użyć ustawień parametrów w zestawie SDK.
Lokalizacja magazynu
Ten zestaw danych jest przechowywany w regionie platformy Azure Wschodnie stany USA. Zalecamy przydzielanie zasobów obliczeniowych w regionie Wschodnie stany USA z uwagi na koligację.
Dodatkowe informacje
Komisja ds. taksówek i limuzyn miasta Nowy Jork (TLC):
Dane zostały zebrane i przekazane komisji nowojorskiej Taxi and Limousine Commission (TLC) przez dostawców technologii autoryzowanych w ramach Taxicab & Livery Passenger Enhancement Programs (TPEP/LPEP). Dane dotyczące przejazdów nie zostały utworzone przez TLC i komisja nie gwarantuje rzetelności tych danych.
Wyświetl oryginalną lokalizację zestawu danych i oryginalne warunki użytkowania.
Kolumny
Nazwa | Typ danych | Unikatowe | Wartości (przykład) | Opis |
---|---|---|---|---|
doLocationId | ciąg | 265 | 161 236 | Strefa taksówkowa TLC, w której wyłączono taksometr. |
endLat | double | 961,994 | 41.366138 40.75 | |
endLon | double | 1,144,935 | -73.137393 -73.9824 | |
Dodatkowych | double | 877 | 0.5 1.0 | Różne opłaty dodatkowe. Obecnie ta wartość obejmuje tylko opłaty w wysokości 0,50 USD i 1 USD stosowane w godzinach szczytu i w nocy. |
fareAmount | double | 18,935 | 6.5 4.5 | Opłata za czas i odległość według taksometru. |
improvementSurcharge | ciąg | 60 | 0.3 0 | Opłata dodatkowa na fundusz modernizacyjny w wysokości 0,30 USD, naliczana w momencie rozpoczęcia przejazdu. Pobieranie tej opłaty dodatkowej rozpoczęto w roku 2015. |
mtaTax | double | 360 | 0.5 -0.5 | Podatek miejski (MTA) w wysokości 0,50 USD, naliczany automatycznie w zależności od stosowanej taryfy taksometru. |
pasażerCount | int | 64 | 1 2 | Liczba pasażerów w pojeździe. Tę wartość wprowadza kierowca. |
typ płatności | ciąg | 6,282 | CSH CRD | Kod liczbowy oznaczający metodę płatności za przejazd. 1 = karta kredytowa; 2 = gotówka; 3 = Bez opłat; 4 = Spór; 5 = Nieznany; 6 = Podróż nieważna. |
puLocationId | ciąg | 266 | 237 161 | Strefa taksówkowa TLC, w której włączono taksometr. |
puMonth | int | 12 | 3 5 | |
okres puYear | int | 29 | 2012 2011 | |
rateCodeId | int | 56 | 1 2 | Kod taryfy stosowanej w momencie zakończenia przejazdu. 1 = stawka standardowa; 2 = JFK; 3 = Newark; 4 = Nassau lub Westchester; 5 = Wynegocjowana taryfa; 6 = Jazda grupowa. |
startLat | double | 833,016 | 41.366138 40.7741 | |
startLon | double | 957,428 | -73.137393 -73.9821 | |
storeAndFwdFlag | ciąg | 8 | N 0 | Ta flaga wskazuje, czy rekord podróży był przechowywany w pamięci pojazdu przed wysłaniem do dostawcy, znany również jako "przechowywanie i przekazywanie", ponieważ pojazd nie miał połączenia z serwerem. Y = przechować i przesyłać dalej; N = nie jest podróżą sklepową i do przodu. |
tipAmount | double | 12,121 | 1.0 2.0 | To pole jest wypełniane automatycznie w przypadku napiwków doliczonych do płatności kartą kredytową. Nie obejmuje napiwków w gotówce. |
tollsAmount | double | 6,634 | 5.33 4.8 | Łączna kwota wszystkich opłat drogowych uiszczonych podczas przejazdu. |
totalAmount | double | 39,707 | 7.0 7.8 | Łączna opłata obciążająca pasażerów. Nie obejmuje napiwków w gotówce. |
tpepDropoffDateTime | sygnatura czasowa | 290,185,010 | 2010-11-07 01:29:00 2013-11-03 01:22:00 | Data i godzina wyłączenia taksometru. |
tpepPickupDateTime | sygnatura czasowa | 289,948,585 | 2010-11-07 01:00:00 2009-11-01 01:05:00 | Data i godzina włączenia taksometru. |
tripDistance | double | 14,003 | 1.0 0.9 | Odległość przejazdu w milach według taksometru. |
Vendorid | ciąg | 7 | VTS CMT | Kod wskazujący dostawcę danego rekordu w ramach programu TPEP. 1 = Creative Mobile Technologies, LLC; 2 = VeriFone Inc. |
Vendorid | int | 2 | 2 1 | Kod wskazujący dostawcę danego rekordu w ramach programu LPEP. 1 = Creative Mobile Technologies, LLC; 2 = VeriFone Inc. |
Wersja zapoznawcza
Vendorid | tpepPickupDateTime | tpepDropoffDateTime | pasażerCount | tripDistance | puLocationId | doLocationId | rateCodeId | storeAndFwdFlag | typ płatności | fareAmount | Dodatkowych | mtaTax | improvementSurcharge | tipAmount | tollsAmount | totalAmount | okres puYear | puMonth |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2 | 24.01.2088 12:25:39 | 24.01.2088 7:28:25 | 1 | 4.05 | 24 | 162 | 1 | N | 2 | 14,5 | 0 | 0,5 | 0.3 | 0 | 0 | 15,3 | 2088 | 1 |
2 | 24.01.2088 12:15:42 | 24.01.2088 12:19:46 | 1 | 0.63 | 41 | 166 | 1 | N | 2 | 4.5 | 0 | 0,5 | 0.3 | 0 | 0 | 5.3 | 2088 | 1 |
2 | 11/4/2084 12:32:24 | 11.04.2084 12:47:41 | 1 | 1,34 | 238 | 236 | 1 | N | 2 | 10 | 0 | 0,5 | 0.3 | 0 | 0 | 10,8 | 2084 | 11 |
2 | 11/4/2084 12:25:53 | 11/4/2084 12:29:00 | 1 | 0.32 | 238 | 238 | 1 | N | 2 | 4 | 0 | 0,5 | 0.3 | 0 | 0 | 4.8 | 2084 | 11 |
2 | 11/4/2084 12:08:33 | 11/4/2084 12:22:24 PM | 1 | 1.85 | 236 | 238 | 1 | N | 2 | 10 | 0 | 0,5 | 0.3 | 0 | 0 | 10,8 | 2084 | 11 |
2 | 11/4/2084 11:41:35 | 11/4/2084 11:59:41 AM | 1 | 1.65 | 68 | 237 | 1 | N | 2 | 12.5 | 0 | 0,5 | 0.3 | 0 | 0 | 13.3 | 2084 | 11 |
2 | 11/4/2084 11:27:28 | 11/4/2084 11:39:52 | 1 | 1.07 | 170 | 68 | 1 | N | 2 | 9 | 0 | 0,5 | 0.3 | 0 | 0 | 9.8 | 2084 | 11 |
2 | 11/4/2084 11:19:06 | 11/4/2084 11:26:44 | 1 | 1.3 | 107 | 170 | 1 | N | 2 | 7,5 | 0 | 0,5 | 0.3 | 0 | 0 | 8.3 | 2084 | 11 |
2 | 11/4/2084 11:02:59 | 11/4/2084 11:15:51 | 1 | 1.85 | 113 | 137 | 1 | N | 2 | 10 | 0 | 0,5 | 0.3 | 0 | 0 | 10,8 | 2084 | 11 |
2 | 11/4/2084 10:46:05 | 11/4/2084 10:50:09 | 1 | 0.62 | 231 | 231 | 1 | N | 2 | 4.5 | 0 | 0,5 | 0.3 | 0 | 0 | 5.3 | 2084 | 11 |
Dostęp do danych
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
Następne kroki
Wyświetl resztę zestawów danych w katalogu Open Datasets (Otwarte zestawy danych).