لجنة نيويورك لسيارات الأجرة والليموزين - سجلات دليل سيارات الأجرة الصفراء

تتضمن سجلات رحلات سيارات الأجرة حقولًا تسجل تواريخ/أوقات الاستلام والتسليم، ومواقع الاستلام والتوصيل، ومسافات الرحلات، والأسعار المفصلة، وأنواع الأسعار، وأنواع الدفع، وعدد الركاب المبلغ عنه من قِبل السائق.

إشعار

توفر Microsoft Azure Open Datasets على أساس "ثابت". لا تقدم Microsoft أي ضمانات صريحة أو ضمنية أو شروطاً فيما يتعلق باستخدامك لمجموعات البيانات. وتخلي Microsoft مسؤوليتها عن أي أضرار أو خسائر، بما في ذلك المباشرة أو التبعية أو الخاصة أو غير المباشرة أو العرضية أو العقابية، الناتجة عن استخدامك لمجموعات البيانات إلى الحد الذي يسمح به القانون المحلي الخاص بك.

ويتم توفير مجموعة البيانات هذه بموجب الشروط الأصلية التي تلقتها Microsoft على أنها بيانات المصدر. وقد تتضمن مجموعة البيانات بيانات مصدرها Microsoft.

الحجم والاحتفاظ

يتم تخزين مجموعة البيانات هذه بتنسيق باركيه. يوجد حوالي 1.5 مليار من الصفوف (50 غيغابايت) إجمالاً اعتبارًا من 2018.

تتضمن مجموعة البيانات هذه سجلات تاريخية تم تجميعها من عام 2009 إلى عام 2018. يمكنك استخدام إعدادات المعلمات في SDK لإحضار البيانات ضمن نطاق زمني محدد.

موقع التخزين

يتم تخزين مجموعة البيانات هذه في منطقة شرق الولايات المتحدة الخاصة بـ Azure. يوصى بتخصيص موارد حساب في شرق الولايات المتحدة للتقارب.

معلومات اضافيه

لجنة نيويورك لسيارات الأجرة والليموزين (تي إل سي):

تم جمع البيانات وتقديمها إلى لجنة نيويورك لسيارات الأجرة والليموزين (TLC) من قبل مزوّدي التكنولوجيا المصرح لهم بموجب برامج تعزيز ركاب سيارات الأجرة والكسوة (TPEP/ LPEP). لم يتم إنشاء بيانات الرحلة بواسطة تي إل سي، ولا تقدم تي إل سي أي إقرارات فيما يتعلق بدقة هذه البيانات.

اعرض موقع مجموعة البيانات الأصلي وشروط الاستخدام الأصلية.

الأعمدة

الاسم نوع البيانات فريد من نوعه القيم (عينة) ‏‏الوصف
doLocationId سلسلة 265 161 236 منطقة تاكسي TLC التي تم فيها فصل عداد التاكسي.
endLat مزدوج 961,994 41.366138 40.75
endLon مزدوج 1,144,935 -73.137393 -73.9824
extra مزدوج 877 0.5 1.0 إضافات متنوعة ورسوم إضافية. في الوقت الحالي، لا يشمل هذا سوى 0.50 دولار أمريكي ودولار أمريكي واحد لساعة الذروة، ورسوم التبييت.
مقدار الأجرة مزدوج 18,935 6.5 4.5 أجرة الوقت والمسافة المحسوبة بواسطة العداد.
تكلفة رسوم التحسين سلسلة 60 0.3 0 0.30 دولار كرسوم إضافية للتحسين يتم تقييمها للرحلات عند هبوط العلم. بدأ فرض رسوم التحسين الإضافية في عام 2015.
mtaTax مزدوج 360 0.5 -0.5 0.50 دولار أمريكي لضريبة MTA التي يتم تشغيلها تلقائيًا بناءً على المعدل المحسوب بالعداد عند الاستخدام.
passengerCount العدد الصحيح 64 1 2 عدد الركاب في السيارة. هذه قيمة يدخلها السائق إلى البرنامج.
نوع الدفع سلسلة 6,282 CSH CRD رمز رقمي يشير إلى كيفية دفع الراكب مقابل الرحلة. 1 = بطاقة الائتمان؛ 2 = نقدا 3 = لا تهمة؛ 4 = نزاع؛ 5 = غير معروف؛ 6 = رحلة باطلة.
puLocationId سلسلة 266 237 161 منطقة تاكسي TLC التي كان يعمل فيها عداد التاكسي.
puMonth العدد الصحيح 12 3 5
puYear العدد الصحيح 29 2012 2011
rateCodeId العدد الصحيح 56 1 2 رمز السعر النهائي ساري المفعول حتى نهاية الرحلة. 1 = السعر القياسي؛ 2 = جون كنيدي؛ 3 = نيوارك؛ 4 = ناسو أو ويستشستر؛ 5 = الأجرة المتفق عليها؛ 6 = ركوب المجموعة.
startLat مزدوج 833,016 41.366138 40.7741
startLon مزدوج 957,428 -73.137393 -73.9821
storeAndFwdFlag سلسلة 8 N 0 تُشير هذه العلامة إلى إذا ما كان سجل الرحلة محفوظًا في ذاكرة السيارة قبل إرسالها إلى البائع، والمعروف أيضًا باسم "التخزين وإعادة التوجيه"؛ لأن السيارة لم تكن على اتصال بالخادم. Y = تخزين ورحلة إلى الأمام؛ N = ليس متجرًا ورحلة إلى الأمام.
مقدار الإكرامية مزدوج 12,121 1.0 2.0 يتم ملء هذا الحقل تلقائيًا للحصول على نصائح بطاقة الائتمان. لا يتم تضمين الإكراميات النقدية.
المبلغ مزدوج 6,634 5.33 4.8 المبلغ الإجمالي لجميع الرسوم المدفوعة في الرحلة.
totalAmount مزدوج 39,707 7.0 7.8 المبلغ الإجمالي المشحون على الركاب. لا يتضمن الإكراميات النقدية.
tpep إسقاط التاريخ والوقت الطابع الزمني 290,185,010 2010-11-07 01:29:00 2013-11-03 01:22:00 تاريخ ووقت فصل عداد التاكسي.
tpepPickupDateTime الطابع الزمني 289,948,585 2010-11-07 01:00:00 2009-11-01 01:05:00 تاريخ ووقت تعشيق العداد.
tripDistance مزدوج 14,003 1.0 0.9 مسافة الرحلة المنقضية بالأميال والتي سجلها عداد سيارة الأجرة.
رقم المورد سلسلة 7 VTS CMT رمز يشير إلى مزود TPEP الذي قدم السجل. 1 = Creative Mobile Technologies، LLC؛ 2 = VeriFone Inc.
رقم المورد العدد الصحيح 2 2 1 رمز يُشير إلى موفر LPEP الذي قدم السجل. 1 = Creative Mobile Technologies، LLC؛ 2 = VeriFone Inc.

الإصدار الأولي

رقم المورد tpepPickupDateTime tpep إسقاط التاريخ والوقت passengerCount tripDistance puLocationId doLocationId rateCodeId storeAndFwdFlag نوع الدفع مقدار الأجرة extra mtaTax تكلفة رسوم التحسين مقدار الإكرامية المبلغ totalAmount puYear puMonth
2 1/24/2088 12:25:39 صباحًا 1/24/2088 7:28:25 صباحًا 1 4.05 24 162 1 N 2 14.5 0 0.5 0.3 1 1 15.3 2088 1
2 1/24/2088 12:15:42 صباحًا 1/24/2088 12:19:46 صباحًا 1 0.63 41 166 1 N 2 4.5 0 0.5 0.3 1 1 5.3 2088 1
2 11/4/2084 12:32:24 مساءً 11/4/2084 12:47:41 مساءً 1 1.34 238 236 1 N 2 10 0 0.5 0.3 1 1 10.8 2084 11
2 11/4/2084 12:25:53 مساءً 11/4/2084 12:29:00 مساءً 1 0.32 238 238 1 N 2 4 0 0.5 0.3 1 1 4.8 2084 11
2 11/4/2084 12:08:33 مساءً 11/4/2084 12:22:24 مساءً 1 1.85 236 238 1 N 2 10 0 0.5 0.3 1 1 10.8 2084 11
2 11/4/2084 11:41:35 صباحًا 11/4/2084 11:59:41 صباحًا 1 1.65 68 237 1 N 2 12.5 0 0.5 0.3 1 1 13.3 2084 11
2 11/4/2084 11:27:28 صباحًا 11/4/2084 11:39:52 صباحًا 1 1.07 170 68 1 N 2 9 0 0.5 0.3 1 1 9.8 2084 11
2 11/4/2084 11:19:06 صباحًا 11/4/2084 11:26:44 صباحًا 1 1.3 107 170 1 N 2 7.5 0 0.5 0.3 1 1 2084 11
2 11/4/2084 11:02:59 صباحًا 11/4/2084 11:15:51 صباحًا 1 1.85 113 137 1 N 2 10 0 0.5 0.3 1 1 10.8 2084 11
2 11/4/2084 10:46:05 صباحًا 11/4/2084 10:50:09 صباحًا 1 0.62 231 231 1 N 2 4.5 0 0.5 0.3 1 1 5.3 2084 11

الوصول إلى البيانات

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

خدمة Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://learn.microsoft.com/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser

end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

الخطوات التالية

اعرض ما يتبقى من مجموعات البيانات في كتالوج Open Datasets.