تحليل البيانات باستخدام تجمعات SQL مخصصة
في هذا البرنامج التعليمي، استخدم بيانات سيارة أجرة مدينة نيويورك لاستكشاف قدرات تجمع SQL المخصص.
إنشاء تجمع SQL مخصص
- في Synapse Studio، على الجانب الأيسر من اللوحة، حدد Manage>SQL pools ضمن Analytics pools.
- حدد جديد.
- بالنسبة إلى اسم تجمع SQL المخصص، حدد
SQLPOOL1
. - بالنسبة لمستوى الأداء، اختر DW100C.
- اختر إنشاء>مراجعة + إنشاء. سيكون تجمع SQL المخصص جاهزًا في غضون دقائق قليلة.
يرتبط تجمع SQL المخصص الخاص بك بقاعدة بيانات SQL التي تسمى SQLPOOL1
أيضا .
- انتقل إلى البيانات>مساحة العمل.
- يجب أن تظهر أمامك قاعدة بيانات باسم SQLPOOL1. إذا لم تشاهده، فحدد تحديث.
يستهلك تجمع SQL المخصص مواردَ قابلة للفوترة طالما أنه نشط. يمكنك إيقاف التجمع مؤقتًا لاحقًا لتقليل التكاليف.
إشعار
عند إنشاء تجمع SQL مخصص جديد (SQL DW سابقًا) في مساحة عملك، سيتم فتح صفحة توفير تجمع SQL المخصصة. سيحدث توفير الخدمة على خادم SQL المنطقي.
تحميل بيانات سيارة أجرة من مدينة نيويورك في SQLPOOL1
في Synapse Studio، انتقل إلى مركز التطوير ، وحدد + الزر لإضافة مورد جديد، ثم قم بإنشاء برنامج نصي SQL جديد.
حدد التجمع
SQLPOOL1
(تجمع تم إنشاؤه في الخطوة 1 من هذا البرنامج التعليمي) في الاتصال القائمة المنسدلة أعلى البرنامج النصي.أدخل الرمز التالي:
IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo') CREATE TABLE dbo.NYCTaxiTripSmall ( [VendorID] bigint, [store_and_fwd_flag] nvarchar(1) NULL, [RatecodeID] float NULL, [PULocationID] bigint NULL, [DOLocationID] bigint NULL, [passenger_count] float NULL, [trip_distance] float NULL, [fare_amount] float NULL, [extra] float NULL, [mta_tax] float NULL, [tip_amount] float NULL, [tolls_amount] float NULL, [ehail_fee] float NULL, [improvement_surcharge] float NULL, [total_amount] float NULL, [payment_type] float NULL, [trip_type] float NULL, [congestion_surcharge] float NULL ) WITH ( DISTRIBUTION = ROUND_ROBIN, CLUSTERED COLUMNSTORE INDEX -- HEAP ) GO COPY INTO dbo.NYCTaxiTripSmall (VendorID 1, store_and_fwd_flag 4, RatecodeID 5, PULocationID 6 , DOLocationID 7, passenger_count 8,trip_distance 9, fare_amount 10, extra 11, mta_tax 12, tip_amount 13, tolls_amount 14, ehail_fee 15, improvement_surcharge 16, total_amount 17, payment_type 18, trip_type 19, congestion_surcharge 20 ) FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet' WITH ( FILE_TYPE = 'PARQUET' ,MAXERRORS = 0 ,IDENTITY_INSERT = 'OFF' )
حدد الزر Run لتنفيذ البرنامج النصي.
ينتهي هذا البرنامج النصي في أقل من 60 ثانية. يقوم بتحميل مليوني صف من بيانات سيارة أجرة مدينة نيويورك في جدول يسمى
dbo.NYCTaxiTripSmall
.
استكشِف بيانات سيارة أجرة من نيويورك في تجمع SQL مخصص
في استوديو Synapse، انتقل إلى مركز البيانات.
انتقل إلى SQLPOOL1>الجداول.
انقر بزر الماوس الأيمن فوق جدول dbo. NYCTaxiTripSmall وحدد برنامج SQL Script جديدًا ، وحدد TOP >100 Rows.
انتظر حتى يتم إنشاء برنامج SQL Script جديد ويتم تشغيله.
في الجزء العلوي من البرنامج النصي SQL يتم تعيين الاتصال تلقائيا إلى تجمع SQL يسمى SQLPOOL1.
استبدِل نص برنامج SQL Script بهذا الرمز وشغِّله.
SELECT passenger_count as PassengerCount, SUM(trip_distance) as SumTripDistance_miles, AVG(trip_distance) as AvgTripDistance_miles INTO dbo.PassengerCountStats FROM dbo.NYCTaxiTripSmall WHERE trip_distance > 0 AND passenger_count > 0 GROUP BY passenger_count; SELECT * FROM dbo.PassengerCountStats ORDER BY PassengerCount;
ينشئ هذا الاستعلام جدولا
dbo.PassengerCountStats
يحتوي على بيانات مجمعةtrip_distance
من الحقل، ثم يستعلم عن الجدول الجديد. توضح البيانات كيفية ارتباط إجمالي مسافات الرحلات ومتوسط مسافة الرحلة بعدد الركاب.في إطار نتائج نص برنامج SQL، يمكنك بتغيير طريقة العرض إلى المخطط لعرض النتائج في صورة مرئية في صورة مخطط أعمدة بيانية. تغيير عمود الفئة إلى
PassengerCount
.