تحليل البيانات باستخدام تجمعات SQL مخصصة

في هذا البرنامج التعليمي، استخدم بيانات سيارة أجرة مدينة نيويورك لاستكشاف قدرات تجمع SQL المخصص.

إنشاء تجمع SQL مخصص

  1. في Synapse Studio، على الجانب الأيسر من اللوحة، حدد Manage>SQL pools ضمن Analytics pools.
  2. حدد جديد.
  3. بالنسبة إلى اسم تجمع SQL المخصص، حدد SQLPOOL1.
  4. بالنسبة لمستوى الأداء، اختر DW100C.
  5. اختر إنشاء>مراجعة + إنشاء. سيكون تجمع SQL المخصص جاهزًا في غضون دقائق قليلة.

يرتبط تجمع SQL المخصص الخاص بك بقاعدة بيانات SQL التي تسمى SQLPOOL1أيضا .

  1. انتقل إلى البيانات>مساحة العمل.
  2. يجب أن تظهر أمامك قاعدة بيانات باسم SQLPOOL1. إذا لم تشاهده، فحدد تحديث.

يستهلك تجمع SQL المخصص مواردَ قابلة للفوترة طالما أنه نشط. يمكنك إيقاف التجمع مؤقتًا لاحقًا لتقليل التكاليف.

إشعار

عند إنشاء تجمع SQL مخصص جديد (SQL DW سابقًا) في مساحة عملك، سيتم فتح صفحة توفير تجمع SQL المخصصة. سيحدث توفير الخدمة على خادم SQL المنطقي.

تحميل بيانات سيارة أجرة من مدينة نيويورك في SQLPOOL1

  1. في Synapse Studio، انتقل إلى مركز التطوير ، وحدد + الزر لإضافة مورد جديد، ثم قم بإنشاء برنامج نصي SQL جديد.

  2. حدد التجمع SQLPOOL1 (تجمع تم إنشاؤه في الخطوة 1 من هذا البرنامج التعليمي) في الاتصال القائمة المنسدلة أعلى البرنامج النصي.

  3. أدخل الرمز التالي:

    IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo')
    CREATE TABLE dbo.NYCTaxiTripSmall
        (
        [VendorID] bigint, 
        [store_and_fwd_flag] nvarchar(1) NULL, 
        [RatecodeID] float NULL, 
        [PULocationID] bigint NULL,  
        [DOLocationID] bigint NULL, 
        [passenger_count] float NULL, 
        [trip_distance] float NULL, 
        [fare_amount] float NULL, 
        [extra] float NULL, 
        [mta_tax] float NULL, 
        [tip_amount] float NULL, 
        [tolls_amount] float NULL, 
        [ehail_fee] float NULL, 
        [improvement_surcharge] float NULL, 
        [total_amount] float NULL, 
        [payment_type] float NULL, 
        [trip_type] float NULL, 
        [congestion_surcharge] float  NULL
        )
    WITH
        (
        DISTRIBUTION = ROUND_ROBIN,
         CLUSTERED COLUMNSTORE INDEX
         -- HEAP
        )
    GO
    
    COPY INTO dbo.NYCTaxiTripSmall
    (VendorID 1, store_and_fwd_flag 4, RatecodeID 5,  PULocationID 6 , DOLocationID 7,  
     passenger_count 8,trip_distance 9, fare_amount 10, extra 11, mta_tax 12, tip_amount 13, 
     tolls_amount 14, ehail_fee 15, improvement_surcharge 16, total_amount 17, 
     payment_type 18, trip_type 19, congestion_surcharge 20 )
    FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet'
    WITH
    (
        FILE_TYPE = 'PARQUET'
        ,MAXERRORS = 0
        ,IDENTITY_INSERT = 'OFF'
    )
    
  4. حدد الزر Run لتنفيذ البرنامج النصي.

  5. ينتهي هذا البرنامج النصي في أقل من 60 ثانية. يقوم بتحميل مليوني صف من بيانات سيارة أجرة مدينة نيويورك في جدول يسمى dbo.NYCTaxiTripSmall.

استكشِف بيانات سيارة أجرة من نيويورك في تجمع SQL مخصص

  1. في استوديو Synapse، انتقل إلى مركز البيانات.

  2. انتقل إلى SQLPOOL1>الجداول.

  3. انقر بزر الماوس الأيمن فوق جدول dbo. NYCTaxiTripSmall وحدد برنامج SQL Script جديدًا ، وحدد TOP >100 Rows.

  4. انتظر حتى يتم إنشاء برنامج SQL Script جديد ويتم تشغيله.

  5. في الجزء العلوي من البرنامج النصي SQL يتم تعيين الاتصال تلقائيا إلى تجمع SQL يسمى SQLPOOL1.

  6. استبدِل نص برنامج SQL Script بهذا الرمز وشغِّله.

    SELECT passenger_count as PassengerCount,
          SUM(trip_distance) as SumTripDistance_miles,
          AVG(trip_distance) as AvgTripDistance_miles
    INTO dbo.PassengerCountStats
    FROM  dbo.NYCTaxiTripSmall
    WHERE trip_distance > 0 AND passenger_count > 0
    GROUP BY passenger_count;
    
    SELECT * FROM dbo.PassengerCountStats
    ORDER BY PassengerCount;
    

    ينشئ هذا الاستعلام جدولا dbo.PassengerCountStats يحتوي على بيانات مجمعة trip_distance من الحقل، ثم يستعلم عن الجدول الجديد. توضح البيانات كيفية ارتباط إجمالي مسافات الرحلات ومتوسط مسافة الرحلة بعدد الركاب.

  7. في إطار نتائج نص برنامج SQL، يمكنك بتغيير طريقة العرض إلى المخطط لعرض النتائج في صورة مرئية في صورة مخطط أعمدة بيانية. تغيير عمود الفئة إلى PassengerCount.

الخطوة التالية