Mengintegrasikan Teradata VantageCloud dengan Azure Data Factory

Azure Data Factory
Azure Blob Storage
Azure Private Link
Azure Virtual WAN

Arsitektur yang dijelaskan dalam artikel ini menunjukkan bagaimana Anda dapat menggunakan Teradata VantageCloud Enterprise bersama dengan Azure Data Factory untuk mengembangkan alur integrasi data dengan pendekatan kode rendah atau tanpa kode. Ini menunjukkan cara dengan cepat menyerap atau mengekstrak data Vantage melalui koneksi keamanan yang ditingkatkan dengan menggunakan Data Factory.

Apache®, Hadoop, dan logo api adalah merek dagang terdaftar atau merek dagang Dari Apache Software Foundation di Amerika Serikat dan/atau negara lain. Tidak ada dukungan oleh Apache Software Foundation yang tersirat oleh penggunaan tanda-tanda ini.

Sistem

Diagram berikut mengilustrasikan versi arsitektur yang menggunakan konektivitas peering jaringan virtual. Ini menggunakan runtime integrasi (IR) yang dihost sendiri untuk menyambungkan ke database analitik. VM Teradata hanya disebarkan dengan alamat IP privat.

Diagram yang memperlihatkan versi arsitektur yang menggunakan konektivitas peering jaringan virtual.

Unduh file Visio arsitektur ini.

Diagram berikut mengilustrasikan versi arsitektur yang menggunakan konektivitas Azure Private Link.

Diagram yang memperlihatkan versi arsitektur yang menggunakan konektivitas Private Link.

Unduh file Visio arsitektur ini.

VantageCloud Enterprise di Azure adalah layanan terkelola penuh yang disebarkan dalam langganan Azure milik Teradata. Anda menyebarkan layanan cloud di langganan Azure Anda sendiri, yang kemudian terhubung ke langganan yang dikelola Teradata melalui salah satu opsi konektivitas yang disetujui. Teradata mendukung jenis konektivitas berikut antara langganan Azure Anda dan VantageCloud Enterprise di Azure:

  • Peering jaringan virtual
  • Private Link
  • Azure Virtual WAN

Jika Anda berencana untuk menggunakan peering jaringan virtual, bekerja dengan dukungan Teradata atau tim akun Teradata Anda untuk memastikan bahwa pengaturan grup keamanan yang diperlukan tersedia untuk memulai lalu lintas dari IR yang dihost sendiri ke database melalui tautan peering jaringan virtual.

Komponen

Untuk menerapkan arsitektur ini, Anda harus terbiasa dengan Data Factory, Azure Blob Storage, Teradata VantageCloud Enterprise, dan Teradata Tools and Utilities (TTU).

Komponen dan versi ini digunakan dalam skenario integrasi:

Teradata Vantage

Vantage menyediakan apa yang disebut Teradata Kecerdasan Data Pervasif. Pengguna di seluruh organisasi Anda dapat menggunakannya untuk mendapatkan jawaban cerdas dan real time atas pertanyaan mereka. Dalam arsitektur ini, Vantage di Azure digunakan sebagai sumber atau tujuan untuk tugas integrasi data. Vantage Native Object Storage (NOS) digunakan untuk berintegrasi dengan data di Blob Storage.

Data Factory

Data Factory adalah layanan ekstrak cloud tanpa server, transformasi, pemuatan (ETL). Anda dapat menggunakannya untuk mengatur dan mengotomatiskan pergerakan dan transformasi data. Ini menyediakan antarmuka pengguna bebas kode untuk penyerapan data dan penulisan intuitif dan pemantauan dan manajemen panel kaca tunggal.

Anda dapat menggunakan Data Factory untuk membuat dan menjadwalkan alur kerja berbasis data (disebut alur) yang dapat menyerap data dari berbagai penyimpanan data. Anda dapat membuat proses ETL kompleks yang mengubah data secara visual dengan menggunakan aliran data yang berjalan di Spark atau layanan komputasi seperti Azure Batch, Azure Pembelajaran Mesin, Apache Spark, SQL, Azure HDInsight dengan Hadoop, dan Azure Databricks. Bekerja dengan Data Factory melibatkan lapisan berikut, yang tercantum dari tingkat abstraksi tertinggi ke perangkat lunak yang paling dekat dengan data.

  • Alur adalah antarmuka grafis yang berisi aktivitas dan jalur data.
  • Aktivitas melakukan operasi pada data.
  • Sumber dan sink adalah aktivitas yang menentukan dari mana data berasal dan ke mana data tersebut pergi.
  • Himpunan data adalah sekumpulan data yang terdefinisi dengan baik yang diserap, dimuat, dan diubah oleh Data Factory.
  • Layanan tertaut memungkinkan Data Factory mengakses informasi koneksi untuk sumber data eksternal tertentu.
  • Runtime integrasi (IR) menyediakan gateway antara Data Factory dan data atau sumber daya komputasi.

IR yang dihost sendiri

IR yang dihost sendiri dapat melakukan operasi penyalinan antara penyimpanan data cloud dan penyimpanan data jaringan privat. Anda juga dapat mengubah sumber daya komputasi di jaringan lokal atau jaringan virtual Azure. Anda memerlukan komputer lokal atau komputer virtual di jaringan privat Anda untuk menginstal IR yang dihost sendiri. Untuk informasi selengkapnya, lihat Pertimbangan untuk menggunakan IR yang dihost sendiri. Artikel ini menjelaskan cara menggunakan IR yang dihost sendiri untuk menyambungkan ke VantageCloud dan mengekstrak data untuk dimuat ke Azure Data Lake Storage.

Konektor teradata

Dalam arsitektur ini, Data Factory menggunakan konektor Teradata untuk terhubung ke Vantage. Konektor Teradata mendukung:

  • Teradata versi 14.10, 15.0, 15.10, 16.0, 16.10, dan 16.20.
  • Menyalin data dengan menggunakan autentikasi dasar, Windows, atau LDAP.
  • Penyalinan paralel dari sumber Teradata. Untuk informasi selengkapnya, lihat Salinan paralel dari Teradata.

Artikel ini menjelaskan cara menyiapkan layanan dan himpunan data tertaut untuk aktivitas Salin Data pabrik data, yang menyerap data dari Vantage dan memuatnya ke Data Lake Storage.

Detail skenario

Artikel ini menjelaskan tiga skenario:

  • Data Factory menarik data dari VantageCloud Enterprise dan memuatnya ke Blob Storage
  • Data Factory memuat data ke VantageCloud Enterprise dari Blob Storage
  • Menggunakan fungsionalitas NOS Vantage untuk mengakses data yang diubah dan dimuat ke Dalam Blob Storage oleh Data Factory

Skenario 1: Memuat data ke Blob Storage dari VantageCloud

Skenario ini menjelaskan cara menggunakan Data Factory untuk mengekstrak data dari VantageCloud Enterprise, melakukan beberapa transformasi dasar, lalu memuat data ke dalam kontainer Blob Storage.

Skenario ini menyoroti integrasi asli antara Data Factory dan Vantage dan seberapa mudah Anda dapat membangun alur ETL perusahaan untuk mengintegrasikan data di Vantage.

Untuk menyelesaikan prosedur ini, Anda harus memiliki kontainer Blob Storage dalam langganan Anda, seperti yang ditunjukkan dalam diagram arsitektur.

  1. Untuk membuat konektor asli ke Vantage, di pabrik data Anda, pilih tab Kelola , pilih Layanan tertaut, lalu pilih Baru:

    Cuplikan layar yang memperlihatkan tombol Baru di layanan Tertaut.

  2. Cari Teradata lalu pilih konektor Teradata . Lalu pilih Lanjutkan:

    Cuplikan layar yang memperlihatkan konektor Teradata.

  3. Konfigurasikan layanan tertaut untuk menyambungkan ke database Vantage Anda. Gunakan mekanisme autentikasi paling aman yang tersedia dan atur parameter yang sesuai. Untuk informasi selengkapnya, lihat Properti layanan tertaut konektor Teradata. Gunakan Key Vault sebagai sumber untuk rahasia koneksi apa pun. Anda akan menggunakan IR yang dihost sendiri. Untuk informasi selengkapnya, lihat instruksi ini untuk menyebarkan IR yang dihost sendiri. Sebarkan di jaringan virtual yang sama dengan pabrik data Anda.

    Gunakan nilai berikut untuk mengonfigurasi layanan tertaut:

    • Nama: Masukkan nama untuk koneksi layanan tertaut Anda.
    • Menyambungkan melalui runtime integrasi: Pilih SelfHostedIR.
    • Nama server:
      • Jika Anda terhubung melalui peering jaringan virtual, berikan alamat IP VM di kluster Teradata. Anda dapat terhubung ke alamat IP VM apa pun di kluster.
      • Jika Anda terhubung melalui Private Link, berikan alamat IP titik akhir privat yang Anda buat di jaringan virtual Anda untuk terhubung ke kluster Teradata melalui Private Link.
    • Jenis autentikasi: Pilih jenis autentikasi yang paling aman, sumber rahasia dari Azure Key Vault.
    • Pilih Uji koneksi, lalu pilih Buat. Pastikan bahwa penulisan interaktif diaktifkan untuk runtime integrasi Anda sehingga fungsionalitas koneksi pengujian berfungsi.

    Untuk pengujian, Anda dapat menggunakan database pengujian di Vantage yang disebut NYCTaxiADFIntegration. Database ini memiliki satu tabel bernama Green_Taxi_Trip_Data. Anda dapat mengunduh database dari NYC OpenData. Pernyataan CREATE TABLE berikut ini dapat membantu Anda memahami skema tabel.

    CREATE MULTISET TABLE NYCTaxiADFIntegration.Green_Taxi_Trip_Data, FALLBACK ,
         NO BEFORE JOURNAL,
         NO AFTER JOURNAL,
         CHECKSUM = DEFAULT,
         DEFAULT MERGEBLOCKRATIO,
         MAP = TD_MAP1
         (
          VendorID BYTEINT,
          lpep_pickup_datetime DATE FORMAT ‘YY/MM/DD’,
          lpep_dropoff_datetime DATE FORMAT ‘YY/MM/DD’,
          store_and_fwd_flag VARCHAR(1) CHARACTER SET LATIN CASESPECIFIC,
          RatecodeID BYTEINT,
          PULocationID SMALLINT,
          DOLocationID SMALLINT,
          passenger_count BYTEINT,
          trip_distance FLOAT,
          fare_amount FLOAT,
          extra DECIMAL(18,16),
          mta_tax DECIMAL(4,2),
          tip_amount FLOAT,
          tolls_amount DECIMAL(18,16),
          ehail_fee BYTEINT,
          improvement_surcharge DECIMAL(3,1),
          total_amount DECIMAL(21,17),
          payment_type BYTEINT,
          trip_type BYTEINT,
          congestion_surcharge DECIMAL(4,2))
    NO PRIMARY INDEX ;
    
  4. Selanjutnya, Anda membuat alur sederhana untuk menyalin data dari tabel, melakukan beberapa transformasi dasar, lalu memuat data ke dalam kontainer Blob Storage. Seperti yang disebutkan di awal prosedur ini, Anda seharusnya sudah membuat kontainer Blob Storage dalam langganan Anda. Pertama, buat layanan tertaut untuk menyambungkan ke kontainer, yang merupakan sink tempat Anda akan menyalin data.

    • Pilih tab Kelola di pabrik data Anda, pilih Layanan tertaut, lalu pilih Baru:

      Cuplikan layar yang memperlihatkan tombol Baru.

  5. Cari Azure Blob, pilih konektor Azure Blob Storage , lalu pilih Lanjutkan:

    Cuplikan layar yang memperlihatkan layanan tertaut Blob Storage.

  6. Konfigurasikan layanan tertaut untuk menyambungkan ke akun Blob Storage:

    • Nama: Masukkan nama untuk koneksi layanan tertaut Anda.
    • Menyambungkan melalui runtime integrasi: Pilih AutoResolveIntegrationRuntime.
    • Jenis autentikasi: Pilih Kunci akun.
    • Langganan Azure: Masukkan ID langganan Azure Anda.
    • Nama akun penyimpanan: Masukkan nama akun Azure Storage Anda.

    Pilih Uji koneksi untuk memverifikasi koneksi, lalu pilih Buat.

    Cuplikan layar yang memperlihatkan konfigurasi layanan tertaut Blob Storage.

  7. Membuat alur Data Factory:

    1. Pilih tab Pembuat .
    2. Pilih tombol +.
    3. Pilih Alur.
    4. Masukkan nama untuk alur.

    Cuplikan layar yang memperlihatkan langkah-langkah untuk membuat alur.

  8. Buat dua himpunan data:

    1. Pilih tab Pembuat .
    2. Pilih tombol +.
    3. Pilih Himpunan Data.
    4. Buat himpunan Green_Taxi_Trip_Data data untuk tabel Teradata:
    • Pilih Teradata sebagai Penyimpanan Data.
    • Nama: Masukkan nama untuk himpunan data.
    • Layanan tertaut: Pilih layanan tertaut yang Anda buat untuk Teradata di langkah 2 dan 3.
    • Nama tabel: Pilih tabel dari daftar.
    • Pilih OK.

    Cuplikan layar yang memperlihatkan properti untuk tabel Teradata.

    • Buat himpunan data Azure Blob:
      • Pilih Azure Blob sebagai Penyimpanan Data.
      • Pilih format data Anda. Parquet digunakan dalam demonstrasi ini.
      • Layanan tertaut: Pilih layanan tertaut yang Anda buat di langkah 6.
      • Jalur file: Masukkan jalur file file blob.
      • Impor skema: Pilih Tidak Ada.
      • Pilih OK.

    Cuplikan layar yang memperlihatkan properti untuk himpunan data Azure Blob Storage.

  9. Seret aktivitas Salin Data ke alur.

    Catatan

    Konektor Teradata saat ini tidak mendukung aktivitas Aliran Data di Data Factory. Jika Anda ingin melakukan transformasi pada data, kami sarankan Anda menambahkan aktivitas Aliran Data setelah aktivitas Salin.

  10. Konfigurasikan aktivitas Salin Data:

    • Pada tab Sumber , di bawah Himpunan data sumber, pilih himpunan data tabel Teradata yang Anda buat di langkah sebelumnya.

    • Untuk Gunakan kueri, pilih Tabel.

    • Gunakan nilai default untuk opsi lainnya.

      Cuplikan layar yang memperlihatkan langkah-langkah untuk membuat aktivitas salin data.

    • Pada tab Sink , di bawah Himpunan data Sink, pilih himpunan data Azure Blob yang Anda buat di langkah sebelumnya.

    • Gunakan nilai default untuk opsi lainnya.

      Cuplikan layar yang memperlihatkan konfigurasi untuk himpunan data sink.

  11. Pilih Debug. Alur menyalin data dari tabel Teradata ke file Parquet di Blob Storage.

Skenario 2: Memuat data ke VantageCloud dari Blob Storage

Skenario ini menjelaskan cara menggunakan konektor ODBC untuk terhubung ke Vantage melalui IR VM yang dihost sendiri untuk memuat data. Karena IR perlu diinstal dan dikonfigurasi dengan driver TERadata ODBC, opsi ini hanya berfungsi dengan runtime integrasi yang dihost sendiri Data Factory.

Anda juga dapat menggunakan TTU, aktivitas kustom Data Factory, dan Azure Batch untuk memuat data ke Vantage dan mengubahnya. Untuk informasi selengkapnya, lihat Menyambungkan Teradata Vantage ke Azure Data Factory Menggunakan Fitur Aktivitas Kustom. Kami menyarankan agar Anda mengevaluasi kedua opsi untuk pertimbangan performa, biaya, dan manajemen dan memilih opsi yang paling sesuai dengan kebutuhan Anda.

  1. Mulailah dengan menyiapkan IR yang dihost sendiri yang Anda buat dalam skenario sebelumnya. Anda perlu menginstal driver TERadata ODBC di atasnya. Skenario ini menggunakan VM Windows 11 untuk IR yang dihost sendiri.

    1. Gunakan RDP untuk menyambungkan ke VM.
    2. Unduh dan instal driver Teradata ODBC.
    3. Jika JAVA JRE belum ada di VM, unduh dan instal.
  2. Buat DSN sistem 64-bit untuk database Teradata dengan menambahkan sumber data ODBC.

    • Pastikan untuk menggunakan jendela DSN 64-bit.

    • Pilih Driver ODBC Database Teradata, seperti yang diperlihatkan dalam cuplikan layar berikut.

    • Pilih Selesai untuk membuka jendela penyetelan driver.

      Cuplikan layar yang memperlihatkan langkah-langkah untuk membuat sumber data.

  3. Konfigurasikan properti DSN.

    • Nama: Masukkan nama untuk DSN.

    • Di bawah Info Server Teradata, di Nama atau alamat IP:

      • Jika Anda terhubung melalui peering jaringan virtual, berikan alamat IP VM di kluster Teradata. Anda dapat terhubung ke alamat IP VM apa pun di kluster.
      • Jika Anda terhubung melalui Private Link, berikan alamat IP titik akhir privat yang Anda buat di jaringan virtual Anda untuk terhubung ke kluster Teradata melalui Private Link.
    • Secara opsional, berikan Nama Pengguna dan pilih Uji. Anda diminta untuk memasukkan kredensial. Pilih OK dan pastikan koneksi berhasil. Perhatikan bahwa Anda akan memberikan nama pengguna dan kata sandi di Data Factory saat membuat layanan tertaut ODBC yang digunakan untuk menyambungkan ke database Teradata dari Data Factory.

    • Biarkan bidang lain kosong.

    • Pilih OK.

      Cuplikan layar yang memperlihatkan konfigurasi untuk driver.

  4. Jendela Administrator Sumber Data ODBC akan terlihat seperti yang ada di cuplikan layar berikut. Pilih Terapkan. Kini Anda dapat menutup jendela. Runtime integrasi yang dihost sendiri sekarang siap untuk terhubung ke Vantage dengan menggunakan ODBC.

    Cuplikan layar yang memperlihatkan jendela Administrator Sumber Data ODBC.

  5. Di Data Factory, buat koneksi layanan tertaut. Pilih ODBC sebagai penyimpanan data:

    Cuplikan layar yang memperlihatkan layanan tertaut ODBC.

  6. Konfigurasikan layanan tertaut dengan runtime integrasi yang Anda konfigurasikan di langkah-langkah sebelumnya:

    • Nama: Berikan nama untuk layanan tertaut.
    • Menyambungkan melalui runtime integrasi: Pilih SelfhostedIR.
    • Berikan kredensial berdasarkan nilai yang disimpan di Azure Key Vault.
    • Pilih Uji koneksi, lalu pilih Buat.
  7. Selesaikan langkah-langkah berikut untuk membuat himpunan data dengan ODBC sebagai penyimpanan data. Gunakan layanan tertaut yang Anda buat sebelumnya.

    1. Pilih tab Pembuat .
    2. Pilih tombol +.
    3. Pilih Himpunan Data.
    4. Buat himpunan Green_Taxi_Trip_DataIn data untuk tabel Teradata:
    • Pilih ODBC sebagai penyimpanan data, lalu pilih Lanjutkan.
    • Nama: Berikan nama untuk himpunan data.
    • Layanan tertaut: Pilih layanan tertaut ODBC yang Anda buat di langkah-langkah sebelumnya.
    • Nama tabel: Pilih tabel dari daftar.
    • Pilih OK.

    Tip

    Saat Anda memuat data, gunakan tabel penahapan dengan jenis data generik untuk menghindari kesalahan ketidakcocokan jenis data. Misalnya, alih-alih menggunakan jenis data Desimal untuk kolom, gunakan Varchar. Anda kemudian dapat melakukan transformasi jenis data di database Vantage.

    Cuplikan layar yang memperlihatkan properti untuk tabel Teradata.

  8. Buat koneksi Azure Blob ke file sumber yang ingin Anda muat ke Vantage dengan mengikuti langkah 4 hingga 6 dan langkah 8 dalam skenario pertama. Perhatikan bahwa Anda membuat koneksi ini untuk file sumber, sehingga jalur file akan berbeda.

  9. Buat alur yang berisi aktivitas Salin Data, seperti yang dijelaskan dalam skenario 1.

    • Seret aktivitas Salin Data ke alur.

      Catatan

      Konektor ODBC Teradata saat ini tidak mendukung aktivitas Aliran Data di Data Factory. Jika Anda ingin melakukan transformasi pada data, kami sarankan Anda membuat aktivitas Aliran Data sebelum aktivitas Salin Data.

  10. Konfigurasikan aktivitas Salin Data:

    • Pada tab Sumber , pilih himpunan data file yang ingin Anda muat ke Teradata.

    • Gunakan nilai default untuk opsi lainnya.

      Cuplikan layar yang memperlihatkan langkah-langkah untuk membuat aktivitas Salin Data.

    • Pada tab Sink , di bawah Himpunan data Sink, pilih himpunan data tabel Teradata yang Anda buat melalui koneksi ODBC.

    • Gunakan nilai default untuk opsi lainnya.

      Cuplikan layar yang memperlihatkan properti untuk himpunan data sink.

  11. Pilih Debug. Alur menyalin data dari file Parquet ke Vantage.

Skenario 3: Mengakses data di Blob Storage dari VantageCloud

Skenario ini menjelaskan cara menggunakan fungsionalitas Vantage Native Object Store (NOS) untuk mengakses data yang ada di Blob Storage. Skenario sebelumnya sangat ideal ketika Anda ingin memuat data ke Vantage secara berkelanjutan atau terjadwal. Skenario ini menjelaskan cara mengakses data secara satu kali dari Blob Storage, dengan atau tanpa memuat data ke Vantage.

Catatan

Anda juga dapat menggunakan NOS untuk mengekspor data ke Blob Storage.

  • Anda dapat menggunakan kueri berikut untuk membaca, dari Vantage, data yang telah diubah dan dimuat ke Blob Storage melalui Data Factory, tanpa memuat data ke Vantage. Anda dapat menggunakan Teradata SQL Editor untuk menjalankan kueri. Untuk mengakses data yang ada di blob, Anda menyediakan nama akun penyimpanan dan kunci akses di Access_ID bidang dan Access_Key . Kueri juga mengembalikan bidang yang disebut Location yang menentukan jalur file tempat rekaman dibaca.

    FROM (  LOCATION='/AZ/yourstorageaccount.blob.core.windows.net/vantageadfdatain/NYCGreenTaxi/'
    AUTHORIZATION='{"ACCESS_ID":"yourstorageaccountname","ACCESS_KEY":"yourstorageaccesskey"}'
    ) as GreenTaxiData;
    

    Cuplikan layar yang memperlihatkan kueri untuk membaca data.

  • Berikut adalah contoh lain mengkueri data di tempat. Ini menggunakan READ_NOS operator tabel.

    Cuplikan layar yang memperlihatkan contoh lain mengkueri data di tempat.

  • Anda juga dapat mengkueri data di tempat atau memuat data ke dalam database Vantage dengan membuat tabel asing di penyimpanan objek. Anda harus terlebih dahulu membuat objek otorisasi yang menggunakan nama akun penyimpanan dan kunci akses di USER bidang dan PASSWORD , masing-masing, seperti yang ditunjukkan dalam sintaks berikut. Anda dapat menggunakan objek ini untuk membuat tabel asing sehingga Anda tidak perlu menyediakan kunci saat membuat tabel.

    USER 'YOUR-STORAGE-ACCOUNT-NAME'
    PASSWORD 'YOUR-ACCESS-KEY';
    

    Anda sekarang dapat membuat tabel asing untuk mengakses data. Kueri berikut membuat tabel untuk data Green Taxi. Ini menggunakan objek otorisasi.

    Catatan

    Saat Anda memuat file Parquet, pastikan untuk memetakan jenis data dengan benar. Untuk bantuan dalam mencocokkan jenis data, Anda dapat menggunakan perintah READ_NOS untuk mempratinjau skema Parquet.

    Create Foreign Table 
    NYCTaxiADFIntegration.GreenTaxiForeignTable
    , External security definer trusted DefAuth3
    ( 
    VendorID INT,
          lpep_pickup_datetime TIMESTAMP,
          lpep_dropoff_datetime TIMESTAMP,
          store_and_fwd_flag VARCHAR(40) CHARACTER SET UNICODE CASESPECIFIC,
          RatecodeID INT,
          PULocationID INT,
          DOLocationID INT,
          passenger_count INT,
          trip_distance FLOAT,
          fare_amount FLOAT,
          extra DECIMAL(38,18),
          mta_tax DECIMAL(38,18),
          tip_amount FLOAT,
          tolls_amount DECIMAL(38,18),
          ehail_fee INT,
          improvement_surcharge DECIMAL(38,18),
          total_amount DECIMAL(38,18),
          payment_type INT,
          trip_type INT,
          congestion_surcharge DECIMAL(38,18)
    )   
    USING (    
    LOCATION('/AZ/adfvantagestorageaccount.blob.core.windows.net/vantageadfdatain/NYCGreenTaxi')
       STOREDAS ('PARQUET'))
    NO PRIMARY INDEX
         , PARTITION BY COLUMN;
    

    Sekarang Anda bisa mengkueri data dari tabel asing sama seperti Anda bisa mengkueri tabel lain:

    Cuplikan layar yang memperlihatkan cara mengkueri data dari tabel asing.

  • Anda telah melihat cara mengkueri data di penyimpanan objek di tempat. Namun, Anda mungkin ingin memuat data secara permanen ke dalam tabel dalam database untuk performa kueri yang lebih baik. Anda dapat memuat data dari Blob Storage ke dalam tabel permanen dengan menggunakan pernyataan berikut. Beberapa opsi mungkin hanya berfungsi untuk format file data tertentu. Untuk detailnya, lihat dokumentasi Teradata. Untuk kode sampel, lihat Memuat Data Eksternal ke dalam Database.

    Metode Deskripsi
    BUAT TABEL SEBAGAI... DENGAN DATA Mengakses definisi tabel dan data dari tabel asing yang sudah ada dan membuat tabel permanen baru dalam database
    BUAT TABEL SEBAGAI... DARI READ_NOS Mengakses data langsung dari penyimpanan objek dan membuat tabel permanen dalam database
    SISIPKAN PILIH Menyimpan nilai dari data eksternal dalam tabel database persisten

    Sampel berikut menunjukkan cara membuat tabel permanen dari GreenTaxiData:

    CREATE Multiset table NYCTaxiADFIntegration.GreenTaxiNosPermanent As (
    SELECT D.PULocationID as PickupSite, Sum(fare_amount) AS TotalFarebyPickuploation
    FROM NYCTaxiADFIntegration.GreenTaxiForeignTable AS D
    GROUP BY 1
    ) with Data
    No Primary Index;
    
    INSERT INTO NYCTaxiADFIntegration.GreenTaxiNosPermanent
    SELECT D.PULocationID as PickupSite, Sum(fare_amount) AS TotalFarebyPickuploation
    FROM NYCTaxiADFIntegration.GreenTaxiForeignTable AS D
    GROUP BY 1;
    

Praktik terbaik

  • Ikuti tips performa konektor dan praktik terbaik yang dijelaskan di Teradata sebagai sumber.
  • Pastikan IR yang dihost sendiri berukuran benar untuk volume data Anda. Anda mungkin ingin meluaskan skala IR untuk mendapatkan performa yang lebih baik. Untuk informasi selengkapnya, lihat panduan performa IR yang dihost sendiri ini.
  • Gunakan panduan performa dan skalabilitas aktivitas Salin untuk menyempurnakan alur Data Factory untuk performa.
  • Gunakan alat Data Salin Data Factory untuk menyiapkan alur dengan cepat dan menjalankannya sesuai jadwal.
  • Pertimbangkan untuk menggunakan Azure VM dengan IR yang dihost sendiri untuk mengelola biaya menjalankan alur. Jika Anda ingin menjalankan alur dua kali per hari, Anda memulai VM dua kali lalu mematikannya.
  • Pertimbangkan untuk menggunakan CI/CD di Data Factory untuk menerapkan praktik integrasi dan pengembangan berkelanjutan dengan dukungan Git.
  • Optimalkan jumlah aktivitas alur Anda. Aktivitas yang tidak perlu meningkatkan biaya dan membuat alur menjadi kompleks.
  • Pertimbangkan untuk menggunakan aliran data pemetaan untuk mengubah data Blob Storage secara visual dengan proses tanpa kode dan kode rendah untuk menyiapkan data Vantage untuk penggunaan seperti pelaporan Power BI.
  • Selain menggunakan pemicu jadwal, pertimbangkan untuk menggunakan campuran jendela tumbling dan pemicu peristiwa untuk memuat data Vantage ke lokasi tujuan. Kurangi pemicu yang tidak perlu untuk mengurangi biaya.
  • Gunakan Vantage NOS untuk kueri ad hoc untuk menyediakan data dengan mudah untuk aplikasi hulu.

Kontributor

Artikel ini dikelola oleh Microsoft. Ini awalnya ditulis oleh kontributor berikut.

Penulis utama:

Kontributor lain:

Untuk melihat profil LinkedIn non-publik, masuk ke LinkedIn.

Langkah berikutnya