Veri alma ve hazırlama
Veriler, makine öğrenmesinin temelini oluşturur. Hem veri miktarı hem de veri kalitesi modelin doğruluğunu etkiler.
Makine öğrenmesi modelini eğitmek için şunları yapmanız gerekir:
- Veri kaynağını ve biçimini belirleme.
- Verilerin nasıl hizmet verileceğini seçin.
- Veri alımı çözümü tasarlama.
Makine öğrenmesi modelini eğitmek için kullandığınız verileri almak ve hazırlamak için bir kaynaktan veri ayıklamanız ve modelleri eğitmek veya tahminlerde bulunmak için kullanmak istediğiniz Azure hizmetinin kullanımına sunmanız gerekir.
Veri kaynağını ve biçimini belirleme
İlk olarak, veri kaynağınızı ve geçerli veri biçimini tanımlamanız gerekir.
| Identify the | Örnekler |
|---|---|
| Veri kaynağı | Örneğin, veriler müşteri ilişkileri yönetimi (CRM) sisteminde, SQL veritabanı gibi bir işlem veritabanında depolanabilir veya nesnelerin İnterneti (IoT) cihazı tarafından oluşturulabilir. |
| Veri biçimi | Verilerin tablosal veya yapılandırılmış veriler, yarı yapılandırılmış veriler veya yapılandırılmamış veriler olabilecek geçerli biçimini anlamanız gerekir. |
Ardından, modelinizi eğitmek için hangi verilere ihtiyacınız olduğuna ve bu verilerin modele hangi biçimde sunulduğuna karar vermeniz gerekir.
Verilerin nasıl hizmet verileceğini seçme
Makine öğrenmesi modellerini eğitirken verilere erişmek için verileri bir bulut veri hizmetinde depolayarak sunmak istiyorsunuz. Verileri işlemden ayrı olarak depolayarak maliyetleri en aza indirir ve daha esnek olursunuz. Verilerinizi modellerinizi eğitmek için kullandığınız başka bir araçtan ayrı olan bir araçta depolamak en iyi yöntemdir.
Verilerinizi depolamak için en uygun araç veya hizmet, sahip olduğunuz verilere ve model eğitimi için kullandığınız hizmete bağlıdır. Azure'da yaygın olarak kullanılan bazı seçenekler şunlardır:
- Azure Blob Depolama: Verileri yapılandırılmamış veri olarak depolamak için en ucuz seçenek. Görüntüler, metin ve JSON gibi dosyaları depolamak için idealdir. Veri bilimciler CSV dosyalarıyla çalışmayı tercih ettikçe genellikle verileri CSV dosyaları olarak depolamak için de kullanılır.
- Azure Data Lake Storage (2. Nesil): Azure Blob Depolama'nın daha gelişmiş bir sürümü. Ayrıca CSV dosyaları ve görüntüleri gibi dosyaları yapılandırılmamış veriler olarak depolar. Veri gölü ayrıca hiyerarşik bir ad alanı da uygular. Bu, belirli bir dosya veya klasöre erişim vermek daha kolay olduğu anlamına gelir. Depolama kapasitesi neredeyse sınırsızdır, bu nedenle büyük verileri depolamak için idealdir.
- Azure SQL Veritabanı: Verileri yapılandırılmış veri olarak depolar. Veriler tablo olarak okunur ve veritabanında bir tablo oluşturulduğunda şema tanımlanır. Zaman içinde değişmeyen veriler için idealdir.
Veri alımı çözümü tasarlama
Genel olarak, analiz etmeden önce kaynağından veri ayıklamak en iyi yöntemdir. Verileri veri mühendisliği, veri analizi veya veri bilimi için kullanıyor olun, verileri kaynağından ayıklamak, dönüştürmek ve bir sunum katmanına yüklemek istiyorsunuz. Böyle bir işlem Ayıklama, Dönüştürme ve Yükleme (ETL) veya Ayıklama, Yükleme ve Dönüştürme (ELT) olarak da adlandırılır. Sunum katmanı, verilerinizi makine öğrenmesi modellerini eğitme gibi daha fazla veri işleme için kullandığınız hizmet için kullanılabilir hale getirir.
Verileri taşımak ve dönüştürmek için veri alımı işlem hattı kullanabilirsiniz. Veri alımı işlem hattı, verileri taşıyıp dönüştüren bir görev dizisidir. İşlem hattı oluşturarak, görevleri el ile tetiklemeyi veya görevlerin otomatik olmasını istediğinizde işlem hattını zamanlamayı seçebilirsiniz. Bu tür işlem hatları Azure Synapse Analytics, Azure Databricks ve Azure Machine Learning gibi Azure hizmetleriyle oluşturulabilir.
Veri alımı çözümü için yaygın bir yaklaşım:
- Kaynağından (CRM sistemi veya IoT cihazı gibi) ham verileri ayıklayın.
- Azure Synapse Analytics ile verileri kopyalayın ve dönüştürün.
- Hazırlanan verileri bir Azure Blob Depolama depolayın.
- Azure Machine Learning ile modeli eğitin.
Bir örneği keşfetme
Bir hava durumu tahmin modeli eğitmek istediğinizi düşünün. Her dakikanın tüm sıcaklık ölçümlerinin birleştirildiği bir tablo tercih ediyorsunuz. Verilerin toplamını oluşturmak ve saat başına ortalama sıcaklık tablosuna sahip olmak istiyorsunuz. Tabloyu oluşturmak için, IoT cihazından alınan ve sıcaklığı aralıklarla ölçen yarı yapılandırılmış verileri tablosal verilere dönüştürmek istiyorsunuz.
Örneğin, tahmin modelini eğitmek için kullanabileceğiniz bir veri kümesi oluşturmak için şunları yapabilirsiniz:
- IoT cihazlarından veri ölçümlerini JSON nesneleri olarak ayıklayın.
- JSON nesnelerini tabloya dönüştürün.
- Dakika başına makine başına sıcaklığı elde etmek için verileri dönüştürün.