Sıkıştırılmış Veri Kümelerini Açma
Kullanıcı depolamada bir zip paketinden veri kümelerini açma
Kategori: Veri Girişi ve Çıkışı
Not
Uygulama: Machine Learning Studio (yalnızca klasik)
Benzer sürükle ve bırak modülleri tasarımcıda da Azure Machine Learning kullanılabilir.
Modüle genel bakış
Bu makalede, verileri ve betik dosyalarını sıkıştırılmış biçimde karşıya yüklemek ve ardından denemede kullanmak üzere sıkıştırmalarını açmak için Machine Learning Studio'da (klasik) Sıkıştırılmış Veri Kümelerini Açma modülünün nasıl kullanımı açıklanmıştır.
Bu modülün amacı, veri dosyalarınızı sıkıştırılmış biçimde kaydederek ve karşıya yükerek çok büyük veri kümeleriyle çalışırken veri aktarım sürelerini azaltmaktır. Genellikle, veri kümeniz karşıya yükleme için sıkıştırmayı kullanmak ve karşıya yükleme süresini ve ilişkili maliyetleri en aza indirmek için kullanmak istediğiniz kadar büyük olduğunda dosyaları sıkıştırmak iyi bir seçenektir.
Modül, çalışma alanınıza bir veri kümesi girdisi olarak alır. Veri kümesi sıkıştırılmış biçimde karşıya yüklenmli olmalıdır. Modül daha sonra veri kümesinde yer alan verileri açar ve çalışma alanınıza ekler.
Sıkıştırılmış Veri Kümelerini Paketlemeyi Kullanma
Bu bölümde verilerinizi hazırlama ve ardından Machine Learning Studio'da (klasik) sıkıştırmasını nasıl açabilirsiniz?
Adım 1. Dosyaları hazırlama
Dosyanızı karşıya yüklemeden önce, dosyanın veri kaynağında Machine Learning:
Dosyada yer alan verilerin UTF-8 kodlamasını kullandığına emin olun.
Dosya yeterince küçükse dosyayı dosyanın içinde Not Defteri istediğiniz kodlamaya kaydedebilirsiniz. Diğer birçok metin düzenleyicisi de benzer işlevlere sahip olur. CSV dosyaları için, dosya biçimi Excel kodlama belirtmek için Farklı Kaydet veya Dışarı Aktar komutlarını kullanabilirsiniz.
Veri dosyalarının CSV, TSV , ARFF veya SVMLight gibi desteklenen bir biçime sahip olduğunu doğrulayın.
Veri dosyasını veya bir dosyaya ekleyerek verileri .ZIP. GZ biçimli arşiv dosyası. Diğer arşiv türleri desteklenmiyor.
Parola korumasını kaldırın. Dosyalardan veya sıkıştırılmış klasörün kendisi şifrelenmiş veya parola korumalı ise, karşıya yüklemeden önce dosyanın kilidini açmanız veya dosyanın şifresini çözmeniz gerekir. Modül şifrelenmiş veri türlerini algılayamaz ve rastgele istemcilerden parola girişi için iletişim kutularını desteklemez.
Adım 2. Upload çalışma alanınıza veri kümesi ekleme
Ardından sıkıştırılmış veri kümenizi deneme çalışma alanınıza yükleyin.
Yenİ'ye tıklayın, VESERSET'i seçin ve YEREL DOSYADAN'ı seçin.
Karşıya yüklemek için sıkıştırılmış dosyayı bulun. Dosyayı seçerek, tür otomatik olarak Zip dosyası (posta) olarak .zip.
3. Adım Denemeye sıkıştırılmış veri kümesi ekleme
Veri kümesi tamamen karşıya yüklendikten sonra, bunu denemenize sıkıştırılmış biçimde ekleyin.
Machine Learning Studio'da (klasik) sol gezinti bölmesinde Kayıtlı Veri Kümeleri'ni seçin ve ardından Veri Kümelerim'i genişletin.
Yeni yüklediğiniz sıkıştırılmış veri kümelerini bulun ve deneme tuvali üzerine sürükleyin.
4. Adım: Veri kümesi paketini açma
Son adım veri kümesi paketini açmaktır.
Bağlan sıkıştırılmış veri kümesi, Sıkıştırılmış Veri Kümelerini Açma modülünün girişine ek olarak kullanılır.
Paketi Açmak için Veri Kümesi'ne, paketi açmak için tek bir veri kümesi adını yazın.
Sayfa1 adlı bir çalışma sayfasınıTest.csvadlı Excel CSV dosyası olarak kaydederse , veri kümesi adı Sayfa1Test.csvolur.
Veri Kümesi kutusunda Paketi Açmak için metin kutusuna yazmanız gereken ad, dosya adı uzantısı da dahil olmak üzere sıkıştırılan özgün dosyanın adıyla tam olarak aynı olması gerekir. Örneğin,Users.txtmetin dosyasına göre bir veri kümesi paketini açmak için KullanıcılarUsers.txtyazın.
Birden çok dosyayı tek bir sıkıştırılmış klasöre yerleştirmiş olursanız, aynı anda bir veri kümesi paketini açmalısınız.
İpucu
Özelliğini boş bırakırsanız sıkıştırılmış arşiv dosyasının yalnızca bir kaynak dosya içerdiği varsayılırsa modül sıkıştırılmış dosyadan dosya adını alır. Sıkıştırılmış arşiv birden çok dosya içeriyorsa, bir çalışma zamanı hatası ortaya çıkar.
Veri kümesi dosya biçimi için veri kümesi özgün biçimini belirtin: diğer bir ifadeyle, sıkıştırılmış olmadan önceki biçimi belirtin.
Şu biçimlerden birini kullanarak oluşturulan veri kümelerini karşıya yükleyebilir ve sıkıştırmasını açabilirsiniz: CSV, ARFF, TSV, SvmLight.
Bu özellik boş kalırsa modül, kaynak dosya adını kullanarak veri kümelerini tanımlar.
Özgün veri kümesi bir üst bilgi satırına sahipse Dosya üst bilgi satırına sahip seçeneğini belirleyin. Aksi takdirde ilk veri satırı üst bilgi olarak kullanılır. Bunu yapmak istemiyorsanız, giriş öncesinde bir üst bilgi ekleyin.
Bu seçenek yalnızca ve .CSV geçerlidir. TSV dosyaları.
Not
Dosyanın biçimini değiştirirseniz bu seçenek sıfırlanır.
Dosya sıkıştırılmışsa, sıkıştırmak veya genişletmek için kullanılan algoritmayı belirtmek için Sıkıştırma dosyası biçimi seçeneğini kullanın.
Şu anda .ZIP ve GZ (veya Gzip) biçimleri de desteklemektedir.
Denemeyi çalıştırın.
Sonuçlar
Verilerin doğru şekilde içe aktarılmış olduğunu doğrulamak için Paketsiz Sıkıştırılmış Veri Kümeleri modülüne sağ tıklayın ve Görselleştir'i seçin .
Veri kümesi adını değiştirmek için Paketsiz Sıkıştırılmış Veri Kümeleri modülüne sağ tıklayın ve Veri Kümesi Olarak Kaydet'i seçin. Bu noktada farklı bir ad yazarak.
Bu seçenek, tek bir ZIP dosyasından birden çok veri kümesi paketinden çıkarıyorsanız kullanışlıdır.
Örnekler
Bu modülün nasıl çalıştığını göstermek için dört farklı CSV .ZIP örnek bir dosya oluşturduk. Tüm dosyalar dosyalardan Excel.
Dosya adı | Description |
---|---|
names-uni.csv | Sütun başlıkları içeren Unicode dosyası |
names-utf.csv | Sütun başlıklarıyla UTF-8 dosyası |
nonames-uni.csv | Sütun başlığı olmayan Unicode dosyası |
nonames-utf8.csv | Sütun başlığı olmayan UTF-8 dosyası |
Sıkıştırılmış dosyanın tamamı karşıya yüklendi ve ardından Sıkıştırılmış Veri Kümelerini Açma modülü şu ayarlar kullanılarak dört dosyanın her biri ayıklanırken dört kez çalıştırıldı:
- Paketi açmak için veri kümesi = names-uni.csv, Dosya üst bilgi satırına sahip = TRUE
- Paketi açmak için veri kümesi = names-utf8.csv, Dosya üst bilgi satırına sahip = TRUE
- Paketi açmak için veri kümesi = nonames-uni.csv, Dosya üst bilgi satırına sahip = FALSE
- Paketi açmak için veri kümesi = nonames-utf8.csv, Dosya üst bilgi satırına sahip = FALSE
Sonuçlar beklendiği gibi oldu:
Dosya adı | Upload sonucu |
---|---|
names-uni.csv | Hata 0049: Dosya ayrıştırırken hata oluştu. Dosya Unicode (UTF-8) ile kodlanmış değil |
names-utf8.csv | Başarılı. Kaynak dosyadaki özgün sütun adlarını kullanır. |
nonames-uni.csv | Hata 0049: Dosya ayrıştırırken hata oluştu. Dosya Unicode (UTF-8) ile kodlanmış değil |
nonames-utf8.csv | Başarılı. Sütun adları Col1, col2, ... coln , veri kümesine otomatik olarak eklenir. |
Not
Seçeneğini kullanırsanız, Dosya üst bilgi satırı = TRUE olur ve kaynak dosyada aslında bir sütun başlığı yoksa, ilk veri satırı sütun başlığı olarak kullanılır.
Teknik notlar
Sıkıştırılmış R paketlerini çalışma alanınıza açmak için bu modülü kullanamazsınız. R paketleri karşıya yük olmalı ve sıkıştırılmış dosyalar olarak tüketilmelidir.
Sıkıştırılmış R paketleriyle çalışma hakkında daha fazla bilgi için bkz. R Betiği Yürütme.
Not
UTF-8 ile Unicode arasındaki fark kafa karışık mı? Şu Wikipedia makalesine bakın: UTF-8 nedir?
Modül parametreleri
Name | Aralık | Tür | Varsayılan | Description |
---|---|---|---|---|
Sıkıştırma dosyası biçimi | Zip Gzip |
sıkıştırma kuralı | Zip | Dosyayı sıkıştırmak veya genişletmek için kullanılan sıkıştırma algoritması. |
Paketi Açmak için Veri Kümesi | Herhangi biri | Dize | yok | Azure ML Studio'ya (klasik) kaydolmak için veri kümesi adı. Bir veri kümesi adı belirtilmezse, ad sıkıştırılmış dosyanın dosya adıyla elde edilir. |
Veri kümesi dosya biçimi | CSV TSV ARFF SVMLIGHT |
Dosya biçimi | CSV | Sıkıştırılmış dosyada veri kümesi dosya biçimi |
Dosyanın üst bilgi satırı var | TRUE/FALSE | Boole | Yanlış | Yalnızca CSV/TSV dosyasında üst bilgi satırı varsa True olarak ayarlayın |
Beklenen girişler
Ad | Tür | Description |
---|---|---|
Veri kümesi | Zip | Veri kümeleri içeren sıkıştırılmış dosya |
Çıktı
Ad | Tür | Description |
---|---|---|
Sonuç veri kümesi | Veri Tablosu | Çıktı veri kümesi |