Veri ve veri depolama türlerini anlama
Verilerin nasıl yapılandırıldığını ve depolandığını anlamak, gereksinimlerin toplanması sırasında her analiz projesinin başında gerçekleşen kritik bir adımdır. Hem yapılandırılmış hem de yapılandırılmamış veriler analiz için uygundur, ancak veri ekibinin verileri almak, dönüştürmek ve depolamak için kullanacağı araçlar veri türüne göre farklılık gösterir.
Yapılandırılmış veriler
Yapılandırılmış veriler çoğumuz için tanıdıktır. Harfler ve sayılar, basitleştirilmiş arama ve işleme için sütunlar ve satırlar halinde düzenlenir. Yapılandırılmış veriler genellikle doğası gereği niceldir ve ilişkisel veritabanlarında ve veri ambarlarında depolanır. Yapılandırılmış veriler tanıdık bir Microsoft Excel tablosunda bulunabilir. Daha büyük bir ölçekte yapılandırılmış veri depolama, Azure SQL veritabanı gibi ilişkisel bir veritabanında depolanabilir.
Yapılandırılmış veriler tüm analiz türlerine iyi bir şekilde yardımcı olur ve en erişilebilir olandır. Yapılandırılmış Sorgu Dili (SQL), ilişkisel veritabanlarını sorgulamak için kullanılır ve veri analistleri, veri mühendisleri ve veri bilimcileri tarafından yaygın olarak kullanılır.
Verilerin Excel elektronik tablolarında mı yoksa Azure SQL veritabanı gibi bir ilişkisel veritabanında mı depolandığına bakılmaksızın, yıllık finansal verilerin sunulması, yapılandırılmış verilerin kullanılmasına yönelik yaygın bir örnektir.
Yapılandırılmamış veriler
Yapılandırılmamış veriler , herhangi bir ayrımcı şekilde düzenlenmeyen bilgilerdir. Yapılandırılmamış veriler genellikle nitel analiz için daha uygundur ve ilişkisel olmayan veritabanlarında ve veri göllerinde depolanır.
Yapılandırılmamış veri biçimleri, Word belgelerinden,.csv dosyalarına, json dosyalarına, görüntülere ve PDF'lere, ses ve video dosyalarına kadar çok farklılık gösterir. Bu dosyalar bir Azure Data Lake'te depolanır.