檢查不同類型的資料

4 分鐘

資料只是收集資訊的另一個表達方式。可用資訊的數量非常龐大，可橫跨許多不同的資訊類型。

我們可以透過許多方式來將資料分類。若要在機器學習空間中運作，我們必須了解可用資料的類型和數位儲存系統。

連續、次序和分類資料

為了進行資料運算，我們有時需要了解資料確切代表的內容。此認知可協助我們選擇正確的機器學習模型。它也可以協助我們以特定且實用的方式組織資料。

「連續資料」是指可依任意數量增加或減少的數值資訊。例如，您可以將 1 公釐新增至 1 公尺，並將總和計算為 1.001 公尺。

「分類資料」是指未落在連續頻譜的資料。在我們的案例中，資料會將鐵達尼號的人員分類為「機組人員」或「乘客」。您無法以非常明顯的方式來將分類資料儲存為數字。

「次序資料」是指具有已定義順序的分類資料，因而可支援儲存為數值。例如，我們可以將大、中和小的值定義為次序資料，因為我們可使用數字將其排名：大 > 中 > 小。相較之下，蘋果、柳橙和椰子值是分類，因為我們無法將它們排名。次序資料也可指稱只能透過指定數量增加或減少的數字。例如，登船的人數保證為整數：不會有人是半登船狀態。

「識別碼」是指一種特殊類型的分類資料，其中每個樣本都有自己的唯一識別碼。例如，在我們的資料集中，鐵達尼號上的每個人都有一個指定的識別碼值，即使該人員的姓名與他人相同也一樣。身分識別值可協助我們在資料集中進行瀏覽，但我們的資料分析不會直接包含那些值。

資料類型

電腦必須儲存和處理我們用於機器學習的所有資料。儘管我們可以使用鉛筆，在一張紙上寫下幾乎所有資料，但是電腦會將資訊儲存為 0 和 1 的序列。這會限制我們使用資訊的方式。

資料類型是指電腦儲存的資料類型。資料類型通常具有下列分類：

整數：計算數字：例如 2
浮點數：有小數位數的數字，例如 2.43
字串：字母和字組
布林值：true 和 false
無、void 或 null：不是資料，而是缺少資料

這些概念的確切詞彙和實作會因語言而異，但所有電腦語言的運作方式都類似。

有時，兩個不同的資料類型會提供相等的功能。例如，電腦可以將 true/false 值處理為布林值 (true 或 false)、字串 (「y」或「n」)、整數 (0 或 1)，或甚至浮點數 (0.0 或 1.0)。

衍生的資料類型

當我們使用技術時，會遇到上述清單以外許多更基礎的「基本」資料類型。電腦可以儲存日期、影像、3D 模型等等。我們將這些稱為衍生的資料類型。我們會從一或多個基本資料類型開始，以建構衍生的資料類型。

通常在機器學習中，將衍生的類型轉換成更簡單的表示法會很有幫助。例如，我們可以將定義的日期值 (例如，1st January, 2017) 儲存為整數或浮點數：20170101。整數或浮點數可讓模型背後的計算變得更容易。

選擇太多嗎？

了解您可用的資料種類，可協助您選擇正確的資料類型。

儘管套件一般都很寬鬆，但正確的資料類型會因您用來執行模型的套件而異。一般規定：

若要處理連續資料，浮點數會成為最佳選擇。
次序資料通常會以整數值編碼。
只包含兩個分類的分類資料通常可以編碼為布林值或整數資料。處理三個或更多分類可能會變得稍微複雜些。別擔心 - 下一個單元將涵蓋本主題！

在下一個練習中，我們將練習資料視覺效果，以進一步了解資料本身。如此一來，請仔細記下涉及的資料類型，並嘗試識別連續、次序或分類資料類型。

繼續

檢查不同類型的資料

連續、次序和分類資料

資料類型

衍生的資料類型

選擇太多嗎？

意見反應