檢查不同類型的資料

已完成

資料只是收集資訊的另一個表達方式。 可用資訊的數量非常龐大,可橫跨許多不同的資訊類型。

我們可以透過許多方式來將資料分類。 若要在機器學習空間中運作,我們必須了解可用資料的類型和數位儲存系統。

連續、次序和分類資料

為了進行資料運算,我們有時需要了解資料確切代表的內容。 此認知可協助我們選擇正確的機器學習模型。 它也可以協助我們以特定且實用的方式組織資料。

「連續資料」是指可依任意數量增加或減少的數值資訊。 例如,您可以將 1 公釐新增至 1 公尺,並將總和計算為 1.001 公尺。

「分類資料」是指未落在連續頻譜的資料。 在我們的案例中,資料會將鐵達尼號的人員分類為「機組人員」或「乘客」。 您無法以非常明顯的方式來將分類資料儲存為數字。

「次序資料」是指具有已定義順序的分類資料,因而可支援儲存為數值。 例如,我們可以將的值定義為次序資料,因為我們可使用數字將其排名:大 > 中 > 小。 相較之下,蘋果柳橙椰子值是分類,因為我們無法將它們排名。 次序資料也可指稱只能透過指定數量增加或減少的數字。 例如,登船的人數保證為整數:不會有人是半登船狀態。

「識別碼」是指一種特殊類型的分類資料,其中每個樣本都有自己的唯一識別碼。 例如,在我們的資料集中,鐵達尼號上的每個人都有一個指定的識別碼值,即使該人員的姓名與他人相同也一樣。 身分識別值可協助我們在資料集中進行瀏覽,但我們的資料分析不會直接包含那些值。

資料類型

電腦必須儲存和處理我們用於機器學習的所有資料。 儘管我們可以使用鉛筆,在一張紙上寫下幾乎所有資料,但是電腦會將資訊儲存為 0 和 1 的序列。 這會限制我們使用資訊的方式。

資料類型是指電腦儲存的資料類型。 資料類型通常具有下列分類:

  • 整數:計算數字:例如 2
  • 浮點數:有小數位數的數字,例如 2.43
  • 字串:字母和字組
  • 布林值:true 和 false
  • 無、void 或 null:不是資料,而是缺少資料

這些概念的確切詞彙和實作會因語言而異,但所有電腦語言的運作方式都類似。

有時,兩個不同的資料類型會提供相等的功能。 例如,電腦可以將 true/false 值處理為布林值 (true 或 false)、字串 (「y」或「n」)、整數 (0 或 1),或甚至浮點數 (0.0 或 1.0)。

衍生的資料類型

當我們使用技術時,會遇到上述清單以外許多更基礎的「基本」資料類型。 電腦可以儲存日期、影像、3D 模型等等。 我們將這些稱為衍生的資料類型。 我們會從一或多個基本資料類型開始,以建構衍生的資料類型。

通常在機器學習中,將衍生的類型轉換成更簡單的表示法會很有幫助。 例如,我們可以將定義的日期值 (例如,1st January, 2017) 儲存為整數或浮點數:20170101。 整數或浮點數可讓模型背後的計算變得更容易。

選擇太多嗎?

了解您可用的資料種類,可協助您選擇正確的資料類型。

儘管套件一般都很寬鬆,但正確的資料類型會因您用來執行模型的套件而異。 一般規定:

  • 若要處理連續資料,浮點數會成為最佳選擇。
  • 次序資料通常會以整數值編碼。
  • 只包含兩個分類的分類資料通常可以編碼為布林值或整數資料。 處理三個或更多分類可能會變得稍微複雜些。 別擔心 - 下一個單元將涵蓋本主題!

在下一個練習中,我們將練習資料視覺效果,以進一步了解資料本身。 如此一來,請仔細記下涉及的資料類型,並嘗試識別連續、次序或分類資料類型。