東亞語言的事實質
東亞語言定義為日文、中文 (簡體中文) 、繁體中文 () 和韓文。 下表中事實質內的格式是每個語言辨識器的特定格式。
例如, 電話 事實體在每個語言中都不同。 此外,每個事實都是特定辨識器特有的。 例如,只有日 文電話 事實質可以搭配日文辨識器使用。 除了下表中的 factoid 之外,所有語言都會使用 Factoids Common Across Languages中列出的事實質。
注意
東亞語言的事實會藉由指定可接受的 Unicode 字元清單來實作。 西部語言的事實是使用描述預期輸入的正則運算式來實作。 這是因為西部語言是由合併成文字的字母所組成,而東亞語言則以字元為基礎。
東亞字元辨識器支援將最多十個事實結合在一起。 這些事實組合採用邏輯 OR 運算子;因此,輸入可以比對運算式中的任何事實質。
Factoid | OneChar | Percent | PostalCode | UpperChar |
---|---|---|---|---|
Description |
一個字元。 |
具有百分比符號的數位。 |
數值郵遞區號。 |
大寫拉丁文腳本字元。 |
Unicode 值 |
U+0020 U+0021 U+0022 U+0023 U+0024 U+0025 U+0026 U+0027 U+0028 U+0029 U+002A U+002B U+002C U+002D U+002E U+002F U+0030 U+0031 U+0032 U+0033 U+0034 U+0035 U+0036 U+0037 U+0038 U+0039 U+003A U+003B U+003C U+003D U+003E U+003F U+0040 U+0041 U+0042 U+0043 U+0044 U+0045 U+0046 U+0047 U+0048 U+0049 U+004A U+004B U+004C U+004D U+004E U+004F U+0050 U+0051 U+0052 U+0053 U+0054 U+0055 U+0056 U+0057 U+0058 U+0059 U+005A U+005B U+005C U+005D U+005E U+005F U+0060 U+0061 U+0062 U+0063 U+0064 U+0065 U+0066 U+0067 U+0068 U+0069 U+006A U+006B U+006C U+006D U+006E U+006F U+0070 U+0071 U+0072 U+0073 U+0074 U+0075 U+0076 U+0077 U+0078 U+0079 U+007A U+007B U+007C U+007D U+007E |
U+0025 U+002E U+0030 U+0031 U+0032 U+0033 U+0034 U+0035 U+0036 U+0037 U+0038 U+0039 |
U+002D U+0030 U+0031 U+0032 U+0033 U+0034 U+0035 U+0036 U+0037 U+0038 U+0039 |
U+0041 U+0042 U+0043 U+0044 U+0045 U+0046 U+0047 U+0048 U+0049 U+004A U+004B U+004C U+004D U+004E U+004F U+0050 U+0051 U+0052 U+0053 U+0054 U+0055 U+0056 U+0057 U+0058 U+0059 U+005A |
下列主題顯示日文、中文 (簡體中文) 、中文 (繁體中文) 和韓文中每個事實支援的格式。