當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python tf.strings.unicode_decode用法及代碼示例


input 中的每個字符串解碼為 Unicode 代碼點序列。

用法

tf.strings.unicode_decode(
    input, input_encoding, errors='replace', replacement_char=65533,
    replace_control_characters=False, name=None
)

參數

  • input 一個 N 維度可能參差不齊的 string 張量,形狀為 [D1...DN]N 必須是靜態已知的。
  • input_encoding 用於解碼每個字符串的 unicode 編碼的字符串名稱。
  • errors 指定無法使用指示的編碼轉換輸入字符串時的響應。之一:
    • 'strict' :為任何非法子字符串引發異常。
    • 'replace' :用 replacement_char 替換非法子字符串。
    • 'ignore' :跳過非法子串。
  • replacement_char errors='replace' 時用於代替 input 中的無效子字符串的替換代碼點;並在 replace_control_characters=True 時代替 input 中的 C0 控製字符。
  • replace_control_characters 是否將 C0 控製字符 (U+0000 - U+001F) 替換為 replacement_char
  • name 操作的名稱(可選)。

返回

  • 一個 N+1 維度 int32 張量,形狀為 [D1...DN, (num_chars)] 。如果input 是標量,則返回的張量為tf.Tensor,否則為tf.RaggedTensor

result[i1...iN, j] 是使用 input_encoding 解碼時 input[i1...iN] 中第 j 字符的 Unicode 代碼點。

例子:

input = [s.encode('utf8') for s in (u'G\xf6\xf6dnight', u'\U0001f60a')]
tf.strings.unicode_decode(input, 'UTF-8').to_list()
[[71, 246, 246, 100, 110, 105, 103, 104, 116], [128522]]

相關用法


注:本文由純淨天空篩選整理自tensorflow.org大神的英文原創作品 tf.strings.unicode_decode。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。