#pair

你可以假設這適用於當前大多數由LLM使用的分詞器。此外,平均每3個單詞需要4個標記,因此每個標記約爲0.75個單詞。具體取決於可能的標記總數,如果你只有幾百個(例如字母和數字),那麼這個平均值會低得多,單個單詞需要很多標記,而如果你擁有每一個存在的單詞,那麼平均值會更接近1。對於ChatGpt,他們的詞彙量超過50k。此外,這個數字僅適用於英語,對於日語或中文等語言,每個單詞的標記數要高得多。