Golang The Series EP.149: Token Management - วิธีนับ Token และคำนวณต้นทุน API ในฝั่ง Backend

ยินดีต้อนรับสู่ EP.149 ครับ! ในตอนที่แล้วเราได้วางระบบ Streaming จนแอปพลิเคชันตอบสนองได้อย่างรวดเร็วทันใจผู้ใช้ไปแล้ว แต่เมื่อระบบเริ่มสเกลและมีผู้ใช้งานมากขึ้น สิ่งหนึ่งที่ Gopher สาย Backend อย่างเราจะละเลยไม่ได้เลยก็คือ "การควบคุมต้นทุน" (Cost Control) เพราะเวลาเราต่อสายตรงไปหา Cloud LLMs ไม่ว่าจะเป็น OpenAI, Anthropic หรือ Google Gemini ค่าใช้จ่ายทั้งหมดจะถูกคิดตามปริมาณ "Token" (ทั้ง Input และ Output) วันนี้เราจะมาลุยวิธีนับ Token ในฝั่ง Backend ของเราเองก่อนส่งไป API เพื่อช่วยให้เราควบคุมงบประมาณและคำนวณต้นทุนได้อย่างแม่นยำกันครับ!

Token คืออะไร? ทำไมคิดเงินด้วยจำนวนคำไม่ได้?

ก่อนจะไปเขียนโค้ด เราต้องเข้าใจก่อนว่า AI ไม่ได้นับตัวอักษรแบบ len(text) หรือนับจำนวนคำแบบที่เราเข้าใจ แต่ระบบจะย่อยข้อความเป็นหน่วยย่อยที่เรียกว่า "Token" ซึ่งแต่ละภาษาจะมี "อัตราแลกเปลี่ยน" ที่ไม่เท่ากัน:

ภาษาอังกฤษ: 1 Token มักจะยาวประมาณ 4 ตัวอักษร หรือเท่ากับคำสั้นๆ 1 คำ
ภาษาไทย: ด้วยโครงสร้างภาษาที่มีทั้งพยัญชนะ สระ และวรรณยุกต์ซ้อนกัน คำไทยเพียง 1 คำ อาจถูกแตกย่อยออกเป็น 2-4 Tokens เลยทีเดียว! นั่นเป็นเหตุผลว่าทำไมภาษาไทยถึงใช้ Token เปลืองกว่าภาษาอังกฤษหลายเท่าตัว

⚠️ ความน่ากลัวคือ: หากแอปพลิเคชัน Backend ของเราไม่มีระบบตรวจสอบปริมาณ Token ล่วงหน้า แล้วปล่อยให้ User ยิง Prompt ยาวๆ เข้ามาแบบ Unlimited บิลค่า API ปลายเดือนอาจจะพุ่งทะลุเป้าจนทีมตั้งตัวไม่ทันแน่นอนครับ

วิธีนับ Token ใน Go ด้วย Tiktoken

OpenAI ได้เปิดซอร์สโค้ดเครื่องมือสำหรับนับ Token ในชื่อ tiktoken ซึ่งสำหรับชาว Go เราก็มีคลังไลบรารี Open-source ยอดนิยมที่พอร์ตมาได้อย่างยอดเยี่ยม นั่นคือ pkoukk/tiktoken-go ครับ

เริ่มแรกให้ทำการติดตั้งหรืออัปเดตไลบรารีเป็นเวอร์ชันล่าสุดบน Terminal:

Bash

go get github.com/pkoukk/tiktoken-go@latest

ตัวอย่างโค้ด Go ในการนับ Token:

package main

import (
	"errors"
	"fmt"
	"log"

	"github.com/pkoukk/tiktoken-go"
)

func main() {
	text := "สวัสดีครับ ยินดีต้อนรับสู่ซีรีส์ภาษา Go ยุค AI-First!"

	// แนะนำ: ใช้ฟังก์ชัน ModelToEncoding เพื่อให้ระบบเลือก Tokenizer ตามโมเดลอัตโนมัติ
	// เช่น gpt-4o / gpt-4o-mini จะใช้ o200k_base (ซึ่งประหยัดคำภาษาไทยขึ้นกว่ารุ่นเก่าๆ มาก)
	modelName := "gpt-4o"
	encodingName, err := tiktoken.ModelToEncoding(modelName)
	if err != nil {
		// Fallback: หากไลบรารียังไม่อัปเดตชื่อโมเดลใหม่ ให้เรียกใช้ o200k_base ตรงๆ
		encodingName = "o200k_base" 
	}

	tkm, err := tiktoken.GetEncoding(encodingName)
	if err != nil {
		log.Fatalf("Failed to get encoding: %v", err)
	}

	// ทำการ Encode ข้อความดิบออกมาเป็นชุด Token IDs
	tokens := tkm.Encode(text, nil, nil)

	// แสดงผลลัพธ์
	fmt.Printf("ข้อความ: %s\n", text)
	fmt.Printf("จำนวนตัวอักษร (Runes): %d ตัว\n", len([]rune(text)))
	fmt.Printf("จำนวน Token ที่ใช้จริง: %d tokens\n", len(tokens))
}

หมายเหตุ: เครื่องมือนี้นิยมใช้สำหรับโมเดลค่าย OpenAI เป็นหลัก หากคุณใช้ค่ายอื่น เช่น Gemini หรือ Claude จะต้องใช้คลังไลบรารีที่เป็น Tokenizer ของค่ายนั้นๆ เนื่องจากมีวิธีตัดคำที่แตกต่างกันครับ

เทคนิคการนำไปใช้งานบนระบบ Backend จริง

เมื่อเรามีตัวเลขจำนวน Token อยู่ในมือแล้ว เราสามารถนำมาต่อยอดเพื่อเพิ่มความปลอดภัยให้ระบบของเราได้ใน 3 มิติสำคัญ:

Rate Limiting / Quota Guard: เราสามารถสร้าง Middleware ขึ้นมาดักไว้ เพื่อตรวจสอบว่าผู้ใช้งานรายนี้ใช้ Token เกินโควตาที่กำหนด (เช่น ต่อวัน/ต่อชั่วโมง) หรือยังก่อนจะส่งคำขอไปที่ OpenAI API วิธีนี้จะช่วยป้องกันการโดนบอทสแปมยิงถล่ม (DDoS) ซึ่งอาจทำให้เราตื่นมาเจอเซอไพรส์เป็นบิลค่าบริการหลักแสนได้
จัดการ Context Window: ในระบบ Chatbot เราจำเป็นต้องส่งประวัติการคุย (Chat History) กลับไปให้ AI เสมอเพื่อความต่อเนื่อง การนับ Token หน้างานจะช่วยให้ฝั่ง Backend รู้ได้ทันทีว่าควรเริ่มตัด (Truncate) หรือย่อยประวัติการคุยเก่าๆ ออกตอนไหน เพื่อไม่ให้ข้อมูลปูดจนเกินขีดจำกัด (Context Window) ของโมเดลจนเกิด Error
Cost Analytics & Billing: บันทึกจำนวน Token ทั้ง Input และ Output ลง Database ของเราเอง (เช่น MySQL หรือ PostgreSQL) โดยผูกเข้ากับ ID ของผู้ใช้โดยตรง ข้อมูลส่วนนี้สามารถนำไปพัฒนาต่อยอดเป็นระบบคิดเงินตามจริง (Pay-per-use) หรือทำ Dashboard วิเคราะห์เทรนด์ต้นทุนของบริษัทได้แบบ Real-time ครับ

ตัวอย่างการสร้าง Struct บันทึกประวัติค่าใช้จ่าย

เมื่อคำนวณโควตาและจัดระเบียบ Token เรียบร้อยแล้ว ขั้นตอนสุดท้ายคือการออกแบบโครงสร้างฐานข้อมูลและการคำนวณราคาสุทธิเพื่อเก็บบันทึก (Logging) ครับ:

type APILog struct {
	UserID           string  `json:"user_id"`
	PromptTokens     int     `json:"prompt_tokens"`
	CompletionTokens int     `json:"completion_tokens"`
	TotalCostUSD     float64 `json:"total_cost_usd"`
}

func CalculateCost(prompt, completion int) float64 {
	// ตัวเลขสมมติราคาโมเดลยอดนิยม (ราคาอาจเปลี่ยนแปลงตามจริงในประกาศของ OpenAI)
	inputPricePerMillion := 5.00
	outputPricePerMillion := 15.00
	
	inputCost := (float64(prompt) / 1000000) * inputPricePerMillion
	outputCost := (float64(completion) / 1000000) * outputPricePerMillion
	
	return inputCost + outputCost
}

⚠️ Production Note สำหรับ Gopher: ในโค้ดตัวอย่างนี้เราใช้ประเภทข้อมูล float64 เพื่อให้เห็นภาพการคำนวณคณิตศาสตร์พื้นฐานได้เข้าใจง่ายที่สุด แต่หากคุณนำไปพัฒนาในระบบคิดเงินจริง ไม่แนะนำให้ใช้ float64 คำนวณเงินโดยตรง เนื่องจากข้อจำกัดฮาร์ดแวร์อาจทำให้เกิดปัญหาทศนิยมเพี้ยน (Floating-point rounding errors) ในระบบจริงแนะนำให้ใช้ไลบรารียอดนิยมอย่าง shopspring/decimal มาช่วยจัดการเรื่องตัวเลขทศนิยมทางการเงินให้แม่นยำ 100% ครับ

🎯 ท้าให้ลอง (Daily Mission)

ลองชาเลนจ์ตัวเองด้วยการพิสูจน์ทฤษฎีนี้กันครับ: ให้ลองคัดลอกข้อความภาษาไทย 1 ประโยค และภาษาอังกฤษ 1 ประโยค (เอาที่มีจำนวนคำใกล้เคียงกัน) แล้วนำมาวิ่งผ่านโค้ดนับ Token ที่เราเขียนขึ้นมาด้านบนดูครับ

การบ้านชวนคิด: ลองสังเกตผลลัพธ์ดูครับว่า ภาษาไทยของเราใช้จำนวน Token สิ้นเปลืองกว่าภาษาอังกฤษไปกี่เท่า?
คำถามโบนัส: ถ้าในระบบจริงเราทำฟังก์ชันสกัดคำฟุ่มเฟือยออกก่อน (Stop Words Removal) เช่น คำว่า "ครับ/ค่ะ/ของ/ที่/ซึ่ง/อัน" ก่อนยิงไปหา AI คิดว่าจะช่วยเซฟเงินในกระเป๋าบริษัทไปได้กี่เปอร์เซ็นต์? ใครได้คำตอบแล้วมาแชร์กันในคอมเมนต์ได้เลย!

FAQ (คำถามที่พบบ่อย)

Q: ทำไมผลลัพธ์จำนวน Token จาก Tiktoken ถึงไม่ตรงกับบิลค่าบริการจริงของ OpenAI?

A: เพราะบิลจริงคิดเงินรวมถึงระบบหลังบ้านของ OpenAI ด้วย เช่น โครงสร้าง Message Struct (System, User, Assistant Role) และฟังก์ชันเรียกใช้งาน (Tools/Function Calling) ซึ่งมีค่า Token พื้นฐานบวกเพิ่มเข้าไป (ประมาณ 3-4 Tokens ต่อ Message) ลำพังการนับแค่ข้อความดิบจึงได้ค่าน้อยกว่าความเป็นจริงเล็กน้อยครับ

Q: สามารถใช้ Tiktoken นับจำนวน Token ของโมเดลค่ายอื่นอย่าง Claude หรือ Gemini ได้ไหม?

A: ไม่ได้ครับ โมเดลแต่ละค่ายใช้เทคโนโลยีการตัดคำ (Tokenizer) และชุดพจนานุกรมที่ไม่เหมือนกัน หากนำ Tiktoken ไปนับคำที่จะส่งให้ Claude หรือ Gemini ค่าที่ได้จะคลาดเคลื่อนทันที สำหรับค่ายอื่นแนะนำให้ใช้พอร์ตอย่าง Hugging Face Tokenizers หรือใช้ Token Counter API ของค่ายนั้นๆ โดยตรงครับ

Q: หากเปิดโหมด Streaming เราจะนับจำนวน Completion Token บน Backend ได้อย่างไร?

A: มี 2 วิธีครับ วิธีแรกคือนำข้อความย่อย (Chunks) ทั้งหมดมาต่อกัน (Concatenate) เป็น String ยาวหลังจาก Stream จบแล้วเอาไปรันผ่าน tkm.Encode อีกรอบ หรือวิธีที่สอง (แนะนำ) คือการเปิด Option include_usage ใน Stream Request เพื่อให้ API ส่งสรุปจำนวน Token ก้อนสุดท้ายกลับมาให้เราโดยไม่ต้องนับเองครับ

บทสรุป

ยินดีด้วยครับ! ตอนนี้เราเรียนรู้จิ๊กซอว์สำคัญครบหมดแล้ว ตั้งแต่ Docker, REST vs RPC, Local/Cloud LLM, Prompt, JSON Output, Stream จนถึงการควบคุมต้นทุน...

ในตอนต่อไป (EP.150): เราจะนำความรู้ทั้งหมดมารวมร่างกันใน "Workshop 1: สร้าง Simple AI Chatbot Server ด้วย Gin Framework" ถึงเวลาปล่อยของครั้งใหญ่ประจำซีซันนี้แล้ว ห้ามพลาดครับ!

ฝากกดติดตามพวกเราได้ที่ Superdev Academy ในทุกช่องทางนะครับ!

🔵 Facebook: Superdev Academy Thailand (อัปเดตข่าวสารและบทความใหม่)
🎬 YouTube: Superdev Academy Channel (ติวเข้มแบบวิดีโอ)
📸 Instagram: @superdevacademy (เกร็ดความรู้สั้นๆ และเบื้องหลังการทำงาน)
🎬 TikTok: @superdevacademy (Tips & Tricks ฉบับย่อยง่าย)
🌐 Website: superdevacademy.com (คลังบทความและคอร์สเรียนฉบับเต็ม)