ai-gateway/controller/relay.go

package controller

import (
	"bufio"
	"bytes"
	"encoding/json"
	"fmt"
	"github.com/gin-gonic/gin"
	"github.com/pkoukk/tiktoken-go"
	"io"
	"net/http"
	"one-api/common"
	"one-api/model"
	"strings"
)

type Message struct {
	Role    string `json:"role"`
	Content string `json:"content"`
}

type TextRequest struct {
	Model    string    `json:"model"`
	Messages []Message `json:"messages"`
	Prompt   string    `json:"prompt"`
	//Stream   bool      `json:"stream"`
}

type Usage struct {
	PromptTokens     int `json:"prompt_tokens"`
	CompletionTokens int `json:"completion_tokens"`
	TotalTokens      int `json:"total_tokens"`
}

type TextResponse struct {
	Usage `json:"usage"`
}

type StreamResponse struct {
	Choices []struct {
		Delta struct {
			Content string `json:"content"`
		} `json:"delta"`
		FinishReason string `json:"finish_reason"`
	} `json:"choices"`
}

var tokenEncoder, _ = tiktoken.GetEncoding("cl100k_base")

func countToken(text string) int {
	token := tokenEncoder.Encode(text, nil, nil)
	return len(token)
}

func Relay(c *gin.Context) {
	err := relayHelper(c)
	if err != nil {
		c.JSON(http.StatusOK, gin.H{
			"error": gin.H{
				"message": err.Error(),
				"type":    "one_api_error",
			},
		})
	}
}

func relayHelper(c *gin.Context) error {
	channelType := c.GetInt("channel")
	tokenId := c.GetInt("token_id")
	consumeQuota := c.GetBool("consume_quota")
	baseURL := common.ChannelBaseURLs[channelType]
	if channelType == common.ChannelTypeCustom {
		baseURL = c.GetString("base_url")
	}
	var textRequest TextRequest
	if consumeQuota {
		requestBody, err := io.ReadAll(c.Request.Body)
		if err != nil {
			return err
		}
		err = c.Request.Body.Close()
		if err != nil {
			return err
		}
		err = json.Unmarshal(requestBody, &textRequest)
		if err != nil {
			return err
		}
		// Reset request body
		c.Request.Body = io.NopCloser(bytes.NewBuffer(requestBody))
	}
	requestURL := c.Request.URL.String()
	req, err := http.NewRequest(c.Request.Method, fmt.Sprintf("%s%s", baseURL, requestURL), c.Request.Body)
	if err != nil {
		return err
	}
	req.Header.Set("Authorization", c.Request.Header.Get("Authorization"))
	req.Header.Set("Content-Type", c.Request.Header.Get("Content-Type"))
	req.Header.Set("Accept", c.Request.Header.Get("Accept"))
	req.Header.Set("Connection", c.Request.Header.Get("Connection"))
	client := &http.Client{}
	resp, err := client.Do(req)
	if err != nil {
		return err
	}
	err = req.Body.Close()
	if err != nil {
		return err
	}
	err = c.Request.Body.Close()
	if err != nil {
		return err
	}
	var textResponse TextResponse
	isStream := resp.Header.Get("Content-Type") == "text/event-stream"
	var streamResponseText string

	defer func() {
		if consumeQuota {
			quota := 0
			usingGPT4 := strings.HasPrefix(textRequest.Model, "gpt-4")
			completionRatio := 1
			if usingGPT4 {
				completionRatio = 2
			}
			if isStream {
				var promptText string
				for _, message := range textRequest.Messages {
					promptText += fmt.Sprintf("%s: %s\n", message.Role, message.Content)
				}
				completionText := fmt.Sprintf("%s: %s\n", "assistant", streamResponseText)
				quota = countToken(promptText) + countToken(completionText)*completionRatio + 3
			} else {
				quota = textResponse.Usage.PromptTokens + textResponse.Usage.CompletionTokens*completionRatio
			}
			ratio := common.GetModelRatio(textRequest.Model)
			quota = int(float64(quota) * ratio)
			err := model.DecreaseTokenQuota(tokenId, quota)
			if err != nil {
				common.SysError("Error consuming token remain quota: " + err.Error())
			}
		}
	}()

	if isStream {
		scanner := bufio.NewScanner(resp.Body)
		scanner.Split(func(data []byte, atEOF bool) (advance int, token []byte, err error) {
			if atEOF && len(data) == 0 {
				return 0, nil, nil
			}

			if i := strings.Index(string(data), "\n\n"); i >= 0 {
				return i + 2, data[0:i], nil
			}

			if atEOF {
				return len(data), data, nil
			}

			return 0, nil, nil
		})
		dataChan := make(chan string)
		stopChan := make(chan bool)
		go func() {
			for scanner.Scan() {
				data := scanner.Text()
				dataChan <- data
				data = data[6:]
				if data != "[DONE]" {
					var streamResponse StreamResponse
					err = json.Unmarshal([]byte(data), &streamResponse)
					if err != nil {
						common.SysError("Error unmarshalling stream response: " + err.Error())
						return
					}
					for _, choice := range streamResponse.Choices {
						streamResponseText += choice.Delta.Content
					}
				}
			}
			stopChan <- true
		}()
		c.Writer.Header().Set("Content-Type", "text/event-stream")
		c.Writer.Header().Set("Cache-Control", "no-cache")
		c.Writer.Header().Set("Connection", "keep-alive")
		c.Writer.Header().Set("Transfer-Encoding", "chunked")
		c.Stream(func(w io.Writer) bool {
			select {
			case data := <-dataChan:
				c.Render(-1, common.CustomEvent{Data: data})
				return true
			case <-stopChan:
				return false
			}
		})
		err = resp.Body.Close()
		if err != nil {
			return err
		}
		return nil
	} else {
		for k, v := range resp.Header {
			c.Writer.Header().Set(k, v[0])
		}
		if consumeQuota {
			responseBody, err := io.ReadAll(resp.Body)
			if err != nil {
				return err
			}
			err = resp.Body.Close()
			if err != nil {
				return err
			}
			err = json.Unmarshal(responseBody, &textResponse)
			if err != nil {
				return err
			}
			// Reset response body
			resp.Body = io.NopCloser(bytes.NewBuffer(responseBody))
		}
		_, err = io.Copy(c.Writer, resp.Body)
		if err != nil {
			return err
		}
		err = resp.Body.Close()
		if err != nil {
			return err
		}
		return nil
	}
}

func RelayNotImplemented(c *gin.Context) {
	c.JSON(http.StatusOK, gin.H{
		"error": gin.H{
			"message": "Not Implemented",
			"type":    "one_api_error",
		},
	})
}
Relay done but not working 2023-04-23 10:24:11 +00:00			`package controller`

			`import (`
fix: fixing SSE support 2023-04-25 12:27:53 +00:00			`"bufio"`
feat: now use token as the unit of quota (close #33) 2023-04-28 08:58:55 +00:00			`"bytes"`
			`"encoding/json"`
Relay done but not working 2023-04-23 10:24:11 +00:00			`"fmt"`
			`"github.com/gin-gonic/gin"`
refactor: use tiktoken-go to calculate token number 2023-04-28 10:36:17 +00:00			`"github.com/pkoukk/tiktoken-go"`
Relay done but not working 2023-04-23 10:24:11 +00:00			`"io"`
			`"net/http"`
			`"one-api/common"`
fix: only reduce remain times when request `/v1/chat/completions` (close #15) BREAKING CHANGE: now remain_times is -1 doesn't mean unlimited times anymore! 2023-04-26 02:45:34 +00:00			`"one-api/model"`
fix: fixing SSE support 2023-04-25 12:27:53 +00:00			`"strings"`
Relay done but not working 2023-04-23 10:24:11 +00:00			`)`

feat: now use token as the unit of quota (close #33) 2023-04-28 08:58:55 +00:00			`type Message struct {`
			Role string `json:"role"`
			Content string `json:"content"`
			`}`

			`type TextRequest struct {`
			Model string `json:"model"`
			Messages []Message `json:"messages"`
			Prompt string `json:"prompt"`
			//Stream bool `json:"stream"`
			`}`

			`type Usage struct {`
			PromptTokens int `json:"prompt_tokens"`
			CompletionTokens int `json:"completion_tokens"`
			TotalTokens int `json:"total_tokens"`
			`}`

			`type TextResponse struct {`
			Usage `json:"usage"`
			`}`

			`type StreamResponse struct {`
			`Choices []struct {`
			`Delta struct {`
			Content string `json:"content"`
			} `json:"delta"`
			FinishReason string `json:"finish_reason"`
			} `json:"choices"`
			`}`

refactor: use tiktoken-go to calculate token number 2023-04-28 10:36:17 +00:00			`var tokenEncoder, _ = tiktoken.GetEncoding("cl100k_base")`

			`func countToken(text string) int {`
			`token := tokenEncoder.Encode(text, nil, nil)`
			`return len(token)`
			`}`

Relay done but not working 2023-04-23 10:24:11 +00:00			`func Relay(c *gin.Context) {`
refactor: improve relay's implementation 2023-04-28 09:11:57 +00:00			`err := relayHelper(c)`
			`if err != nil {`
			`c.JSON(http.StatusOK, gin.H{`
			`"error": gin.H{`
			`"message": err.Error(),`
			`"type": "one_api_error",`
			`},`
			`})`
			`}`
			`}`

			`func relayHelper(c *gin.Context) error {`
Relay done but not working 2023-04-23 10:24:11 +00:00			`channelType := c.GetInt("channel")`
fix: only reduce remain times when request `/v1/chat/completions` (close #15) BREAKING CHANGE: now remain_times is -1 doesn't mean unlimited times anymore! 2023-04-26 02:45:34 +00:00			`tokenId := c.GetInt("token_id")`
feat: now use token as the unit of quota (close #33) 2023-04-28 08:58:55 +00:00			`consumeQuota := c.GetBool("consume_quota")`
Fix "HTTP decompression failed" 2023-04-23 11:19:43 +00:00			`baseURL := common.ChannelBaseURLs[channelType]`
Support custom channel now 2023-04-23 12:35:49 +00:00			`if channelType == common.ChannelTypeCustom {`
			`baseURL = c.GetString("base_url")`
			`}`
refactor: use tiktoken-go to calculate token number 2023-04-28 10:36:17 +00:00			`var textRequest TextRequest`
fix: relay bug fix 2023-04-28 10:16:59 +00:00			`if consumeQuota {`
			`requestBody, err := io.ReadAll(c.Request.Body)`
			`if err != nil {`
			`return err`
			`}`
			`err = c.Request.Body.Close()`
			`if err != nil {`
			`return err`
			`}`
			`err = json.Unmarshal(requestBody, &textRequest)`
			`if err != nil {`
			`return err`
			`}`
			`// Reset request body`
			`c.Request.Body = io.NopCloser(bytes.NewBuffer(requestBody))`
feat: now use token as the unit of quota (close #33) 2023-04-28 08:58:55 +00:00			`}`
fix: only reduce remain times when request `/v1/chat/completions` (close #15) BREAKING CHANGE: now remain_times is -1 doesn't mean unlimited times anymore! 2023-04-26 02:45:34 +00:00			`requestURL := c.Request.URL.String()`
			`req, err := http.NewRequest(c.Request.Method, fmt.Sprintf("%s%s", baseURL, requestURL), c.Request.Body)`
Relay done but not working 2023-04-23 10:24:11 +00:00			`if err != nil {`
refactor: improve relay's implementation 2023-04-28 09:11:57 +00:00			`return err`
			`}`
fix: only keep header Authorization & Content-Type 2023-04-25 02:47:25 +00:00			`req.Header.Set("Authorization", c.Request.Header.Get("Authorization"))`
			`req.Header.Set("Content-Type", c.Request.Header.Get("Content-Type"))`
fix: fixing SSE support 2023-04-25 12:27:53 +00:00			`req.Header.Set("Accept", c.Request.Header.Get("Accept"))`
			`req.Header.Set("Connection", c.Request.Header.Get("Connection"))`
Relay done but not working 2023-04-23 10:24:11 +00:00			`client := &http.Client{}`
			`resp, err := client.Do(req)`
			`if err != nil {`
refactor: improve relay's implementation 2023-04-28 09:11:57 +00:00			`return err`
Relay done but not working 2023-04-23 10:24:11 +00:00			`}`
feat: now use token as the unit of quota (close #33) 2023-04-28 08:58:55 +00:00			`err = req.Body.Close()`
			`if err != nil {`
refactor: improve relay's implementation 2023-04-28 09:11:57 +00:00			`return err`
feat: now use token as the unit of quota (close #33) 2023-04-28 08:58:55 +00:00			`}`
fix: shouldn't close c.Request.Body too soon (close #35) 2023-04-29 06:49:10 +00:00			`err = c.Request.Body.Close()`
			`if err != nil {`
			`return err`
			`}`
feat: now use token as the unit of quota (close #33) 2023-04-28 08:58:55 +00:00			`var textResponse TextResponse`
			`isStream := resp.Header.Get("Content-Type") == "text/event-stream"`
			`var streamResponseText string`
fix: only reduce remain times when request `/v1/chat/completions` (close #15) BREAKING CHANGE: now remain_times is -1 doesn't mean unlimited times anymore! 2023-04-26 02:45:34 +00:00
			`defer func() {`
feat: now use token as the unit of quota (close #33) 2023-04-28 08:58:55 +00:00			`if consumeQuota {`
			`quota := 0`
feat: able to configure ratio for more models now (close #53) 2023-05-11 12:59:35 +00:00			`usingGPT4 := strings.HasPrefix(textRequest.Model, "gpt-4")`
			`completionRatio := 1`
			`if usingGPT4 {`
			`completionRatio = 2`
			`}`
feat: now use token as the unit of quota (close #33) 2023-04-28 08:58:55 +00:00			`if isStream {`
feat: able to configure ratio for more models now (close #53) 2023-05-11 12:59:35 +00:00			`var promptText string`
refactor: use tiktoken-go to calculate token number 2023-04-28 10:36:17 +00:00			`for _, message := range textRequest.Messages {`
feat: able to configure ratio for more models now (close #53) 2023-05-11 12:59:35 +00:00			`promptText += fmt.Sprintf("%s: %s\n", message.Role, message.Content)`
refactor: use tiktoken-go to calculate token number 2023-04-28 10:36:17 +00:00			`}`
feat: able to configure ratio for more models now (close #53) 2023-05-11 12:59:35 +00:00			`completionText := fmt.Sprintf("%s: %s\n", "assistant", streamResponseText)`
			`quota = countToken(promptText) + countToken(completionText)*completionRatio + 3`
feat: able to configure ratio for different models (close #26) 2023-04-28 11:16:37 +00:00			`} else {`
feat: able to configure ratio for more models now (close #53) 2023-05-11 12:59:35 +00:00			`quota = textResponse.Usage.PromptTokens + textResponse.Usage.CompletionTokens*completionRatio`
feat: able to configure ratio for different models (close #26) 2023-04-28 11:16:37 +00:00			`}`
feat: able to configure ratio for more models now (close #53) 2023-05-11 12:59:35 +00:00			`ratio := common.GetModelRatio(textRequest.Model)`
feat: able to configure ratio for different models (close #26) 2023-04-28 11:16:37 +00:00			`quota = int(float64(quota) * ratio)`
fix: return quota to user when delete token (close #37) 2023-05-04 02:20:39 +00:00			`err := model.DecreaseTokenQuota(tokenId, quota)`
fix: only reduce remain times when request `/v1/chat/completions` (close #15) BREAKING CHANGE: now remain_times is -1 doesn't mean unlimited times anymore! 2023-04-26 02:45:34 +00:00			`if err != nil {`
feat: now use token as the unit of quota (close #33) 2023-04-28 08:58:55 +00:00			`common.SysError("Error consuming token remain quota: " + err.Error())`
fix: only reduce remain times when request `/v1/chat/completions` (close #15) BREAKING CHANGE: now remain_times is -1 doesn't mean unlimited times anymore! 2023-04-26 02:45:34 +00:00			`}`
			`}`
			`}()`
feat: now use token as the unit of quota (close #33) 2023-04-28 08:58:55 +00:00
fix: fully support stream mode now (close #3) 2023-04-25 13:50:57 +00:00			`if isStream {`
			`scanner := bufio.NewScanner(resp.Body)`
			`scanner.Split(func(data []byte, atEOF bool) (advance int, token []byte, err error) {`
			`if atEOF && len(data) == 0 {`
			`return 0, nil, nil`
			`}`
fix: fixing SSE support 2023-04-25 12:27:53 +00:00
fix: fully support stream mode now (close #3) 2023-04-25 13:50:57 +00:00			`if i := strings.Index(string(data), "\n\n"); i >= 0 {`
			`return i + 2, data[0:i], nil`
			`}`
fix: fixing SSE support 2023-04-25 12:27:53 +00:00
fix: fully support stream mode now (close #3) 2023-04-25 13:50:57 +00:00			`if atEOF {`
			`return len(data), data, nil`
			`}`
fix: fixing SSE support 2023-04-25 12:27:53 +00:00
fix: fully support stream mode now (close #3) 2023-04-25 13:50:57 +00:00			`return 0, nil, nil`
			`})`
			`dataChan := make(chan string)`
			`stopChan := make(chan bool)`
			`go func() {`
			`for scanner.Scan() {`
			`data := scanner.Text()`
			`dataChan <- data`
feat: now use token as the unit of quota (close #33) 2023-04-28 08:58:55 +00:00			`data = data[6:]`
			`if data != "[DONE]" {`
			`var streamResponse StreamResponse`
			`err = json.Unmarshal([]byte(data), &streamResponse)`
			`if err != nil {`
			`common.SysError("Error unmarshalling stream response: " + err.Error())`
			`return`
			`}`
			`for _, choice := range streamResponse.Choices {`
			`streamResponseText += choice.Delta.Content`
			`}`
			`}`
fix: improve the implementation of sse 2023-04-25 12:45:50 +00:00			`}`
fix: fully support stream mode now (close #3) 2023-04-25 13:50:57 +00:00			`stopChan <- true`
			`}()`
			`c.Writer.Header().Set("Content-Type", "text/event-stream")`
			`c.Writer.Header().Set("Cache-Control", "no-cache")`
			`c.Writer.Header().Set("Connection", "keep-alive")`
			`c.Writer.Header().Set("Transfer-Encoding", "chunked")`
			`c.Stream(func(w io.Writer) bool {`
			`select {`
			`case data := <-dataChan:`
			`c.Render(-1, common.CustomEvent{Data: data})`
			`return true`
			`case <-stopChan:`
fix: improve the implementation of sse 2023-04-25 12:45:50 +00:00			`return false`
fix: fixing SSE support 2023-04-25 12:27:53 +00:00			`}`
fix: fully support stream mode now (close #3) 2023-04-25 13:50:57 +00:00			`})`
refactor: improve relay's implementation 2023-04-28 09:11:57 +00:00			`err = resp.Body.Close()`
			`if err != nil {`
			`return err`
			`}`
			`return nil`
fix: fully support stream mode now (close #3) 2023-04-25 13:50:57 +00:00			`} else {`
			`for k, v := range resp.Header {`
			`c.Writer.Header().Set(k, v[0])`
			`}`
fix: relay bug fix 2023-04-28 10:16:59 +00:00			`if consumeQuota {`
			`responseBody, err := io.ReadAll(resp.Body)`
			`if err != nil {`
			`return err`
			`}`
			`err = resp.Body.Close()`
			`if err != nil {`
			`return err`
			`}`
			`err = json.Unmarshal(responseBody, &textResponse)`
			`if err != nil {`
			`return err`
			`}`
			`// Reset response body`
			`resp.Body = io.NopCloser(bytes.NewBuffer(responseBody))`
feat: now use token as the unit of quota (close #33) 2023-04-28 08:58:55 +00:00			`}`
fix: fully support stream mode now (close #3) 2023-04-25 13:50:57 +00:00			`_, err = io.Copy(c.Writer, resp.Body)`
			`if err != nil {`
refactor: improve relay's implementation 2023-04-28 09:11:57 +00:00			`return err`
			`}`
			`err = resp.Body.Close()`
			`if err != nil {`
			`return err`
fix: fixing SSE support 2023-04-25 12:27:53 +00:00			`}`
refactor: improve relay's implementation 2023-04-28 09:11:57 +00:00			`return nil`
fix: fully support stream mode now (close #3) 2023-04-25 13:50:57 +00:00			`}`
Relay done but not working 2023-04-23 10:24:11 +00:00			`}`
feat: now use token as the unit of quota (close #33) 2023-04-28 08:58:55 +00:00
			`func RelayNotImplemented(c *gin.Context) {`
			`c.JSON(http.StatusOK, gin.H{`
			`"error": gin.H{`
			`"message": "Not Implemented",`
			`"type": "one_api_error",`
			`},`
			`})`
			`}`