前幾天記錄了一篇《用Cloudflare的Snippets來編程做各種工作》,今天正好和同事說到Snippets也可以用于複雜的重定向,同事使用後也大贊Snippets強大,用JS代碼的方式确實靈活多了,一個Snippets規則可以頂得上以前的幾十幾百條批量重定向規則。👍
也難怪有人稱Cloudflare是賽博菩薩,為一些網站和應用提供了很多免費的服務,僅僅一個無限流量CDN就秒殺其它所有CDN提供商。
今天我再來介紹Cloudflare在AI方面的一個應用AI Gateway。

Cloudflare在AI方面動作挺快的,我記得是ChatGPT推出後不久,2023年吧(也許是2024年),Cloudflare就推出了Workers AI和AI Gateway,其中Workers AI提供了數十種語言模型、生圖模型、語音模型、翻譯模型等,beta版本都是免費的,我們嘗試過其中一些。
而AI Gateway是利用了Cloudflare擅長的内容分發、轉接、緩存等特長,專門為LLM API推出了網關服務,提供API的轉接服務,包括記錄、緩存、限速、分析、負載均衡以及未來的數據輔助訓練等等。
我們自己在調用其它服務商提供的LLM API時,一般隻有一個粗略的統計數據,不提供詳細的日志,例如Groq、DeepInfra,或者需要另外付費提供,例如火山引擎。這對于統計、查看來說不方便,需要我們自己來開發。
有了AI Gateway後就方便得多,不需要自己開發,隻要把調用的API地址、參數做修改,再在Cloudflare後台進行一些配置就可以。具體文檔請看《Cloudflare Docs - AI Gateway》。
注意一些限制:
- 免費用戶也可以使用AI Gateway
- 默認每個用戶可以創建10個Gateway,最多100K條日志
- Workers付費用戶可以保存200K條日志,增加$8/100K條/月
另外,AI Gateway隻支持一部分模型提供商:
- Amazon Bedrock
- Anthropic
- Azure OpenAI
- Cartesia
- Cerebras
- Cohere
- DeepSeek
- ElevenLabs
- Google AI Studio
- Google Vertex AI
- Grok
- Groq
- HuggingFace
- Mistral AI
- OpenAI
- OpenRouter
- Perplexity
- Replicate
- Universal Endpoint
- Workers AI
其中的Universal Endpoint支持備用,可以設置多個API提供商,當其中某次API訪問失敗後會自動使用下一個接口。這一點與Dify的LLM負載均衡模式不一樣,Dify是讓多個模型輪換使用,遇到某個接口遇到限制,會冷卻1分鐘再試。
還可以設置速率限制、定制化費用設置、定制化元數據、授權訪問等。

上面是AI Gateway記錄的一條例子,出了LLM的輸入、輸出以外,還有消耗的輸入/輸出token數量、折合的費用、所花的時間,還可以提供元數據用于分類标注,非常方便,誰用誰知道😄。
這個AI Gateway本身還是不斷完善和發展中,新近推出Gudrails,還有好些功能(例如:速率限制、授權驗證、WebSockets API、評估)我們還沒有用到,以後如果試用了再記錄。
另外,賽博菩薩Cloudflare也看準AI的發展方向,提供與AI相關的多項産品,例如:Vectorize、Workers、Workers AI、Workflows、AI Assistant等等,其中多數都有一定免費額度可以使用,我們這邊以後也去深入了解、試用看看。
评论