前几天记录了一篇《用Cloudflare的Snippets来编程做各种工作》,今天正好和同事说到Snippets也可以用于复杂的重定向,同事使用后也大赞Snippets强大,用JS代码的方式确实灵活多了,一个Snippets规则可以顶得上以前的几十几百条批量重定向规则。👍
也难怪有人称Cloudflare是赛博菩萨,为一些网站和应用提供了很多免费的服务,仅仅一个无限流量CDN就秒杀其它所有CDN提供商。
今天我再来介绍Cloudflare在AI方面的一个应用AI Gateway。

Cloudflare在AI方面动作挺快的,我记得是ChatGPT推出后不久,2023年吧(也许是2024年),Cloudflare就推出了Workers AI和AI Gateway,其中Workers AI提供了数十种语言模型、生图模型、语音模型、翻译模型等,beta版本都是免费的,我们尝试过其中一些。
而AI Gateway是利用了Cloudflare擅长的内容分发、转接、缓存等特长,专门为LLM API推出了网关服务,提供API的转接服务,包括记录、缓存、限速、分析、负载均衡以及未来的数据辅助训练等等。
我们自己在调用其它服务商提供的LLM API时,一般只有一个粗略的统计数据,不提供详细的日志,例如Groq、DeepInfra,或者需要另外付费提供,例如火山引擎。这对于统计、查看来说不方便,需要我们自己来开发。
有了AI Gateway后就方便得多,不需要自己开发,只要把调用的API地址、参数做修改,再在Cloudflare后台进行一些配置就可以。具体文档请看《Cloudflare Docs - AI Gateway》。
注意一些限制:
- 免费用户也可以使用AI Gateway
- 默认每个用户可以创建10个Gateway,最多100K条日志
- Workers付费用户可以保存200K条日志,增加$8/100K条/月
另外,AI Gateway只支持一部分模型提供商:
- Amazon Bedrock
- Anthropic
- Azure OpenAI
- Cartesia
- Cerebras
- Cohere
- DeepSeek
- ElevenLabs
- Google AI Studio
- Google Vertex AI
- Grok
- Groq
- HuggingFace
- Mistral AI
- OpenAI
- OpenRouter
- Perplexity
- Replicate
- Universal Endpoint
- Workers AI
其中的Universal Endpoint支持备用,可以设置多个API提供商,当其中某次API访问失败后会自动使用下一个接口。这一点与Dify的LLM负载均衡模式不一样,Dify是让多个模型轮换使用,遇到某个接口遇到限制,会冷却1分钟再试。
还可以设置速率限制、定制化费用设置、定制化元数据、授权访问等。

上面是AI Gateway记录的一条例子,出了LLM的输入、输出以外,还有消耗的输入/输出token数量、折合的费用、所花的时间,还可以提供元数据用于分类标注,非常方便,谁用谁知道😄。
这个AI Gateway本身还是不断完善和发展中,新近推出Gudrails,还有好些功能(例如:速率限制、授权验证、WebSockets API、评估)我们还没有用到,以后如果试用了再记录。
另外,赛博菩萨Cloudflare也看准AI的发展方向,提供与AI相关的多项产品,例如:Vectorize、Workers、Workers AI、Workflows、AI Assistant等等,其中多数都有一定免费额度可以使用,我们这边以后也去深入了解、试用看看。
评论