在國内做網站有個繞不過去的問題:敏感内容審查。我們在互聯網行業做了二十年,各種坑都踩過,喝茶也是無可避免。去年6月份因為部分詞典網站上發現敏感詞,進行了整改,當時人工檢查了很多内容,也用網上找到的關鍵詞庫來編程排除,後來還讓“部分繁體詞典網站屏蔽來自中國大陸的IP訪問”。
今年3月1日《網絡信息内容生态治理規定》生效,網友笑說“有個好消息:以後網上沒有壞消息了”。對我們互聯網從業人員來沒有選擇,隻能遵照執行了。前兩個星期接到騰訊的通知,我們一個詞典微信小程序因為留言風險而被無限期禁止搜索功能了,也就是沒有新用戶能通過搜索發現我們這個小程序了,隻能以前的老用戶使用或者分享推薦。看來疫情一點沒有影響相關部門的工作,有些管控力度還在加強。
我們同事在網上找了很多辦法去排查問題,發現騰訊的微信小程序現在新提供(具體什麼時候開始提供的不清楚)了違法違規内容檢查的API接口,這倒是一個不錯的檢查辦法,比我們自己去網上搜索找到的敏感詞庫靠譜、有人維護,于是我們把這個融入了我們小程序的留言檢查中,并且還用來批量檢查我們已有的網站内容。
接口說明文檔在這裡:
内容安全
- imgSecCheck:圖片安全檢查
- mediaCheckAsync:異步圖片/音頻檢查
- msgSecCheck:文本安全檢查
我們主要用到文本安全檢查,也就是檢查一段文本是否含有違法違規内容。
應用場景舉例:
- 用戶個人資料違規文字檢測;
- 媒體新聞類用戶發表文章,評論内容檢測;
- 遊戲類用戶編輯上傳的素材(如答題類小遊戲用戶上傳的問題及答案)檢測等。
頻率限制:單個 appId 調用上限為 4000 次/分鐘,2,000,000 次/天* *,對一般網站、小程序來說足夠了。
服務市場:**通過服務市場使用可以有更多的能力,文檔詳情。
調用方式:
- HTTPS 調用
- 雲調用
- 增量調用(加強版)
具體程序請參考以上文檔。
下面是在另外文檔中找到的“微信第三方公衆開發平台/官方公衆号錯誤代碼返回值解決方法說明”:
返回碼 錯誤碼描述 說明 40001 invalid credential 不合法的調用憑證 40002 invalid grant_type 不合法的grant_type 40003 invalid openid 不合法的OpenID 40004 invalid media type 不合法的媒體文件類型 40007 invalid media_id 不合法的media_id 40008 invalid message type 不合法的message_type 40009 invalid image size 不合法的圖片大小 40010 invalid voice size 不合法的語音大小 40011 invalid video size 不合法的視頻大小 40012 invalid thumb size 不合法的縮略圖大小 40013 invalid appid 不合法的AppID 40014 invalid access_token 不合法的access_token 40015 invalid menu type 不合法的菜單類型 40016 invalid button size 不合法的菜單按鈕個數 40017 invalid button type 不合法的按鈕類型 40018 invalid button name size 不合法的按鈕名稱長度 40019 invalid button key size 不合法的按鈕KEY長度 40020 invalid button url size 不合法的url長度 40023 invalid sub button size 不合法的子菜單按鈕個數 40024 invalid sub button type 不合法的子菜單類型 40025 invalid sub button name size 不合法的子菜單按鈕名稱長度 40026 invalid sub button key size 不合法的子菜單按鈕KEY長度 40027 invalid sub button url size 不合法的子菜單按鈕url長度 40029 invalid code 不合法或已過期的code 40030 invalid refresh_token 不合法的refresh_token 40036 invalid template_id size 不合法的template_id長度 40037 invalid template_id 不合法的template_id 40039 invalid url size 不合法的url長度 40048 invalid url domain 不合法的url域名 40054 invalid sub button url domain 不合法的子菜單按鈕url域名 40055 invalid button url domain 不合法的菜單按鈕url域名 40066 invalid url 不合法的url 41001 access_token missing 缺失access_token參數 41002 appid missing 缺失appid參數 41003 refresh_token missing 缺失refresh_token參數 41004 appsecret missing 缺失secret參數 41005 media data missing 缺失二進制媒體文件 41006 media_id missing 缺失media_id參數 41007 sub_menu data missing 缺失子菜單數據 41008 missing code 缺失code參數 41009 missing openid 缺失openid參數 41010 missing url 缺失url參數 42001 access_token expired access_token超時 42002 refresh_token expired refresh_token超時 42003 code expired code超時 43001 require GET method 需要使用GET方法請求 43002 require POST method 需要使用POST方法請求 43003 require https 需要使用HTTPS 43004 require subscribe 需要訂閱關系 44001 empty media data 空白的二進制數據 44002 empty post data 空白的POST數據 44003 empty news data 空白的news數據 44004 empty content 空白的内容 44005 empty list size 空白的列表 45001 media size out of limit 二進制文件超過限制 45002 content size out of limit content參數超過限制 45003 title size out of limit title參數超過限制 45004 description size out of limit description參數超過限制 45005 url size out of limit url參數長度超過限制 45006 picurl size out of limit picurl參數超過限制 45007 playtime out of limit 播放時間超過限制(語音為60s最大) 45008 article size out of limit article參數超過限制 45009 api freq out of limit 接口調動頻率超過限制 45010 create menu limit 建立菜單被限制 45011 api limit 頻率限制 45012 template size out of limit 模闆大小超過限制 45016 can't modify sys group 不能修改默認組 45017 can't set group name too long sys group 修改組名過長 45018 too many group now, no need to add new 組數量過多 50001 api unauthorized 接口未授權
我們的程序就是做一個循環讀取數據庫内容或者網頁内容,來逐一調用安全檢查API,将返回錯誤代碼87014,包含違禁詞的記錄下來,再人工來核查,對于誤判的就忽略,對于真有問題的就删除。
需要說明的是,無論是哪裡的敏感詞庫,誤判無可避免,例如《成語詞典》中找到古人寫的唐詩宋詞元曲或者現代人對古文的解釋,也有一些敏感詞,例如“皇帝親自”這個,屬于明顯的誤判。
评论2
大家來看看我的博客aimelis.com
大家來看看我的博客老司機現在都不好找資源了http://www
老司機現在都不好找資源了