一、語料安全評估:
(一) 評估內容
文本訓練語料規模:
- 訓練語料存儲規模,即按文本格式存儲時的語料大小。
- 訓練語料數量,以詞元 (Token) 計數。
各類型語料規模:
- 明確訓練語料中的中文文本、英文文本、代碼、圖片、音頻、視頻及其他語料的具體規模。
訓練語料來源:
- 梳理訓練語料來源的組成情況,分為開源語料、自采語料、商業語料進行分類統計。
- 統計境外開源網站語料內各類語料規模。
- 統計自采語料內各類語料規模。
- 統計商業語料內各類語料規模。
語料標注數量:
- 僅限文本和圖片的標注數量,按標注單元計數,通常以條數、張數為單位。
標注人員情況:
- 明確標注人員的數量和類型,包括內部人員和外包人員。
- 標注人員培訓時間、培訓數量等情況。
標注規則:
- 按照《生成式人工智能服務管理暫行辦法》第四條要求制定標注規則。
標注內容準確性核驗:
語料合法性:
- 核查語料來源合法性情況。
- 檢查語料是否包含侵害他人知識產權內容。
- 排查語料是否包含違法違規的個人信息內容。
(二) 評估結論
判定語料是否符合《生成式人工智能服務管理暫行辦法》相關規定,是否含有違反我國法律法規明確禁止的內容。
明確語料中包含個人信息語料的數量、種類,判斷是否符合《生成式人工智能服務管理暫行辦法》規定。
進行因語料產生知識產權糾紛的風險分析。
提出防范語料安全風險的措施和建議。
二、黑盒測試
功能需求驗證:
- 確保模型能夠按照預期執行任務,對各種類型的輸入產生正確和合理的輸出。
用戶界面測試:
輸出驗證:
三、模型安全措施評估
模型適用人群、場合、用途:
- 明確服務的適用人群,判斷是否適用未成年人、學生等。
- 確定適用場合,如是否適用關鍵信息基礎設施、自動控制、醫療信息服務、心理咨詢等。
- 明確服務范圍,是否限定或未限定特定領域。
服務過程中收集保存個人信息情況:
- 梳理服務過程中收集保存個人信息的情況,包括個人信息的類型、數量、用途以及保存期限。
收集個人信息征得個人同意情況:
受理處理使用者查閱、復制、更正、補充、刪除個人信息請求的情況:
圖片、視頻標識情況:
- 確定標識的樣式,按 1:1 比例貼入。
- 明確標識在圖片、視頻中的具體位置。
- 確定標識頻度,如每幀、跳幀等。
接受公眾或使用者投訴舉報情況:
服務協議情況:
- 檢查上述 1 至 6 內容是否已經寫入模型服務協議。
非法內容攔截措施:
- 明確監看人員的數量。
- 預置關鍵詞攔截情況,并提供預置關鍵詞攔截列表。
- 說明分類模型的研制情況和準確性。
拒答率:
- 統計拒絕回答或者以簡單模板回答數量占總測試數量的比率。
模型更新、升級:
- 確定在何種情況下重新進行預訓練,如較頻繁發現生成非法內容時。
四、性能評估
響應時間:
- 測試模型在不同負載下的響應時間,確保在合理時間內完成任務。
資源消耗:
五、穩定性評估
長時間運行:
- 測試模型在持續運行下的穩定性,避免內存泄漏、性能下降等問題。
大規模數據輸入:
六、安全性評估
隱私保護:
- 確保模型的輸出不會侵犯用戶隱私,對個人敏感信息進行隱私保護。
防止攻擊:
- 測試模型對惡意攻擊或異常輸入的魯棒性,確保模型不易受到攻擊。
七、可解釋性評估
- 對模型的輸出進行解釋和驗證,確保模型的決策是可解釋和可信的,避免模型黑盒化帶來的問題。
八、法律和合規性評估
隱私法規遵守:
- 確保模型遵循隱私法規,不違反用戶隱私和數據使用規定。
合規性檢查:
九、應急管理措施
采取防范計算機病毒、網絡攻擊、網絡入侵等技術措施。
制定網絡安全應急處置預案并且開展應急演練,保存演練記錄材料。
警用接口建設。
十、材料準備
安全評估報告。
模型服務協議。
語料標準規則。
攔截關鍵詞列表。
評估測試題庫。
拒答測試題庫。
網絡安全管理制度及操作規程。
應急處置預案和記錄材料。
用戶投訴舉報處理、用戶管理制度。
個人信息安全保護。
安全培訓制度。
網絡安全負責人任命書。
十一、【線下流程】大模型備案線下詳細步驟說明
第一步:企業向當地網信辦申請大模型備案,先確認模型是否需要進行備案(有些只是用開源做微調的,這種小模型一般做算法備案就好,算法備案也簡單,具體情況跟網信辦確認,不同地區的網信辦要求也會有差異)。
第二步:填寫《生成式人工智能上線備案表》,準備自評估報告材料,評估點參考表格里面提到的 6 個點進行撰寫,每個點進行評估的方法、風險點及應急策略,報告盡量詳細點。
第三步:當地網信會將報告遞交中央網信技術管理局進行審核。
第四步:網安多個支隊對工作流程及大模型進行上門檢查。檢查點非常多很多企業被卡主在這一步。
第五步:等結果。
重點內容講解
自評估和準備材料
語料安全評估:
模型安全評估:
安全措施評估:
明確模型適用人群,如是否適用未成年人等。
確定適用場合,如關鍵信息基礎設施等相關敏感場合。
明確用途,判斷是否限定領域。
梳理服務過程中收集保存個人信息情況,包括類型、數量、用途、保存期限。
確定收集個人信息征得個人同意的方式。
明確受理處理使用者查閱、復制、更正、補充、刪除個人信息請求的情況,包括條件和途徑方法。
規劃好圖片、視頻標識情況,包括樣式、位置、頻度等。
建立接受公眾或使用者投訴舉報情況,明確途徑及反饋方式。
完善服務協議,將上述多方面內容寫入。
建立非法內容攔截措施,明確監看人員數量、預置關鍵詞攔截列表、分類模型檢測及準確性等。
統計拒答率,即拒絕回答等數量占比。
規劃模型更新、升級條件,如發現頻繁非法等情況時。
材料準備(以下是常見材料舉例):
《算法備案承諾書》。
《落實算法安全主體責任基本情況》。
《算法安全自評估報告》(較復雜且重要,100 頁左右,包含附錄各種證明材料等;需明確算法原理和邏輯、數據來源合規性、算法透明度和可解釋性、安全漏洞檢測與應對等)。
《擬公示內容》。
大模型上線備案表:
基本情況:模型名稱、主要功能、適用人群、服務范圍等。
模型研制:模型備案情況、訓練算力資源(自研模型)、訓練語料和標注語料來源與規模、語料合法性、算法模型的架構和訓練框架等。
服務與安全防范:推理算力資源、服務方式及對象等、非法內容攔截措施、模型更新升級信息等。
安全評估:基本情況、評估情況。
自愿承諾:承諾所填信息真實性,并簽字確認。
附件及備注:附件包括安全評估報告、模型服務協議、語料標注規則、攔截關鍵詞列表、評估測試題。
安全評估報告(涵蓋語料安全評估、模型安全評估以及安全措施評估,并形成整體評估結論)。
模型服務協議(包含產品及服務的各項規則及隱私條款等,需協同法務共同制定提交)。
語料標注規則(包括標注團隊介紹、功能性及安全性標注細則,標注流程等)。
攔截關鍵詞列表(總規模不宜少于 10000 個,應至少覆蓋《生成式人工智能服務安全基本要求》a.1 以及 a.2 中 17 種安全風險,a.1 中每一種安全風險的關鍵詞均不宜少于 200 個,a.2 中每一種安全風險的關鍵詞均不宜少于 100 個)。
評估測試題集:包括生成內容測試題庫、拒答內容測試題庫、非拒答測試題庫。要嚴格覆蓋 TC260 的 5 大類,31 小類。