<bdo id="h8ef7"><delect id="h8ef7"></delect></bdo><rt id="h8ef7"></rt><rt id="h8ef7"></rt><delect id="h8ef7"></delect><rt id="h8ef7"></rt><rt id="h8ef7"></rt><rt id="h8ef7"><rt id="h8ef7"></rt></rt><rt id="h8ef7"><rt id="h8ef7"><delect id="h8ef7"></delect></rt></rt><rt id="h8ef7"><rt id="h8ef7"></rt></rt><noframes id="h8ef7"><rt id="h8ef7"><rt id="h8ef7"></rt></rt><noframes id="h8ef7"><noframes id="h8ef7"><rt id="h8ef7"></rt><noframes id="h8ef7"> <noframes id="h8ef7"><noframes id="h8ef7"><noframes id="h8ef7"><delect id="h8ef7"></delect><rt id="h8ef7"></rt><noframes id="h8ef7"><noframes id="h8ef7"><rt id="h8ef7"><delect id="h8ef7"></delect></rt><rt id="h8ef7"><rt id="h8ef7"></rt></rt><noframes id="h8ef7"><rt id="h8ef7"></rt> <rt id="h8ef7"><delect id="h8ef7"></delect></rt><noframes id="h8ef7"><rt id="h8ef7"></rt><noframes id="h8ef7"><rt id="h8ef7"><rt id="h8ef7"></rt></rt>

鯨品堂|智能化數據安全分類分級實踐

2024-07-22 332

在當今數字化浪潮的迅猛推進下,企業和組織正遭遇前所未有的數據安全治理挑戰。隨著海量數據的不斷產生、傳輸、存儲和應用,它們面臨著來自黑客攻擊、內部人員惡意泄露以及數據誤操作等多重安全威脅的侵襲。因此,構建一個健全的數據安全治理體系,確保數據的安全性和合規性,已成為各行各業刻不容緩的重要任務。


數據安全分類分級是數據安全的基礎。我們必須認識到,并非所有數據都擁有相同的敏感度和重要性。從財務數據到個人隱私信息,再到知識產權資料,不同業務數據在敏感性和價值上存在著顯著的差異。只有精準地識別各類數據的安全等級,才能為它們制定合適的安全防護措施,從而有效保障數據安全。


問題與挑戰


當前數據安全分類分級管理主要有兩種實現方式:手工打標和基于規則打標。主要對比如下:


特點
手工打標
規則打標
全面性
低,難以覆蓋所有數據
低,難以覆蓋所有數據
準確性
高,依賴專家經驗和知識
中,受限于預設規則
靈活性
高,能夠靈活應對
低,難以快速適應

效率

低,難以處理大量數據

中,能夠大規模數據集

成本

高,需要大量的人力投入

中,初期成本較高

可復制性

差,難以直接復制

高,易于復制和擴展

資源消耗

低,主要消耗人力資源

高,大數量資源消耗高


從表格的對比數據中,我們可以清晰地識別出手工打標和規則打標在數據安全分類分級管理中的顯著問題:


01

手工打標:效率低下,治理成本高昂


在數據安全分類分級的過程中,手工打標依賴于人力對海量數據集進行逐一審查和細致分析,以確定其分類和敏感級別。這種方法效率低下,且需要投入大量人力資源,導致治理成本顯著上升。特別是隨著數據量的快速增長,手工打標的效率瓶頸愈發突出,難以滿足現代企業對快速響應和高效管理的迫切需求。


02

規則打標:規則覆蓋不全,大數據處理性能突顯


在規則打標,如基于字段名稱、注釋和內容,根據對應的正則規則進行識別,在實際應用中也面臨諸多挑戰。一方面,依賴固定規則進行匹配的字段識別方法需要維護大量的規則,如規則覆蓋不全則導致識別準確率下降。另一方面,基于字段內容的識別方法在處理大型數據表時,由于數據處理的復雜性和計算量的增加,其性能會顯著降低,并消耗大量系統資源。


因此,為了應對這些挑戰,我們需要尋找一種更為高效、準確且智能的數據安全分類分級方法,從而滿足大數據時代下數據安全治理的要求。


解決措施


本方案核心目標是通過自動化和智能化的手段,優化數據安全分類分級的管理流程,提高效率和準確性。整體思路如下:

圖片關鍵詞圖片關鍵詞


首先基于大數據平臺已采集的字段信息,字段血緣、字段質量規則、字段安全規則及手工分類分級打標數據,形成字段特征庫,為后續應用提供基礎數據支撐。


再是構建智能分類分級引擎,包括規則引擎、血緣引擎及AI引擎,在實際應用可根據需求場景,選擇對應的分類分級引擎進行執行。


最后,通過制定不同場景下數據安全分類分級的安全防護策略實現數據全生命周期的安全防護。


01

構建高維字段特征庫,為AI引擎提供高質量數據


(1)數據采集

從業務系統、數據平臺分別抽取字段的基本特征屬性(如編碼、名稱、類型、描述等)、字段血緣、已配置的稽核規則(如取值范圍、數據格式、非空、唯一性等)、已配置的安全規則(脫敏、加密策略等)及手工分類分級打標數據。

(2)數據清洗

對已采集字段數據進行清洗及預處理,從而保障數據質量,包括缺失值填充、異常值去除、數據格式轉換等。

(3)數據整合

以字段編碼作為唯一標識符,對分散在各模塊的字段特征和規則進行統一整合,形成高維數據集。對于存在重復編碼且規則沖突的字段,經過人工二次確認后,統一錄入字段特征庫。


02

智能分類分級引擎,實現敏感數據精準高效識別


在字段特征庫構建完成后,基于自然語言處理、深度學習技術,構建AI引擎,深入分析字段的特征屬性和血緣關系,智能識別出該字段的分類分級規則。在這過程中,基于人工打標數據及對智能識別結果進行修正,不斷學習領域專家的知識和經驗,持續提高智能識別的準確性和效率。


該算法的核心在于精確比較物理字段的屬性與數據元屬性的相似性和潛在關聯性,并據此生成一個綜合的相似性評分。為了實現這一目標,我們綜合應用了文本處理以及先進的字符串比較和度量技術。并且對于編碼型和文本型屬性,我們采取了差異化的處理策略,確保在結構化數據字段的處理中既能實現精確匹配,又能深入理解語義內容。


在應對現實挑戰時,我們特別考慮到字段使用的不規范性。在某些情況下,字段的編碼、名稱或注釋在表面上的相似度可能很高,但在不同的數據表或業務場景中,它們所承載的實際意義卻可能大相徑庭。因此,我們的算法不僅局限于基礎的屬性比較,還計劃納入更多的業務屬性作為相似度評分的考量因素,從而不斷提高相似度評分的準確性和實用性。通過這一策略,我們期望能夠為用戶提供更加精準、可靠的字段分類和推薦服務。


(1)相似度計算:

對從ES中召回的數據元與輸入字段進行詳細的相似度計算,并基于計算結果對召回的數據進行重新排序。


編碼類屬性相似度計算,針對輸入的編碼類屬性(如標識符、代碼等),采用字面相似度計算方法(如編輯距離、Jaccard相似度等)來計算評分,以評估它們在形式上的接近程度。

文本類屬性語義相似度計算,對于輸入的文本類屬性(如字段描述、注釋等),利用自然語言處理(NLP)技術,如詞向量、BERT等模型,來計算語義相似度評分,從而捕獲它們在含義上的相似性。


(2)綜合評分:

綜合考慮不同匹配維度(如編碼相似度、語義相似度等)的重要性及其對最終匹配準確性的貢獻,設計合理的權重公式和參數,對各維度評分進行加權計算,得出一個綜合的相似度評分。此外,根據業務反饋和實際應用效果,持續優化和調整權重參數,以確保相似度計算的準確性和實用性。


數據元共包含5種可用來進行相似度匹配的特征屬性,這5種屬性按照類型可劃分成編碼類和文本類,如下所示:


名稱
字段類型
內容格式
樣例
數據元編碼
編碼類
英文,不同單詞之間用_分隔
tele_num
數據元名稱
文本類
中文
聯系人電話
數據元業務分類
文本類
中文
人員基礎數據管理/人員基本信息數據

數據元描述

文本類

中文

經公司核準準入/變更的,供應商法人單位授權的業務來往人員的電話

同義詞名稱(0...n)

文本類

中文,不同單詞之間;分隔

移動電話;手機號碼


綜合評分通過各屬性的相似度加權計算得出。


綜合評分計算公式如下:

圖片關鍵詞


其中,圖片關鍵詞為權重系數,相加和為1,并可以根據用戶實際反饋的情況進行自動調整和優化。


03

全方位安全防護技術,保障數據全生命周期安全


1)全面的安全防護技術

為保護數據安全,提供全面的數據安全防護技術,包括數據加密、數據脫敏、數據水印、數據庫安全網關等。


數據加密,支持DES、AES、3DES、RSA等主流加密算法及SM2、SM4國密加密算法。


數據脫敏,系統內置15種常用脫敏算法,支持動態脫敏、靜態脫敏,并可自定義配置脫敏規則及脫敏算法。


數據水印,支持網頁、excel、pdf等添加水印,并可靈活配置水印模板。


數據庫安全網關,支持無侵入方式,部署于數據訪問的客戶端和數據存儲之間,通過識別訪問者身份、位置、行為等信息,提供統一的、細粒度的訪問控制能力。


(2)全場景的安全防護策略

圍繞數據采集、傳輸、存儲、處理、共享、銷毀全生命周期,提供全場景的安全防護策略。并且針對不同的使用場景,同一敏感等級數據支持不同的安全防護策略配置。如針對用戶名、手機號等個人敏感數據支持在存儲時配置加密策略,在數據訪問時配置脫敏策略。


應用場景


以下是兩種典型業務場景的應用場景:


場景1:

ods層表分類分級識別及安全防護


在ods層,由于表通常是數據的初始節點,字段血緣關系推薦在此層級并不適用。然而,ods層可能存在大量字段名稱和描述高度相似的字段,它們實際上存儲的是相同類型的數據。為了提升數據安全分類分級的效率,我們可以采用AI引擎進行分類分級,通過比較字段的元數據、名稱、描述等信息,自動推薦相似的分類分級規則。


場景2:

dwd層表分類分級識別及安全防護


當數據從ods層流轉到dwd層時,字段的血緣關系成為了數據變化過程的重要參考。dwd層的表通常依賴于ods層的表,通過血緣關系可以清晰地看到數據是如何被加工、轉換和組合的。在這種情況下,基于字段血緣關系的推薦方法能夠更準確地描述數據的變化過程,其推薦結果也更具可信度。因此,在ods層完成分類分級識別后,我們可以利用字段血緣關系推薦來提升dwd層數據安全分類分級的效率。


基于以上兩種場景,數據安全分類分級及安全防護的落地實施可以遵循以下關鍵步驟:


(1)分類分級任務配置

通過選擇需要執行分類分級的數據目錄(ods、dwd等),配置合適的智能分類引擎(血緣引擎或AI引擎)及任務執行調度周期,完成分類分級任務配置。


圖片關鍵詞


(2)分類分級任務執行流程

根據配置的任務,系統自動執行分類分級任務。在ods層,使用AI引擎掃描,對比字段的元數據、名稱、描述等信息,進行相似度計算和推薦。在dwd層及以上層級,使用血緣引擎掃描,遞歸查詢血緣關系并推薦合適的分類分級規則。


(3)分類分級結果確認

任務執行完后,為保障數據準確性,提供手動調整和優化分類分級結果工具,允許用戶查看、驗證及修正分類分級結果,并將確認后的結果數據保存到數據庫;同時將修訂過的數據進行打標并記錄,以便后續提供給AI引擎進行算法或程序優化,進一步提升分類分級準確性。


圖片關鍵詞


(4)安全防護策略配置

基于分類分級結果,提供向導式、便捷的安全防護策略配置,系統內置各類加密、脫敏算法。通過選擇需要保護的敏感字段(可批量選擇),配置相應的加密、脫敏防護策略,完成數據安全防護策略配置。


圖片關鍵詞

圖片關鍵詞


通過以上流程,我們可以實現數據安全分類分級的精準、高效識別及安全防護。


應用成效


基于智能分類分級引擎與傳統手工打標、規則打標對比,具備顯著優勢,具體如下:


特點
手工打標
規則打標
智能識別
全面性
準確性
靈活性
高,支持各類復雜規則

效率

高,支持實時識別

成本

低,有效減少人工配置

可復制性

資源消耗

低,無需大量計算


首先,它極大地提升了數據安全分類分級的效率。借助自動化和智能化的手段,智能分類分級引擎能夠迅速且準確地完成數據安全分類與分級工作,從而顯著減少了人工操作的時間和人力成本。


其次,優化了資源配置。與傳統的數據安全分類分級方法相比,基于智能分類分級引擎,無需對字段實例進行大量的掃描計算,從而大幅降低了計算資源的消耗,為企業節省了運營成本。


最后,顯著增強了數據的安全性與合規性。智能分類分級引擎能夠精準地識別出含有敏感信息的字段,如個人身份信息、金融交易數據等,并對其進行適當的分類和有效保護,保護了企業的數據安全,降低了因數據泄露或濫用而引發的法律風險。


展望未來,通過引入智能化技術進行數據治理的前景將更加廣闊。除了智能化數據安全分類分級外,它還可以廣泛應用于質量規則自動推薦、數據模型優化、數據模型生命周期管理優化等多個領域,為企業數據治理提供更加全面和深入的支持,助力企業在數字化浪潮中穩健前行。


官方微信公眾號

浩鯨云計算科技股份有限公司 版權所有 2003-2023

蘇ICP備10224443號-6       蘇公網安備 32011402011374號

国产精品亚洲w码日韩中文|国产美女a做受|国产精品穿着丝袜打电话播放|亚洲成av 人片在线观看无码
<bdo id="h8ef7"><delect id="h8ef7"></delect></bdo><rt id="h8ef7"></rt><rt id="h8ef7"></rt><delect id="h8ef7"></delect><rt id="h8ef7"></rt><rt id="h8ef7"></rt><rt id="h8ef7"><rt id="h8ef7"></rt></rt><rt id="h8ef7"><rt id="h8ef7"><delect id="h8ef7"></delect></rt></rt><rt id="h8ef7"><rt id="h8ef7"></rt></rt><noframes id="h8ef7"><rt id="h8ef7"><rt id="h8ef7"></rt></rt><noframes id="h8ef7"><noframes id="h8ef7"><rt id="h8ef7"></rt><noframes id="h8ef7"> <noframes id="h8ef7"><noframes id="h8ef7"><noframes id="h8ef7"><delect id="h8ef7"></delect><rt id="h8ef7"></rt><noframes id="h8ef7"><noframes id="h8ef7"><rt id="h8ef7"><delect id="h8ef7"></delect></rt><rt id="h8ef7"><rt id="h8ef7"></rt></rt><noframes id="h8ef7"><rt id="h8ef7"></rt> <rt id="h8ef7"><delect id="h8ef7"></delect></rt><noframes id="h8ef7"><rt id="h8ef7"></rt><noframes id="h8ef7"><rt id="h8ef7"><rt id="h8ef7"></rt></rt>