在大語言模型技術快速發展的當下,檢索增強生成(RAG)技術憑借強大的潛力,在眾多應用場景中得到廣泛運用。嘉為藍鯨 OpsPilot 作為智能運維支撐平臺,深度融合 LLM 大模型能力,基于 RAG 技術構建高效知識庫體系。
在 RAG 技術棧中,提取與分塊如同 “知識手術刀”,將原始文檔精準切割為適合大模型處理的 “知識細胞”,既避免長文本的 “信息肥胖癥”,又防止短文本的 “營養碎片化”,它們直接影響著后續文本向量化的質量,以及檢索效率與大模型輸出的準確性。
01.知識處理
將用戶上傳的各類知識(如各類型文檔、自定義文本、網絡鏈接)進行提取-分塊-增強,以便后續知識向量化和混合檢索。針對不同類型的知識,OpsPilot提供“5+4”類提取、分塊策略,提供給用戶多元搭配選擇,如:用戶上傳一個長文本技術文檔,可先通過章節提取抓取目錄結構內容,再結合語義分塊,基于算法按主題拆分,為后續檢索筑牢基礎。
1)文檔提取
能將各類格式文檔轉化為可供系統處理的文本,從大量原始數據中提取出可被系統處理的文本信息,確保信息的完整性與準確性。它的進行關乎到最終能拿到什么數據信息,比如:無法編輯的PDF文件,質量不好的提取,可能拿到的就是亂碼。OpsPilot 通過五種方式實現高效提?。?/span>
(1)五大文檔提取方式
2)文檔分塊
將長文本拆分為較小的、語義聚焦的短單元,解決長文本向量化中的語義稀釋、計算資源消耗和檢索效率低問題。分塊為文本建立“檢索索引”,提升檢索定位精準度與速度;同時,輕量化文本既能避免大模型輸入超限,又能增強生成邏輯連貫性。OpsPilot 通過四種分塊方式達成以上效果:
02.功能介紹
1)上傳:多類知識匯聚上傳
知識庫支持三種知識上傳方式,包括:本地文件上傳——私域知識沉淀、網頁知識——動態知識補充、自定義文本——碎片知識整合,覆蓋用戶全方面知識上傳需求。
2)提?。憾嘣袷竭m配,精準識別內容
為精準識別不同格式文檔內容,OpsPilot 以多元提取方式適配需求。包含全文提?。ㄌ幚?PDF 等,掃描件啟用 OCR)、章節提?。ò?Word 目錄結構解析長文本)、頁面提?。ú鸱?PPT 單頁),以及表格的工作表整體提取、行級數據提取,實現文檔結構與內容的深度解析。
3)分塊:破解長文本難題,優化檢索效果
提取出可編輯的文本數據后,分塊對其進一步處理,通過精細切割讓知識 “化整為零”,為高效檢索與智能生成鋪就基石。分塊功能依據文本特性與應用場景,提供多元策略:定長分塊、循環分塊、語義分塊、不分塊。分塊通過優化知識顆粒度,讓機器理解與檢索的效率,真正匹配人類的知識邏輯。
03.嘉為藍鯨OpsPilot——更懂運維的AI平臺
嘉為藍鯨OpsPilot是一款集知識庫管理、技能配置、機器人管理和工具管理為一體的智能運維支撐平臺,通過結合LLM大模型強大語義理解、知識增強與多模態處理能力,從而實現運維相關的問答和操作。此外,OpsPilot更加聚焦于運維領域,超出單個LLM大模型的能力范疇,成為更懂運維的智能AI平臺。
OpsPilot:知識庫 RAG 預處理強化,細化文檔提取和分塊策略
查看詳細
嘉為藍鯨亮相 2025中物院超算與數智大會,共探數智運維新路徑
查看詳細
3月13日起!嘉為藍鯨春季發布會,DeepSeek 重磅加持,AI 賦能多款研運產品強勢升級!
查看詳細
聚焦信創:嘉為藍鯨 OpsPilot× 華為昇思,共筑運維 AI 融合新生態
查看詳細
嘉為藍鯨支持軟件開發運維一體化能力成熟度(DOMM)國家標準教材編制與培訓
查看詳細
滔搏斬獲 “鼎新杯” 優秀案例,引入嘉為藍鯨打造智能運維平臺
查看詳細
申請演示