国产精品有码,99精品综合,在线亚洲不卡,亚洲天堂小说,免费看48女人**毛片,国产精品第一页在线,国产黄色a级网站

AI 破解新污染物治理難題,中國數(shù)據(jù)集彰顯硬核實力

2025-8-11 14:07 來源: 中國環(huán)境 |作者: 卜元卿 胡昊

日前,化學品和廢物三公約締約方大會于瑞士日內瓦召開,大會主題為“讓無形變得有形:化學品和廢物的健全管理”?;瘜W污染物具有種類繁多、來源廣泛、危害巨大等特點,已成為全球亟待解決的新型污染治理難題。以大數(shù)據(jù)、機器學習等為核心的人工智能技術,為新污染物治理開創(chuàng)了新的科學范式。

要實現(xiàn)新污染物治理的智能化,關鍵在于掌握系統(tǒng)、清晰且準確的數(shù)據(jù)資源。自上世紀中后期起,歐美發(fā)達國家及國際組織積極建設化學物質數(shù)據(jù)集,為全球治理和履約談判提供了有力支撐。為提升我國新污染物治理能力和在國際上的話語權,我國正積極推進全國新污染物生態(tài)毒理和健康毒理數(shù)據(jù)集成專項工程,構建國家新污染物計算毒理和暴露預測大數(shù)據(jù)平臺,憑借中國力量為“無形”的化學污染提供切實可行的“有形”解決方案。

一、主要成果

生態(tài)環(huán)境部南京所攜手生態(tài)環(huán)境部信息中心、中國科院生態(tài)環(huán)境研究中心、天津大學等20余家國內頂尖科研機構,聚焦新污染物環(huán)境與毒理數(shù)據(jù)集構建、計算毒理和暴露預測工具開發(fā)、應用場景適配三大核心方向,持續(xù)進行技術攻關。通過系統(tǒng)集成環(huán)境和毒理數(shù)據(jù)資源,不斷提升新污染物計算毒理與環(huán)境暴露預測的模擬能力,已基本實現(xiàn)面向應用場景的新污染物生態(tài)環(huán)境風險智能評估。

(一)建立新污染物環(huán)境與毒理數(shù)據(jù)集。一是系統(tǒng)集成多源多模態(tài)數(shù)據(jù)。利用Apache Nutch、Scrapy等大數(shù)據(jù)技術系統(tǒng)集成了國際國內數(shù)據(jù)集、文獻和技術報告等來源公開發(fā)表的多模態(tài)(結構化、非結構化)數(shù)據(jù),累計收錄化學物質超40萬種,分為3類,一是我國有可能在產在用的“所有”化學物質約38萬種(類),二是新登記化學物質46,928種(類)(最近更新為2025年4月30日),三是我國環(huán)境標準中涉及的污染物、優(yōu)評優(yōu)控化學物質和重點管控新污染物(2023版)共574種(類)。二是構建數(shù)據(jù)集多維參數(shù)體系。數(shù)據(jù)集包含生態(tài)毒理、健康毒理和環(huán)境暴露等超過1600項參數(shù),其中生態(tài)毒理數(shù)據(jù)包含1.3萬余種環(huán)境生物的40類參數(shù);健康毒理數(shù)據(jù)包含358種實驗生物的1522類參數(shù);理化性質共36類參數(shù),環(huán)境行為12類參數(shù)。數(shù)據(jù)總量已超1300萬條,替補國內空白。三是建立全生命周期質控體系。數(shù)據(jù)集收錄了來自我國良好實驗室規(guī)范的實測數(shù)據(jù),提供了一手本土化環(huán)境生物(2028種)急/慢性毒性數(shù)據(jù)資源,也為新污染物元數(shù)據(jù)參數(shù)體系構建提供了研究依據(jù)。融合多模態(tài)AI技術,構建跨文本/圖像關聯(lián)分析模型,數(shù)據(jù)審查效率提升3倍以上。

(二)開發(fā)計算毒理和暴露預測工具。一是開發(fā)新污染物急性毒性預測模型?;诙?構效關系(QSAR)與機器學習技術開發(fā)了環(huán)境敏感生物的智能化急性毒性預測模型及其配套軟件,可快速預測新污染物毒性水平,識別毒性警示片段,為綠色化學設計、高通量毒性預測等提供了支撐技術。二是開發(fā)本土場景新污染物環(huán)境遷移與暴露模擬器。結合我國氣象氣候、生態(tài)系統(tǒng)及地理環(huán)境等區(qū)域特征,開發(fā)環(huán)境新污染物遷移與暴露模擬器,模擬敏感區(qū)域新污染物在污染源-暴露途徑-受體遷移過程的動態(tài)變化,為今后新污染物實施分區(qū)域差異化風險精準管控提供了研究基礎與平臺支撐。

(三)建立場景化的生態(tài)環(huán)境風險評估“智能”模型。一是建立可交互的數(shù)據(jù)發(fā)表平臺。該平臺允許用戶以單個或批量形式自主上傳新污染物數(shù)據(jù),系統(tǒng)能夠自動開展數(shù)據(jù)格式校驗與內容審核工作,達成數(shù)據(jù)上傳與審核的智能化、可追溯管理,保障數(shù)據(jù)的可靠性與可信度。二是建立本土化的數(shù)據(jù)查詢平臺。此平臺不僅彌補了我國本土數(shù)據(jù)的空白,還研發(fā)出基于化學信息學的化學名稱檢索工具,提供精準、模糊和自定義檢索服務,支持批量識別與檢索,大幅提高信息識別能力與檢索效率。三是研發(fā)生態(tài)閾值智能研判模型。該模型支持用戶根據(jù)自身需求個性化選擇應用場景(土壤/淡水)及毒性數(shù)據(jù)(急性/慢性),經由數(shù)據(jù)自動檢索和算法匹配,完成數(shù)據(jù)正態(tài)分布檢驗、SSD擬合、最優(yōu)模型篩選和生態(tài)閾值計算,將研究過程和結果進行可視化呈現(xiàn),支持以PDF與Word格式輸出報告。四是研發(fā)場地新污染物生態(tài)環(huán)境風險評估智能模型。該模型依據(jù)環(huán)境風險評估流程,整合危害識別、效應評估、環(huán)境暴露與風險計算模塊,實現(xiàn)“一鍵式”場地新污染物生態(tài)環(huán)境風險的智能評估。江蘇、廣東、西藏等多地示范項目中,成本降低20%—30%,運行周期最大縮短50%。

(四)構建場景化的生態(tài)環(huán)境風險評估“智能”模型。其一,搭建可交互的數(shù)據(jù)發(fā)布平臺。該平臺允許用戶以單個或批量形式自主上傳新污染物數(shù)據(jù),系統(tǒng)能夠自動開展數(shù)據(jù)格式校驗與內容審核工作,達成數(shù)據(jù)上傳與審核的智能化、可追溯管理,保障數(shù)據(jù)的可靠性與可信度。其二,構建本土化的數(shù)據(jù)查詢平臺。此平臺不僅彌補了我國本土數(shù)據(jù)的空白,還研發(fā)出基于化學信息學的化學名稱檢索工具,提供精準、模糊和自定義檢索服務,支持批量識別與檢索,大幅提高信息識別能力與檢索效率。其三,研制生態(tài)閾值智能研判模型。該模型支持用戶根據(jù)自身需求個性化選擇應用場景(土壤/淡水)及毒性數(shù)據(jù)(急性/慢性),經由數(shù)據(jù)自動檢索和算法匹配,完成數(shù)據(jù)正態(tài)分布檢驗、SSD擬合、最優(yōu)模型篩選和生態(tài)閾值計算,將研究過程和結果進行可視化呈現(xiàn),支持以PDF與Word格式輸出報告。其四,研發(fā)場地新污染物生態(tài)環(huán)境風險評估智能模型。該模型依據(jù)環(huán)境風險評估流程,整合危害識別、效應評估、環(huán)境暴露與風險計算模塊,實現(xiàn)“一鍵式”場地新污染物生態(tài)環(huán)境風險的智能評估。江蘇、廣東、西藏等多個示范項目運行顯示工作周期最大縮短50%,成本降低20%—30%。

二、存在的問題

盡管我國在新污染物環(huán)境與毒性數(shù)據(jù)的集成、計算毒理及暴露預測開發(fā)方面取得了顯著進展,但目前仍面臨數(shù)據(jù)完整性和覆蓋度不足、數(shù)據(jù)規(guī)范和標準缺失,以及數(shù)據(jù)挖掘與垂直場景應用不充分等挑戰(zhàn)。

(一)數(shù)據(jù)完整性不足。一是新污染物關鍵參數(shù)匱乏。目前,僅有少數(shù)新污染物具備完整的環(huán)境遷移、歸趨及毒理的監(jiān)測和實驗數(shù)據(jù),難以構建涵蓋多介質、多物種、多終點的新污染物全景式數(shù)據(jù)視圖。例如,環(huán)境監(jiān)測數(shù)據(jù)在空間覆蓋上有限,且缺乏連續(xù)的時間序列;毒理實驗數(shù)據(jù)普遍缺少慢性低劑量暴露、長期毒性以及聯(lián)合污染效應等復雜毒性終點信息。二是實驗條件元數(shù)據(jù)缺失。無論是國際主流數(shù)據(jù)集,還是文獻、報告等資料,大部分數(shù)據(jù)均未提供完整的數(shù)據(jù)生成試驗條件,缺乏溯源信息及可追溯性,這使得數(shù)據(jù)建模過程受到限制。三是多模態(tài)數(shù)據(jù)自動獲取難。大量新污染物的相關信息散布于學術論文、技術報告、監(jiān)測報告等非結構化或半結構化文本之中。此外,部分實驗數(shù)據(jù)僅以半定量或定性形式呈現(xiàn)(如光譜圖、色譜圖等)。然而,由于缺乏專業(yè)的判斷以及計算機融合技術,這些數(shù)據(jù)尚未得到充分的采集與整合,從而削弱了數(shù)據(jù)的完整性與全面性。

(二)數(shù)據(jù)標準化不足。一是新污染物目前尚無通用的身份標識符。現(xiàn)行的化學文摘社登記號(CASRN)在不同數(shù)據(jù)集中可能關聯(lián)多條記錄,存在重復或歧義現(xiàn)象,導致跨數(shù)據(jù)集信息的自動化整合面臨困難;此外,混合物、聚合物以及未知或可變成分物質(UVCBs)等復雜化學物質,仍缺乏清晰、系統(tǒng)和一致的識別機制。二是數(shù)據(jù)字段體系復雜且異構。不同數(shù)據(jù)集在參數(shù)術語、字段命名規(guī)則、單位標注方式以及數(shù)據(jù)結構層級深度上存在差異,這導致在數(shù)據(jù)集合并或比對過程中,需要額外復雜的映射邏輯。此外,字段含義注釋不充分,多數(shù)字段僅以簡短的術語或縮寫形式呈現(xiàn),缺乏標準化的定義和說明,容易引發(fā)跨平臺解釋上的歧義。三是數(shù)據(jù)“加工流程”缺乏標準化管控。當前,各數(shù)據(jù)集在數(shù)據(jù)的篩選、清洗和質量評價等方面缺乏統(tǒng)一的規(guī)范標準和流程。例如,對同一參數(shù)或研究結果的不同來源,其可信度判斷和可靠性分級存在不一致性;同時,缺乏針對冗余、重復、異常等數(shù)據(jù)的操作技術規(guī)范,以及新生成數(shù)據(jù)的標注規(guī)范。此外,數(shù)據(jù)質量評估的評價指標體系亦顯不足,這些問題共同降低了數(shù)據(jù)的可用性和可靠性。

(三)數(shù)據(jù)挖掘度不足。一是我國新污染物種類尚未完全厘定。數(shù)據(jù)顯示,全球主要國家已登記使用的化學品及其混合物數(shù)量已超過35萬種。然而,由于各國在監(jiān)管體系、產業(yè)結構及應用場景方面存在顯著差異,我國迫切需要進一步排查并梳理出符合本土情況的新污染物清單。二是多模態(tài)數(shù)據(jù)融合不足。由于缺乏多源異構數(shù)據(jù)的對接技術和統(tǒng)一標準,難以對多源數(shù)據(jù)信息的語義關聯(lián)、時空動態(tài)識別及混合效應進行深入分析。三是算法與模型應用局限。計算毒理和環(huán)境暴露的算法與模型在面對大規(guī)模、非線性、高階及多源異構數(shù)據(jù)時的自適應能力仍需進一步提升。例如,毒性預測的QSAR模型尚無法自動從多終點毒性數(shù)據(jù)(包括急性毒性、慢性毒性、生殖毒性、內分泌毒性等)中識別出潛在的毒性機制。

三、工作建議

新污染物環(huán)境與毒理數(shù)據(jù)集成具備專業(yè)性、應用性、動態(tài)性和長期性等顯著特點。以本數(shù)據(jù)集為基石,借助人工智能等數(shù)字技術的賦能,系統(tǒng)性強化高質量數(shù)據(jù)資源的開發(fā),全面提升新污染物生態(tài)環(huán)境風險防控能力,共同構筑美麗健康的世界的目標。

(一)構建統(tǒng)一的數(shù)據(jù)標準化體系。一是明確數(shù)據(jù)采集、編碼、審核和存儲各環(huán)節(jié)的標準和規(guī)范。制訂統(tǒng)一的數(shù)據(jù)篩選標準及采集技術標準,構建定量化的數(shù)據(jù)評估質量指標體系,建立新污染物數(shù)據(jù)集字段命名指南,明確必填的元數(shù)據(jù)項,如新污染物標識、參數(shù)類型、實驗條件、測試方法等。建立數(shù)據(jù)字典與字段注釋說明庫,對每一個字段提供標準化定義、數(shù)據(jù)類型、允許取值范圍及示例,確保不同來源的數(shù)據(jù)能夠統(tǒng)一格式化、校驗去重與歸檔。二是編制本土化與受控詞表指南。開展我國高關注新污染物及特色區(qū)域環(huán)境場景的調研與梳理工作,并增補相關受控詞條,構建層級化結構并制定映射規(guī)范,以確保系統(tǒng)的兼容性與可擴展性。三是制訂合成數(shù)據(jù)與交換協(xié)議標準。建立標準化的數(shù)據(jù)檢測、清洗及處理規(guī)范,制定“合成數(shù)據(jù)標注標準”及數(shù)據(jù)版本管理規(guī)范,明確區(qū)分“計算值”與“實測值”,確保派生數(shù)據(jù)可追溯至原始數(shù)據(jù)及計算流程。同時,制定數(shù)據(jù)交換協(xié)議和數(shù)據(jù)導入/導出接口規(guī)范,構建字段校驗、格式校正和錯誤反饋機制,保障不同來源的數(shù)據(jù)能夠按照統(tǒng)一標準實現(xiàn)無縫對接。

(二)持續(xù)開發(fā)多源多模態(tài)數(shù)據(jù)資源。一是建立智能化數(shù)據(jù)收集和提取體系。開發(fā)基于環(huán)境領域的大數(shù)據(jù)技術,實現(xiàn)對非結構化和半結構化文本的自動化批量抽取與結構化處理,并構建自動抽取結果的人工智能校驗機制,確保批量數(shù)據(jù)的品質與精準度。二是開發(fā)新污染物多模態(tài)數(shù)據(jù)標注技術。構建涵蓋圖片、視頻、聲音等多模態(tài)數(shù)據(jù)的高效標注框架,融合先進的跨模態(tài)學習算法,研發(fā)自動化標注工具,以顯著降低標注成本并提升標注效率。三是構建新污染物語義知識圖譜?;谖覈瘜W物質基礎數(shù)據(jù)、地理信息、環(huán)境狀況及毒理數(shù)據(jù)等核心基礎信息,并整合政策法規(guī)、環(huán)境標準等多維要素,構建全面的關系語義網絡,旨在為深入挖掘多源數(shù)據(jù)間的潛在關聯(lián)提供豐富語料。

(三)創(chuàng)新數(shù)據(jù)挖掘與算法模型。一是提高算法模型適用性。構建數(shù)據(jù)資源-模型開發(fā)-場景應用-優(yōu)化評估-結果驗證的閉環(huán)模型體系,建立完善的模型性能評估指標體系,深入進行模型可解釋性分析及外部驗證,旨在全面提升算法在各類應用場景中的可靠性與穩(wěn)定性。二是持續(xù)迭代新污染物環(huán)境暴露模擬器。構建新污染物空間與時序模擬監(jiān)測網絡,研發(fā)全生命周期虛實映射的數(shù)字孿生技術,開發(fā)適用于不同尺度的環(huán)境暴露數(shù)字化仿真系統(tǒng),實現(xiàn)對多區(qū)域、多介質及不同時間序列新污染物的精準數(shù)據(jù)模擬,從而彌補環(huán)境暴露監(jiān)測數(shù)據(jù)的不足。三是開發(fā)智能決策輔助系統(tǒng)。研發(fā)針對細分場景的知識蒸餾輕量化技術,構建垂直領域的大模型矩陣,以實現(xiàn)新污染物在環(huán)境評價、污染協(xié)同治理及應急管控等場景中的高效精準分析。

最新評論

碳市場行情進入碳行情頻道
返回頂部