為了解、掌握并應用大數(shù)據(jù)文本挖掘、語義分析、自然語言處理等相關技術,從而更高效地進行結構化/非結構化網(wǎng)絡文本數(shù)據(jù)提取,進一步完善院數(shù)據(jù)平臺數(shù)據(jù)組成并提高生態(tài)環(huán)境保護綜合決策、監(jiān)管治理及公共服務水平。2021年4月17日,總工程師辦公室在鑫盛大廈2520會議室組織召開“大數(shù)據(jù)技術在物質結構信息網(wǎng)絡搜集中的應用”專家咨詢會。此次會議特邀山東大學計算機科學與技術學院陳竹敏教授作為咨詢專家。會議由趙玉強副總工程師主持,總工程師辦公室大數(shù)據(jù)團隊及相關人員參加了本次會議。
趙玉強副總工程師、李欣副主任向陳教授介紹了會議議題及信息數(shù)據(jù)搜集訴求。之后吳睿向陳教授介紹了當前爬蟲工具的實際操作局限、遇到的技術瓶頸及初步的技術探索。大數(shù)據(jù)團隊以解決網(wǎng)絡文本數(shù)據(jù)提取實際操作問題為導向,向陳教授仔細請教。
陳竹敏教授針對問題及訴求,分別對網(wǎng)絡信息數(shù)據(jù)獲取及文本挖掘方面中的搜索引擎建立、信息抽取、詞法分析、深度學習及具體可實現(xiàn)開發(fā)語言、技術等方面,進行了詳細的講解,同時指出可結合特定網(wǎng)站建立長期爬取機制、用Python語言正則表達式進行核心代碼編譯及后續(xù)語義分析、關鍵詞抓取的學習探索方法。以保障現(xiàn)有問題得以高效解決。
結合關鍵詞、字進行網(wǎng)頁結構化/非結構化文本數(shù)據(jù)提取是大數(shù)據(jù)團隊必備技能,通過此次交流,大數(shù)據(jù)團隊成員均明確了下一步的學習目標、未來培訓需求以及與山大技術合作的方向,同時也更加清晰地描繪出院數(shù)據(jù)平臺建設乃至院大數(shù)據(jù)發(fā)展的藍圖。大數(shù)據(jù)團隊將基于信息數(shù)據(jù)提取技術的探索,更快地投入到文本數(shù)據(jù)挖掘的相關學習與工作中,共同為環(huán)保領域信息化到智能化的飛躍貢獻最大的力量。