公務員期刊網 論文中心 正文

測繪地理信息技術災害信息提取方法

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了測繪地理信息技術災害信息提取方法范文,希望能給你帶來靈感和參考,敬請閱讀。

測繪地理信息技術災害信息提取方法

摘要:隨著網絡技術迅速發展,海量數據分布在萬維網內,如何從數據中挖掘到特定的需要的數據成為時下研究的熱點。網絡爬蟲是一種按照一定的規則,自動抓取萬維網信息的程序或者腳本。本文探討使用網絡爬蟲的概念和方法,開發基于互聯網的聚焦網絡爬蟲軟件,迅速通過互聯網搜索山洪災害點相關及時的第一手資料,形成對災害的第一認識。再經過人工判讀,精確動態提取、更新山洪災害信息專題成果。

關鍵詞:萬維網;聚焦網絡爬蟲;山洪災害;動態提取

1.引言

隨著網絡的迅速發展,萬維網成為大量信息的載體。網絡信息更新及時,傳遞速度快,只要信息收集者及時發現信息,就可以保證較強的信息時效性。面對海量數據,如何有效地提取并利用這些信息成為一個巨大的挑戰。定向抓取相關網頁資源的聚焦爬蟲可提取特定的需要的信息。網絡爬蟲(又被稱為網絡機器人,網頁蜘蛛),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。聚焦爬蟲是一個自動下載網頁的程序,它根據既定的抓取目標,有選擇的訪問萬維網上的網頁與相關的鏈接,獲取所需要的信息。與通用爬蟲(generalpurposewebcrawler)不同,聚焦爬蟲并不追求大的覆蓋,而將目標定為抓取與某一特定主題內容相關的網頁,為面向主題的用戶查詢準備數據資源。物聯網蘊含了大量的動態災害信息,是及時獲取目標區域災害點信息的重要途徑。傳統搜索引擎技術缺乏基于空間語義的認知和推理能力,無法識別災害發生的空間位置信息,無法提供基于互聯網的區域化災害動態監控服務。本文基于聚焦網絡爬蟲有效收集網絡上的災害信息,精準過濾反映災害信息內容的網頁,獲取災害事件的時間、空間位置以及災害點信息。依托該系統,可結合傳統的人工判讀技術,依據地物波譜特性、空間特征和成像機制以及所掌握的地學規律,通過分析地物影像特征來識別災害點,準確提取、更新災害信息專題數據,及時,輔助決策者參考使用。

2.聚焦網絡爬蟲概述

聚焦網絡爬蟲可以在較短的時間里,使用較少的硬件資源,獲取到更多與主題相關的信息。相對于通用網絡爬蟲,聚焦爬蟲的工作原理較為復雜,根據一定的網頁分析算法過濾掉主題無關的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列。然后,它將根據一定的搜索策略從隊列中選擇下一步要抓取的網頁URL,并重復上述過程,直到達到系統的某一條件時停止。本文網絡爬蟲引擎采用聚焦網絡爬蟲(FocusedCrawler),又稱主題網絡爬蟲(TopicalCrawler),是指選擇性地爬行那些與預先定義好的主題相關頁面的網絡爬蟲。和通用網絡爬蟲相比,聚焦爬蟲只需要爬行與主題相關的頁面,極大地節省了硬件和網絡資源,保存的頁面也由于數量少而更新快,還可以很好地滿足一些特定人群對特定領域信息的需求。聚焦網絡爬蟲和通用網絡爬蟲相比,增加了鏈接評價模塊以及內容評價模塊。聚焦爬蟲爬行策略實現的關鍵是評價頁面內容和鏈接的重要性,不同的方法計算出的重要性不同,由此導致鏈接的訪問順序也不同。

3.山洪災害信息

山洪是指山區溪溝中發生的暴漲洪水。山洪具有突發性,水量集中流速大、沖刷破壞力強,水流中挾帶泥沙甚至石塊等,常造成局部性洪災,一般分為暴雨山洪、融雪山洪、冰川山洪等。山洪災害常伴有山體崩塌、山體滑坡、泥石流等。山洪災害信息是救災工作的重要決策依據,直接關系到自然災害應急處置、救援救助等救災工作的有效開展。

4.基于聚焦網絡爬蟲的災害信息動態提取方法研究

開發基于互聯網的網絡爬蟲軟件,能迅速通過互聯網搜索災害點相關及時的第一手資料,形成對災害的第一認識。通過已開發的網絡爬蟲軟件,能將所有與某一主題相關的所有信息羅列并進行綜合分析篩選。通過借鑒國內外語義相似度在信息檢索方面的研究成果,開發基于互聯網的網絡爬蟲軟件,從各類信息數據庫中巨大的新聞事件類文本數據中及時發現并提取災害專題新聞報道信息。結合高分遙感影像數據、基礎地理信息矢量數據,輔以人工判讀,以確定各災害專題信息發生的空間們位置信息,輸出災害信息動態提取成果專題圖,為災害信息動態更新提供服務。具體的技術路線參見下圖。(1)專題數據管理子系統負責災害信息描述數據(如泥石流、山洪、暴雨、地震等)、政府網站數據(網絡爬蟲目標網站)、語義規則庫(災害專題信息檢索模型的研究成果)的維護和更新。(2)信息檢索利用網絡爬蟲工具,從政府網站中抓取相關網頁并收集到本地,經過加工處理建立本地網頁快照庫,對本地網頁快照庫進行分析、整理,針對災害信息描述關鍵詞建立一種利于快速查找的數據結構即索引,并建立索引數據庫,以便在抓取到的網頁中進行快速深入的災害信息提取。(3)信息提取網頁信息數據庫中存儲的是HTML格式的文檔,這類文檔通常含有很多與網頁主題信息不相關的內容,比如導航條、廣告信息、版權信息等內容,它們只適合使用網頁瀏覽器進行瀏覽,而不宜作為數據交換方式由計算機處理。因此,需要開發網頁主題信息提取工具,從HTML這類非結構化的文檔中提取出主題信息,輸出并保存為結構化的文本,以便于對其進行下一步的分析處理。(4)信息過濾通過網頁主題信息提取后獲取的結構化文本數量多、數據冗余度高、不包含有效災害信息描述的文本比重高,需要采用正向過濾(文本中必須包含的關鍵詞組合)、反向過濾(文本中不能包含的關鍵詞組合)等技術手段盡可能刪除那些不包含有效災害信息的文本。最后,根據災害專題信息檢索模型,從剩下的文本中檢索并提取出有效的災害信息描述內容。(5)人工判讀通過軟件自動提取到的災害信息屬性并不精確,需要后期進行人工輔助判讀,結合高分影像,確定災害發生的具體位置、進一步明確災害屬性信息,同時剔除通過程序獲取到的重復信息。人工判讀確認的災害信息主要包括空間信息及屬性信息。空間信息包括災害發生的位置信息及災害發生的幾何類型;屬性信息包括災害分類、災害發生時間信息、災害發生的區域、災害發生的文字描述等信息。(6)成果輸出及經過人工判讀后的災情信息是比較準確的,可直接用于更新災害專題信息數據庫。結合其他影像、矢量等數據災情信息動態提取成果專題,將山洪災害信息及時并打印輸出。同時提供網絡調用的服務接口,能通過設置地名關鍵詞、災害類型、發生時間范圍、行政區域或坐標范圍等篩選條件,可以將某一個位置周圍的歷史災害相關信息全部羅列出來供決策者輔助參考。

5.結語

在山洪災害信息提取中,基于聚焦網絡爬蟲方法對物聯網中海量數據信息利用程度較高,能夠綜合考慮災害事件的時間、空間位置以及災害點信息,快速獲取第一手資料數據,再結合人工判讀,即可精確動態提取、更新山洪災害專題成果。也可以采集往年信息,建立預報模型,預測未來災害發生區域,災害種類等,可為決策者提供預防。本文基于聚焦網絡爬蟲,通過動態提取災害信息,結合人工判讀,研究了山洪災害信息的提取、更新方法,可為決策者提供輔助依據。本文關于采集往年信息,建立模型,預測未來災害發生區域、災害種類,未作進一步研究,希望拋磚引玉,引發一些思考。

參考文獻:

[1]袁文,袁武,張海冬.基于互聯網的區域性災害空間信息動態監測技術[C].國家綜合防災減災與可持續發展論壇,2010:200-207.

[2]程向榮.分析測繪技術在地質災害中的作用[J].西部資源,2018(01):123-124.

[6]孫立偉,何國輝,吳禮發.網絡爬蟲技術的研究:電腦知識與技術,2010.

[7]張玉東,郭俊鋒,王林生.測繪技術在地質災害中的作用[J].科技與企業,2012(20):251+253.

[8]尹訓志,王俊亮,張杰.測繪技術在地質災害中的作用探究[J].大科技,2018,000(030):221-222.

作者:陳濟才 李國明 單位:四川陸零陸空間信息科技股份有限公司

主站蜘蛛池模板: 国产精彩视频在线观看免费蜜芽| 男女啪啪高清无遮挡免费| 日韩精品无码中文字幕一区二区 | 日本在线观看中文字幕| 国产成人vr精品a视频| 五月天色婷婷综合| 欧美极品另类高清videos| 村上里沙在线播放| 国产成人精品午夜在线播放| 亚洲a∨精品一区二区三区下载 | 杨幂一级做a爰片性色毛片| 国产欧美综合一区二区| 久久精品国产亚洲AV麻豆王友容 | 婷婷国产偷v国产偷v亚洲| 免费爱爱的视频太爽了| jizz中国免费| 波多野结衣紧身裙女教师| 国内自产一区c区| 亚洲国产欧美91| 欧美又粗又长又爽做受| 日韩小视频在线| 国产v片成人影院在线观看| 中文在线观看国语高清免费| 精品人妻一区二区三区四区在线| 女人战争免费观看韩国| 亚洲第一页在线观看| 14萝自慰专用网站| 最新欧洲大片免费在线| 国产乱码一区二区三区| 东京一本一道一二三区| 狼友av永久网站免费观看| 国产色婷婷五月精品综合在线| 亚洲人成777在线播放| 香蕉视频a级片| 性高朝久久久久久久| 亚洲精品美女久久777777| 在线观看91精品国产入口| 日本高清免费xxx在线观看| 四虎影库久免费视频| 99热精品久久只有精品| 最近最新中文字幕6页|