數據采集標注的**要步驟就是進行數據采集,數據采集又稱為數據獲取,指的是利用某種裝置,從系統外部采集數據并輸入到系統內部接口的一個過程。隨著科技的飛速發展,數據采集已經廣泛的應用到各個領域,人工智能在的普及使得數據采集標注在我們的工作生活更為普遍。數據采集標注的數據采集可分為“硬感知”和“軟感知”,面向不同場景,即數據采集技術可以分為這兩個方面的技術。
“硬感知”主要利用設備或裝置進行數據的收集,收集對象為物理世界中的物理實體,或者是以物理實體為載體的信息、事件、流程等。而“軟感知”使用軟件或者各種技術進行數據收集,收集的對象存在于數字世界,通常不依賴物理設備進行收集。基于物理世界的“硬感知”依靠的就是數據采集,是將物理對象鏡像到數字世界中的主要通道,是構建數據感知的關鍵,是實現人工智能的基礎。基于當前的技術水平和應用場景,我們將“硬感知”分為9類,每一類感知方式都有自身的特點和應用場景。
一、磁卡
磁卡是一種卡片狀的磁性記錄介質,利用磁性載體記錄字符與數字信息,用來保存身份信息。視使用基材的不同,可分為PET卡、PVC卡和紙卡三種;視磁層構造的不同,又可分為磁條卡和全涂磁卡兩種。
磁卡的優點是成本低,這是它容易推廣的原因,但缺點也比較明顯,例如卡的保密性和安全性較差,使用磁卡的應用系統需要有可靠的計算機系統和中央數據庫的支持。
二、無線射頻識別
無線射頻識別是一種非接觸式的自動識別技術,通過無線射頻方式進行非接觸雙向數據通信,利用無線射頻方式對記錄媒體(電子標簽或射頻卡)進行讀寫,從而達到識別目標和數據交換的目的。
基于特別業務場景的需求,在無線射頻識別的基礎上發展出了近場通信。近場通信本質上與無線射頻識別沒有太大區別,在應用上的區別如下。
近場通信的距離小于10cm,所以具有很高的安全性,而無線射頻識別距離從幾米到幾十米都有。
三、條形碼與二維碼
條形碼或者條碼是將寬度不等的多個黑條和空白,按一定的編碼規則排列,用以表達一組信息的圖形標識符,通常一維條形碼所能表示的字符集不過10個數字、26個英文字母及一些特殊字符,條碼字符集所能表示的字符個數**多為128個ASCII字符,信息量非常有限。
二維碼是用某種特定的幾何圖形按一定規律在平面上分布的黑白相間的圖形,用來記錄數據符號信息。二維碼擁有龐大的信息攜帶量,能夠把使用一維條碼時存儲于后臺數據庫中的信息包含在條碼中,可以直接閱讀條碼得到相應的信息,并且二維碼還有錯誤修正及防偽功能,增加了數據的安全性。
四、光學字符識別和智能字符識別
光學字符識別是指電子設備(例如掃描儀或者數碼相機)檢查紙上打印的字符,通過邊檢測暗、亮的模式確定其形狀,將其形狀翻譯成計算機文字的過程。如何除錯或利用輔助信息提高識別正確率,是光學字符識別的重要課題。
智能字符識別是一種更**的光學字符識別。它植入了計算機深度學習的人工智能技術,采用語義推理和語義分析,根據字符上下文語句信息并結合語義知識庫,對未識別部分的字符進行信息補全,解決了光學字符識別的技術缺陷。
五、視頻數據采集
視頻是動態的數據,內容隨時間而變化,聲音與運動圖像同步。通常視頻信息體積較大,集成了影像、聲音、文本等多種信息。
視頻的獲取方式包括網絡下載、從VCD或DVD中捕獲、從錄像帶中采集、利用攝像機拍攝等,以及購買視頻素材、屏幕錄制等。
六、圖像數據采集
圖像數據采集是指利用計算機對圖像進行采集、處理、分析和理解,以識別不同模式的目標和對象的技術,是深度學習算法的一種實踐應用。
七、工業設備數據采集
工業設備數據是對工業機器設備產生數據的統稱。在機器中有很多特定功能的元器件(閥門、開關、壓力計、攝像頭等),這些元器件接受工業設備和系統的命令開、關或上報數據。工業設備和系統能夠采集、存儲、加工、傳輸數據。工業設備目前應用在很多行業,有聯網設備,也有未聯網設備。
八、傳感器數據采集
傳感器是一種檢測裝置,能感受到被檢測的信息,并能將檢測到的信息按一定規律變換成信號或其他所需形式的信息輸出,以滿足信息的采集、傳輸、處理、存儲、顯示、記錄等要求。信號類型包括IEPE信號、電流信號、電壓信號、脈沖信號、I/O信號、電阻變化信號等。
傳感器數據的主要特點是多源、實時、時序化、海量、高噪聲、異構、價值密度低等,數據通信和處理難度都較大。
九、音頻數據采集
語音識別技術也被稱為自動語音識別,可將人類的語音中的詞匯內容轉換為計算機可讀的輸入,例如二進制編碼、字符序列或者文本文件。
目前音頻數據采集技術在業界也有較為成熟的解決方案供應商,可以很便捷地通過解決方案供應商的技術,完成技術的部署和數據的采集。
|