苍井优一级毛片免费观看,成年网站在线观看,日本一二三不卡视频,日日天天人人夜夜九九

24小時(shí)論文定制熱線(xiàn)

熱門(mén)畢設:土木工程工程造價(jià)橋梁工程計算機javaasp機械機械手夾具單片機工廠(chǎng)供電采礦工程
您當前的位置:論文定制 > 畢業(yè)設計論文 >
快速導航
畢業(yè)論文定制
關(guān)于我們
我們是一家專(zhuān)業(yè)提供高質(zhì)量代做畢業(yè)設計的網(wǎng)站。2002年成立至今為眾多客戶(hù)提供大量畢業(yè)設計、論文定制等服務(wù),贏(yíng)得眾多客戶(hù)好評,因為專(zhuān)注,所以專(zhuān)業(yè)。寫(xiě)作老師大部分由全國211/958等高校的博士及碩士生設計,執筆,目前已為5000余位客戶(hù)解決了論文寫(xiě)作的難題。 秉承以用戶(hù)為中心,為用戶(hù)創(chuàng )造價(jià)值的理念,我站擁有無(wú)縫對接的售后服務(wù)體系,代做畢業(yè)設計完成后有專(zhuān)業(yè)的老師進(jìn)行一對一修改與完善,對有答辯需求的同學(xué)進(jìn)行一對一的輔導,為你順利畢業(yè)保駕護航
代做畢業(yè)設計
常見(jiàn)問(wèn)題

物體抓取識別算法的設計和實(shí)現

添加時(shí)間:2020/05/28 來(lái)源:上海師范大學(xué) 作者:關(guān)捷雄
物體識別算法是本文的核心,零售場(chǎng)景需要識別出目標的種類(lèi)及相應的個(gè)數,盡管目標檢測算法可以實(shí)現這一目的,但是需要大量的標注成本和計算成本。
以下為本篇論文正文:

  

  摘要

  計算機視覺(jué)技術(shù)是人工智能的主要研究方向之一,隨著(zhù)圖像或者視頻的數據規模快速增長(cháng),以及計算能力的?升,計算機視覺(jué)技術(shù)在近幾年獲得了前所未有的發(fā)展,被廣泛應用于多種場(chǎng)景,如無(wú)人駕駛,人流監控等。為了挖掘人工智能技術(shù)的應用潛力,筆者將其成功的應用了到無(wú)人零售場(chǎng)景。本文設計了一種物體抓取識別算法,該算法基于深度學(xué)習和計算機視覺(jué)技術(shù),能夠在目標被抓取的狀態(tài)下,識別目標物體的個(gè)數和種類(lèi),可用于識別零售場(chǎng)景中顧客抓取的商品。它包含三個(gè)算法模塊:立體匹配、物體識別和行為識別,其主要內容如下:

  為了讓目標物體多角度的暴露在視野范圍內以獲得多角度的信息源,并避免單攝像機被遮擋以至算法完全失效,本文采用了多攝像機的架設方案,設計和實(shí)現了一種快速立體匹配算法,該算法利用雙目相機的對極約束條件以及動(dòng)態(tài)規劃,能夠在線(xiàn)性時(shí)間內完成匹配,在多個(gè)相機之間定位同一個(gè)物體。

  物體識別算法是本文的核心,零售場(chǎng)景需要識別出目標的種類(lèi)及相應的個(gè)數,盡管目標檢測算法可以實(shí)現這一目的,但是需要大量的標注成本和計算成本。本文使用弱監督學(xué)習的模型訓練方案,設計了一種深度卷積神經(jīng)網(wǎng)絡(luò )和一個(gè)計數損失函數,不需要標注目標物體的位置信息,就可以識別出圖像中目標物體的個(gè)數和類(lèi)別。并且,筆者為這一視覺(jué)識別任務(wù)設計了一種評估指標,較傳統的精確率和召回率相比它更為嚴格,在筆者?出的數據集下,實(shí)現了 94.6%的準確度,模型的前向時(shí)間僅需 3.87 毫秒。

  行為識別采用雙流神經(jīng)網(wǎng)絡(luò ),?取視頻的空域信息和時(shí)域信息,識別出目標顧客在商店中做出的購買(mǎi)行為。最后,筆者設計了一種視頻數據的自動(dòng)標注算法,它利用插值算法和卷積神經(jīng)網(wǎng)絡(luò )能夠準確的預測目標的標定框,大幅地降低人工標注成本。

  關(guān)鍵詞:深度學(xué)習,計算機視覺(jué),立體匹配,圖像識別,行為識別

計算機

Abstract

  Computer vision technology is one of the main research directions of artificial intelligence. With the rapid growth of image or video data size and the improvement of computing power, computer vision technology has achieved unprecedented development in recent years and is widely used in various scenarios, e.g. driverless and crowd monitoring. This paper implemented a set of intelligent recognition algorithms and successfully applied it to automatic checkout retail.

  This paper designs an object capture recognition algorithm based on deep learning and computer vision technology. It can identify the number and category of target objects in the state where the target is hold by hand. It can be used to identify items held by customers in a retail scene. It contains two algorithm modules, which are stereo matching algorithm and object recognition algorithm. The main contents are as follows:

  In order to expose the target object to multiple angles of view in the field of view to obtain a multi-angle information source, and avoid the single camera being occluded and the algorithm completely failed. In this paper, a multi-camera erection scheme is adopted to design and implement a fast stereo matching algorithm. The algorithm utilizes the polar constraints of the binocular camera and dynamic programming,completing the matching in linear time and locating the same object between multiple cameras.

  The object recognition algorithm is the core of this paper. The retail scene needs to identify the type of target and the corresponding number. Although the target detection algorithm can achieve this purpose, it requires a lot of labeling cost and calculation cost. This paper utilized weak supervised learning, designed a deep convolutional neural network and a counting loss function. The number and type of target objects in the image can be identified without labeling the position information of the target object. Moreover, this paper have designed an evaluation function for this visual recognition task, which is stricter than the traditional accuracy and recall rate. Under our data set, this paper achieved 94.6% accuracy, and the forward time of the model is only 3.87 milliseconds.

  Action Recognition uses Two-Stream Neural Network to extract temporal feature and spatial feature, then identify the purchase behavior made by target customer in the store. Finally, this paper also designed an automatic labeling algorithm for video data,which uses interpolation algorithm and convolutional neural network to accurately predict the target Bounding Box, which greatly reduces the cost of manual labeling.

  Keywords: Deep Learning, Computer Vision, Stereo Matching, Image Recognition, Action Recognition

目錄

  1 章 緒論

  1.1 研究背景及意義

  據統計,歐洲發(fā)達國家平均每 60 人就有一臺無(wú)人零售柜可供使用,美國平均每 40 人就可使用一臺無(wú)人零售柜,日本的零售行業(yè)更為發(fā)達,平均每 25 人就有一臺無(wú)人零售柜,而中國的無(wú)人零售柜總量約為 25 萬(wàn)臺,平均每 4500 人才可使用一臺,遠遠落后于這些國家的平均水平,這也反映了無(wú)人零售柜這一產(chǎn)業(yè)在中國的發(fā)展潛力。

  本文使用計算機視覺(jué)和深度學(xué)習技術(shù),設計的"智能抓取識別系統",已成功應用于便利店的貨架和自動(dòng)販賣(mài)機的實(shí)際場(chǎng)景中。該系統通過(guò)本文所設計的算法,能夠識別人在一個(gè)商品展示架前是否做出了抓取或者放回的動(dòng)作,以及抓取的是何物品。對于"自動(dòng)支付便利店"項目,在顧客進(jìn)入門(mén)店時(shí),通過(guò)人臉識別綁定用戶(hù)賬號,當用戶(hù)在店內抓取或放回商品,通過(guò)識別行為主體、行為、物體,實(shí)現物品在對應賬號購物車(chē)的添加和刪除,用戶(hù)離店時(shí),無(wú)需顯式的支付過(guò)程即可完成支付,免去了營(yíng)業(yè)員的收銀工作。對于"自動(dòng)支付販賣(mài)機"項目,它和傳統的自動(dòng)售貨機不同,它不需要復雜的機械設備或 RFID 作為輔助,只通過(guò)相機識別客戶(hù)所拿到的物品,它通過(guò)面部識別打開(kāi)機柜,并在門(mén)關(guān)閉后自動(dòng)進(jìn)行支付。

  客戶(hù)不需要任何額外的操作,就像在家里的冰箱里拿東西一樣。它徹底顛覆了傳統的復雜機械設備,取而代之的是其他的硬件設備:在固定位置放置的一對攝像頭,后臺服務(wù)器,以及適合使用場(chǎng)景的準入設施(電子鎖,門(mén)禁等)。

  可以看出,這些項目應用在零售場(chǎng)景中,可以減少商家的營(yíng)運成本,讓顧客達到"拿了就走"的購物體驗,并通過(guò)分析用戶(hù)行為,購物記錄,改善便利店的運營(yíng)狀況。本文來(lái)源于這一項目中智能識別算法的研究工作。除此之外,它具有應用于其他場(chǎng)景的潛力,如警局、消防局的設備管理,書(shū)店、展廳的指定物品擺放。

  隨著(zhù)國家人工智能發(fā)展戰略的?出,國家鼓勵人工智能創(chuàng )新項目的開(kāi)展和企業(yè)發(fā)展,人們對人工智能這一技術(shù)認識的深化,以及人工智能計數本身的發(fā)展,由人工智能賦能的零售行業(yè),如便利店、零售柜等將逐漸本項目的被市場(chǎng)認可,具有巨大的發(fā)展潛力,將會(huì )應用到國內市場(chǎng)的各個(gè)領(lǐng)域。同時(shí),設計和實(shí)現的人工智能賦能的零售產(chǎn)品具有降低運營(yíng)成本以及讓顧客享受流暢的購物體驗的特性,已經(jīng)和產(chǎn)業(yè)相關(guān)的上下游知名企業(yè)形成了密切合作,如冷柜生產(chǎn)企業(yè),大型傳統零售企業(yè),國內知名地產(chǎn)商等,已經(jīng)在國內的多個(gè)消費場(chǎng)景部署了無(wú)人便利店和無(wú)人零售柜等產(chǎn)品,如學(xué)校、銀行、商超、交通、物業(yè)等。

  1.2 國內外研究現狀

  分析無(wú)人零售場(chǎng)景的核心問(wèn)題,是一個(gè)"Who-Take-What"的問(wèn)題,即"誰(shuí)拿了什么".基于計算機視覺(jué)技術(shù),解決"Who"的問(wèn)題,普遍采用人臉識別(FaceRecognition)或行人重識別(Person Re-identification)識別圖像中的目標是誰(shuí)。

  "What"的問(wèn)題,在便利店場(chǎng)景下,即是識別顧客所抓取的商品是什么,在計算機視覺(jué)中,這是一個(gè)圖像分類(lèi)(Image Classification)或物體檢測(Object Detection)問(wèn)題。而"Take"的問(wèn)題,是整個(gè)系統的關(guān)鍵,它是聯(lián)系"Who"和"What"的紐帶,解決的是人和商品的綁定,是準確向顧客賬戶(hù)購物車(chē)添加、刪除商品的關(guān)鍵。在實(shí)踐中,可以利用計算機視覺(jué)技術(shù)中的行為識別(Action Recognition)、人體姿態(tài)估計(Human Pose Estimation)來(lái)實(shí)現這一功能。

  自大規模圖像分類(lèi)數據集 ILSVRC 的開(kāi)放和深度學(xué)習在該數據集上大獲成功[1]開(kāi)始,深度學(xué)習在計算機視覺(jué)的各個(gè)方向大放異彩,可以應用結合了深度學(xué)習的計算機視覺(jué)技術(shù)實(shí)現上面?到的各個(gè)功能,如人臉檢測和人臉識別,物體識別,行為識別等。為了解決"Who-Take-What"的問(wèn)題,需要設計不同的算法模塊,對應的解決這些問(wèn)題,并將各個(gè)算法模塊集成在一個(gè)完整的系統里。

  對于"Who"的問(wèn)題,即"是誰(shuí)做出了這次行為",可以實(shí)現一個(gè)人臉檢測(Face Detection)和人臉識別(Face Recognition)算法模塊解決這一問(wèn)題。大部分深度學(xué)習算法在人臉檢測數據集 FDDB[2]和人臉識別數據集 LFW[3][4]都能取得很好的效果(99%以上),盡管如此,深度學(xué)習在開(kāi)源的網(wǎng)絡(luò )數據集上的效果好,通常僅能代表該模型的有效性,不代表該模型在實(shí)際場(chǎng)景也能獲得很好的準確率,[5]

  的研究人員設計了一個(gè)非常簡(jiǎn)單的深度學(xué)習模型,通過(guò)網(wǎng)絡(luò )收集的人臉數據集訓練模型,在 LFW 數據集上驗證的準確率達到 99.5%,然而在另一個(gè)現實(shí)場(chǎng)景的人臉驗證數據集,準確率僅達到 66%.人臉識別是非常依賴(lài)大量數據的,要想在現實(shí)場(chǎng)景中取得高準確率,一定要在特定域(specific domain)的數據集上做訓練。在便利店場(chǎng)景下,拍攝到的人連數據主要面臨兩大困難:1)位姿不固定,2)光照變化,在實(shí)際使用中發(fā)現,MTCNN [6] 和 Facenet [7] 分別是人臉檢測和人臉識別實(shí)際使用效果較好的模型,筆者通過(guò) MEGAFace[8][9]人臉數據集訓練出了實(shí)際可用的是臉識別模型。人臉識別是觸發(fā)式的,即產(chǎn)生了一些特定的行為,才會(huì )對相機拍下的照片進(jìn)行識別。又因為一個(gè)店內有多組貨架,還需要定位每個(gè)貨架,每個(gè)顧客的準確位置。對此,筆者使用計算機視覺(jué)的三維重建(3DReconstruction)技術(shù),對多攝像機標定,建立一個(gè)三維的世界坐標系,將每個(gè)人,每一攝像頭,每一貨架,甚至是貨架上的每一貨位,都映射到世界坐標系當中。

  對于"What"的問(wèn)題,即"觸發(fā)行為的物體是什么",需要設計一個(gè)物體識別系統。盡管可以使用結合了深度學(xué)習的圖像分類(lèi)或者物體檢測解決這一問(wèn)題,如圖像分類(lèi)[1][10][11],目標檢測[12][13][14][15][16][17][18][19] [20][21].筆者更進(jìn)一步,采用了弱監督學(xué)習的算法,設計了一種卷積神經(jīng)網(wǎng)絡(luò ),以及相應的損失函數和評價(jià)標準,能夠在沒(méi)有標定框的條件下識別圖像中目標的類(lèi)別和數量。同時(shí),為了避免由單個(gè)相機遮擋造成的完全識別失效,還采用了多攝像機架設的方案識別物體,同時(shí),為了達到相機間的連通而不是各自獨立識別,本文利用雙目相機的對極約束原理和動(dòng)態(tài)規劃實(shí)現了一種快速的立體匹配算法。

  對于"Take"的問(wèn)題,是整個(gè)系統實(shí)現的關(guān)鍵問(wèn)題,它是"Who"和"What"之間的聯(lián)系,也就是人和商品的綁定問(wèn)題。也就是當一個(gè)商品離開(kāi)貨架,而攝像機定位到了當前貨架前有不止一位顧客,如何判斷是哪一位顧客選取了這個(gè)商品?

  針對此,筆者設計了兩種方案:

  1) 使用行為識別(Action Recognition)或者行為檢測(Action Detection), 定位當前行為發(fā)生的主體,再通過(guò)人臉識別完成人和商品的綁定。

  2) 使用人體姿態(tài)估計(Human Pose Estimation),定位所有手腕的位置,再通過(guò)歐式距離綁定人和商品。

  這兩種方法是互補的,可以互相彌補對方的不足和缺陷,甚至可以采用特征融合策略(Feature Fusion Strategy),?升行為識別的準確率。在傳統方法中,iDT[22][23]取得的效果是最好的。深度學(xué)習在行為識別中的實(shí)現,主要有三種,

  1)三維卷積網(wǎng)絡(luò )[24]在時(shí)序和空域維度上同時(shí)卷積。

  2)同時(shí)輸入運動(dòng)特征(密集軌跡)和 RGB 圖像的雙流卷積神經(jīng)網(wǎng)絡(luò )[25].

  3)使用循環(huán)神經(jīng)網(wǎng)絡(luò ),RNN,LSTM 在時(shí)序維度上?取特征[26].另外,也有通過(guò)傳感器識別人體做出的行為[27][28].

  1.3 研究目標及內容

  本文根據項目需求,對相關(guān)領(lǐng)域的研究進(jìn)展、理論和技術(shù)做了一定程度的研究和調研工作,形成了文獻綜述。設計和實(shí)現了一種視頻標注工具,該工具基于VATIC 軟件,復用了該軟件的前端頁(yè)面和后端程序,重新設計了該軟件的識別算法,使用插值算法和基于深度學(xué)習的目標檢測算法,能夠實(shí)時(shí)的自動(dòng)標注目標物體。

  本文通過(guò)多攝像機架設的方案識別物體,以盡量避免由單個(gè)相機遮擋造成的完全識別失效。利用雙目相機的對極約束原理和動(dòng)態(tài)規劃實(shí)現了一種快速的立體匹配算法。同時(shí)設計了一個(gè)卷積神經(jīng)網(wǎng)絡(luò ),該網(wǎng)絡(luò )能夠識別圖像中目標的類(lèi)別和數量,在模型結構,損失函數,評價(jià)標準上都有所創(chuàng )新。

  多相機架設條件下,物體抓取識別算法的流程為:

  1)對左攝像頭運行實(shí)時(shí)的目標檢測,當檢測出"手持物品"時(shí)。

  2)運行立體匹配,找到檢測框在右攝像頭相對應的位置。

  3)通過(guò)視差計算目標深度,通過(guò)標定好的相機模型,重建目標在真實(shí)世界的位置,

  4)調用多目標追蹤模塊,形成手持商品的追蹤軌跡。

  5)取每一對檢測框的特征,融合左右兩個(gè)相機?取的特征,識別商品類(lèi)別。6)根據行為識別的結果,為顧客的賬單中添加或刪除商品。

  1.4 本文組織結構

  在緒論部分,本文闡述了研究的來(lái)源和項目背景,分析了項目的可行性和市場(chǎng)價(jià)值,分析了項目的實(shí)現方法,詳細地介紹了當前國內外相關(guān)領(lǐng)域研究進(jìn)展,以及如何應用這些研究實(shí)現本文?出的研究?jì)热荨?/p>

  第二章是相關(guān)概念和技術(shù),這一章對雙目視覺(jué)和立體匹配、物體識別、行為識別做了充分的理論和技術(shù)分析,它奠定了本文接下來(lái)的研究工作和方向。

  結合了深度學(xué)習的計算機視覺(jué)技術(shù)是一種數據驅動(dòng)方法(Data DrivenApproach),它需要大量的數據訓練和驗證模型的能力,任務(wù)或問(wèn)題的不同直接影響著(zhù)數據的標注格式,數據標注軟件的性能直接影響著(zhù)模型的實(shí)現成本。因此,在第三章,介紹了本文基于 VATIC 設計和修改實(shí)現的數據標注工具,它通過(guò)基于深度學(xué)習的目標檢測算法、插值算法能夠自動(dòng)標注視頻中的目標物體,除此之外,還介紹了本文所使用數據的標注格式和數據規模。

  筆者的項目使用攝像頭實(shí)時(shí)的拍攝目標區域,將數據傳遞給服務(wù)器,調用算法分析和識別。靜止架設的單攝像頭十分容易受到遮擋的影響和失去作用,在實(shí)際應用中往往采取雙攝像機或者多攝像機的配置解決因角度問(wèn)題而產(chǎn)生的遮擋。

  然而,多路相機只能通過(guò)融合各個(gè)相機的識別結果得到一個(gè)最終結果,因為各個(gè)相機之間沒(méi)有任何聯(lián)系。本文通過(guò)雙目視覺(jué)和立體匹配算法將相機聯(lián)系到一起。

  在第四章詳細介紹了這一方法,此章節詳述了本項目在構建立體視覺(jué)時(shí),遇到的主要問(wèn)題,算法的理論依據,針對問(wèn)題所?出的算法設計,以及實(shí)驗過(guò)程。

  第五章是本文最主要的內容,商品識別。這一章詳細介紹本項目的商品識別算法模塊,介紹了本文設計的深度卷積神經(jīng)網(wǎng)絡(luò )的模型結構,用于識別和計數的損失函數、訓練模型的實(shí)現細節、模型評估方法等。

  第六章展示了筆者所設計的行為識別模型,它可以用于識別商店中顧客做出的具體行為,進(jìn)而能夠配合商品識別模型實(shí)現自動(dòng)的增減購物車(chē)操作。本章介紹了行為識別模型所使用的數據集,模型結構,實(shí)驗結果等。









  第 2 章 相關(guān)概念和技術(shù)
  2.1 雙目視覺(jué)和立體匹配
  2.1.1 雙目視覺(jué)
  2.1.2 立體匹配
  2.1.3 積分直方圖的應用
  2.2 物體識別
  2.3 行為識別

  第 3 章 標注工具和數據集
  3.1 VATIC 標注工具的插值算法原理
  3.2 基于 VATIC 插值算法的改進(jìn)策略
  3.3 數據的內容和標注方法
  3.4 數據標注的統計結果

  第 4 章 立體視覺(jué)
  4.1 對極約束
  4.2 立體匹配
  4.2.1 積分圖和積分直方圖的概念
  4.2.2 積分直方圖的算法
  4.2.3 子區域的計算
  4.2.4 快速積分直方圖算法

  4.3 雙目視覺(jué)算法流程
  4.3.1 相機標定
  4.3.2 立體矯正
  4.3.3 立體匹配

  第 5 章 物體識別
  5.1 網(wǎng)絡(luò )結構
  5.2 損失函數
  5.2.1 多任務(wù)學(xué)習
  5.2.2 標簽編碼
  5.2.3 計數損失

  5.3 實(shí)現細節
  5.3.1 實(shí)現平臺
  5.3.2 遷移學(xué)習和參數初始化
  5.3.3 優(yōu)化方法
  5.3.4 預處理和數據增強
  5.3.5 結果量化
  5.3.6 訓練效果

  5.4 模型評估
  5.4.1 計數評估標準
  5.4.2 實(shí)驗驗證
  5.4.3 雙流物體識別
  5.4.4 錯誤識別分析

  第 6 章 行為識別
  6.1 數據集
  6.2 運動(dòng)信息
  6.3 網(wǎng)絡(luò )結構
  6.4 模型評估

第 7 章 總結與展望

  在本文的研究過(guò)程中,參考了大量計算機視覺(jué)方向的國際頂級期刊、會(huì )議的文章,如 CVPR,ICCV,ECCV,IJCV.對于開(kāi)源了源代碼的文章,筆者都運行過(guò)并見(jiàn)到了實(shí)際的效果,對于未開(kāi)源代碼的文章,都有學(xué)習它們的思想,并復現了部分文章。

  本文使用了 Python、C++和 Matlab 三種編程語(yǔ)言實(shí)現,相機標定部分使用Matlab 實(shí)現,雙目視覺(jué)和立體匹配部分使用 C++實(shí)現,物體識別的部分使用Python 和深度學(xué)習框架 Pytorch 實(shí)現。之所以使用不同的編程語(yǔ)言是因為不同的任務(wù)有其不同的需求,不同的編程語(yǔ)言也有其不同的特性和生態(tài),在進(jìn)行研究和實(shí)現時(shí),必須依據具體問(wèn)題選擇適當的工具。比如 C++的運行速度更快,所以更適合實(shí)時(shí)性要求非常高的立體匹配算法,Python 更加靈活,處理數據、可視化的能力強大,有配套的深度學(xué)習框架,所以它非常適合用于深度學(xué)習的算法實(shí)驗,而 Matlab 的標定程序經(jīng)過(guò)比較,其精確度優(yōu)于 C++的 OpenCV 框架。

  本文主要介紹了四項工作,自動(dòng)標注、立體匹配、物體識別和行為識別。自動(dòng)標注是基于 VATIC 的軟件和算法框架修改的,其節省標注的能力更勝一籌。

  立體匹配算法利用了雙目視覺(jué)的對極約束條件,通過(guò)動(dòng)態(tài)規劃的思想,在線(xiàn)性的時(shí)間內就完成了立體匹配。物體識別是一項全新的工作,它通過(guò)弱監督學(xué)習的訓練方法,在不?供標定框的條件下即可識別圖像上的物體及其數量。行為識別則實(shí)現了對視頻數據的分類(lèi),達成了識別目標顧客行為的目標。

  在接下來(lái),筆者將繼續開(kāi)展本文的研究和實(shí)現,其方向主要有二。

  其一,繼續弱監督學(xué)習物體識別的研究,雖然當前的準確率足夠,但是模型的可解釋性不強,我將嘗試 Region Proposal Network 的思想,繼續實(shí)驗。

  除此之外,在立體匹配的基礎之上,我將嘗試使用多源輸入網(wǎng)絡(luò ),如深度孿生網(wǎng)絡(luò )(Siamese Network), 雙流神經(jīng)網(wǎng)絡(luò )(Two-Stream Neural Network)。

  參考文獻
  [1] Russakovsky O , Deng J , Su H , et al. ImageNet Large Scale Visual Recognition Challenge[J].International Journal of Computer Vision, 2015, 115(3):211-252.
  [2] Jain V, Learned-Miller E. Fddb: A benchmark for face detection in unconstrained settings[R].UMass Amherst Technical Report, 2010.
  [3] Huang G B, Mattar M, Berg T, et al. Labeled faces in the wild: A database forstudying facerecognition in unconstrained environments[C]Workshop on faces in'Real-Life'Images:detection, alignment, and recognition. 2008.
  [4] Learned-Miller E, Huang G B, RoyChowdhury A, et al. Labeled faces in the wild: Asurvey[M]Advances in face detection and facial image analysis. Springer, Cham, 2016: 189-248.
  [5] Zhou E, Cao Z, Yin Q. Naive-deep face recognition: Touching the limit of LFW benchmark ornot?[J]. arXiv preprint arXiv:1501.04690, 2015.
  [6] Zhang K, Zhang Z, Li Z, et al. Joint face detection and alignment using multitask cascadedconvolutional networks[J]. IEEE Signal Processing Letters, 2016, 23(10): 1499-1503.
  [7] Schroff F, Kalenichenko D, Philbin J. Facenet: A unified embedding for face recognition andclustering[A] Computer Vision and Pattern Recognition (CVPR) [C] Boston, MassachusettsUSA: Proceedings of the IEEE conference on computer vision and pattern recognition. 2015:815-823.
  [8] Nech A, Kemelmacher-Shlizerman I. Level playing field for million scale face recognition[A]Computer Vision and Pattern Recognition (CVPR) [C] Honolulu, HI, USA: Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition. 2017: 7044-7053.
  [9] Kemelmacher-Shlizerman I, Seitz S M, Miller D, et al. The megaface benchmark: 1 millionfaces for recognition at scale[A] Computer Vision and Pattern Recognition (CVPR) [C] LasVegas, NV, USA:Proceedings of the IEEE Conference on Computer Vision and PatternRecognition. 2016: 4873-4882.
  [10] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale imagerecognition[J]. arXiv preprint arXiv:1409.1556, 2014.
  [11] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[A] Computer Visionand Pattern Recognition (CVPR)[C] Las Vegas, NV, USA: Proceedings of the IEEE conferenceon computer vision and pattern recognition. 2016: 770-778.
  [12] Sermanet P, Eigen D, Zhang X, et al. Overfeat: Integrated recognition, localization anddetection using convolutional networks[J]. arXiv preprint arXiv:1312.6229, 2013.
  [13] He K, Zhang X, Ren S, et al. Spatial pyramid pooling in deep convolutional networks for visualrecognition[A] European Conference on Computer Vision(eccv)[C].Zurich, Switzerland:european conference on computer vision. Springer, Cham, 2014: 346-361.
  [14] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detectionand semantic segmentation[A].Computer Vision and Pattern Recognition(CVPR) [C]Columbus, Ohio, USA: Proceedings of the IEEE conference on computer vision and patternrecognition. 2014: 580-587.
  [15] Girshick R. Fast R-CNN[A] Computer Vision (ICCV) [C] Santiago, Chile:2015 IEEEInternational Conference on. IEEE, 2015: 1440-1448.
  [16] Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with regionproposal networks[A] Neural Information Processing Systems(NIPS) [C] Palais des Congrèsde Montréal, Montréal CANADA :Advances in neural information processing systems. 2015:91-99.
  [17] Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[J]. arXiv preprintarXiv:1708.02002, 2017.
  [18] Ren S, He K, Girshick R, et al. Object detection networks on convolutional feature maps[J].IEEE transactions on pattern analysis and machine intelligence, 2017, 39(7): 1476-1481.
  [19] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time objectdetection[A] Computer Vision and Pattern Recognition(CVPR) [C] Las Vegas, NV, USA:Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 779-788.
  [20] Redmon J, Farhadi A. YOLO9000: better, faster, stronger[J]. arXiv preprint, 2017.
  [21] Redmon J, Farhadi A. YOLOv3: An incremental improvement[J]. arXiv preprintarXiv:1804.02767, 2018.
  [22] Wang H, Kl?ser A, Schmid C, et al. Action recognition by dense trajectories[A] ComputerVision and Pattern Recognition (CVPR) [C]. Colorado Springs, CO, USA: 2011 IEEEConference on. IEEE, 2011: 3169-3176.
  [23] Wang H, Schmid C. Action recognition with improved trajectories[A].Computer Vision (ICCV)[C] Sydney, Australia:2013 IEEE International Conference on. IEEE, 2013: 3551-3558.
  [24] Tran D, Bourdev L, Fergus R, et al. Learning spatiotemporal features with 3d convolutionalnetworks[A]. Computer Vision (ICCV) [C] Santiago, Chile: 2015 IEEE InternationalConference on. IEEE, 2015: 4489-4497.
  [25] Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition invideos[A] Neural Information Processing Systems(NIPS) [C]. Palais des Congrès de Montréal,Montréal CANADA : Advances in neural information processing systems. 2014: 568-576.
  [26] Singh B, Marks T K, Jones M, et al. A multi-stream bi-directional recurrent neural network forfine-grained action detection[A] Computer Vision and Pattern Recognition (CVPR)[C] LasVegas, NV, USA :Proceedings of the IEEE Conference on Computer Vision and PatternRecognition. 2016: 1961-1970.
  [27] Christ M, Braun N, Neuffer J, et al. Time Series FeatuRe Extraction on basis of scalablehypothesis tests (tsfresh-A Python package)[J]. Neurocomputing, 2018, 307: 72-77.
  [28] Lockhart J W, Weiss G M, Xue J C, et al. Design considerations for the WISDM smart phonebased sensor mining architecture[A] Proceedings of the Fifth International Workshop onKnowledge Discovery from Sensor Data[C] New York, NY, USA: ACM, 2011: 25-33.
  [29] Scharstein D, Szeliski R. A taxonomy and evaluation of dense two-frame stereocorrespondence algorithms[J]. International journal of computer vision, 2002, 47(1-3): 7-42[30] Zbontar J, LeCun Y. Stereo Matching by Training a Convolutional Neural Network to CompareImage Patches[J]. Journal of Machine Learning Research, 2016, 17(1-32): 2.
  [31] Zhang K, Lafruit G, Lauwereins R, et al. Joint integral histograms and its application in stereomatching[A]International Conference on Image Processing(ICIP)[C] Hong Kong, China :2010 IEEE International Conference on Image Processing. IEEE, 2010: 817-820.
  [32] Porikli F. Constant time O (1) bilateral filtering[A] Computer Vision and Pattern Recognition(CVPR)[C] Anchorage, AK, USA : 2008 IEEE Conference on Computer Vision and PatternRecognition. IEEE, 2008: 1-8.
  [33] Ghanem B, Niebles J C, Snoek C, et al. ActivityNet Challenge 2017 Summary[J]. arXivpreprint arXiv:1710.08011, 2017.
  [34] Ferrari V, Marin-Jimenez M, Zisserman A. Progressive search space reduction for human poseestimation[A] Computer Vision and Pattern Recognition [C] Anchorage, Alaska, USA :2008.CVPR 2008. IEEE Conference on. IEEE, 2008: 1-8.
  [35] Shotton J, Girshick R, Fitzgibbon A, et al. Efficient human pose estimation from single depthimages[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12):2821-2840.
  [36] Wei S E, Ramakrishna V, Kanade T, et al. Convolutional pose machines[A] Computer Visionand Pattern Recognition(CVPR) [C] Las Vegas, NV, USA: Proceedings of the IEEEConference on Computer Vision and Pattern Recognition. 2016: 4724-4732.
  [37] Cao Z, Simon T, Wei S E, et al. Realtime multi-person 2d pose estimation using part affinityfields[A] Computer Vision and Pattern Recognition(CVPR) [C] Honolulu, HI, USA: CVPR.2017, 1(2): 7.
  [38] Newell A, Yang K, Deng J. Stacked hourglass networks for human pose estimation[A]European Conference on Computer Vision (ECCV)[C]. Amsterdam, The Netherlands :Springer, Cham, 2016: 483-499.
  [39] Karpathy A, Toderici G, Shetty S, et al. Large-scale video classification with convolutionalneural networks[A] Computer Vision and Pattern Recognition[C] Columbus, OH,USA :Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2014:
  1725-1732.
  [40] Grauman K, Darrell T. The pyramid match kernel: Discriminative classification with sets ofimage features[A].Computer Vision, 2005. ICCV 2005.[C]. Beijing, China:Tenth IEEEInternational Conference on. IEEE, 2005, 2: 1458-1465.
  [41] Lazebnik S, Schmid C, Ponce J. Beyond bags of features: Spatial pyramid matching forrecognizing natural scene categories[A]. Computer vision and pattern recognition [C]. NewYork, NY, USA:2006 IEEE computer society conference on. IEEE, 2006, 2: 2169-2178.
  [42] Pishchulin L, Andriluka M, Schiele B. Fine-grained activity recognition with holistic and posebased features[A]. German Conference on Pattern Recognition (GCPR)[C]. Münster,Germany :Springer, Cham, 2014: 678-689.
  [43] Yao A, Gall J, Van Gool L. Coupled action recognition and pose estimation from multipleviews[J]. International journal of computer vision, 2012, 100(1): 16-37.
  [44] Singh V K, Nevatia R. Action recognition in cluttered dynamic scenes using pose-specific partmodels[A] Computer Vision (ICCV) [C] Barcelona, Spain:2011 IEEE InternationalConference on. IEEE, 2011: 113-120.
  [45] Tran K N, Kakadiaris I A, Shah S K. Modeling motion of body parts for action recognition[A]British Machine Vision Conference (BMVC) [C] Dundee: BMVC. 2011, 11: 1-12.
  [46] Soomro K, Zamir A R, Shah M. UCF101: A dataset of 101 human actions classes from videosin the wild[J]. arXiv preprint arXiv:1212.0402, 2012.
  [47] Singh B, Marks T K, Jones M, et al. A multi-stream bi-directional recurrent neural network forfine-grained action detection[A] Computer Vision and Pattern Recognition (CVPR)[C] LasVegas, NV, USA :Proceedings of the IEEE Conference on Computer Vision and PatternRecognition. 2016: 1961-1970.
  [48] Rohrbach M, Amin S, Andriluka M, et al. A database for fine grained activity detection ofcooking activities[A] Computer Vision and Pattern Recognition (CVPR) [C] Providence, RI,USA:2012 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2012: 1194-1201.
  [49] Pishchulin L, Andriluka M, Schiele B. Fine-grained activity recognition with holistic and posebased features[A] German Conference on Pattern Recognition(GCPR) [C]. Columbus, Ohio:Springer, Cham, 2014: 678-689.
  [50] Jhuang H, Gall J, Zuffi S, et al. Towards understanding action recognition[A]. Computer Vision(ICCV) [C] Sydney, NSW, Australia: 2013 IEEE International Conference on. IEEE, 2013:3192-3199.
  [51] Pishchulin L, Andriluka M, Schiele B. Fine-grained activity recognition with holistic and posebased features[A] German Conference on Pattern Recognition(GCPR) [C]. Columbus, Ohio:Springer, Cham, 2014: 678-689.
  [52] Sorokin A, Forsyth D. Utility data annotation with amazon mechanical turk[A] ComputerVision and Pattern Recognition (CVPR)[C]. Anchorage, AK, USA : 2008 IEEE ComputerSociety Conference on Computer Vision and Pattern Recognition Workshops. IEEE, 2008: 1-8.
  [53] Russell B C, Torralba A, Murphy K P, et al. LabelMe: A Database and Web-Based Tool forImage Annotation[J]. International Journal of Computer Vision, 2008, 77(1-3):157-173.
  [54] Vondrick C, Ramanan D, Patterson D. Efficiently scaling up video annotation withcrowdsourced marketplaces[A] European Conference on Computer Vision(ECCV) [C]
  Heraklion, Crete, Greece:European Conference on Computer Vision. Springer, Berlin,Heidelberg, 2010: 610-623.
  [55] Dalal N, Triggs B. Histograms of oriented gradients for human detection[A] Computer Visionand Pattern Recognition (CVPR) [C] San Diego, CA, USA : international Conference oncomputer vision & Pattern Recognition (CVPR'05)。 IEEE Computer Society, 2005, 1: 886--893.
  [56] Gupta S, Hoffman J, Malik J. Cross modal distillation for supervision transfer[A] ComputerVision and Pattern Recognition (CVPR) [C] Las Vegas, NV, USA:2016 IEEE Conference on.IEEE, 2016: 2827-2836.
  [57] Huang J, Rathod V, Sun C, et al. Speed/accuracy trade-offs for modern convolutional objectdetectors[A] Computer Vision and Pattern Recognition (CVPR) [C] Honolulu, HI, USA: IEEECVPR. 2017: 3296-3297.
  [58] Erhan D, Szegedy C, Toshev A, et al. Scalable object detection using deep neural networks[A]Computer Vision and Pattern Recognition(CVPR)[C] Columbus, OH, USA : Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition. 2014: 2147-2154.
  [59] Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multiBox detector[A] EuropeanConference on Computer Vision(ECCV)[C] Zurich, Switzerland: European conference oncomputer vision. Springer, Cham, 2016: 21-37.
  [60] Felzenszwalb P F, Girshick R B, McAllester D, et al. Object detection with discriminativelytrained part-based models[J]. IEEE transactions on pattern analysis and machine intelligence,2010, 32(9): 1627-1645.
  [61] Girshick R, Iandola F, Darrell T, et al. Deformable part models are convolutional neuralnetworks[A] Computer Vision and Pattern Recognition(CVPR)[C] Boston, Massachusetts,USA :Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2015:437-446.
  [62] Porikli F. Integral histogram: A fast way to extract histograms in cartesian spaces[A] ComputerVision and Pattern Recognition (CVPR)[C] San Diego, CA, USA : 2005 IEEE ComputerSociety Conference on Computer Vision and Pattern Recognition (CVPR'05)。 IEEE, 2005, 1:829-836.
  [63] Konolige K. Small vision systems: Hardware and implementation[M]Robotics research.Springer, London, 1998: 203-212.
  [64] Konolige K. Small vision systems: Hardware and implementation[M]Robotics research.Springer, London, 1998: 203-212.
  [65] Hirschmüller H. Accurate and efficient stereo processing by semi-global matching and mutualinformation[C]null. IEEE, 2005: 807-814.
  [66] Seguí S, Pujol O, Vitria J. Learning to count with deep object features[A] Computer Vision andPattern Recognition (CVPR)[C] Boston, MA : Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition Workshops. 2015: 90-96.
  [67] Rahnemoonfar M, Sheppard C. Deep count: fruit counting based on deep simulated learning[J].Sensors, 2017, 17(4): 905.
  [68] Pan S J, Yang Q. A survey on transfer learning[J]. IEEE Transactions on knowledge and dataengineering, 2010, 22(10): 1345-1359.
  [69] Ruder S. An overview of gradient descent optimization algorithms[J]. arXiv preprintarXiv:1609.04747, 2016.
  [70] Duchi J, Hazan E, Singer Y. Adaptive subgradient methods for online learning and stochasticoptimization[J]. Journal of Machine Learning Research, 2011, 12(Jul): 2121-2159.
  [71] Tieleman T, Hinton G. Lecture 6.5-rmsprop: Divide the gradient by a running average of itsrecent magnitude[J]. COURSERA: Neural networks for machine learning, 2012, 4(2): 26-31.
  [72] Sevilla-Lara L , Liao Y , Guney F , et al. On the Integration of Optical Flow and ActionRecognition[J]. 2017.
  [73] Dosovitskiy A, Fischery P, Ilg E, et al. FlowNet: Learning Optical Flow with ConvolutionalNetworks[C]// IEEE International Conference on Computer Vision. 2015.
  [74] Ilg E , Mayer N , Saikia T , et al. FlowNet 2.0: Evolution of Optical Flow Estimation with DeepNetworks[J]. 2016.

(如您需要查看本篇畢業(yè)設計全文,可點(diǎn)擊全文下載進(jìn)行查看)

相關(guān)內容
相關(guān)標簽:計算機畢業(yè)設計
好優(yōu)論文定制中心主要為您提供代做畢業(yè)設計及各專(zhuān)業(yè)畢業(yè)論文寫(xiě)作輔導服務(wù)。 網(wǎng)站地圖
所有論文、資料均源于網(wǎng)上的共享資源以及一些期刊雜志,所有論文僅免費供網(wǎng)友間相互學(xué)習交流之用,請特別注意勿做其他非法用途。
如有侵犯您的版權或其他有損您利益的行為,請聯(lián)系指出,論文定制中心會(huì )立即進(jìn)行改正或刪除有關(guān)內容!