苍井优一级毛片免费观看,成年网站在线观看,日本一二三不卡视频,日日天天人人夜夜九九

24小時(shí)論文定制熱線(xiàn)

熱門(mén)畢設:土木工程工程造價(jià)橋梁工程計算機javaasp機械機械手夾具單片機工廠(chǎng)供電采礦工程
您當前的位置:論文定制 > 畢業(yè)設計論文 >
快速導航
畢業(yè)論文定制
關(guān)于我們
我們是一家專(zhuān)業(yè)提供高質(zhì)量代做畢業(yè)設計的網(wǎng)站。2002年成立至今為眾多客戶(hù)提供大量畢業(yè)設計、論文定制等服務(wù),贏(yíng)得眾多客戶(hù)好評,因為專(zhuān)注,所以專(zhuān)業(yè)。寫(xiě)作老師大部分由全國211/958等高校的博士及碩士生設計,執筆,目前已為5000余位客戶(hù)解決了論文寫(xiě)作的難題。 秉承以用戶(hù)為中心,為用戶(hù)創(chuàng )造價(jià)值的理念,我站擁有無(wú)縫對接的售后服務(wù)體系,代做畢業(yè)設計完成后有專(zhuān)業(yè)的老師進(jìn)行一對一修改與完善,對有答辯需求的同學(xué)進(jìn)行一對一的輔導,為你順利畢業(yè)保駕護航
代做畢業(yè)設計
常見(jiàn)問(wèn)題

基于SPCE061A單片機的語(yǔ)音問(wèn)答交互系統

添加時(shí)間:2021/06/19 來(lái)源:未知 作者:樂(lè )楓
摘 要 本文以 SPCE061A 單片機為核心處理器,利用其適用于數字語(yǔ)音識別的特點(diǎn),設計了醫療特定領(lǐng)域的語(yǔ)音問(wèn)答交互系統。本文以心血管內科常見(jiàn)疾病和用藥為研究主題,結合常見(jiàn)疾病和用藥的問(wèn)題知識庫和答案知識庫作支撐,為用戶(hù)提供尋醫問(wèn)藥的問(wèn)答交互硬件平
以下為本篇論文正文:

摘 要

  本文以 SPCE061A 單片機為核心處理器,利用其適用于數字語(yǔ)音識別的特點(diǎn),設計了醫療特定領(lǐng)域的語(yǔ)音問(wèn)答交互系統。本文以心血管內科常見(jiàn)疾病和用藥為研究主題,結合常見(jiàn)疾病和用藥的問(wèn)題知識庫和答案知識庫作支撐,為用戶(hù)提供"尋醫問(wèn)藥"的問(wèn)答交互硬件平臺。

  語(yǔ)音問(wèn)答交互系統功能的實(shí)現主要分為知識庫的建立、語(yǔ)音訓練和識別、正確答案提取三個(gè)部分,知識庫的建立部分利用網(wǎng)絡(luò )爬蟲(chóng)技術(shù)獲取常見(jiàn)疾病和用藥資料建立離線(xiàn)知識庫,并以此作為系統底層數據的支撐;語(yǔ)音的訓練和識別部分通過(guò)調用單片機 API 函數對常問(wèn)問(wèn)題進(jìn)行訓練和識別,并設置相應的問(wèn)答語(yǔ)句建立常問(wèn)問(wèn)答庫;正確答案提取部分針對問(wèn)題分類(lèi)中的復雜類(lèi)問(wèn)題,對其進(jìn)行問(wèn)題解析、信息檢索、答案抽取等操作,分別通過(guò)基于規則和句法分析的方法、基于向量空間模型的 TF-IDF 算法、基于窗口模型的答案抽取算法等將識別出的問(wèn)題匹配置信度最高的答案,最終以語(yǔ)音播報的形式反饋給用戶(hù)。

  本文通過(guò)大量的應用實(shí)驗對系統的功能進(jìn)行測試,以問(wèn)題識別率和答案匹配率評價(jià)系統的性能,經(jīng)過(guò)數據分析和統計,系統的問(wèn)題識別率和答案匹配率分別達到 86.3%和 84.9%,由此可見(jiàn),本文最終實(shí)現了系統"尋醫問(wèn)藥"的問(wèn)答交互功能。

  關(guān)鍵詞:SPCE061A 單片機;醫療領(lǐng)域;語(yǔ)音識別;問(wèn)答交互

ABSTRACT

  This article takes SPCE061A single-chip microcomputer as the core processor and uses its characteristics suitable for digital voice recognition to design a voice question answering interactive system in a specific medical field. This article takes the common diseases and medications of cardiovascular medicine as the research theme, and combines the knowledge base and answer knowledge base of common diseases and medications to provide users with a question-and-answer interactive hardware platform.

  The realization of the function of the voice question answering interactive system is mainly pided into the establishment of a knowledge base, voice training and recognition, and the extraction of correct answers. The establishment of the knowledge base uses the web crawler technology to obtain common diseases and medication information to build an offline knowledge base, and As the support of the underlying data of the system; the training and recognition part of the voice trains and recognizes frequently asked questions by calling the single chip API function, and sets up the corresponding question and answer statements to establish the frequently asked question and answer library; Perform question analysis, information retrieval, answer extraction and other operations on it, and use the rules and syntax analysis methods, vector space model-based TF-IDF algorithm, and window model-based answer extraction algorithm to match the identified questions with confidence The highest answer is finally fed back to the user in the form of voice broadcast.

  This paper tests the function of the system through a large number of application experiments, and evaluates the performance of the system with the question recognition rate and answer matching rate. After data analysis and statistics, the system's question recognition rate and answer matching rate reached 86.3% and 84.9%, respectively. This shows that this article finally realized the question-answer interactive function of the system "seeking medical advice and medicine".

  Key Words: SPCE061A MCU;The medical field;Speech recognition;Q&A interaction

單片機

 

目 錄

  第 1 章 引言

  1.1 研究背景和意義

  互聯(lián)網(wǎng)的飛速發(fā)展和廣泛普及,使人們從互聯(lián)網(wǎng)上獲取大量信息變得前所未有的容易,但是如何過(guò)濾用戶(hù)不需要的信息或從大量信息中獲取有用信息卻一直沒(méi)有很好的解決方案。現有的搜索系統,無(wú)論是開(kāi)放式領(lǐng)域檢索還是 Internet搜索引擎,通常都基于關(guān)鍵字搜索。這種搜索通常有以下缺點(diǎn):首先,搜索返回的結果通常與標準答案相關(guān)或接近,距離真實(shí)意圖較遠的文本或網(wǎng)頁(yè)需要用戶(hù)進(jìn)一步篩選和過(guò)濾,這給用戶(hù)帶來(lái)極大的不便;其次,用戶(hù)搜索意圖往往更為復雜,不能單純用多個(gè)關(guān)鍵詞的邏輯組合來(lái)表達搜索需求本身,也不能清楚地表達真實(shí)的搜索意圖,因此不能直接檢索出滿(mǎn)足用戶(hù)的標準答案。另外,從最根本的角度來(lái)看,基于關(guān)鍵字的索引匹配算法雖簡(jiǎn)單易行,但畢竟它停留在語(yǔ)言表層并不觸及語(yǔ)義,因此難以進(jìn)一步提高檢索效果。

  而自動(dòng)問(wèn)答系統[1](Question Answering,QA)允許用戶(hù)以自然語(yǔ)言提問(wèn)并直接返回準確答案,其設計概念、操作機制與現有關(guān)鍵字搜索完全不同,且預期結果優(yōu)于傳統的關(guān)鍵字搜索。目前,問(wèn)答系統是人工智能和自然語(yǔ)言處理領(lǐng)域備受矚目的研究方向。問(wèn)答系統的分類(lèi),按照問(wèn)題維度,可分為領(lǐng)域內和開(kāi)放域問(wèn)答系統。

  在國際文本檢索會(huì )議(Text Retrieval Conference,TREC)和跨語(yǔ)言評估論壇(Cross Language Evaluation Forum,CLEF)等組織的推動(dòng)下,基于文本的大規模開(kāi)放域問(wèn)答系統已經(jīng)取得了長(cháng)足的進(jìn)步,繼而出現了 NUS [2],BBN [3],Columbia [4]和其他定義的問(wèn)答系統參與了 TREC 評估,同時(shí)在研究熱潮和行業(yè)競爭的背景下產(chǎn)生了一系列評估指標[5],其中哈爾濱工業(yè)大學(xué)借鑒國際上對搜索算法的評價(jià)機制就常問(wèn)問(wèn)題集[6]的問(wèn)答系統研究出了中文語(yǔ)言類(lèi)的評價(jià)方法。但是,這類(lèi)開(kāi)放式問(wèn)答系統嚴重依賴(lài)于網(wǎng)絡(luò )資源,而網(wǎng)絡(luò )資源的實(shí)時(shí)性、開(kāi)放性和復雜性決定其搜索的準確率不高。因此相比之下,領(lǐng)域內問(wèn)答系統在某些方面具有其獨特的優(yōu)勢:

  1、由于領(lǐng)域問(wèn)答的專(zhuān)業(yè)資源限制,可以應用該專(zhuān)業(yè)的領(lǐng)域知識來(lái)提高問(wèn)答系統問(wèn)題分析和答案提取模塊的準確率。

  2、可以更容易地推廣該限制領(lǐng)域中成熟的問(wèn)答解決方案,并將其應用于其他限制領(lǐng)域,例如智能業(yè)務(wù)和公共管理。

  基于上述優(yōu)勢,本文以心血管內科常見(jiàn)疾病和用藥為研究主題,以常見(jiàn)疾病和用藥的問(wèn)題和答案知識庫作支撐,為用戶(hù)提供"尋醫問(wèn)藥"的問(wèn)答交互硬件平臺。當用戶(hù)簡(jiǎn)單地以自然語(yǔ)言的形式對系統進(jìn)行疾病和用藥的咨詢(xún)時(shí),該系統便會(huì )快速返回用戶(hù)置信度最高的精確答案以供用戶(hù)參考,免除了用戶(hù)自身對繁雜信息的檢索和篩選過(guò)程,令操作更加省時(shí)便捷;同時(shí)利用語(yǔ)音識別技術(shù)達到最理想的人機交互方式,實(shí)現用戶(hù)和系統之間的"一問(wèn)一答"[7],為用戶(hù)答疑解惑。

  而近年來(lái)基于單片機硬件的問(wèn)答系統在醫療、教育等受限領(lǐng)域的場(chǎng)景應用偏少,且大多數系統的研究是基于 Internet 搜索引擎,其問(wèn)題識別率和答案匹配率皆不太理想。因此本文迫切需要對基于 SPCE061A 單片機[8]的智能語(yǔ)音問(wèn)答交互系統進(jìn)行理論和實(shí)踐的研究。

  1.2 國內外研究現狀

  1.2.1 問(wèn)答系統的國外研究現狀

  問(wèn)答系統的歷史可以追溯到 1950 年代由 Turing 在論文《ComputingMachinery and Intelligence》[9]中提出的"機器智能"概念。從那時(shí)起,問(wèn)答系統的發(fā)展可以大致分為以下四個(gè)階段。

  第一階段是 1960 年代基于模式匹配的專(zhuān)家庫,例如 LUNAR,MACSYMA,BaseBall 等。此類(lèi)系統的特點(diǎn)是它可以通過(guò)自然語(yǔ)言完成問(wèn)答,但具有自動(dòng)獲取知識的功能仍存在瓶頸。同時(shí),由于使用定制模板的方法限制,導致知識面覆蓋率低,不易擴展。

  第二階段是 1990 年代基于信息檢索技術(shù)的問(wèn)答系統,例如 Textract,Webclopedia 和 TREC 的 QA Track[10]等衍生的評估系統,其基礎數據主要是非結構化的原始文檔,網(wǎng)頁(yè)和其他自由文本。這類(lèi)系統的特點(diǎn)是不需要建立大規模的知識庫,但是不能保證相對語(yǔ)音數據的準確性。

  第三階段是 2000 年代基于網(wǎng)絡(luò )搜索的問(wèn)題解答系統。典型的系統,例如START,Encart,ASKJeeves 等[11]通過(guò)分析網(wǎng)頁(yè)將答案返回給用戶(hù)。START [12]是世界上第一個(gè)基于 WEB 的問(wèn)答系統。它是由麻省理工學(xué)院計算機科學(xué)與人工智能實(shí)驗室聯(lián)合開(kāi)發(fā)的,其主要創(chuàng )建者是 Boris Katz.它與僅提供一系列結果的信息檢索系統不同的地方在于該系統致力于為用戶(hù)提供"最準確的答案",目前該系統可以回答有關(guān)地理,電影,任務(wù)和詞典等領(lǐng)域知識內數以萬(wàn)計類(lèi)問(wèn)題。STAR會(huì )優(yōu)先使用自己的兩個(gè)數據庫進(jìn)行答案檢索,如果問(wèn)題能在數據庫中查詢(xún)并匹 配,則會(huì )直接返回答案;否則,它將提取關(guān)鍵字并返回相關(guān)的網(wǎng)頁(yè)鏈接。與傳統的搜索引擎不同,這種類(lèi)型的系統通常會(huì )對用戶(hù)的問(wèn)題進(jìn)行淺層語(yǔ)言分析,并根據手動(dòng)維護的模板庫將語(yǔ)義最接近的答案返回給用戶(hù)。

  第四階段是 2010 年代出現的基于知識圖譜的問(wèn)答系統,其底層是龐大的知識庫。典型的系統包括 IBM Wason 和 WolframlAlpha.WolframlAlpha 是由 StephenWolfram 開(kāi)發(fā)的新一代知識計算引擎。它與 Google 搜索類(lèi)似,但兩者運行機制存在差異,且兩者最大的檢索效果差異在于它可以根據問(wèn)題直接給出正確答案。

  WolframlAlpha 首先使用公共和授權資源作為數據基礎,其次通過(guò)數據挖掘來(lái)構建異常大且有組織的數據庫,最后使用高級自然語(yǔ)言算法對查詢(xún)數據進(jìn)行處理。

  基于知識庫的問(wèn)答是當今問(wèn)答系統的發(fā)展趨勢。其中開(kāi)放域知識庫在業(yè)界已經(jīng)出現很多成熟的發(fā)開(kāi)平臺,如 YAGO [13],DBpedia [14],FreeBase [15],NELL[16]等,同時(shí)受限領(lǐng)域知識庫在日益競爭的激烈環(huán)境下也涌現出大量相關(guān)的研究。

  Frank 等[17]提出了一種基于健壯語(yǔ)義分析的混合 NLP 系統架構,其研究明確了自然語(yǔ)言處理和知識提取之間的關(guān)系,并最終實(shí)現了領(lǐng)域內結構化知識庫的問(wèn)答。該方法不需要太多的領(lǐng)域知識,問(wèn)題分析過(guò)程還將產(chǎn)生高質(zhì)量的量化原型問(wèn)題,并且從原型問(wèn)題生成的查詢(xún)語(yǔ)句中有效地計算知識庫的最小生成樹(shù)。Zhang等人[18]提出了一種整數線(xiàn)性規劃(ILP)模型,該模型將對齊構造和查詢(xún)構造過(guò)程集成在一起,從而系統地解決了多個(gè)知識庫的聯(lián)合查詢(xún)問(wèn)題。Fader 等人[19]首先將問(wèn)題分解為子問(wèn)題,然后經(jīng)過(guò)問(wèn)題擴展,查詢(xún)生成等步驟,結合知識庫中的語(yǔ)料庫和數百萬(wàn)條查詢(xún)匹配規則,以精心構建的知識庫為基礎,抽取出 WEB 知識庫的問(wèn)題和答案。

  1.2.2 問(wèn)答系統的國內研究現狀

  與國外研究時(shí)期相比,國內研究起步相對較晚,主要是由中文自然語(yǔ)言表達的靈活性決定。首先,中文自然語(yǔ)言處理工具無(wú)法從根本上解決這一問(wèn)題,而且很難直接完全應用某一成熟的國外技術(shù);其次,中文領(lǐng)域的語(yǔ)料庫非常缺失,同時(shí)缺乏相應的評估機制。

  根據"Agent 和本體論是常識知識庫的兩大支柱"的觀(guān)點(diǎn),國內的陸汝鈴等[20]建立了一個(gè)大型常識知識庫" 盤(pán)古",并在其基礎上構建了一個(gè)自動(dòng)通話(huà)系統。此外由中國科學(xué)院計算技術(shù)研究所的曹寸根等[21]研發(fā)的 NKI(國家知識基礎設施)知識問(wèn)答系統包含地理和人文 16 個(gè)學(xué)科領(lǐng)域的 23 個(gè)知識庫,并支持自然語(yǔ)言查詢(xún)。再者諸如百度之類(lèi)的搜索引擎也已經(jīng)開(kāi)始基于知識圖譜提供簡(jiǎn)單的自然語(yǔ)言問(wèn)題答案集進(jìn)行研究。ASQA[22]是中國臺灣的智能中文問(wèn)答系統,該系統包括人物,地點(diǎn),組織,時(shí)間,數量和 artifact 的 fatctiod 類(lèi)等重要問(wèn)題。該知識庫主要是從 1998-1999 年 CIRB[23]發(fā)表集合中提取的,并且在受限領(lǐng)域中,大多數研究是基于社區問(wèn)答和基于 FAQ 的問(wèn)答[24].當然,也存在一些基于部分實(shí)驗知識的問(wèn)答系統,例如基于食物本體論和農業(yè)本體論的問(wèn)答,但是這類(lèi)系統基礎數據很少,尚未在實(shí)踐中得到應用。

  綜上所述,問(wèn)答系統在搜索引擎方面的技術(shù)已經(jīng)趨于成熟,但是實(shí)現一個(gè)全面的知識網(wǎng)絡(luò )結構的問(wèn)答仍是一個(gè)漫長(cháng)而艱巨的過(guò)程,缺乏底層基礎數據支撐的現狀仍導致許多實(shí)際的應用領(lǐng)域受限。對此,本文通過(guò)基于網(wǎng)絡(luò )爬蟲(chóng)的方法獲取相關(guān)領(lǐng)域權威的、相對完備的知識庫作支撐,應用于教育和醫療等限制領(lǐng)域,以下便是基于 SPCE061A 單片機的智能語(yǔ)音問(wèn)答交互系統的詳細描述。

  1.3 問(wèn)答交互系統概述

  問(wèn)答交互系統按照其功能的遞進(jìn)順序可以劃分為三個(gè)模塊:?jiǎn)?wèn)題理解模塊-理解用戶(hù)意圖,信息檢索模塊-檢索相似文檔,答案提取模塊-提取最精確答案。

  問(wèn)題理解是指從用戶(hù)提出的問(wèn)題著(zhù)手,理解出用戶(hù)問(wèn)題的真實(shí)意圖,進(jìn)一步轉化為計算機能夠理解的自然語(yǔ)言;信息檢索是指從現存知識庫的文檔(例如各種離線(xiàn)網(wǎng)頁(yè)列表,文本列表,文件文檔等)中檢索出涉及帶有用戶(hù)真實(shí)意圖的關(guān)鍵文檔,并將這些文檔依據相應檢索規則組合在一起,利用檢索相關(guān)度按照從高到低的順序將結果返回給系統。答案提取是指以信息檢索提供的文本為基礎,依據相關(guān)算法計算出與用戶(hù)的問(wèn)題匹配置信度最高的答案句子,繼而達到以最精確的答案提供給用戶(hù)。

  問(wèn)題理解是自動(dòng)問(wèn)答系統中處理用戶(hù)問(wèn)題的首要步驟,問(wèn)題理解模塊提取的關(guān)鍵詞將作為信息檢索模塊的輸入,而信息檢索模塊得到的相似類(lèi)文檔又作為答案提取模塊的目標,因此問(wèn)題理解的準確性將直接決定系統的性能。問(wèn)題理解的首要工作是對用戶(hù)提出的問(wèn)題進(jìn)行詞法分析,通過(guò)問(wèn)句詞性分詞和句法結 構分析的結果確定用戶(hù)問(wèn)題類(lèi)型(該過(guò)程即為問(wèn)題分類(lèi)),然后從用戶(hù)問(wèn)題中提取關(guān)鍵字以及結合問(wèn)題類(lèi)型和現有知識庫來(lái)擴展關(guān)鍵字。但只有當關(guān)鍵詞的定義擴展到一定程度時(shí),才能為后續的信息檢索提供幫助。詞法分析包括句子分段和詞性標注的處理,詞性標記為之后的關(guān)鍵詞提取奠定基礎。在提取關(guān)鍵詞時(shí),通常僅提取動(dòng)詞,名詞和語(yǔ)音詞的其他部分,這就意味著(zhù)在自動(dòng)問(wèn)答系統中,不能使用相同的標準來(lái)處理所有類(lèi)型的用戶(hù)問(wèn)題,因此有必要對問(wèn)題進(jìn)行分類(lèi)。同時(shí),用戶(hù)問(wèn)題中包含的所有單詞都不能用作信息檢索的關(guān)鍵字,例如屬于停用詞的某些語(yǔ)氣詞,諸如"啊","哦","嗎"等疑問(wèn)詞可以直接刪除。再者在匹配用戶(hù)短問(wèn)題文本時(shí),通常面臨相同語(yǔ)義的單詞和表達形式不唯一的情形,因此需要適當地擴展關(guān)鍵字以提高信息檢索的準確性。

  問(wèn)題理解得到的關(guān)鍵詞將直接作為信息檢索的輸入,自動(dòng)問(wèn)答系統中信息檢索的主要功能是提供檢索目錄和方法以獲取可能包含用戶(hù)提出的問(wèn)題答案的文檔或段落信息。在信息檢索過(guò)程中,系統根據領(lǐng)域、詞性等信息的不同,對不同的關(guān)鍵詞賦予不同的權重,通過(guò)計算整個(gè)文檔中關(guān)鍵詞的權重,即問(wèn)題與文檔兩者之間的相關(guān)程度,得到文檔的分數--文檔和用戶(hù)的問(wèn)題相似度。

  由于自動(dòng)問(wèn)答系統要求簡(jiǎn)潔明了的答案才能返回給用戶(hù),因此信息檢索模塊僅提供大量與用戶(hù)問(wèn)題相關(guān)的文檔。實(shí)際上,用戶(hù)問(wèn)題的答案有時(shí)可能只是一個(gè)句子,幾個(gè)單詞或一個(gè)短語(yǔ),例如"中國的英文是什么?"這個(gè)問(wèn)題的答案只有一個(gè)單詞"China".此時(shí)答案提取便是問(wèn)答系統功能實(shí)現的"落腳點(diǎn)",首先該模塊接收問(wèn)題理解模塊中得到的段落信息,并從中提取出 n 組(n 由窗口模型設置的寬度決定)關(guān)鍵詞短語(yǔ),對應生成 n 組候選答案集,然后根據算法從這 n組候選答案集中提取出一組最佳答案即可。

  1.4 常見(jiàn)的問(wèn)答

  交互系統根據所屬答案的知識領(lǐng)域劃分,當前實(shí)際應用最廣泛的自動(dòng)問(wèn)答系統便是基于現有知識庫或知識圖譜[25]的自動(dòng)問(wèn)答系統和基于 Internet 搜索引擎的自動(dòng)問(wèn)答系統。這兩者的本質(zhì)區別在于:前者建立了屬于該特定領(lǐng)域的離線(xiàn)知識庫,而后者則依賴(lài)于網(wǎng)站服務(wù)器的后臺數據庫資源。通常包含一個(gè)或多個(gè)人工構建的知識庫,并通過(guò)句子相似度計算,信息檢索,答案提取等方法獲得用戶(hù)問(wèn)題答案的自動(dòng)問(wèn)答系統,被認為是一種基于知識庫或知識圖譜的自動(dòng)問(wèn)答系統。由于通過(guò)純人工總結完善知識這種方式顯得過(guò)程異常繁瑣,而且損耗大量資源,其知識庫的完整性和準確性又是該自動(dòng)問(wèn)答系統的關(guān)鍵,因此開(kāi)發(fā)者普遍選擇構建知識圖譜這種方式來(lái)達到完善底層數據庫的需求。

  目前基于知識庫的問(wèn)答系統在醫療、教育、衛生等領(lǐng)域得到廣泛應用,其中FAQ(基于常問(wèn)問(wèn)題庫)的自動(dòng)問(wèn)答系統便是典型的代表。其工作原理是:FAQ中存儲了大量的常見(jiàn)問(wèn)題及其相應的答案,當用戶(hù)向系統提交問(wèn)題時(shí),系統首先計算用戶(hù)問(wèn)題與存儲在常問(wèn)問(wèn)題數據庫中的問(wèn)題之間的句子相似度,當兩個(gè)句子相似度大于系統設置的閾值時(shí),將與 FAQ 中最相似問(wèn)題對應的標準答案直接提供給用戶(hù)。

  Wataru Sakata 等人[26]在 2019 年提出了一種查詢(xún)問(wèn)題相似與基于 Bret 模型[27]的 FQA 檢索系統。該系統以地方政府常見(jiàn)問(wèn)題作為測試數據集,采用了一種機器學(xué)習中無(wú)監督的方法改進(jìn)信息檢索過(guò)程中計算查詢(xún)與問(wèn)題之間相似度的算法。相比于傳統的 FAQ 檢索模型,他們首次將用戶(hù)查詢(xún)(q)與常問(wèn)問(wèn)題(Q)之間的相關(guān)性以及查詢(xún)問(wèn)題(q)與答案(A)之間的相關(guān)性綜合地納入評測系統的標準中。以往的檢索模型都只能使用 q 與 QA 對之間具有相關(guān)性標簽的數據集,只因其具有代表性特征,能反應系統檢索信息時(shí)的總體性能指標。而實(shí)際在構造這些標記數據的過(guò)程中需要投入大量資源,其結果往往不能達到預期的設想,他們的方法不僅有效地解決了這一通病,而且顯示了給定 q 的 FAQ 答案的合理性和創(chuàng )新性。因此論文利用 localgovFAQ(從地方政府常見(jiàn)問(wèn)題解答頁(yè)面收集的質(zhì)量檢查對)和 StackExchange(FAQ 的公開(kāi)數據集)兩個(gè)數據集來(lái)訓練模型,最終使用 Bert 計算 q-A 的相關(guān)性,將排名較高的質(zhì)量檢查對用作搜索結果,證明了給定 q 的 FAQ 將明顯提高問(wèn)答系統中信息檢索模塊的檢索效率。

  基于Internet搜索引擎的自動(dòng)問(wèn)答系統在日常生活中普遍得到應用。像Baidu、Google、Bing 等搜索引擎,都有其完備的數據庫作支撐,將依靠網(wǎng)絡(luò )爬蟲(chóng)得到的大數據信息通過(guò)網(wǎng)頁(yè)存儲到服務(wù)器中,用戶(hù)通過(guò)向服務(wù)器發(fā)送請求,訪(fǎng)問(wèn)網(wǎng)頁(yè)鏈接的方式得到問(wèn)題搜索的答案,這類(lèi)系統往往并不能直接得到用戶(hù)最理想的答案,當然隨著(zhù)人工智能和深度學(xué)習技術(shù)在其領(lǐng)域的廣泛應用,將數據庫中龐大的數據集進(jìn)行模型訓練和深度學(xué)習之后,系統可以實(shí)現對用戶(hù)正確答案的范圍預測,極大地提高了檢索效率。

  Eric 在 2018 年設計出基于多搜索引擎和深度學(xué)習的自動(dòng)問(wèn)答機器人,系統目前已實(shí)現知識問(wèn)答、閑聊、運價(jià)查詢(xún)等功能。基于多搜索引擎是為了得到信息更全面的語(yǔ)料庫,利用搜索引擎固有的技術(shù)框架對獲取的信息進(jìn)行初步篩選和統一格式化管理。基于深度學(xué)習是為了訓練出能從數據量龐大的語(yǔ)料庫中快速選取正確答案的模型。首先作者利用網(wǎng)絡(luò )爬蟲(chóng)技術(shù)從百度、谷歌、雅虎、微軟、阿里巴巴五大搜索引擎中收集語(yǔ)料信息,然后將這些資源統一整理構建問(wèn)答對組成語(yǔ)料庫,并將語(yǔ)料庫的后續操作分為訓練集、開(kāi)發(fā)集和測試集三個(gè)部分。其次作者在訓練系統時(shí)將候選答案集從語(yǔ)料庫中抽取出來(lái),通過(guò)把所有答案存放到多個(gè)向量空間中實(shí)現分組分類(lèi)的功能,通過(guò)在語(yǔ)料庫中采集樣本,收集每個(gè)問(wèn)題對應的 500 個(gè)答案集合,隨機挑選出一些負向樣本存放在集合中以突出正向樣本的作用。最后作者利用 CNN 卷積神經(jīng)網(wǎng)絡(luò )[28]對文本序列的全局信息進(jìn)行問(wèn)題和候選答案的 cos 距離計算,距離越小則相似度越大,以此實(shí)現對正確答案的預測。

  同時(shí)百度在今年 7 月的 AI 開(kāi)發(fā)者大會(huì )上開(kāi)源了首個(gè)工業(yè)級基于語(yǔ)義計算的FAQ 問(wèn)答系統 AnyQ,針對 FAQ 問(wèn)答的各種技術(shù)難題給出了高效的解決方案。

  首先在框架設計方面,AnyQ 采用配置化和插件化的方式,其所有功能都是以插件形式進(jìn)行配置,如 Question 分析方法、檢索方式、匹配相似度、排序方式等。

  以相似度計算為例,包括字面匹配相似度 Cosine[29]、Jaccard[30]、BM25[31] 等,同時(shí)包含了語(yǔ)義匹配相似度。AnyQ 系統的配置化和插件化設計,使用戶(hù)可以自主配置選擇系統的功能,此外,用戶(hù)也可根據場(chǎng)景需求便捷地將定制化的功能加入系統,實(shí)現了系統的靈活性和多樣性。其次在信息檢索方面,與基于倒排索引的 FAQ 問(wèn)答系統相比,AnyQ 采用了語(yǔ)義檢索技術(shù),將用戶(hù)問(wèn)題和 FAQ 集合的相似問(wèn)題通過(guò)深度神經(jīng)網(wǎng)絡(luò )映射到語(yǔ)義表示空間的臨近位置,檢索時(shí),系統通過(guò)高速向量索引技術(shù)對相似問(wèn)題進(jìn)行檢索。再者在問(wèn)題相似度算法方面,AnyQ使用 SimNet 語(yǔ)義匹配模型構建文本語(yǔ)義相似度,其中系統包含一個(gè)基于百度海量搜索數據訓練的 SimNet-BOW 模型[32],在一些真實(shí)的 FAQ 問(wèn)答數據集上,該模型效果相比基于字面的相似度方法 AUC 提升 5% 以上,有效解決特定領(lǐng)域由于標注數據少而無(wú)法訓練出準確語(yǔ)義匹配模型的問(wèn)題。

  綜上所述,如今常見(jiàn)的問(wèn)答交互系統是將自然語(yǔ)言處理、統計機器學(xué)習和深度學(xué)習相結合的產(chǎn)物。

  第 2 章 問(wèn)答交互系統的相關(guān)技術(shù)和算法

  2.1 語(yǔ)音壓縮算法

  2.2 網(wǎng)絡(luò )爬蟲(chóng)技術(shù)

  2.2.1 資源爬取

  2.2.2 資源處理

  2.3 句子相似度算法

  2.4 答案提取算法

  第 3 章 系統的設計

  3.1 系統的硬件設計

  3.2 系統的軟件設計

  3.2.1 語(yǔ)音訓練和識別

  3.2.2 正確答案提取

  3.3 系統的工作原理

  3.4 系統軟、硬件交互的實(shí)現

  第 4 章 系統的功能實(shí)現

  4.1 系統環(huán)境

  4.2 系統應用實(shí)驗

  4.2.1 實(shí)驗過(guò)程

  4.2.2 數據分析和總結

第 5 章 總結與展望

  本文研究了一種基于 SPCE061A 單片機的語(yǔ)音問(wèn)答交互裝置。目前還處于應用測試階段,該系統涉及醫療領(lǐng)域心血管外科的常見(jiàn)疾病,在日常生活中,當用戶(hù)以自然語(yǔ)言的方式向系統詢(xún)問(wèn)相關(guān)疾病的情況和用藥時(shí),系統便會(huì )快速以語(yǔ)音的方式提供給用戶(hù)準確、專(zhuān)業(yè)的答復。期間免除了用戶(hù)自身對問(wèn)題信息的檢索過(guò)程,同時(shí)以底層建立的知識庫作為數據支撐,返回給用戶(hù)置信度最高的答案,極大地提高了以用戶(hù)真實(shí)意圖為目的的檢索效率,達到最理想的人機交互狀態(tài)。

  該裝置可應用于各大藥房、醫院以及疾病康復中心,方便于用戶(hù)或患者了解疾病的基本信息,同時(shí)提供相關(guān)疾病的用藥建議供用戶(hù)參考。

  本文針對問(wèn)答系統在醫療領(lǐng)域的研究提供了良好的解決方案,較于傳統關(guān)鍵字檢索的問(wèn)答系統,該系統的優(yōu)勢和創(chuàng )新性主要體現在以下幾點(diǎn):

  1、研發(fā)了一種新型"尋醫問(wèn)藥"語(yǔ)音問(wèn)答交互裝置,為用戶(hù)答疑解惑。 2、相對基于互聯(lián)網(wǎng)搜索引擎的開(kāi)放式領(lǐng)域檢索,該問(wèn)答系統可以應用領(lǐng)域知識提高問(wèn)題分析和答案抽取的準確率。

  3、該系統建立了一個(gè)離線(xiàn)、相對完備的知識庫,可以滿(mǎn)足用戶(hù)在尋醫問(wèn)藥時(shí)所涉及的大部分問(wèn)答需求且識別速度較快。

  該系統功能的實(shí)現主要依靠相關(guān)算法的軟件設計,因此算法的優(yōu)化在應用后期就顯得格外重要,然而系統仍存在些許不足,主要體現在系統的語(yǔ)音識別部 分是針對特定人而言。本文通過(guò)前期的語(yǔ)音訓練形成特定人的語(yǔ)音模型,當系統要識別出非特定人的語(yǔ)音時(shí)都要先進(jìn)行一到兩次的語(yǔ)音訓練,這樣在實(shí)際運用中會(huì )顯得操作繁瑣而不夠智能化。基于系統的不足之處,還望在往后的不斷學(xué)習中取得改善,可以通過(guò)向老師和專(zhuān)家請教、利用網(wǎng)絡(luò )各種學(xué)習資源、參與公司或科研團隊項目等途徑來(lái)提高自身的能力,我相信通過(guò)堅持不懈地努力,一定能夠研究出一種應用于醫療領(lǐng)域的在線(xiàn)、知識庫全面的智能問(wèn)答交互裝置。目前語(yǔ)音識別技術(shù)已經(jīng)相當得成熟,也成功地應用于人們的各類(lèi)生活場(chǎng)景,其中最受矚目的還是智能機器人,它不僅能完成各種復雜的動(dòng)作和知識問(wèn)答,還能利用機器學(xué)習來(lái)豐富自身的技能。這樣智能化的設備將很大程度上提高生產(chǎn)效率和生活質(zhì)量,當然這也是我將來(lái)為之奮斗的目標和方向,未來(lái)將是科技改變生活的時(shí)代!

致謝

  三年的研究生生涯即將結束,期間的校園生活充滿(mǎn)了溫暖和快樂(lè )。在這里我要感謝老師們的悉心指導、家人們的傾力支持和同學(xué)們的真誠相待使我度過(guò)了這段充實(shí)的大學(xué)歲月。

  首先,我要特別感謝我的導師。導師為人謙和,平易近人,給我的學(xué)習和生活提供了很大的幫助。每當我在學(xué)習和生活中有困難時(shí),都將第一時(shí)間地尋求導 師的幫助,而導師也會(huì )第一時(shí)間地給我提供幫助;每當我犯錯時(shí),導師也會(huì )耐心地幫我分析問(wèn)題的原因,并要求我進(jìn)行深刻的自我反省。我的論文也是在導師悉心指導下完成的,從論文選題到寫(xiě)作,導師都給予了細心指導,幫助我分析和梳理論文的思路;在我初稿完成之后,又在百忙之中抽出時(shí)間對我的論文進(jìn)行修改把關(guān),給我提出很多建設性的指導意見(jiàn),使我能順利的完成論文。導師嚴肅的科學(xué)態(tài)度、嚴謹的治學(xué)精神和精益求精的工作作風(fēng)將影響和激勵我的一生,他對我的關(guān)心和教誨我將永遠銘記于心。借此機會(huì ),我謹向導師致以深深地謝意。

  其次,我還要感謝本學(xué)院所有專(zhuān)業(yè)課的授課老師,正是因為有了他們嚴格、無(wú)私、高質(zhì)量的教導,我才能在這三年的學(xué)習過(guò)程中汲取專(zhuān)業(yè)知識和迅速提升能力,從而為論文的寫(xiě)作打下扎實(shí)的理論基礎;我還要感謝這三年來(lái)與我共同學(xué)習與生活的學(xué)院 17 級的同班同學(xué)們,衷心地感謝他們在學(xué)習上和生活中給予我的鼓勵和幫助,愿友誼長(cháng)存!

  與此同時(shí),我要感謝我的父母。他們永遠是我生活中堅強的后盾,是他們的無(wú)私付出讓我能順利地完成碩士學(xué)業(yè)。最后,我還想對在百忙之中評審這篇論文的各位專(zhuān)家教授致以誠摯的謝意!

  主要參考文獻

  [1] Dang H T, Kelly D, Lin J J. Overview of the TREC 2007 Question Answering Track[C].TREC,2007,7:63.

  [2] CuiH, Kan M Y, Chua T S. Soft pattern matching models for definitional question answering.

  ACM Trans Inf Syst(TOIS)[J]. Acm Transaction son Information Systems,2007,25(2):107~108.

  [3] Wang M, Smith N A, Mitamura T. What is the Jeopardy model? A quasi-synchronous grammar

  for QA[C]. Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language

  Processing and Computational Natural Language Learning,2007:22~32.

  [4] Bollacker K D, Evans C, Paritosh P, et al. Freebase:a collaboratively created graph database for

  structuring human knowledge[C]. Sigmod Conference.ACM,2008.

  [5] Yang Y, Yih W, Meek C. Wikiqa:a challenge dataset for open-domain question answering[C].

  Proceedings of the 2015 conference on empirical methods in natural language processing,2015:2013~2018.

  [6] Feng M, Xiang B, Glass M R, et al. Applying deep learning to answer selection:A study and an

  open task[C]. 2015 IEEE Workshop on Automatic Speech Recognition and Understanding(ASRU)。 IEEE,2015:813~820.

  [7] Tapaswi M, Zhu Y, Stiefelhagen R, et al. Movieqa:Understanding stories in movies through

  question-answering[C]. Proceedings of the IEEE conference on computer vision and patternrecognition,2016:4631~4640.

  [8] Yih W T, Chang M W, Meek C, et al. Question Answering Using Enhanced Lexical Semantic

  Models[C]. Meeting of the Association for Computational Linguistics,2013.

  [9] Yadav V, Sharp R, Surdeanu M. Sanity Check:a Strong Alignment and Information RetrievalBaseline for Question Answering[J],2018.

  [10] 申晨。 中草藥問(wèn)答系統的設計與實(shí)現[D]. 浙江大學(xué),2014.

  [11] Pennington J, Socher R, Manning C. Glove: Global Vectors for Word Representation[C].

  Conference on Empirical Methods in Natural Language Processing,2014.

  [12] Katz B, Borchardt G C, Fdshin S. Natural Language Annotations for Question Answering[C].

  FLAIRS Conference,2006:303~306.

  [13] Yu L, Hermann K M, Blunsom P, et al. Deep learning for answer sentence selection[J]. ArXiv

  preprint arXiv 2014:1412~1632.

  [14] Severyn A, Moschitti A. Learning to Rank Short Text Pairs with Convolutional Deep Neural

  Networks[C]. The 38th International ACM SIGIR Conference.ACM,2015.

  [15] Tan M, Santos C D, Xiang B, et al. Improved Representation Learning for Question Answer

  Matching[C]. Proceedings of the 54th Annual Meeting of the Association for Computational

  Linguistics (Volume 1:Long Papers),2016.

  [16] Yang L, Ai Q, Guo J, et al. ANMM:Ranking Short Answer Texts with Attention-Based Neural

  Matching Model[C]. The 25th ACM International.ACM,2016.

  [17] Frank A, Krieger H U, Xu F, et al. Question answering from structured knowledge resources[J].

  Journal of Applied Logic,2007,5(1):20~48.

  [18] Liu K, Zhao J, He S, et al. Question Answering over Knowledge Bases[J].Intelligent SystemsIEEE,2015,30(5):26~35.

  [19] Fader A, Zettlemoyer L, Etzioni O. Open question answering over curated and extracted

  knowledge bases[C]. Proceedings of the 20th ACM SIGKDD international conference of

  Knowledge discovery and data mining.ACM,2014:1156~1165.

  [20] Cui W, Xiao Y, Wang H, et al. KBQA:learning question answering over QA corpora and

  knowledge bases[J]. ArXiv preprint arXiv2019:1903~2419.

  [21] Dong L, Wei F, Zhou M, et al. Question answering over freebase with multi-column

  convolutional neural networks[C]. Proceedings of the 53rd Annual Meeting of the Association

  for Computational Linguistics and the 7th International Joint Conference on Natural Language

  Processing (Volume 1:Long Papers)。2015:260~269.

  [22] Devlin J, Chang M W, Lee K, et al. Bert:Pre-training of deep bidirectional transformers for

  language understanding[J]. ArXiv preprint arXiv2018:1810~4805.

  [23] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]. Advances in neural

  information processing systems.2017:5998~6008.

  [24] Garg S, Vu T, Moschitti A. Tanda:Transfer and adapt pre-trained transformer models for answer

  sentence selection[J]. ArXiv preprint arXiv2019:1911~4118.

  [25] He H, Lin J. Pairwise word interaction modeling with deep neural networks for semantic

  similarity measurement[C]. Proceedings of the 2016 Conference of the North American

  Chapter of the Association for Computational Linguistics:Human Language Technologies.2016:937~948.

  [26] Wang B, Liu K, Zhao J. Inner attention based recurrent neural networks for answerselection[C].

  Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics

  (Volume 1:Long Papers)。 2016:1288~1297.

  [27] Chakraborty N, Lukovnikov D, Maheshwari G, et al. Introduction to neural network based

  approaches for question answering over knowledge graphs[J]. ArXiv preprintarXiv2019:1907~1936.

  [28] Zhang D, Lee W S. Question classification using support vector machines[C]. International

  Acm Sigir Conference on Research&Development in Informaion Retrieval,2003:26~32.

  [29] Bae K, Ko Y.An effective category classication method based on a language model for question

  category recommendation on a cQA service[C]. Proceedings of the 21st ACM international

  conference on Information and knowledge management. ACM,2012:2255~2258.

  [30] Huang Z H, Thint M, Qin Z. Question classification using head words and their hypernyms[C].

  Proceedings of the Conference on Empirical Methods in Natural Language Processing.

  Association for Computational Linguistics,2008:927~936.

  [31] Zhang Y, Liu K, He S, et al. Question Answering over Knowledge Base with Neural Attention

  Combining Global Knowledge Information[J]. 2016(2):1533~1569.

  [32] Berant J, Chou A, Frostig R, et al. Semantic parsing on freebase from question-answer pairs[C].

  Proceedings of the 2013 conference on empirical methods in natural language processing.2013:1533~1544.

  [33] 牛彥清, 陳俊杰, 段利國, 等。 中文問(wèn)句分類(lèi)特征的研究[J]. 計算機應用與軟件,2012,29(3):108~111.

  [34] Phan X H, Nguyen L M, Horiguchi S. Learning of classify short and sparsey text&web with

  hidden topics from large-scale data collections[C]. Proceedings of the 17th internationalconference on World Wide Web.ACM,2008:91~100.

  [35] 霍延冬, 王康平, 張東狐, 等。 一種基于 WordNet 的短文本語(yǔ)義相似性算法[J]. 電子學(xué)報, 2012,40(3):617~620.

  [36] Liang P, Jordan M I, Dan K. Learning Dependency-Based Compositional Semantics[J].

  Computational Linguistics,2011,39(2):89~446.

  [37] Zettlemoyer L S, Collins M. Learning to Map Sentences to Logical Form:structured

  Classification with Probabilstic Categorial Grammars[J]. Eprint Arxiv,2012:658~666.

  [38] Wong Y W, Mooney R J. Learning Synchronous Grammars for Semantic Parsing with Lambda

  Calculus[J]. Annual Meeting,2007,960~967.

  [39] Yih W, Chang M W, He X et al. Semantic parsing via staged query graphgeneration: Question

  answering with knowledge base[C]. Association for Computational Linguistics(ACL),2015.

  [40] Bordes A, Weston J, Usimier N. Open Question Answering with Weakly Supervised

  Embedding Models[M]. Machine Learning and Knowledge Discovery in Databases. SpringerBerlin Heidelberg,2014:165~180.

 

(如您需要查看本篇畢業(yè)設計全文,請您聯(lián)系客服索取)

相關(guān)內容
相關(guān)標簽:單片機畢業(yè)設計
好優(yōu)論文定制中心主要為您提供代做畢業(yè)設計及各專(zhuān)業(yè)畢業(yè)論文寫(xiě)作輔導服務(wù)。 網(wǎng)站地圖
所有論文、資料均源于網(wǎng)上的共享資源以及一些期刊雜志,所有論文僅免費供網(wǎng)友間相互學(xué)習交流之用,請特別注意勿做其他非法用途。
如有侵犯您的版權或其他有損您利益的行為,請聯(lián)系指出,論文定制中心會(huì )立即進(jìn)行改正或刪除有關(guān)內容!