1.引言
隨著智能手機和其他移動設備的普及,移動互聯網快速發展,海量的移動應用(Mobile Application,App)成了移動互聯網的主要入口。根據瑞士信貸集團估計,到2016年,全球將會有100億部聯網的移動設備,智能手機的網絡流量將會是今天的50倍,而更多的移動設備也意味著更多的移動應用。蘋果公司于2008年7月首次推出移動應用商店AppStore,獲得了巨大成功。2012年10月,應用數量已經超過70萬,至2013年5月,官方應用商店AppStore的應用下載量即將突破500億次。同時,全球移動應用規模也在急劇擴大,手機制造商、電信運營商和互聯網服務提供商等紛紛推出自己的移動應用商店,移動應用已經成為移動互聯網發展的一種新模式。表1給出了幾個比較有代表性的移動應用商店的基本情況。預計6月份,Google Play商店的應用數量將超過100萬。目前全球移動應用數量的規模在百萬級別,與現有的Web網站和Web網頁數量規模相比雖然還比較小,但是其現在的數量規模已經與2000年左右的網站和網頁數量規模相當,并且還在不斷增加之中。長尾理論提出者、《連線》的Chris Anderson曾提出“Web已死,互聯網萬歲”,表示隨著iPhone/iPad日漸成為主流計算終端,人們越來越習慣于通過移動應用軟件獲取信息。移動應用將逐漸超過瀏覽器,成為移動互聯網的主要入口。
表1 移動應用規模
面對數百萬的移動應用(未來還將繼續增加),用戶正面臨著一個日益嚴重的挑戰:如何才能快速找到自己想要的、適合自己的應用?而眾多的移動應用開發者也面臨著一個問題:如何把自己開發的應用推薦給用戶?用戶與應用開發者之間的供需矛盾日益突出。目前解決這一矛盾的方法主要有3種:
(1)移動應用商店。在移動應用發展的早期,移動應用主要出現在應用商店中,如表1中所列出的幾個主要的應用商店。為了便于用戶瀏覽、查找自己所需的移動應用,各應用商店都對數據進行了一些處理,包括分類、添加標簽等。但是通過分析發現,目前的分類粒度比較粗,一般包含兩個層次類別,大類數量在20個左右,由于應用的總體數量比較大,所以單個類別下的移動應用仍然比較多,用戶要想快速定位到自己需要的移動應用依然很困難;另外不同應用商店的分類方式及類別名稱不統一,各商店之間應用類別名稱僅有50%左右是一致的;各移動應用商店所提供的搜索功能大都是基于關鍵字匹配的簡單搜索,搜索結果比較差,無法滿足用戶需求。
(2)第三方移動應用集成。為了解決移動應用商店存在的問題,出現了第三方移動應用集成服務提供商,其主要工作方式是從不同的應用商店中抓取移動應用信息,并對抓取到的應用信息進行進一步的處理,如重新分類、去重、添加標簽等,在此基礎上提供應用瀏覽、搜索功能。
(3)移動應用搜索與推薦。移動應用搜索與推薦是幫助用戶快速找到自己所需應用的一種有效途徑,目前已經有一些相應的解決方案。騰訊于2012年6月發布了海納應用搜索,這是一款基于移動應用功能屬性搜索的引擎。據騰訊介紹,海納應用搜索是專門為用戶提供移動應用搜索服務的智能搜索引擎,專注于App搜索以及根據搜索行為的應用推薦,主要滿足用戶自然語言的搜索需求。Quixey是一個完全自動化的移動應用“功能搜索”引擎,它以文本分析、語義分析技術為主,提供移動應用的準確搜索。Quixey不是簡單地根據用戶的描述來進行搜索,可以通過Quixey定義的函數為用戶提供移動應用搜索和發現服務。Quixey從移動應用商店、論壇、博客、社會化媒體網站和匿名消息來源抓取移動應用的相關信息,并對這些信息進行進一步的抽取、分析、集成,從而提供高質量的功能搜索服務。
上述3種方式在一定程度上能夠幫助用戶快速找到自己所需的移動應用,但還有很大改善和提升的空間。移動應用集成是解決這一問題的有效途徑。移動應用集成的主要任務是研究如何把海量的移動應用及其相關信息有效地集成起來,為用戶提供高質量的搜索、發現和推薦服務。研究內容主要包括移動應用數據抽取、功能建模、移動應用匹配、移動應用搜索與推薦等。
本文主要對移動應用集成中若干關鍵研究問題的研究現狀進行分析總結,并指出未來的主要研究方向。本文第2節介紹移動應用集成與傳統Web數據集成的異同,提出移動應用集成基本框架;第3節對移動應用數據抽取相關工作進行分析;第4節和第5節分別介紹移動應用匹配和移動應用推薦技術;第6節指出若干挑戰性研究問題;最后對本文內容進行總結。
2.移動應用集成框架
目前關于移動應用集成的研究尚處于起步階段,其中在移動應用數據抽取方面大都是基于傳統的Web數據抽取技術,偏重于結構化信息的抽取,對于移動應用功能信息抽取技術的研究還比較少;在移動應用搜索與推薦方面有一些初步研究。本節首先對Web數據集成進行簡單介紹,對移動應用集成和Web數據集成技術進行對比分析,在此基礎上給出移動應用集成的基本框架。
2.1 Web數據集成
關于Web數據集成,大量學者已經作了系統深人的研究,其中劉偉等人對Deep Web數據集成進行了綜述,提出了Deep Web數據集成框架,把集成過程分成了3個模塊:查詢接口生成模塊、查詢處理模塊和查詢結果處理模塊。其中查詢接口生成模塊包括Web數據庫發現、查詢接口模式抽取、Web數據庫分類和查詢接口生成4個子模塊;查詢處理模塊主要包括Web數據庫選擇、查詢轉換、查詢提交3個子模塊;查詢結果處理模塊主要包括結果抽取、結果注釋和結果合并3個子模塊。文獻分別對查詢接口模式抽取、查詢接口的集成進行了研究;文獻對Web數據庫的選擇、查詢轉換相關技術進行了分析;文獻重點研究了基于視覺的查詢結果抽取方法。
查詢結果的處理是Web數據集成的核心任務。查詢結果處理的主要任務是把來自于多個Web數據庫的異構的數據以一個統一的形式展示給用戶,目前的主要研究工作集中在如何快速準確地從查詢結果頁面抽取出結構化的查詢結果。目前的Web數據抽取主要包括以下幾種技術:頁面抽取語言、基于DOM樹的技術、抽取規則推導技術、基于視覺的抽取等。
2.2 移動應用集成與Web數據集成的異同
移動應用集成與傳統的Web數據集成有一些共同點,如屬性信息抽取、數據融合等,兩者都需要從相應的Web頁面中抽取出結構化的屬性信息,對于不同數據源的數據需要進行消重、融合等。然而,與Web數據集成相比,移動應用集成也有其特殊之處,二者的主要區別見表2。
表2 Web數據集成與移動應用集成的對比
2.3 移動應用集成基本框架
我們針對移動應用的特點,并結合現有的數據集成技術,提出了移動應用集成框架,如圖1所示。
圖1 移動應用集成框架
移動應用集成主要包括4個層次:數據源、信息抽取、數據模型和應用。其中數據源主要包括眾多的移動應用商店,以及與移動應用相關的各種網絡數據源如用戶數據、社交網絡、用戶評論、論壇信息等。移動應用商店主要包括移動應用的基本屬性信息,該部分信息需要利用相應的數據抽取技術,從多個不同的應用商店中抽取出具有統一格式的結構化信息,并根據實際情況進行數據消重、數據融合等處理。
移動應用本身的信息是靜態信息,而用戶數據主要是指用戶在使用應用程序的過程中所產生的一系列相關數據,如用戶的安裝、更新、刪除歷史,用戶使用時間記錄,用戶在應用程序中的資料信息等。通過這些信息可以分析用戶的使用習慣,了解用戶的潛在需求,從而為用戶提供更好的推薦服務。但是目前該部分信息因隱私問題,不太容易得到。
隨著Web2.0技術的發展,很多用戶都習慣于在網絡中分享自己的相關信息,如用戶可以在Facebook中與好友分享自己所使用的移動應用程序列表、自己的使用體驗、評價等;還有一些針對移動應用的專業論壇,可以供用戶之間交流移動應用的使用信息、對應用的評價等,如比較有名的是威鋒網。從這些信息中可以全方位了解移動應用,分析移動應用的質量、用戶喜愛程度等,對于提高服務質量具有重要作用。
信息抽取主要是從眾多數據源中把與移動應用相關的信息抽取出來,主要包括屬性信息抽取、數據融合、功能信息抽取和網絡數據抽取等。其中屬性信息抽取主要是把移動應用相關的結構化信息抽取出來,如應用名稱、類別、適合機型、價格等;數據融合主要解決不同數據源中數據的沖突問題;移動應用集成中的屬性信息抽取技術和數據融合技術與傳統的Web數據集成基本相同。功能信息抽取,主要負責從移動應用的描述信息以及與移動應用相關的評論信息中抽取出應用的主要功能,該部分是Web數據集成中所沒有考慮或者是沒有必要考慮的內容。網絡數據抽取主要指從與移動應用相關的各種數據源中把所需要的信息抽取出來,如用戶評論信息、移動應用的使用排名、用戶的評分信息等,該部分主要難點在于相關信息的識別以及數據的動態特性。
模型層主要是把移動應用的基本屬性信息、能做什么、做得怎么樣、如何使用、用戶評價等各種不同的信息以一種合理的方式進行建模,并建立高效的索引,以實現快速和高質量的搜索服務以及其他應用需求。
應用層主要是在已經處理好的移動應用程序數據庫的基礎上提供相應的服務,如移動應用搜索、移動應用推薦、移動應用匹配等。
3.移動應用數據抽取
移動應用數據抽取是移動應用集成的核心任務之一,同時也是其他任務的基礎。在數據抽取方面已經有大量的研究工作,按照不同的標準可以分類不同的類別。按數據來源不同,可以分為基于非結構化數據(文本)的抽取和基于半結構化數據(Web數據)的抽取;按照自動程度不同,可以分為手動、半自動和全自動的數據抽取。在移動應用集成中,屬性信息抽取和功能信息抽取是數據抽取模塊的主要目標。屬性信息抽取主要是從移動應用所在的Web網頁中把移動應用的名字、類別、描述等信息抽取出來,功能數據抽取主要是從移動應用的描述信息、論壇信息及用戶評論信息中把能夠代表移動應用功能的主要短語、句子等抽取出來。
目前在Web數據抽取方面已經有了大量的研究工作,其中劉偉、孟小峰等人W在《Deep Web數據集成研究綜述》中對Web數據抽取技術進行了歸納總結,并按照使用技術的不同進行了分類,主要包括基于DOM樹的技術、基于模式的技術、頁面抽取語言川和抽取規則推導技術等。不過文獻分析的主要是7年以前的技術,我們不再進行詳細介紹,本節主要對近幾年提出的一些新的、代表性數據抽取技術進行分析。
D-EEM是一種基于DOM樹的Deep Web實體抽取機制(DOM-tree based entity extraction mechanism for Deep Web)。 D-EEM采用基于DOM樹的自動實體抽取策略,將實體抽取過程分為數據區域定位和實體區域定位兩個階段,從而可以在比較精確的范圍內進行實體區域的定位,大大提高了實體抽取的效率;另外,為了提高實體抽取的準確性,在抽取過程中還考慮了DOM樹內文本內容節點和元素節點的特征。田健偉等人、為了能夠完整地提取Deep Web數據庫中的記錄,提出了一種基于層次樹的數據獲取技術。該技術把Web數據庫建模成一棵層次樹,這樣Deep Web數據的獲取問題就可以轉化成樹的遍歷問題。其次通過屬性排序和基于屬性值相關度的啟發規則指導遍歷過程提高遍歷效率。實驗結果表明該方法具有很好的覆蓋率和較高的提取效率。OXPath對XPath進行了擴展,能夠在交互式的網站中支持頁面導航和結果數據的抽取。其最大的特點是能夠模擬用戶的行為,動態獲取頁面的CSS屬性信息,并且每次只需處理當前的頁面,所以需要的內存空間比較小。
Liu等人困認為傳統的Web數據抽取技術雖然能夠取得較好的抽取效果,但是大多都依賴于Web頁面編程語言,一旦頁面語言發生了改變,抽取技術也得做相應的改變。為了克服這方面的限制,Liu等人系統分析了多種結果頁面的視覺特征,并使用結果頁的視覺特征來進行數據記錄和數據項的抽取工作,此方法最大的特點是抽取過程與頁面語言種類無關,適合在多語種環境中的使用。
Ferrara等人從一個新的角度對Web數據抽取技術和應用進行了綜述。以往的綜述論文主要是從數據抽取技術和算法的角度進行分類和描述,而Ferrara等人首次從應用的角度對Web數據抽取技術進行了分類,深人分析了不同應用領域中Web數據抽取技術的相同點和不同點。作者主要從企業應用和社交網絡應用兩個大的領域進行了分析,并指出了不同應用領域中數據抽取技術存在的挑戰性問題。
馬安香等人針對重復語義標注和嵌套屬性的問題,提出了一種基于結果模式的Deep Web數據抽取機制。該機制將數據抽取工作分為結果模式生成和數據抽取兩個階段,在結果模式生成階段進行屬性語義標注,從而解決了重復語義標注問題;在結果模式的基礎上提出了一種新的數據抽取方法,很好地解決了嵌套屬性問題。
由于移動應用數據往往表達隨意,具有不規范性,為了改善移動應用匹配、推薦的效果,需要從這些不規范的、短小的移動應用數據中抽取出其主題或關鍵詞。Zhao等人主要研究如何從Twitter信息中抽取出主題關鍵短語。Twitter信息一般都比較短,并且噪音比較多,為了提高抽取質量,作者利用關鍵詞排序、關鍵短語生成和關鍵短語排序3個階段來實現。在關鍵詞排序中,基于主題敏感傳播算法,對主題PageRank算法進行了改進;在關鍵詞排序和關鍵短語生成的基礎上,設計了一個概率短語評分函數,最后利用該評分函數對短語進行排序,取最前面的若干個短語作為關鍵短語。Yu等人提出了一種從商品評論中進行主題抽取的方法。作者首先通過預處理,抽取出名詞或名詞短語,并把這些名詞和名詞短語作為候選主題;然后計算這些主題的相對詞頻,如果相對詞頻低于某個闌值,則過濾掉,不進行后面的處理;最后針對每個候選主題計算其改進的TF-IDF值,如果改進的TF-IDF值大于某個闌值,則該主題就可以作為最后的結果。另外在進行主題抽取的過程中,為了過濾掉冗余的主題,作者提出了一個主題支持度,如果主題w‘的頻率小于某個包含wi的短語(wi,wj)的頻率,則wi就可以過濾掉,只把wiwj作為一個候選主題。
4.移動應用匹配
據我們調研,目前還沒有關于移動應用集成相關技術的系統性研究工作,隨著移動應用的普及及數量的不斷增加,對于移動應用集成的研究具有前瞻性和必要性。移動應用集成中有很多關鍵性問題需要研究,如信息抽取技術、數據融合、實體識別、自動推薦、應用匹配等。而移動應用匹配在移動應用集成中具有重要意義,是信息集成、推薦和搜索的基礎。所以,目前我們主要針對移動應用匹配問題進行研究。
4.1 移動應用屬性特點
在移動應用匹配過程中,我們主要是基于移動應用屬性來計算其相似度。通過觀察我們發現移動應用的名稱、描述信息都具有一些特點。
移動應用名稱:功能相似的移動應用名稱往往包含相同的詞,或者包含同義詞,有些名稱中包含一些復合詞如autolock, shake2mutecall,有些名稱中的詞不是一個有效的英語單詞,僅僅是一個標識如Okotag,Barcode Scanner。
描述信息的短文本特性:描述信息與傳統的文本文檔不同,一般都比較短,由若干個句子組成,可以視為短文本。因此,描述信息中單詞的共現概率比較低,即使是功能相似的移動應用,可能都不包含共同的詞匯或者相同的詞比較少。由此得到的文本特征矩陣就比較稀疏,所以傳統的向量空間模型無法很好地根據移動應用的描述信息計算其相似度;另外,據我們觀察發現,由于移動應用的描述信息一般都是由開發者提供的,所以描述信息的撰寫非常不規范,往往包含很多非功能性描述或者說是噪音數據,如廣告信息、用戶操作指南、平臺要求等,這些非功能性描述對于計算移動應用的相似度具有很大的負面影響。因此,為了提高移動應用相似度計算的準確性,我們必須解決稀疏性和噪音問題。
本節后面的內容主要對短文本分析的相關技術和兩種移動應用匹配方法進行分析。
4.2 短文本分析
目前已經有很多學者針對短文本進行了大量的研究工作,如短文本的主題發現、短文本的情感分析、短文本相似度計算、分類、聚類等。其中短文本相似度計算和短文本分類技術對移動應用匹配有重要的指導意義,所以本文對最近關于短文本相似度計算和短文本分類技術方面的研究進行分析總結。
4.2.1 短文本相似度計算
短文本相似度計算的主要任務是用來判斷不同的短文本描述之間的相似程度,短文本的相似度越高,說明短文本表達的意思或觀點越相似。短文本相似度計算是短文本分析的基礎工作,是分類、聚類和主題發現的重要技術之一。
文獻主要提出了一種基于概率主題生成模型的短文本相似度計算方法。核心思想是,對于兩個待比較的短文本而言,把它們分成兩部分,一部分是相同的單詞,另一部分是不同的單詞;然后在一個給定的短文本集合中,基于LDA模型,利用GibbsSampling方法找出隱含主題及主題的概率分布;接下來在發現的主題分布上計算不同單詞的相似度;最后把兩者相結合計算總體相似度。該方法能夠在一定程度上解決短文本的稀疏性問題,但是其中也存在一些挑戰,如隱含主題的個數如何確定,相似度的間值如何判斷等;文獻主要針對短文本的稀疏性特點,提出了一種擴充短文本信息的方法。對于每一個短文本,構造一個查詢,提交給搜索引擎,然后利用搜索引擎返回的結果來代表短本,這樣就可以大大擴充短文本的信息,同時作者提出了一種相似度核函數,用來計算短文本之間的相似度,具有較好的準確性和可擴展性;文獻主要是解決句子之間的相似度計算問題,傳統的計算方法不具有較好的擴展性,作者提出了一種基于語義網絡和統計分析相結合的方法,具有較好的自適應性;文獻把短文本的語義信息和統計信息相結合,提出了一種新的短文本模型方法。主要有3個步驟:首先基于語義詞典如WordNet計算出初始的詞相似度矩陣;然后以此為基礎,對詞相似度和短文本相似度進行迭代計算,直至收斂;最后利用得到的詞相似度矩陣對原來的文檔一詞頻矩陣進行修正,映射到新的向量空間中,并在新的向量空間中進行短文本相似度的計算,實驗表明取得了較好的效果;文獻對現有的句子相似度的計算方法進行了分析,包括語法相似度、語義相似度和語用相似度,并提出一種新的基于關鍵詞提取的句子相似度計算方法。通過觀察,并不是所有的詞對表達句子的意義都起作用,所以作者根據單詞的詞性、句子語法結構等提取出關鍵詞,并給每個詞賦予不同的權重,在此基礎上進行相似度的計算;文獻從信息檢索的角度,對短文本的表示和相似性度量進行了分析,并對各種不同的度量方法進行了對比,包括基于字典的相似度度量、基于詞干化和語言模型的相似性度量,并對各種不同的方法進行了實驗,分析了各種方法的優勢和不足。
4.2.2 短文本分類
由于微博、在線論壇每時每刻都產生大量的數據,這些豐富的數據一方面給人們帶來了更大的選擇空間,但是面對海量信息,人們如何進行有選擇的閱讀卻遇到了前所未有的巨大挑戰。因此對于海量短文本的重新組織分析就顯得非常有必要,分類分析是信息挖掘中最重要和最基本的技術之一。
目前短文本的分類算法主要基于有監督學習。有監督學習必須對訓練樣本進行手工標注,并且為了確保分類的可擴展性,往往需要標注大量的樣本作為訓練集。然而大量樣本的標注費時費力,特別是在短文本當中,由于其海量性、不規范性,短文本中的標注問題更為突出。
文獻主要針對短文本的稀疏性和描述信號弱的特點,提出了一種基于特征擴展的中文短文本分類方法。該方法主要利用關聯規則挖掘算法挖掘訓練集特征項和測試集特征項之間的共現關系,然后利用得到的關聯規則對測試文檔集中的詞語進行特征擴展,在此基礎上進行短文本分類;文獻針對短文本的稀疏性特點,提出了另外一種新的解決方法,針對每一個特定領域的分類問題,首先選擇一個足夠大規模的外部數據源,并從中發現其中的隱含主題,最后利用這些隱含主題和小規模的標注訓練集進行分類;文獻中指出獨立主成分分析(ICA)在很多情況下能夠改善文本分類的效果,但是由于短文本的稀疏性,它們之間相同的詞很少,所以直接在短文本上進行獨立主成分分析效果不佳。基于此,作者利用潛在語義分析(LSA)對短文本進行數據預處理,然后在此基礎上再利用主成分分析,取得了不錯的效果;文獻主要解決的是Twitter消息的分類問題,作者通過一定的算法,把每個Twitter消息映射到最相似的Wikipedia頁面上,然后利用此頁面來代表Twitter消息,并進行分類,實驗表明該方法比單純的基于字符串編輯距離或LSA的效果好;以往的分類研究中每一個短文本只賦予一個類別,而實際上,一個文本有可能包含多個不同的主題,文獻主要研究了短文本的多值分類問題;為了能夠對海量Twitter消息進行重新組織,便于用戶選擇和瀏覽,文獻針對Twitter消息的特點提出了一個新的分類方案。作者首先通過觀察和分析,利用貪婪算法選擇了8個特征,并將這8個特征和傳統的詞袋子方法進行了對比實驗,結果表明作者提出的方法具有較高的準確性。
4.3 基于WordNet的移動應用匹配
該方法主要是基于移動應用的描述信息計算相似度,把每一個App看成是一個由描述信息表示的文檔,利用傳統的向量空間模型(VSM);進行計算。為了解決文檔一詞頻矩陣的稀疏性問題,可利用語義詞典WordNet來擴充App的描述信息。具體實現過程如下:
a1 ,a2 ,...,am分別表示m個App的描述信息,描述信息經過分詞、去除停用詞和詞干化等處理以后,共得到由N個不同的詞組成的集合T={t1,t2,...,tn},丨T丨=N;最后得到文檔詞頻矩陣W。
其中,每一行代表一個App,每一列代表一個單詞,每一元素wij,表示第i個App描述中的權重,計算方法如下:
然后基于WordNet,計算詞與詞之間的語義相似度,得到詞語的相似度矩陣Q。
通過上述運算,文檔一詞頻矩陣的非零元素增多,稀疏度降低。App之間的相似度在轉換后的向量空間中利用式(5)進行計算。
我們人工構建了一個小規模的測試數據集,對100個App進行了人工判斷,發現其中共有89對相似的App,對此分別利用VSM模型和基于WordNet的VSM模型進行計算。實驗結果用準確率、召回率、F-1進行衡量。
從圖2可以看出,利用語義詞典WordNet可以增加App之間的相似度,從而提高了召回率,但是準確率卻大大下降。通過分析,準確率下降的主要原因是由于App描述信息中存在噪音數據。因此單純利用語義詞典無法很好地解決App的相似度計算問題,必須想辦法消除App描述中的噪音信息。
圖2 基于WordNet的移動應用匹配
4.4 基于特征詞提取的移動應用匹配
為了改善移動應用匹配的效果,需要識別出App描述信息中的特征詞,這些特征詞能夠體現App的功能,從而把描述信息中的非功能性信息或者噪音數據過濾掉。通過深人觀察分析,我們選擇5個特征作為判斷一個詞是否是特征詞的依據,分別是termPOS, locInDes, isNameTerm, locRelative-ToName,termFreq,具體說明如表3所示。
表3 特征詞列表
我們把特征詞的判斷問題看成是一個分類問題,主要通過以下幾個步驟實現:(1)針對l00個App的描述信息進行手工標注,一共標注了2625個單詞,如果某個單詞在一個App中是特征詞,則標注為1,否則標注為0;(2)計算出每個單詞的所有的特征值;(3)以這些標注數據作為訓練集,得到一個分類模型;(4)利用該分類模型去判斷其他的詞是否是特征詞。
特征詞分類實驗設置:在2625個標注數據中選擇2525個作為訓練集,100個作為測試集,分別采用樸素貝葉斯(Naive Bayesian)和支持向量機(SVM)方法進行實驗,分類結果如表4所示。
表4 分類正確率
從表4我們可以看出,樸素貝葉斯分類的正確率比較低,另外去除locInDes之后利用SVM分類,正確率最高,也就是說locInDes對于特征詞的判斷具有一定的負面作用,但對于最終的App相似度計算結果的影響還不確定,所以我們采用SVM方法分別在所有特征和去除locInDes以后的子集上進行了實驗。最后以所有的特征詞為向量空間來計算App的相似度,實驗結果表明,取得了較好的效果。
從圖3可以看出,經過特征詞提取以后,準確率和召回率均有所提高,并且在不考慮locInDes的情況下效果更好,說明單詞在描述中的位置對單詞是否是特征詞沒有太大貢獻,并且對相似度計算具有負面影響。
圖3 基于特征詞提取的移動應用匹配
上述兩種方法都是基于App的描述信息進行計算的,以后將把App的名稱、類別及其他相關信息也考慮進去,效果可能會更好。
5.移動應用推薦與搜索
隨著移動應用數量的不斷增加,如何幫助用戶快速找到想要的應用成了一個亟待解決的問題,部分學者對移動應用的推薦技術進行了研究。Shi等人首先分析了傳統推薦模型存在的不足之處,如以記憶為基礎(Memory-based Models)的協同過濾模型(包括以用戶為基礎的協同過濾和以項目為基礎的協同過濾)對經常出現或比較流行的項目推薦效果比較好,但是對于使用不是很頻繁的項目推薦效果比較差;隱語義模型( Latent Factor Models)的推薦準確率比較低。針對上述兩種推薦模型存在的不足之處,作者提出了一種新的推薦模型—基于主成分分析的模型(PCA-based model)。該模型首先利用主成分分析技術從數據中找到主要的特征,然后在主要特征的基礎上再利用協同過濾模型進行推薦。其主要優點是對于不是很流行的移動應用具有較好的推薦準確率。Woerndl等人針對移動應用提出了一種基于情景感知的混合推薦系統。該推薦系統以傳統的協同過濾技術為基礎,把情景因素考慮進來,從用戶、項目和情景3個維度進行計算,大大提高了推薦準確率。但是目前考慮的情景還比較少,主要是依據其他用戶在某個位置的移動應用安裝和使用情況進行推薦,以后將考慮更多的情景因素。Karatzoglou等人結合情景信息,也提出了一個新的移動應用推薦模型Djinn模型,該模型主要考慮是把隱式反饋數據考慮進來,利用張量分解技術對Djinn模型進行優化,實驗結果表明Djinn模型的平均準確率(MAP)要比不考慮情景信息的模型高出28%。Yin等人認為移動應用的推薦和其他領域的推薦有一個不同之處在于:除了推薦用戶感興趣的移動應用外,還需要針對用戶已經有的移動應用推薦可以替代的、新的移動應用。Yin等人認為已有的移動應用擁有一個實際滿意度值AV(Actual Satisfactory Value),新的移動應用擁有一個吸引度值TV(Tempting Value),用戶是否更換舊的應用,取決于AV和TV的大小。作者以用戶的使用日志為基礎數據,把AV和TV作為兩個隱含參數,提出了一個AT模型,計算出每個應用的AV和TV值,并設計了AT排序函數。實驗表明,AT模型的推薦效果遠好于傳統的協同過濾技術和以內容為基礎的過濾技術,如果能將AT模型和其他模型相結合,效果會更好。Yan等人認為以往的移動應用推薦系統大都利用用戶的下載歷史和用戶評價,實際上用戶下載了一個應用,并不能真正代表用戶,而用戶的評價往往又比較稀疏,推薦效果不佳。因此他們把用戶的使用日志數據和基于項目的協同過濾技術相結合,提出了一種個性化的移動應用推薦技術AppJoy。 Zhu等人對移動應用的分類問題進行了研究。為了提高分類的準確性,作者對移動應用的特征信息進行了擴展:一是利用搜索引擎來擴展文本特征;二是從用戶的使用記錄中提取情景特征,最后把這些特征綜合起來,利用最大熵模型訓練出了一個移動應用分類器。實驗結果表明其分類準確率要高于基于詞向量的應用分類器(Word Vector based App Classifier)和基于隱含主題的應用分類器。
隨著移動應用數量的不增加,移動應用搜索將越來越重要。移動應用搜索與傳統的Web搜索有相似之處,但也有特殊之處。移動應用搜索對搜索結果的質量要求更高,需要返回最能夠滿足用戶需求的少數應用,而不需要返回大量的結果;另外在移動應用搜索中,傳統的以關鍵詞為基礎的搜索技術無法滿足新的查詢需求,因為用戶往往不能夠準確給出應用的名稱,只能大概給出應用的功能、特點,在這種情況下,如何能夠準確分析出用戶的查詢意圖并提供滿意的結果將變得非常具有挑戰性;移動應用搜索結果的排名也有特殊之處,除了考慮搜索結果與用戶查詢之間的相關性之外,還需要考慮應用的質量、受歡迎程度等其他因素。因此,功能搜索或者是語義搜索將是解決移動應用搜索的一個有效途徑。但是目前還沒有比較好的解決方案。
6.移動應用集成面臨的挑戰
目前,關于移動應用集成技術的研究還處于剛剛起步階段,并且由于移動應用本身的特點,在移動應用集成中存在一系列挑戰,主要包括多源信息集成、功能信息抽取和建模、移動應用匹配和移動應用排名等。
6.1 多源信息集成
移動應用集成的數據對象除了移動應用的基本屬性之外,還包括與移動應用相關的其他動態信息:用戶信息、用戶評論、社交網絡中的分享信息等。這些信息對改善移動應用的搜索和推薦效果具有重要作用。然而這些信息往往存在于不同的數據源中,如移動應用的基本屬性信息大都存在于各大應用商店或者部分移動應用集成網站,而相關的用戶評論、社交網絡分享信息等則存在于其他網站中,不同的數據源具有不同的頁面結構,如何設計具有自適應能力的抽取方法是一個巨大的挑戰。其次移動應用相關的數據源大都具有Web2.0的特征,所以數據源中頁面的結構經常會發生變化,如何使得數據抽取方法在頁面結構發生變化時仍能夠繼續工作也是一個重要的研究內容。關于多源信息的集成,部分學者已經做了研究。Spiegel等人和Szomszo:等人為了改善電影推薦效果,嘗試將IMDB和Netflix的數據進行集成。IMDB是一個在線的電影信息共享網站,它允許用戶對影片添加標簽,來描述影片的演員信息、情節、故事地點等。NetFlix是一個在線視頻租賃網站,用戶可以對看過的視頻打分。Spiegel等人和SZOITISZO:等人將IMDB的標簽信息和Netflix的打分信息進行集成,大大提高了推薦的效果。
6.2 功能信息抽取與建模
功能信息抽取也是一個極具挑戰性的問題,對移動應用的搜索效果具有重要影響。傳統的Web數據抽取技術可以從半結構化數據中抽取出與應用相關的屬性信息,如名稱、類別、描述、價格等;但是移動應用的功能性信息更為重要,比如應用能實現哪些功能?做得怎么樣?如何使用等?這些功能性信息是功能搜索的基礎,對提高功能搜索的質量至關重要。然而,功能性信息往往隱藏在移動應用的描述信息、用戶評論等非結構化信息中,傳統的Web數據抽取技術無法從非結構化信息中抽取相應的結構化信息。雖然已經有一些自然語言處理的相關技術可以從非結構化信息中進行信息提取,但是還不能直接應用于此,主要原因在于移動應用的描述信息以及相關用戶評論等具有自己的特點,如文本短小、語法不規則等。
移動應用集成的主要目的之一就是提供高質量的搜索服務,使用戶能夠得到真正滿足實際需求的結果。移動應用搜索和傳統搜索的最大區別在于:傳統搜索主要是以關鍵詞匹配為主,而關鍵詞匹配在移動應用搜索中效果非常不好,目前幾大移動應用商店提供的搜索功能都不能令人滿意。目前已有很多公司涉足App搜索市場,如提供功能搜索的App搜索引擎Quixey,百度也推出了App搜索平臺。但是目前各公司所采用的App搜索技術并沒有對外公布,學術界關于App搜索還沒有相關的研究。人們在搜索應用時往往不知道其準確名字,希望搜索出能夠完成某種任務、具備某種功能的軟件,如觀看NBA比賽、視頻編輯、尋找最近的超市等,針對這些查詢,傳統搜索無法提供很好的結果。功能建模是解決這一問題的核心。
功能建模的主要目的是提供高質量的搜索服務,能夠實現基于功能的搜索。在數據抽取階段,通過各種抽取技術,得到了移動應用的基本屬性信息、功能信息、評論信息以及用戶數據,功能建模主要是以功能為核心,設計一種合適的數據模型,把上述各種信息進行有效的表示、組織與存儲,數據空間技術和語義網技術是功能建模可以借鑒和參考的兩個技術;同時,為了提高搜索的效率,必須根據新的數據模型的特點設計高效的索引策略。
6.3 移動應用匹配
移動應用匹配主要是用來判斷兩個應用程序在功能上是否相似,是實現移動應用遷移、移動應用推薦的基礎,是一個重要的研究內容,有很多的應用場景。
移動應用匹配與實體識別具有一定的相似性。實體識別主要用來判斷兩個不同的數據記錄是否代表同一個實體,目前已經有大量的相關研究工作。按照所使用的技術不同可以分為以下幾類:概率匹配模型、監督和半監督學習方法、主動學習技術、基于距離的技術、基于規則的方法和無監督學習的方法。實體識別主要是基于實體的屬性信息進行相似度比較,而移動應用匹配過程中,除了考慮屬性信息的相似度之外,應用程序的功能相似度更為重要,所以傳統的實體識別技術并不能直接應用于移動應用匹配。
首先,屬性選擇是移動應用匹配的首要任務。每個應用都有很多屬性信息,如名稱、類別、機型、價格、功能描述等,然而并不是所有的屬性都對應用匹配起正面作用,所以需要從眾多的屬性中選出能反映應用功能相似性的屬性;
其次,短文本的相似度計算也是一個極具挑戰性的研究內容。目前已經有一些研究者對網絡短文本進行了一些研究,包括基于語義的方法、基于概率主題模型的方法、基于特征擴展的方法等Czar。但是這些方法并沒有考慮移動應用描述信息的特定表達方式,所以無法取得較好的計算效果。
另外,在進行移動應用匹配的過程中,除了考慮應用本身的功能相似性之外,往往還需要考慮用戶的使用習慣、個人愛好等信息;同時還需要考慮應用與用戶已有的應用之間的相互協作關系,應用彼此之間的相互影響等。從而為用戶提供更加智能和完善的服務。
6.4 移動應用排名
在移動應用集成系統中,最終的目的是為用戶提供移動應用的搜索和推薦服務,因此移動應用的排名也是一個重要的研究問題。應用的排名除了考慮與查詢關鍵詞的匹配程度之外,還需要考慮其他相關信息,如用戶的偏好、用戶查詢意圖等,需要將這些信息綜合考慮,設計一個合理有效的排名函數。同時由于網絡信息具有時變性,現在被用戶喜愛的應用,隨著時間的推移可能變得不那么受人喜愛,應用的排名可能也會隨時間發生變化,所以如何對這些信息進行動態的更新維護,也是一個頗具挑戰性的問題。
6.5 移動應用內數據集成與搜索
目前本文中所關注的集成對象主要是移動應用的屬性信息以及其他相關信息,如用戶評論、社交網絡分享信息等,這些可以認為是移動應用的外在信息。然而,對于用戶來講,移動應用內部所包含的內容更豐富、價值更大。如果能夠把眾多移動應用內部的信息有效地集成起來,為用戶提供統一的搜索服務,對用戶將具有重要的意義。與傳統的網頁數據相比,移動應用內部信息的集成與搜索具有一些新的挑戰。信息獲取比較困難:移動應用內的信息往往被包上了外殼,無法使用傳統的搜索爬蟲技術直接抓取;數據格式的異構性:不同的移動應用,其內部的數據格式往往不一樣,并且存在大量的噪音數據,其數據抽取方式與網頁數據抽取相比更為復雜。
7.結束語
目前移動互聯網的流量快速增加,未來必將超過傳統互聯網,而移動應用逐漸成為移動互聯網的主要接人方式。為了爭奪用戶,電信運營商、手機制造商、互聯網服務提供商以及各個不同的企業紛紛推出自己的移動應用,移動應用數量呈現爆炸式增長。然而隨著移動應用數量的不斷增加,給移動應用的搜索和推薦帶來了很大的困難。移動應用集成是改善移動應用搜索和推薦效果的一個有效途徑。目前關于移動應用集成,學術界還沒有開展系統深人的研究。本文提出了移動應用集成的基本框架,對其中的關鍵技術如數據抽取、移動應用匹配、移動應用推薦等進行了分析,對現有的工作進行了歸納總結;最后指出了移動應用集成中的若干挑戰性問題。未來移動應用的數量將持續增加,成為人們獲取信息的主要途徑,然而其數量的增加也必將帶來一系列挑戰,有很多問題值得研究。我們對移動應用的集成、匹配、推薦等技術進行了分析,希望能為相關研究人員提供參考。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://m.guhuozai8.cn/
本文標題:移動應用集成:框架、技術與挑戰
本文網址:http://m.guhuozai8.cn/html/consultation/10839613327.html