陳明炫, 周明駿, 田 豐, 戴國(guó)忠
(中國(guó)科學(xué)院軟件研究所人機(jī)交互技術(shù)與智能信息處理實(shí)驗(yàn)室,北京 100190)
面向知識(shí)工作者的個(gè)人信息管理模型
陳明炫, 周明駿, 田 豐, 戴國(guó)忠
(中國(guó)科學(xué)院軟件研究所人機(jī)交互技術(shù)與智能信息處理實(shí)驗(yàn)室,北京 100190)
為滿足知識(shí)工作者對(duì)個(gè)人信息管理的靈活分類、時(shí)序管理和智能推薦的要求,提出一種個(gè)人信息管理系統(tǒng)模型。首先分析了知識(shí)工作者的個(gè)人信息管理特點(diǎn),接著提出了模型的框架,描述了框架的層次結(jié)構(gòu)。然后介紹了基于標(biāo)簽的個(gè)人信息推薦算法。最后對(duì)原型系統(tǒng)進(jìn)行了評(píng)估。評(píng)估結(jié)果表明,該模型能夠滿足知識(shí)工作者對(duì)個(gè)人信息管理的要求。
計(jì)算機(jī)應(yīng)用;個(gè)人信息管理模型;標(biāo)簽;知識(shí)工作者
個(gè)人信息管理(PIM)是對(duì)于日常信息的處理、分類、訪問。它主要研究人們每天對(duì)信息的獲取、組織、維護(hù)的活動(dòng)[1]。Bush最早提出闡述PIM概念的Memex系統(tǒng)[2]:Memex是一種能夠記錄所有書籍、唱片、交流信息的設(shè)備,它能夠快速、自動(dòng)、靈活的幫助人們找到所需要的信息。隨著信息技術(shù)的不斷發(fā)展,越來越多的人們參與PIM的研究,涉及的領(lǐng)域非常多,包括人工智能、數(shù)據(jù)庫(kù)技術(shù)、信息抽取、人機(jī)交互等,引起了廣泛的關(guān)注。
由于不同的人群對(duì)信息處理的要求不同,單一的信息處理方式已經(jīng)不能適應(yīng)不同人群的需要,根據(jù)Kidd的研究[3],做日常信息處理的計(jì)算機(jī)用戶大體分為三類:知識(shí)工作者、交流工作者和文秘工作者,他們都要進(jìn)行管理型活動(dòng)和研究型活動(dòng),只是側(cè)重不同。管理型活動(dòng)的特點(diǎn)在于重復(fù)性、結(jié)構(gòu)化的、文檔驅(qū)動(dòng)的,而研究型活動(dòng)特點(diǎn)在于靈活性、非結(jié)構(gòu)化和信息驅(qū)動(dòng)的。知識(shí)工作者偏重于研究型活動(dòng),后兩者偏重于管理型活動(dòng)。當(dāng)前大多數(shù)人使用的信息管理系統(tǒng)是基于傳統(tǒng)的WIMP界面,對(duì)文檔的管理采用樹狀的層次化管理結(jié)構(gòu)。當(dāng)前系統(tǒng)在支持交流工作者和文秘工作者的同時(shí),卻不能很好的支持知識(shí)工作者,原因在于:
首先,知識(shí)工作者的工作具有創(chuàng)造性和隨意性,與其他用戶比較,更需要以人為中心的設(shè)計(jì),要求系統(tǒng)在分類上符合人的心理模型:分類方式靈活、非結(jié)構(gòu)化、信息可重疊。而傳統(tǒng)的層次化組織方式具有結(jié)構(gòu)固定、層次單一和排它的特點(diǎn),這顯然與用戶心理模型相矛盾[4]。
其次,知識(shí)工作者是信息驅(qū)動(dòng)的工作方式,常常圍繞一個(gè)問題在一段時(shí)間內(nèi)進(jìn)行思考,工作具有很強(qiáng)的持續(xù)性和專一性,要求系統(tǒng)能在管理上具有時(shí)間連續(xù)性,而傳統(tǒng)的信息管理方式?jīng)]有足夠地支持這一點(diǎn)。
最后,知識(shí)工作者的發(fā)散型思維常常需要獲取與當(dāng)前工作內(nèi)容相關(guān)的信息,這就要求系統(tǒng)能夠通過分析用戶的當(dāng)前活動(dòng),進(jìn)行合理的推薦。這顯然是當(dāng)前的個(gè)人信息管理系統(tǒng)所不能滿足的。
針對(duì)這些問題,作者提出了面向知識(shí)工作者的PIM模型,能夠很好的解決上述存在的問題,為知識(shí)工作者提供完善的個(gè)人信息管理服務(wù)。
計(jì)算機(jī)技術(shù)的發(fā)展使得人們對(duì)信息管理環(huán)境的要求越來越高。雖然當(dāng)前存在著一些個(gè)人信息管理系統(tǒng),但是由于缺乏對(duì)知識(shí)工作者本身和其任務(wù)的分析建模,使得現(xiàn)有系統(tǒng)存在著設(shè)計(jì)上的缺陷。
William Jones考察了傳統(tǒng)信息管理系統(tǒng)的層次化的管理方法,發(fā)現(xiàn)當(dāng)人們管理某個(gè)項(xiàng)目文檔時(shí),通常把文檔通過“文件夾-子文件夾”的方式一步步把文檔放入葉子結(jié)點(diǎn),這樣做的同時(shí)伴隨著用戶對(duì)項(xiàng)目進(jìn)展的理解,然而對(duì)于沒有上下級(jí)關(guān)系的文檔而言,很難通過這樣的手段來組織文檔,當(dāng)文檔涉及的方面橫跨了多個(gè)層級(jí)結(jié)構(gòu)時(shí),更是如此[5]。
針對(duì)當(dāng)前層次化管理方式的不足,很多研究者提出了各種模型方法或者結(jié)論。Scott Fertig等人提出了時(shí)間流隱喻,把文檔按照使用時(shí)間進(jìn)行排序,并開發(fā)了Lifestream系統(tǒng)[6-7]。類似Lifestream的系統(tǒng)還包括同時(shí)期的Lifelines[8]和后來的MyLifeBits[9]。時(shí)間流隱喻的好處在于用戶總是可以快速訪問到最近瀏覽過的文檔,但它存在的問題在于,分類方式單一不靈活,僅僅利用了文檔的使用時(shí)間屬性,對(duì)于其他描述文檔的屬性沒有充分利用起來。而且在用戶無法回憶起使用文檔的時(shí)間時(shí),該隱喻不僅喪失了最大的優(yōu)點(diǎn),而且無法為用戶查詢文檔提供更多的幫助。
Malone在1983年的研究中發(fā)現(xiàn),人們對(duì)文檔的管理可以分為松散管理的Pile方式,和嚴(yán)密管理的File方式[10]。Richard Mander借鑒了Malone的Pile思想,提出Pile隱喻,即在桌面環(huán)境下對(duì)文檔進(jìn)行松散管理[11]。Ravin等人實(shí)現(xiàn)了基于Pile隱喻的系統(tǒng),并在交互上進(jìn)行了完善[12]。Piling的好處在于文檔組織的隨意性,不受固定的層級(jí)結(jié)構(gòu)的影響,部分解決了層次化管理存在的不靈活的問題。然而Piling隱喻的最大問題在于文檔數(shù)量的無限性和桌面空間的有限性之間的矛盾。對(duì)于PIM而言,文檔的數(shù)量是驚人的,僅靠桌面管理是無能為力的。
Paul提出的基于屬性的文檔管理系統(tǒng)Presto,用戶可以給文檔指定任意數(shù)目的屬性,查詢時(shí)指定屬性值即可[13-14]。Wisam Dakka提出了從文檔內(nèi)容中自動(dòng)提取關(guān)鍵詞對(duì)文檔進(jìn)行描述[15]。兩者的相同點(diǎn)在于都對(duì)文檔進(jìn)行了多方面描述,盡可能全面反映文檔特點(diǎn);區(qū)別在于前者是用戶指定,后者是系統(tǒng)自動(dòng)提取。多角度全方位描述文檔的思路是好的,但前者存在的問題在于,描述屬性的形式過于單一,只限于文本屬性,而且“Name=Value”的屬性定義形式必然要求用戶在描述時(shí)思考對(duì)Name的定義,無形中要求用戶對(duì)文檔進(jìn)行分類,而根據(jù)Malone[10]的研究,用戶管理文檔的困難之一正在于分類對(duì)認(rèn)知負(fù)擔(dān)的加重。后者的缺點(diǎn)在于系統(tǒng)過度的智能化。Kidd[3]曾指出,對(duì)PIM的設(shè)計(jì)時(shí)要知道,只有用戶自己知道想要的是什么,不過度揣摩用戶的心思。自動(dòng)提取文檔關(guān)鍵詞描述,往往會(huì)導(dǎo)致提取的關(guān)鍵詞并不是用戶想要的,因此用戶在使用中不能很好的掌握對(duì)文檔的描述。
綜合上面的前人研究工作可以看到,不論是時(shí)間流隱喻,還是pile隱喻,或者是基于屬性的管理方法,都是為了擺脫當(dāng)前文件層次化管理方式的限制。但他們?cè)诮鉀Q問題的同時(shí)也帶來了新的問題,共同的問題有:① 分類方式單一,有的靠時(shí)間屬性,有的靠自定義屬性;② 沒有對(duì)用戶的行為進(jìn)行分析,并適當(dāng)推薦。這些顯然不能支持知識(shí)工作者的活動(dòng)。
本文提出的面向知識(shí)工作者的PIM模型,以時(shí)間線為可視化手段,以標(biāo)簽的形式對(duì)文檔進(jìn)行統(tǒng)一管理,建立了面向知識(shí)工作者個(gè)人信息管理模型的三層結(jié)構(gòu)。本文的貢獻(xiàn)在于:① 建立了面向知識(shí)工作者的個(gè)人信息管理模型;② 為知識(shí)工作者提供時(shí)間連續(xù)性的工作支持;③ 為知識(shí)工作者提供基于標(biāo)簽的靈活分類方法;④ 對(duì)用戶行為進(jìn)行分析,并適當(dāng)推薦。
文章接下來的組織順序是,首先分析知識(shí)工作者的工作模型,其次闡述模型總體框架并詳細(xì)論述各組成部分,接著介紹原型系統(tǒng),最后做出總結(jié)。
日常生活中,知識(shí)工作者在創(chuàng)造知識(shí)的時(shí)候往往是從思考的問題出發(fā),一有想法就馬上記錄下來,放在桌子上不進(jìn)行歸類,對(duì)問題的思考經(jīng)常要經(jīng)歷一段時(shí)間才會(huì)形成清晰的思路,這時(shí)候桌面上往往是許多草稿紙和便簽,這些都記錄了知識(shí)工作者工作時(shí)的靈感,對(duì)他們有提醒的輔助作用。當(dāng)他們需要查找以前寫過的東西時(shí),往往直接想到要查找的文檔的特征,例如要查找ACM有關(guān)交互的文章,反映在他腦中的都是與ACM、交互、最近在哪里使用過該文檔等關(guān)鍵信息。知識(shí)工作者往往需要一目了然地看到自己想看到的東西,無論是經(jīng)常工作過的文檔,還是與該文檔有關(guān),但好久不用的文檔,只要與該文檔有關(guān),都希望馬上獲取到。作者把活動(dòng)模型概括如圖1所示。
圖1 知識(shí)工作者活動(dòng)模型
信息加工包括了知識(shí)工作者創(chuàng)造知識(shí),整理知識(shí)。要求輸入自然方便。
信息查找是指用戶對(duì)創(chuàng)造過的知識(shí)進(jìn)行查找,要求按照時(shí)間或者要獲取的知識(shí)來查找。
信息分類是指用戶把近期使用過的文檔進(jìn)行piling似的松散分類,從時(shí)間看是近期使用的,從主題看,反映相似知識(shí)的文檔往往被分為一類。
以上是對(duì)知識(shí)工作者活動(dòng)特點(diǎn)的描述,從中可以分析得出支持知識(shí)工作者的信息管理系統(tǒng)有以下幾個(gè)特征:
從底層數(shù)據(jù)組織來看,用戶需要自然靈活的信息組織方式。由于知識(shí)工作者工作中產(chǎn)生的文檔,如草圖等,他們之間的相互關(guān)系很難用層次化結(jié)構(gòu)來描述,而用戶需要松散的靈活分類,這就需要一個(gè)能提供靈活分類的非層次化信息管理系統(tǒng)。
從對(duì)數(shù)據(jù)的管理來看,用戶需要很好的歷史管理機(jī)制。由于知識(shí)工作者總圍繞一個(gè)中心問題進(jìn)行思考,工作特點(diǎn)具有時(shí)間上的連續(xù)性,需要有很好的機(jī)制記錄用戶的交互歷史。
因?yàn)橹R(shí)工作者是信息驅(qū)動(dòng)的,他們往往因?yàn)樗伎家粋€(gè)主題,使用過的文檔具有很強(qiáng)的主題相關(guān)性,所以找到這種相關(guān)性并向用戶提醒和推薦,是面向知識(shí)工作者的個(gè)人信息管理系統(tǒng)應(yīng)具備的功能。
從用戶界面角度來看,用戶需要豐富的可視化形式,以方便自然地與系統(tǒng)進(jìn)行交互。
根據(jù)以上分析,面向知識(shí)工作者的個(gè)人信息管理系統(tǒng)需要具備以下功能特征:系統(tǒng)包含的主要功能模塊應(yīng)該有信息組織模塊、可視化表現(xiàn)、歷史管理、知識(shí)管理。其中的信息組織模塊主要負(fù)責(zé)以靈活的方式組織用戶的數(shù)據(jù);可視化表現(xiàn)部分主要以時(shí)間流界面為主,用于支持知識(shí)工作者工作的時(shí)間連續(xù)性;歷史管理模塊記錄用戶使用系統(tǒng)的歷史;知識(shí)管理主要結(jié)合歷史管理模塊,對(duì)用戶的行為進(jìn)行智能分析,提取關(guān)于用戶行為特點(diǎn)的知識(shí)。如圖2所示。
圖2 支持知識(shí)工作者的系統(tǒng)功能性特征
根據(jù)上面對(duì)知識(shí)工作者工作需求的分析可以看出,知識(shí)工作者的個(gè)人信息管理模型需要方便自然的信息組織方式、強(qiáng)大的歷史管理、豐富的可視化表現(xiàn)和智能化的提醒推薦功能,傳統(tǒng)的層次化文件管理方式顯然不能滿足用戶的需要。為此,我們?cè)O(shè)計(jì)了基于標(biāo)簽的管理模型,以標(biāo)簽來組織數(shù)據(jù),為用戶提供了靈活的文檔分類方法和充足的文檔使用歷史記錄,同時(shí)加入了智能處理模塊分析用戶的交互歷史,適時(shí)對(duì)用戶進(jìn)行提醒和推薦,全面支持知識(shí)工作者的創(chuàng)造性活動(dòng)。
3.1 模型框架
作者分析了知識(shí)工作者的工作模型特點(diǎn),并考慮到個(gè)人信息管理是在用戶空間和數(shù)據(jù)空間之間建立映射關(guān)系,由此設(shè)計(jì)了面向知識(shí)工作者的三層個(gè)人信息管理模型。模型分為3個(gè)層次:數(shù)據(jù)層、任務(wù)層、交互層,如圖3所示。
圖3 面向知識(shí)工作者的個(gè)人信息管理模型
其中數(shù)據(jù)層存儲(chǔ)了文檔和標(biāo)簽的數(shù)據(jù),以及他們之間的相互關(guān)系:一個(gè)文檔可以有若干個(gè)標(biāo)簽來描述,一個(gè)標(biāo)簽也可以描述若干個(gè)文檔。數(shù)據(jù)層僅僅存儲(chǔ)這些信息,而不對(duì)信息進(jìn)行解釋和加工。任務(wù)層負(fù)責(zé)對(duì)這些數(shù)據(jù)進(jìn)行處理。包含信息獲取、信息加工、信息提取、歷史管理、信息分析等模塊。任務(wù)層接受交互層的具體任務(wù)指令,根據(jù)不同的指令調(diào)用不同的處理模塊。交互層描述了用戶的輸入輸出行為,事件引擎解析用戶命令,向任務(wù)層發(fā)出交互指令,并從任務(wù)層得到可視化的效果,通過可視化模塊反映給用戶。下面詳細(xì)闡述模型的每一個(gè)層次。
3.1.1 面向知識(shí)工作者的模型數(shù)據(jù)層分析
數(shù)據(jù)層存儲(chǔ)了個(gè)人的所有信息,包括管理對(duì)象本身,即用戶的文檔,和輔助管理的數(shù)據(jù)即標(biāo)簽,還有兩者間的映射關(guān)系。
(1) 標(biāo)簽的概念和使用
當(dāng)前的大多數(shù)系統(tǒng)使用樹狀結(jié)構(gòu)的層次化管理方法,如圖4所示。
圖4 層次化管理模型示意圖
論文1的位置描述為:論文->ACM->CHI->論文1。對(duì)于具有確定所屬關(guān)系的文檔,這樣的描述方式是合適的。然而現(xiàn)實(shí)生活中,很多文檔的分類雖然具備所屬關(guān)系,但關(guān)系不確定;很多文檔的分類則無法用所屬關(guān)系來描述。例如一份菜單,從口味上分,可以分為粵菜、川菜、杭幫菜等;從葷素上分,可以分為葷菜、素菜;從價(jià)格上又可以分為高中低檔,每一種分法都不能確定屬于另一種分法,因此用層次化的管理方式來分類是不科學(xué)的,一些情況下用戶無法接受。
貼標(biāo)簽是現(xiàn)實(shí)生活中描述事物的常用方法,原因在于事物本身有多個(gè)特點(diǎn),看待這些特點(diǎn)是從多個(gè)角度出發(fā)的,用多個(gè)標(biāo)簽?zāi)茏畲蟪潭确磻?yīng)事物本質(zhì)。即可以把標(biāo)簽定義為:反映事物屬性的描述。如圖5所示,看待一篇論文,從類型上看,是pdf格式,從名稱上看是論文,從論文描述的方向看,是人機(jī)交互方面的文章,標(biāo)簽同時(shí)告訴人們它至少與ACM會(huì)議和張老師與李老師兩人有關(guān)。
圖5 文檔標(biāo)簽示意圖
對(duì)于標(biāo)簽的使用可以分為兩種,一種是基于標(biāo)簽的瀏覽,即瀏覽該標(biāo)簽標(biāo)注的所有文檔,另一種是基于標(biāo)簽的查詢,即輸入標(biāo)簽關(guān)鍵詞,系統(tǒng)查找到相應(yīng)的文檔。
(2) 基于標(biāo)簽的數(shù)據(jù)組織
在計(jì)算機(jī)系統(tǒng)中,根據(jù)標(biāo)簽的生產(chǎn)者,把標(biāo)簽分為兩類:顯性標(biāo)簽和隱性標(biāo)簽,顯性標(biāo)簽由用戶主動(dòng)輸入,隱性標(biāo)簽由系統(tǒng)生成,顯性標(biāo)簽又按照數(shù)據(jù)的類型分為文本標(biāo)簽和ink標(biāo)簽。隱性標(biāo)簽由文檔使用時(shí)間標(biāo)簽組成。在本系統(tǒng)中,同樣是對(duì)文檔的描述,標(biāo)簽與Paul提出的文檔屬性[13]的不同點(diǎn)在于,Paul的屬性是“Name=Value”的形式,即每個(gè)屬性要有屬性的名稱,有的需要用戶自定義。而本文提出的標(biāo)簽概念中,屬性名稱是系統(tǒng)已知的,即對(duì)文檔時(shí)間這樣的隱性標(biāo)簽,屬性名稱為 time_prop;對(duì)于用戶自己輸入的顯性標(biāo)簽,屬性名稱為discribe_prop,兩種情況下,用戶都只需要輸入屬性值描述,而不需要輸入屬性名稱,從用戶交互角度看,顯然與Paul的系統(tǒng)有不同,為與之區(qū)別,作者把它們統(tǒng)一叫做標(biāo)簽。之所以不要用戶定義屬性名稱,是因?yàn)閷?duì)于名稱的定義就需要分類,然而分類對(duì)用戶來講往往是困難的[10]。
對(duì)一個(gè)文檔的描述,可以使用若干個(gè)標(biāo)簽:
<document>:=<ID,Name,Path,Type,ID: 文檔的全局唯一標(biāo)識(shí)符,唯一標(biāo)識(shí)文檔的身份;Name:文本形式定義的文檔的名稱,可以由用戶指定;Type:以文本形式定義的文檔的類型;Path:當(dāng)前操作系統(tǒng)的文件系統(tǒng)里,文檔的具體位置;Tag:描述文檔特征的若干標(biāo)簽,可以是3個(gè)標(biāo)簽中的任意形式。
對(duì)一個(gè)文本標(biāo)簽的描述,可以這樣表示:
<Tag_Text>:=<ID,discription>
ID:文本標(biāo)簽的全局唯一標(biāo)識(shí)符;description:以文本形式對(duì)標(biāo)簽的描述。
對(duì)一個(gè)ink標(biāo)簽,可以用如下表示:
ID:ink標(biāo)簽的全局唯一標(biāo)識(shí)符;StrokeNumber:ink標(biāo)簽里,筆劃的個(gè)數(shù);Stroke:ink標(biāo)簽里的每個(gè)筆劃;PtNumber:筆劃里點(diǎn)的個(gè)數(shù);Pt:筆劃里的每個(gè)點(diǎn);X:點(diǎn)的橫坐標(biāo);Y:點(diǎn)的縱坐標(biāo)。
對(duì)文檔使用時(shí)間標(biāo)簽的描述如下:
<Tag_Time>:=<ID,Time>
ID:時(shí)間標(biāo)簽的全局唯一標(biāo)識(shí)符;Time:系統(tǒng)記錄的文檔使用時(shí)間。
顯然,標(biāo)簽來組織數(shù)據(jù)的本質(zhì)在于標(biāo)簽與文檔間多對(duì)多的映射關(guān)系,而傳統(tǒng)的樹狀結(jié)構(gòu)父結(jié)點(diǎn)和子結(jié)點(diǎn)是一對(duì)多的關(guān)系,這正是基于標(biāo)簽組織數(shù)據(jù)的靈活性所在。
3.1.2 面向知識(shí)工作者的模型任務(wù)層分析
作者分析了知識(shí)工作者的活動(dòng),總結(jié)了知識(shí)工作者在使用信息管理系統(tǒng)時(shí)主要完成的操作,如表1所示。
作者把這些操作根據(jù)操作對(duì)象的不同以及對(duì)底層數(shù)據(jù)的影響,抽象成3個(gè)任務(wù):信息獲取、信息加工、信息抽取。這3個(gè)任務(wù)連同為智能化提供服務(wù)的歷史管理模塊和信息分析模塊一起,構(gòu)成了任務(wù)模型的5個(gè)主要部分。
信息獲取負(fù)責(zé)接受用戶的輸入,輸入分為文本形式和ink形式,前者是用戶以文本形式對(duì)文檔所做的描述,即文本標(biāo)簽,后者既包括用戶以ink形式對(duì)文檔做的描述,即ink標(biāo)簽,也包括用戶以ink形式勾畫的草圖。
表1 知識(shí)工作者對(duì)信息管理系統(tǒng)的主要操作
信息加工對(duì)新來數(shù)據(jù)進(jìn)行加工,并維護(hù)已有數(shù)據(jù)。對(duì)新數(shù)據(jù)的加工體現(xiàn)在:① 建立新文檔;② 建立新標(biāo)簽;③ 建立新文檔與已有標(biāo)簽的關(guān)聯(lián);④ 建立新標(biāo)簽與已有文檔的關(guān)聯(lián)。對(duì)已有數(shù)據(jù)的維護(hù)體現(xiàn)在:① 刪除指定文檔;② 刪除指定標(biāo)簽;③ 刪除指定文檔和標(biāo)簽間的關(guān)系;④更改已有文檔;⑤ 更改已有標(biāo)簽;⑥ 建立已有文檔與已有標(biāo)簽間的關(guān)系。
信息提取根據(jù)用戶的查詢條件,對(duì)文檔進(jìn)行查詢,查詢方式根據(jù)標(biāo)簽不同分為:基于標(biāo)簽的瀏覽、基于關(guān)鍵詞的查找、基于時(shí)間的查找。前者查詢到指定標(biāo)簽下的所有文檔;中者根據(jù)用戶輸入的關(guān)鍵詞到數(shù)據(jù)空間進(jìn)行查找,關(guān)鍵詞可以是文本形式,也可以是ink形式;后者根據(jù)文檔使用時(shí)間查找。
歷史管理負(fù)責(zé)記錄用戶和系統(tǒng)交互的歷史,為智能化的信息分析模塊提供服務(wù)。
信息分析負(fù)責(zé)對(duì)已有數(shù)據(jù)進(jìn)行分析,已有數(shù)據(jù)包括文本標(biāo)簽、ink標(biāo)簽和文檔使用時(shí)間標(biāo)簽。分析任務(wù)包括:① 根據(jù)文檔使用的時(shí)間,分析文檔的使用周期;② 根據(jù)文檔使用的時(shí)間,分析與該文檔具有時(shí)間相關(guān)性的其他文檔有哪些;③ 根據(jù)文檔間標(biāo)簽的重疊性,對(duì)文檔進(jìn)行聚類。對(duì)3個(gè)分析策略的描述在后面詳細(xì)展開。任務(wù)模型如圖6所示。
圖6 任務(wù)分析圖
3.1.3 面向知識(shí)工作者的模型交互層分析
交互層里主要包括事件引擎和可視化表達(dá)。
用戶對(duì)計(jì)算機(jī)的操作,連同交互歷史一起,通過事件引擎的解析,形成系統(tǒng)可以執(zhí)行的若干操作指令,發(fā)送給任務(wù)層進(jìn)行任務(wù)的執(zhí)行。執(zhí)行后的結(jié)果,交給可視化模塊反映給用戶。
可視化模塊負(fù)責(zé)顯示管理層提交的可視化結(jié)果,根據(jù)不同的結(jié)果選擇不同的可視化策略。主界面是基于時(shí)間流隱喻的時(shí)間線界面,它的好處在于支持知識(shí)工作者工作的時(shí)間連續(xù)性特點(diǎn),由于時(shí)間線隱喻屬性單一,本系統(tǒng)還增加了對(duì)文檔基于標(biāo)簽的查詢。根據(jù)上圖輸出結(jié)果,可視化部分選擇不同的可視化策略,如圖7所示。如果 ?t i ≤ ?Tmax ,? T max是系統(tǒng)定義的最大周期偏差,即可以認(rèn)為文檔在最近的N次使用中,存在周期性,并定義t為平均間隔時(shí)間
圖7 可視化策略
3.2 面向知識(shí)工作者的PIM模型的管理策略
由于知識(shí)工作者工作中具有創(chuàng)造性特點(diǎn),他們?cè)谒伎紗栴}是信息為驅(qū)動(dòng)的發(fā)散性思維,這就要求個(gè)人信息管理系統(tǒng)能夠充分分析用戶交互歷史的數(shù)據(jù),從中提取到用戶的思維特點(diǎn)。作者用標(biāo)簽來全面描述了文檔,對(duì)標(biāo)簽進(jìn)行分析,從中發(fā)現(xiàn)用戶行為的特點(diǎn)。
3.2.1 文檔時(shí)間關(guān)聯(lián)分析
(1) 文檔周期性分析
文檔的周期性分析目的是找到文檔使用時(shí)間是否存在規(guī)律性,如果存在,則找到規(guī)律并且預(yù)測(cè)文檔下一次的使用時(shí)間,屆時(shí)進(jìn)行文檔推薦。周期性分析使用了文檔使用時(shí)間標(biāo)簽。系統(tǒng)在文檔每一次使用的時(shí)候,記錄下使用的時(shí)間。
將文檔的使用時(shí)間序列用t來表示,定義N為用來進(jìn)行分析的最近時(shí)間個(gè)數(shù),比如,N=5即表示分析最近5次文檔使用時(shí)間。定義Nmax為文檔使用時(shí)間序列的個(gè)數(shù)。如果 N >Nmax,則不進(jìn)行分析;如果N≤Nmax,則按時(shí)間從遠(yuǎn)到近,對(duì)N個(gè)時(shí)間進(jìn)行排序:t0…tN-1,計(jì)算N-1個(gè)時(shí)間間隔:Δt0…ΔtN-2,其中Δti=ti+1-ti(i=0…N-2),對(duì)這 N-1個(gè)值,計(jì)算相鄰兩者的差的絕對(duì)值:在文檔最近使用時(shí)間的間隔后,進(jìn)行系統(tǒng)推薦。如圖8所示。
圖8 文檔周期性分析流程圖
(2) 文檔間時(shí)間關(guān)聯(lián)分析
文檔間時(shí)間關(guān)聯(lián)分析目的是找到所有與給定文檔有時(shí)間相關(guān)性的文檔。在給定文檔被激活時(shí),系統(tǒng)找到與給定文檔具有時(shí)間相關(guān)性的文檔,進(jìn)行推薦。時(shí)間管理性分析利用了文檔使用時(shí)間標(biāo)簽。
作者將給定文檔的使用時(shí)間用t0來表示,定義N為用來進(jìn)行分析的最近時(shí)間個(gè)數(shù),比如,N=5即表示分析最近 5次給定文檔使用時(shí)間。定義Nmax為文檔使用時(shí)間序列的個(gè)數(shù)。如果N >Nmax則不進(jìn)行分析;如果N≤Nmax,則按時(shí)間從遠(yuǎn)到近,對(duì)N個(gè)時(shí)間進(jìn)行排序:t0…tN-1。對(duì)于每個(gè)ti(0≤i≤N-1),計(jì)算ti附近的兩個(gè)時(shí)間ti1和ti2,其中ti1= ti-Δt,ti2= ti+Δt,Δt是系統(tǒng)給定的時(shí)間范圍正參數(shù),并向文檔搜索引擎查詢使用時(shí)間為ti≤t≤t2的文檔集合Ci(0≤i≤N-1)。求文檔集合Ci(0≤i≤N-1)的交集則集合C即是與給定文檔具有相關(guān)性的文檔集合,如圖9所示。
圖9 文檔間關(guān)聯(lián)分析流程圖
3.2.2 文檔聚類分析
文檔聚類分析目的是找出與給定文檔具有標(biāo)簽相關(guān)性的文檔集合,在用戶激活給定文檔時(shí),系統(tǒng)找到該集合,并進(jìn)行推薦。文檔聚類分析使用了文檔的文本標(biāo)簽和ink標(biāo)簽。
作者將給定文檔的文本標(biāo)簽和ink標(biāo)簽統(tǒng)一用G表示。定義N為給定文檔的標(biāo)簽個(gè)數(shù),比如N=5即表示該文檔有5個(gè)標(biāo)簽有待分析。對(duì)于每一個(gè)標(biāo)簽通過標(biāo)簽查詢引擎,查詢到擁有標(biāo)簽 Gi的文檔集合 Ci,對(duì)于出現(xiàn)在 Ci中的每一個(gè)文檔 Dj,記錄下他出現(xiàn)次數(shù)tj,如果 tj≥Tmin(Tmin系統(tǒng)定義的文檔出現(xiàn)最小次數(shù))即可以認(rèn)為文檔Dj與給定文檔存在著標(biāo)簽相關(guān)性,并且根據(jù)標(biāo)簽 Gi,可以建立起以Gi為中心的相關(guān)集合。
系統(tǒng)主界面如圖10所示,共有8個(gè)區(qū)域。
圖10 系統(tǒng)主界面
(1) 為時(shí)間線界面 按時(shí)間由近及遠(yuǎn)顯示出用戶用過的文檔。這里也按時(shí)間顯示查詢出的文檔。
(2) 對(duì)時(shí)間線界面的瀏覽方式 可以按天、周、月為時(shí)間段進(jìn)行瀏覽。圖 10中例子是按天進(jìn)行瀏覽。
(3) 顯示文檔所標(biāo)注的標(biāo)簽 當(dāng)選中一個(gè)文檔時(shí),顯示該文檔所標(biāo)注的標(biāo)簽。圖 10中選中了“用戶建模.ppt”文檔,與它關(guān)聯(lián)的標(biāo)簽顯示在這里,有3個(gè)文本標(biāo)簽和一個(gè)ink標(biāo)簽。用戶可以在(5)中進(jìn)行文檔和標(biāo)簽的關(guān)聯(lián)操作。
(4) 對(duì)文檔進(jìn)行基于標(biāo)簽的查詢 可以按兩種情況進(jìn)行文檔查詢:文本標(biāo)簽和ink標(biāo)簽,查詢后的結(jié)果按最后使用時(shí)間顯示在時(shí)間線界面(1)中。該區(qū)域進(jìn)行一個(gè)標(biāo)簽的查詢,在(6)區(qū)域中,可以有多個(gè)標(biāo)簽的復(fù)雜查詢。
(5) 對(duì)標(biāo)簽的操作 對(duì)標(biāo)簽的操作包括:建立標(biāo)簽與文檔的關(guān)聯(lián),刪除標(biāo)簽與文檔的關(guān)聯(lián),標(biāo)簽庫(kù)的管理。
(6) 用戶對(duì)文檔的主要操作 對(duì)文檔主要操作包括:打開、新建、刪除、復(fù)制、粘貼、查詢。其中,查詢部分可以彈出新界面,對(duì)文檔進(jìn)行多個(gè)標(biāo)簽的復(fù)雜查詢。
(7) 系統(tǒng)對(duì)用戶進(jìn)行的文檔推薦 系統(tǒng)分析用戶所選的文檔,找到與該文檔具有時(shí)間相關(guān)性或標(biāo)簽相關(guān)性的文檔,在這里進(jìn)行提醒和推薦。
(8) 用戶自定義的置頂標(biāo)簽 用戶感興趣的標(biāo)簽和最近工作常用到的標(biāo)簽,都可以由用戶放在該區(qū)域。當(dāng)用戶選擇一個(gè)標(biāo)簽時(shí),(1)界面將按時(shí)間顯示具有該標(biāo)簽的所有文檔。
綜上所述,原型系統(tǒng)反應(yīng)了模型的諸多特點(diǎn):支持知識(shí)工作者工作中時(shí)間連續(xù)性特點(diǎn);支持知識(shí)工作者對(duì)文檔進(jìn)行靈活分類;分析知識(shí)工作者使用過文檔的特點(diǎn),對(duì)他們進(jìn)行文檔推薦。
為了評(píng)估本原型系統(tǒng)設(shè)計(jì),作者進(jìn)行了定性的用戶研究。在實(shí)驗(yàn)室范圍內(nèi)以自愿報(bào)名的方式選擇了8名被試(包括3名女性,5名男性,均有5年以上計(jì)算機(jī)使用經(jīng)驗(yàn))。每名被試用時(shí)40分鐘,其中包括3分鐘的簡(jiǎn)單介紹和10分鐘的自由探索,在進(jìn)一步講解用戶在自由探索階段未發(fā)現(xiàn)的功能之后,要求被試完成兩組共 12個(gè)任務(wù),包括:① 基本操作,如新建,刪除,復(fù)制,粘貼等;② 高級(jí)操作,如編輯標(biāo)簽,查詢等。實(shí)驗(yàn)完成之后,每名被試被要求完成一份5分量度的主觀滿意度調(diào)查問卷,問題范圍包括易學(xué)性、使用愉悅性、趣味性、能否完成任務(wù)以及使用效率。在試用本系統(tǒng)進(jìn)行日常工作一周后,每名被試完成第二份調(diào)查問卷,第二份調(diào)查問卷除涵蓋第一份問卷中關(guān)于愉悅性,趣味性,效率3項(xiàng)內(nèi)容之外,還包括兩個(gè)針對(duì)特定功能的問題:① 標(biāo)簽策略對(duì)查詢是否有較好的輔助作用?②系統(tǒng)的文檔推薦是否準(zhǔn)確?
問卷結(jié)果分析顯示:本原型系統(tǒng)易于學(xué)習(xí)(4.5/5),用戶能夠完成指定的任務(wù)(4.5/5),用戶認(rèn)為使用過程較為愉悅,交互過程也比較有趣(4/5 4.1/5),使用效率可以接受(3.9/5),經(jīng)過一周的試用后,用戶的使用效率有明顯提高(4.4/5),愉悅度也有一定提高(4.3/5)。另外,用戶普遍認(rèn)為標(biāo)簽策略對(duì)查詢有較好的輔助作用(4.1/5),系統(tǒng)的文檔推薦較為準(zhǔn)確(4/5)。
本文分析了知識(shí)工作者的活動(dòng)模型,提出了面向知識(shí)工作者的個(gè)人信息管理系統(tǒng)應(yīng)具備的功能特點(diǎn),建立了適合知識(shí)工作者的個(gè)人信息管理模型,在3個(gè)層次進(jìn)行了闡述。建立的原型系統(tǒng)取得了不錯(cuò)的效果。隨著普適計(jì)算技術(shù)的不斷發(fā)展,知識(shí)工作者為了更大地激活創(chuàng)造力,對(duì)計(jì)算機(jī)必定有更高的要求,希望為創(chuàng)造力的發(fā)揮有更好的支持,同時(shí)他們?cè)谑褂萌找嫱晟频挠?jì)算服務(wù)時(shí),工作也必將具有新的特點(diǎn)。如何發(fā)現(xiàn)這些特點(diǎn),如何針對(duì)這些特點(diǎn)滿足他們的需要,如何設(shè)計(jì)更好的智能化服務(wù)為用戶提供智能支持,將是今后的主要研究方向。
[1] William Jones, Harry Bruce. A report on the NSF sponsord, workshop on personal information management [EB/OL]. http://pim.ischool.washington. edu/final PIM report.pdf. 2005.
[2] Vannevar Bush. As we may think [J]. ACM Interactions Magazine, 1996, 3(2): 35-46.
[3] Alison Kidd. The marks are on the knowledge worker[C]//Proc. CHI 1994, ACM Press, 1994: 186-191.
[4] Eyal Oren. An overview of information management and knowledge work studies: Lessons for the semantic desktop[C]//Semantic Desktop Workshop at ISWC 2006, Athens, Georgia, 2006: 3-11.
[5] Jones W, Phuwanartnurak A J, Gill R, et al. Don’t take my folders away! organizing personal information to get things done[C]//Proc. CHI 2005, ACM press, 2005: 1505-1508.
[6] Fertig S, Freeman E, Gelernter D. Lifestreams: an alternative to the desktop metaphor[C]//Proc. CHI 1996, ACM Press, 1996: 410-411.
[7] Scott Fertig, Eric Freeman, David Gelernter. “Finding and reminding”reconsidered[C]//The SIGCHI Bulletin 1996, ACM Press, 1996: 66-69.
[8] Catherine Plaisant, Brett Milash, Anne Rose, et al. LifeLines: visualizing personal histories[C]//Proc. CHI, 1996: 221-227.
[9] Jim Gemmell, Gordon Bell, Roger Lueder, et al. MyLifeBits: fulfilling the memex vision[C]//Proc. of the tenth ACM International Conference on Multimedia, ACM Press, 2002: 235-238.
[10] Malone T W. How do people organize their desks:implications for the design of office information-systems [J]. ACM Transactions on Information Systems, 1983, 1(1): 99-112.
[11] Richard Mander, Gitta Salomon, Yin Yin Wong. A‘Pile’ metaphor for supporting casual organization of information[C]//Proc. CHI 1992, ACM Press, 1992: 627-634.
[12] Anand Agarawala, Ravin Balakrishnan. Keepin’ it real: pushing the desktop metaphor with physics, piles and the pen[C]// Proc. CHI 2006, ACM Press, 2006: 1283-1292.
[13] Paul Dourish, W. Keith Edwards, Anthony LaMarca, et al. Presto: an experimental architecture for fluid interactive document spaces[C]//ACM TOCHI, 1999: 133-161.
[14] Paul Dourish, W. Keith Edwards, Anthony LaMarca, et al. Using properties for uniform interaction in the presto document system[C]//Proc. of the 12th Annual ACM Symposium on User Interface Software and Technology, ACM Press, 1999: 55-64.
[15] Wisam Dakka, Panagiotis G Ipeirotis, Kenneth R Wood. Automatic construction of multifaceted browsing interfaces[C]//Proc. of the 14th ACM CIKM, ACM Press, 2005: 768-775.
[16] Ofer Bergman, Ruth Beyth-Marom, Rafi Nachmias. The project fragmentation problem in personal information management[C]//Proc. CHI 2006, ACM Press, 2006: 271-274.
[17] Boardman R, Sasse M A. "Stuff goes into the computer and doesn't come out" A cross-tool study of personal information management[C]//ACM SIGCHI Conference on Human Factors in Computing Systems (CHI 2004), 2004: 583-590.
[18] Edward Cutrell, Daniel C Robbins, Susan T Dumais, et al. Fast, flexible filtering with phlat[C]//Personal Search and Organization Made Easy, ACM CHI, 2006: 261-270.
[19] David K Gifford, Pierre Jouvelot, Mark A Sheldon, et al. Semantic file systems[C]//Proceedings of 13th ACM Symposium on Operating Systems Principles, Association for Computing Machinery SIGOPS, 1991: 16-25.
[20] Sarah Henderson. How do people organize their desktops?[C]//Proc. CHI 2004, ACM Press, 2004: 1047-1048.
[21] Jones W. et al. “It’s about the information stupid!”: why we need a separate field of human-information interaction[C]//Proc. CHI 2006, ACM Press, 2006: 65-68.
[22] Kaptelinin V UMEA. Translating interaction histories into project contexts[C]//Proc. CHI 2003, ACM Press, 2003: 353-360.
[23] Joseph Kaye, et al. To have and to hold: exploring the personal archive[C]//Proc. CHI 2006, ACM Press, 2006: 275-284.
[24] Nardi B, Barreau D. "Finding and reminding" revisited : appropriate metaphors for file organization at the desktop [J]. ACM SIGCHI Bulletin, 1997, 29(1): 76-78.
[25] Robertson G, Van Dantzich M, Czerwinski M, et al. The task gallery: a 3D window manager [C]//Turner T, Szwillus G. Proceedings of the CHI 2000 Conference on Human Factors in Computing Systems. New York, ACM Press, 2000: 494-501.
[26] Daniel E Rose, Richard Mander, Tim Oren, et al. Content awareness in a file system interface: implementing the “pile” metaphor for organizing information[C]//Proc. IR1993, ACM Press, 1993: 260-269.
Knowledge Worker Oriented Personal Information Management Model
CHEN Ming-xuan, ZHOU Ming-jun, TIAN Feng, DAI Guo-zhong
( Intelligence Engineering Lab, Institute of Software Chinese Academy of Sciences, Beijing 100190, China )
In order to allow knowledge workers to manage their personal information flexibly, sequentially and intelligently, a model for managing personal information model is proposed. First, the features of the knowledge workers for managing personal information are analyzed. Next, the architecture of the model is provided and the structure of it is described. Some tag-based, personal-information recommendation methods are introduced later. Finally, the evaluation results of the overall system show that the model could meet the knowledge workers’requirements for managing personal information.
computer application; personal information management model; tag; knowledge worker
TP 391
A
1003-0158(2010)03-0176-11
2008-08-16
國(guó)家自然科學(xué)基金資助項(xiàng)目(60503054);(U0735004);國(guó)家“863”高技術(shù)研究發(fā)展計(jì)劃項(xiàng)目基金(2007AA01Z158)
陳明炫(1982-),男,內(nèi)蒙古包頭人,博士研究生,主要研究方向?yàn)槿藱C(jī)交互,筆式計(jì)算,個(gè)人信息管理。