王倩倩
(中國艦船研究設(shè)計(jì)中心,湖北武漢,430064)
檔案服務(wù)依賴于一定的檔案資源,檔案資源的收集是檔案工作的基礎(chǔ)性工作之一。檔案資源的積累最主要的途徑有征集和接受移交,后者在檔案資源建設(shè)中的地位尤其重要。檔案移交的理論基礎(chǔ)是文件生命周期理論。文件生命周期理論對文件運(yùn)動的全程加以描述,對相關(guān)文檔工作起到了巨大的理論指導(dǎo)作用,但是,這一理論也存在著一定的問題。本文在承認(rèn)文件生命周期理論的前提下,基于信息生命周期的概念,提出了一種新的文件保存策略動態(tài)確定方法,以指導(dǎo)文獻(xiàn)歸檔工作的開展。
關(guān)于文件生命周期的確定,很早就有基于利用情況的確定策略:法國檔案局《檔案學(xué)教程-法國公共檔案館理論與實(shí)踐》(1970)根據(jù)文件的活躍程度劃分為活躍期、半活躍期、不活躍期;西班牙埃雷拉在《檔案學(xué)概論》(1991)中根據(jù)對文件的管理次數(shù)劃分生命周期。巴斯克斯批評了這種看法,認(rèn)為這種根據(jù)利用情況劃分文件生命周期的策略同文件(檔案)的價(jià)值本質(zhì)是矛盾的[1]。巴斯克斯的提法得到了廣泛的接受,學(xué)界都比較贊同根據(jù)文件反映事件的效用期以及文件對事件反映價(jià)值來確定文件生命周期。
隨著電子文件的盛行,一旦建立文檔管理系統(tǒng)和文檔資源,文檔的檢索、調(diào)用、傳遞,其邊際成本非常小,這使得原先橫亙于各個(gè)機(jī)構(gòu)間的文件調(diào)用和傳遞的障礙不再存在;另外,在電子文件時(shí)代,很多機(jī)構(gòu)在處置文件時(shí)也不再過多的銷毀,甚至有些機(jī)構(gòu)已經(jīng)不再銷毀文件,只是采取成本更低(同時(shí)存取效率相對較差)的設(shè)備存儲這些文件罷了。這種環(huán)境下,文件的生命周期不再是原先的各個(gè)階段分離的情況,僅從文件自身來看,各個(gè)階段的文檔處置情況是同質(zhì)的。由此,根據(jù)利用情況來考察文檔的生命周期是可行的。
正是基于對上述問題的考慮,本文引入了信息生命周期理論,旨在通過對文件相關(guān)屬性(特別是文件的利用情況)的考察確定文件的運(yùn)動階段。本文接下來的安排如下:在第二節(jié),本文將對相關(guān)概念以及相關(guān)研究進(jìn)行介紹;第三節(jié),提出文件保管的最優(yōu)化策略,以作為后面的具體方法的參照物;第四節(jié)介紹本方法的理論框架,第五節(jié),通過具體方法的引入實(shí)現(xiàn)這一框架;最后一節(jié),對本文提出的方法進(jìn)行總結(jié)。
(一)文件生命周期理論
文件生命周期這一概念最早由菲利普布魯克斯提出,羅吉爾艾利斯基于布魯克斯的思想提出了文件運(yùn)動的三階段理論,但直到此時(shí),文件運(yùn)動理論仍然只是作為文件中心的依據(jù)而提出。20世紀(jì)80年代,阿根廷學(xué)者M(jìn)anuel 在前人研究的基礎(chǔ)上,系統(tǒng)的論述了文件生命周期理論,通過Manuel及其他學(xué)者的工作,文件生命周期理論不僅僅是作為文件中心的依據(jù)而存在,而擴(kuò)展為描述文件運(yùn)動和相關(guān)管理工作的系統(tǒng)理論[2]。
文件生命周期理論可以簡單的表述為:文件從其形成到銷毀或永久保存是一個(gè)整體運(yùn)動過程;文件的整體運(yùn)動過程由于文件價(jià)值形態(tài)的變化可劃分為若干階段;不同階段的文件與服務(wù)對象、保存場所和管理方式之間存在著內(nèi)在的對應(yīng)關(guān)系[3]。
文件生命周期理論隨著電子文件的興起,也遭遇了一些挑戰(zhàn),如電子文件運(yùn)轉(zhuǎn)的迭代過程對周期理論的挑戰(zhàn)、新興的管理方式帶來的對于文件生命周期理論的質(zhì)疑等等。盡管如此,文件生命周期理論由于其理論價(jià)值仍然作為檔案學(xué)的基礎(chǔ)理論而存在。
(二)信息生命周期
對于信息生命周期理解,人們有多種理解,但是其基本思想都是一樣的,信息的生命周期是指信息從生成到其價(jià)值完全失去的整個(gè)時(shí)間區(qū)間[4],不同理解的差異在于如何理解信息的價(jià)值。例如:對于情報(bào)學(xué)科而言,價(jià)值更多的通過用戶的利用體現(xiàn),而對于計(jì)算機(jī)學(xué)科而言,價(jià)值更多的體現(xiàn)為信息本身的固有價(jià)值。
信息生命周期理論在多個(gè)場合都有應(yīng)用,如文獻(xiàn)老化分析[5]、搜索引擎中的網(wǎng)頁回訪策略的確定[6]等等。
本節(jié)提出文檔管理的最優(yōu)化策略。
根據(jù)文件生命周期理論,文件的整體運(yùn)動過程由于文件價(jià)值形態(tài)的變化可劃分為若干階段;不同階段的文件與服務(wù)對象、保存場所和管理方式之間存在著內(nèi)在的對應(yīng)關(guān)系。一般而言,現(xiàn)行階段的文件保存在業(yè)務(wù)機(jī)關(guān),半現(xiàn)行文件由檔案室(文件中心)保存,非現(xiàn)行文件保存于檔案館。不同的場所保存文件有著不同的存儲代價(jià)(記為se(?,保存場所))和使用代價(jià)(記為ue(?,保存場所)),各類型保存場所的存儲代價(jià)和使用代價(jià)關(guān)系表示如下表1:
假定一種保存策略下,保存方案所帶來的總成本為E,則有:
最優(yōu)化的策略使得E最小化。
最優(yōu)化策略是理想狀態(tài)的,在實(shí)際上很難實(shí)現(xiàn),原因如下:
首先,不存在一種策略能夠準(zhǔn)確的預(yù)測文件在未來的使用情況。文件在未來的利用情況永遠(yuǎn)是未知的。管理者也只能通過該類型文件或者該文件的歷史使用數(shù)據(jù)預(yù)測其在未來可能的使用情況。
其次,利用代價(jià)和存儲代價(jià)都難以確定一個(gè)準(zhǔn)確的數(shù)值。以存儲代價(jià)舉例,隨著文件存儲數(shù)量的上升,在某一個(gè)階段,存儲一份文件的邊際成本是0,對存儲代價(jià)的測算只能是一個(gè)大概的數(shù)值。(存儲代價(jià)與文件數(shù)量的關(guān)系圖可以形象化的表示如圖1)
表1
圖1 文件存儲的總成本和邊際成本示意圖
另外,最優(yōu)化的策略存在著操作上可能難以解決的困難,其中之一便是各個(gè)場所所能保存的文件數(shù)量是有限的,這使得最優(yōu)化策略所得出的文件保管計(jì)劃難以實(shí)現(xiàn),例如,按照最優(yōu)化策略,可能有1000份文件需要在文件形成機(jī)構(gòu)保存,但由于人員設(shè)備的原因,文件保存機(jī)構(gòu)最多只能保存800 份文件,這樣多出來的200份文件就不得不進(jìn)入其他場所保存。
最優(yōu)化策略是理想的,在實(shí)際操作中很難實(shí)現(xiàn)。但是,最優(yōu)化策略可以作為各種具體實(shí)現(xiàn)策略的參照物。
本文的目標(biāo)是構(gòu)建一種具體策略以確定文件的運(yùn)動階段,它的出發(fā)點(diǎn)是文件保管的最優(yōu)化策略,即是得保管策略帶來的成本最小化,為了使得提出的策略易于實(shí)現(xiàn),本文將忽略對存儲成本和利用成本具體數(shù)值的計(jì)算。
ILDM方法基于這樣的假設(shè):
文件的價(jià)值可以通過它的利用情況得以反映。(假設(shè)1)
利用情況具體包括文件的利用頻次和利用人群。正如宏觀鑒定理論所給出的假設(shè)一樣,我們假定人們沒有辦法直接確定文件的價(jià)值,文件的價(jià)值來自于人們對其的利用,以及利用所帶來的效用。鑒于文件利用的效用沒有辦法考察,本文僅僅考察文件的利用者以及利用頻次。
假設(shè)1 雖然看起來不盡合理——人們似乎可以用多種標(biāo)準(zhǔn)評判文件的價(jià)值,比如文件的形成者、文件的發(fā)布機(jī)關(guān)等等,但是作為文件歸檔策略,本文提出的方法并不需要考察這些指標(biāo),因?yàn)槲募欠裥枰獨(dú)w檔,在于其所處的生命周期階段,而階段的確定,深層次的標(biāo)準(zhǔn)是文件的效用和價(jià)值,也就是說引起文件階段性變化的深層次原因是文件價(jià)值形態(tài)的規(guī)律性變化,這種價(jià)值正是文件對于利用者需要的滿足[7]。當(dāng)然,本文不否認(rèn)其他指標(biāo)對文件運(yùn)動的影響。作為一種歸檔時(shí)間的確定方法,本文將重點(diǎn)考察文件的利用頻次和利用者這兩個(gè)數(shù)據(jù)項(xiàng)。
基于假設(shè)1,本文提出了基于信息生命周期的文獻(xiàn)歸檔時(shí)間確定方法(ILDM)。該方法的思想是這樣的:文件自生效發(fā)布開始,即進(jìn)入了現(xiàn)行階段;文件的利用者和利用頻次可以用于區(qū)分文檔運(yùn)行階段,文檔價(jià)值類型可以從文檔利用者類型的變化得到反映;文件有多種價(jià)值,單獨(dú)考察某一種價(jià)值,基于此價(jià)值判斷,如果文件長期得不到利用,則此后該文件利用的概率也會相對較低。
下面具體介紹文件利用頻次和文件利用者類型兩個(gè)指標(biāo)。
(一)文件利用頻次對于確定文件生命周期運(yùn)營階段的作用
為了闡述方便,下文將采用更加形式化的表示:文檔集合D 中的某份文檔di,i 為d 在D 中的編號,t時(shí)刻的文檔表示為di(t)。di(·)屬于某一文件運(yùn)行階段,表示為S(di),文件所有可能處于的階段表示為S(·)={“現(xiàn)行”;“半現(xiàn)行”;“非現(xiàn)行”};ILDM 用于確定文檔的運(yùn)行階段;文件的初始狀態(tài)為現(xiàn)行階段,即S(d(0))=“現(xiàn)行”。為了確定di 的運(yùn)行階段,本文引入文檔年齡這一概念,表示為Age(di,t),即在時(shí)間t的時(shí)候di的文檔年齡,文檔的年齡越大,意味著文檔更有可能出于半現(xiàn)行和非現(xiàn)行階段,文件初始年齡為0。
文件都不是孤立存在的,多份文件因某種聯(lián)系構(gòu)成集合,在文件歸檔時(shí)間的確定上,很多時(shí)候我們需要根據(jù)文檔集合的年齡。因此需要對于文檔集合的年齡進(jìn)行定義。定義文檔集合的年齡如下:
W(di)用于衡量文件在文件集合中的重要性,如果不考慮文件重要性的不同,則對于D 總的任一文檔d,W(d)都為1。
(二)文件利用群體對于文件運(yùn)動生命周期確定的作用
正如前文所述,文件運(yùn)動周期變化的深層次屬性是檔案價(jià)值屬性的內(nèi)在變化。價(jià)值是客體(文件)對利用者(包括制作人和利用人)需求的滿足。我們沒有辦法從文件自身知道文件的價(jià)值屬性,只能通過文件的利用情況——被什么人、以什么目的利用。因此,通過分析文件利用群體類型可以間接的探求文件價(jià)值屬性的變化。
分析文件利用者群體的前提是對文件利用者情況的統(tǒng)計(jì),當(dāng)然,對于公開文件而言,用戶類型的數(shù)據(jù)是很難獲得的,但對于政府內(nèi)部文件而言,文件利用情況通常是可以獲得的,檔案館在提供檔案服務(wù)的過程中也會對使用者數(shù)據(jù)進(jìn)行一定的統(tǒng)計(jì)。
通過分析文件的利用這類型的變化可以反映不同時(shí)刻文件所呈現(xiàn)的主要價(jià)值類型的變化,一般而言,在文件發(fā)布前期,文件多由相關(guān)業(yè)務(wù)人員使用,而在后期,文件更多的作為參考數(shù)據(jù)或者研究資料出現(xiàn),這時(shí)候,其他業(yè)務(wù)人員以及科研學(xué)者在文件使用者中的比重會逐漸提升。通過分析文件利用者類型的變化可以在一定程度上發(fā)現(xiàn)文件價(jià)值類型的變化情況。
另外,需要注意的是,通過對上述模型的簡化,可以得到現(xiàn)行通用的文件歸檔模式。給出一個(gè)假設(shè),即新發(fā)布的文件被業(yè)務(wù)人員利用的概率更高,不同文件分享同樣的利用概率,隨著時(shí)間推移,業(yè)務(wù)人員使用文件的概率下降,而其他人員利用文件的概率上升?;谶@樣的假設(shè),同類型文件有著相同的歸檔期限,而這正是現(xiàn)行的文件歸檔模式。
第四節(jié)已經(jīng)給出了ILDM方法的框架,但是有一個(gè)關(guān)鍵問題卻沒有得到解決:文檔年齡該如何確定。本節(jié)將詳細(xì)論述文檔年齡的確定方法。
當(dāng)文檔首次發(fā)布利用時(shí),毫無疑問文檔是處于現(xiàn)行階段的,此時(shí),將文檔年齡Age(d)置為0。一旦文檔發(fā)布,文檔的年齡就開始上升,當(dāng)文檔年齡超過一定期限以后,也就意味著文檔過于老化,其所處的文件生命周期階段發(fā)生了變化。
有多種方法可以用于計(jì)算文檔年齡,本文介紹其中的兩種:基于平均值的計(jì)算方法和基于函數(shù)擬合的方法。兩種方法都依托于文件的利用數(shù)據(jù)提出。
5.1 文件利用情況統(tǒng)計(jì)數(shù)據(jù)
文檔利用情況統(tǒng)計(jì)數(shù)據(jù)既可以采用文檔累積利用頻次的形式,也可以將某段時(shí)間內(nèi)文檔利用情況轉(zhuǎn)化為0和1的二元形式表示。
圖2 二元形式數(shù)據(jù)的直觀表示圖
表1 文檔利用頻次數(shù)據(jù)
(一)二元表示方法
定義u(di,t),用于記錄文件的利用情況,u(di,t)定義如下:
定義了u(di,t)以后,則文檔的利用情況可以表示如圖2,橫坐標(biāo)表示時(shí)間t,藍(lán)色線條表示對應(yīng)的時(shí)間t時(shí),文件di得到了利用。
通過對各個(gè)時(shí)間段的文檔利用情況的分析,可以得到連續(xù)的文檔利用頻次數(shù)據(jù)u(di,t0)、u(di,t1)、u(di,t2)……u(di,tn)。一份文件的時(shí)序利用數(shù)據(jù)構(gòu)成該文檔的利用情況統(tǒng)計(jì)數(shù)據(jù)
(二)文檔累積利用頻次
文檔累積利用頻次是對該文檔利用頻次的累積量的統(tǒng)計(jì)量。文檔利用頻次統(tǒng)計(jì)從某個(gè)初始時(shí)間t0開始,從t0開始,知道某個(gè)時(shí)間t,將其分 為m 段,依 次 表 示 為t0,t1,t2,……,時(shí)間區(qū)段構(gòu)成集合T,|T|表示T 中元素的個(gè)數(shù)。截至tn(n為變量,且0≤n≤m-1)的文檔利用累積頻次表示為u(d,tn),意味著從t0開始到tn止該文檔的利用頻次為u(d,tn)。
ILDM 策略工作時(shí),將維護(hù)對每個(gè)文檔累積利用頻次u(d,tn)的記錄,并對其持續(xù)更新,每當(dāng)文件得到利用時(shí),相關(guān)的u(d,tn)將得到更新,或者一個(gè)新的u(d,tn)將被創(chuàng)建,并與該文檔相關(guān)聯(lián)。
5.2 基于利用頻次平均值的計(jì)算方法
基于頻次平均值的方法相對簡單,它是一種啟發(fā)式的方法,根據(jù)經(jīng)驗(yàn)得出。它的思路是是:文檔年齡與利用頻次、文檔發(fā)布時(shí)間相關(guān),與前者呈反相關(guān)關(guān)系,與后者呈正相關(guān)關(guān)系,即平均頻次越高,年齡越小,反之越大,文檔發(fā)布時(shí)間越長,年齡越大,反之越小。
計(jì)算文檔d利用頻次的平均值uˉ(d,t),給定一個(gè)閥值λ,文檔d 的文檔年齡計(jì)算為:
假設(shè)兩個(gè)文獻(xiàn)的利用數(shù)據(jù)如表1所示,設(shè)定閥值λ為300,則兩個(gè)文檔的年齡增長曲線表示如圖3。
基于利用頻次數(shù)據(jù)平均值的方法較易理解和實(shí)現(xiàn),但是它也存在著較大的不足,而這一不足本身是由平均值的特性帶來的,它不考慮文檔利用概率分布的具體類型,使得在年齡計(jì)算上容易出現(xiàn)問題。例如,某一文檔在早期得到了大量的利用,但在后期卻幾乎在沒有使用過,但是由于早期利用頻次過高,其文檔年齡將長期處于較低的數(shù)值,這顯然是不合理的。5.3 提出的方法將部分的解決這一問題,當(dāng)然效果的改進(jìn)也會帶來實(shí)現(xiàn)上的困難。
圖3 文檔年齡增長曲線
5.3 基于函數(shù)擬合的計(jì)算方法
函數(shù)擬合的方法首先需要通過歷史數(shù)據(jù)得到頻次分布的概率分布類型,這可以通過數(shù)據(jù)擬合的方式獲得。不同類型的文件擁有不同的分布模型,對于利用頻次較小的文件,簡單的線性擬合就可以取得一定效果,但對于有著較多利用頻次的文件,如常常為公眾所查閱的文件,指數(shù)分布或者冪律分布更為常見[8]。當(dāng)然,具體何種分布,還需要針對特定文件的歷史使用數(shù)據(jù)加以分析得到。
本節(jié)介紹一種較為常見的分布,其他分布的處理思路也是類似的。
已經(jīng)有研究證明,對于公開性的web 文件,其訪問量分布符合冪律分布。給定文檔d,d利用頻次符合冪律分布,則形式化的表示為:
β可以通過對歷史數(shù)據(jù)的分析得到,對于web文件,β一般為-1.5±0.1[9]。
給定t,可以得到,在t 時(shí)間段內(nèi),該文件的利用頻次的一個(gè)估計(jì)。設(shè)定一個(gè)閥值λ。
同5.2 節(jié)一樣,基于啟發(fā)式的方法,給出一個(gè)經(jīng)驗(yàn)性的公式。
α是與t-β相關(guān)的系數(shù)。
上述計(jì)算是基于分段時(shí)間進(jìn)行的,為了將實(shí)際時(shí)間計(jì)算進(jìn)去,以t1表示每個(gè)時(shí)間段的長度,得到公式4。
鑒于文件生命周期理論在應(yīng)用中的某些不足之處,本文提出了基于信息生命周期的文件生命周期動態(tài)確定策略(ILDM),以動態(tài)的確定文件的運(yùn)行狀態(tài),從而更好的管理文件(特別是電子文件)。此外,本文還給出了一個(gè)文檔管理的最優(yōu)化策略,最優(yōu)化策略雖然難以實(shí)現(xiàn),卻可以作為具體實(shí)踐策略的參照策略。
本文的研究存在著一定的不足,最大的不足是沒有對文件類型進(jìn)行細(xì)致的區(qū)分。實(shí)際上,按照二八定律,多數(shù)文件只有較小的利用率,而相對少數(shù)的文件卻有著較高的利用率,對不同的文件,生命周期的確定方式是不同的,對此問題還需做進(jìn)一步的研究;其次,本文雖然提出了一個(gè)新的策略,但限于缺乏驗(yàn)證數(shù)據(jù),沒有對此方法進(jìn)行實(shí)際驗(yàn)證;此外,用戶類型變化如何反映文件主要價(jià)值屬性的變化,本文沒有給出一個(gè)完善的解答;最后,文件的價(jià)值并不能僅僅通過利用頻次和利用人群類型來反映,探索更好的可計(jì)量的文件價(jià)值評測策略還需要進(jìn)一步加以研究。
[1]曼努埃爾·巴斯克斯,何嘉蓀. 文件生命周期的精確期限[J]. 北京檔案,1997(3):12-14。
[2]黃霄羽:魂系歷史主義[M].北京:中國人民大學(xué)出版社,2006.
[3]馮惠玲等:檔案學(xué)概率[M].北京:中國人民大學(xué)出版社,2006.
[4]邱均平.文獻(xiàn)計(jì)量學(xué)[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,1988.
[5]段宇鋒.網(wǎng)絡(luò)信息資源老化規(guī)律研究[J].圖書情報(bào)知識,2005,106(4):28-30.
[6]Christopher Olston,SandeepPandey.Recrawl scheduling based on information longevity[Z].the 17th international conference on World Wide Web,2008.
[7]同[2]
[8]Malone T etc. Dynamics of information access on the web[J]. The American Physical Society,2006(6):132-138.