大話數(shù)據(jù)挖掘之關(guān)聯(lián)規(guī)則挖掘
2021-01-11 18:11:34
次
人物介紹
許教授:國內(nèi)數(shù)據(jù)挖掘?qū)<摇⒛?85高校智能信息處理學(xué)術(shù)帶頭人
趙總:某電力公司總經(jīng)理
萬總:某超市集團(tuán)營銷副總
姜局長:市衛(wèi)生局副局長
李部長:某鋼鐵集團(tuán)生產(chǎn)部部長
某985高校管理學(xué)院第五屆EMBA班的《數(shù)據(jù)挖掘及其應(yīng)用》課程上。
國內(nèi)數(shù)據(jù)挖掘?qū)<摇⒅悄苄畔⑻幚韺W(xué)術(shù)帶頭人徐教授站在講臺上打開PPT說:“同學(xué)們,大家好!今天我們講的是數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則挖掘。”
“美國知名零售巨頭沃爾瑪在海量的交易數(shù)據(jù)中發(fā)現(xiàn)了美國人的一種行為模式:年齡在25~35歲的年輕父親在給嬰兒買尿布的同時,有30%~40%的會為自己買啤酒。”

“沃爾瑪在發(fā)現(xiàn)這一現(xiàn)象后立即采取了行動,將賣場內(nèi)原來相隔很遠(yuǎn)的婦嬰用品區(qū)與酒類飲料區(qū)的空間距離拉近,使顧客更家方便。然后對本地區(qū)新育家庭的消費能力進(jìn)行了調(diào)查,對這兩個產(chǎn)品的價格也做了的調(diào)整,并向一次購買達(dá)到一定金額的顧客贈送嬰兒奶嘴及其他小禮品,結(jié)果是尿布與啤酒的銷售量雙雙大增。這就是轟動一時的啤酒與尿布的關(guān)聯(lián)規(guī)則。”
“關(guān)聯(lián)是指一個事件與另一個事件之間的依賴關(guān)系。關(guān)聯(lián)規(guī)則挖掘就是發(fā)掘數(shù)據(jù)庫中的關(guān)聯(lián)關(guān)系。我們在網(wǎng)上購物時,商城的系統(tǒng)會主動推薦商品、贈送優(yōu)惠券,并且這些推薦的商品和贈送的優(yōu)惠券往往都能直抵我們的需求,誘導(dǎo)我們消費。這背后主要使用使用了關(guān)聯(lián)分析技術(shù),通過分析哪些商品經(jīng)常一起購買,可以幫助商家了解用戶的購買行為。大家還了解到哪些關(guān)聯(lián)規(guī)則的應(yīng)用?”徐教授問。
超市集團(tuán)主管市場營銷的萬總搶先道:“徐老師,據(jù)我所知,關(guān)聯(lián)規(guī)則已經(jīng)成為各大超市安排商品布局,促進(jìn)銷售量的一種法寶。近年來,電信公司、保險公司和美容公司等服務(wù)行業(yè)都爭先恐后地效仿零售業(yè)的這種做法,紛紛設(shè)計各種套餐,實現(xiàn)捆綁促銷。”
電力公司的趙總:“在電力行業(yè),一些發(fā)達(dá)國家通過關(guān)聯(lián)分析對輸變電設(shè)備進(jìn)行狀態(tài)檢測,為狀態(tài)檢修計劃的制定提供科學(xué)依據(jù)。”
衛(wèi)生局江副局長:“國內(nèi)外均有報道,有人將關(guān)聯(lián)規(guī)則挖掘應(yīng)用于臨床疾病診斷,比如通過實例試圖發(fā)現(xiàn)吸煙、環(huán)境污染、職業(yè)、肺部慢性疾病等因素與肺癌的發(fā)生之間的關(guān)聯(lián)關(guān)系,從而發(fā)現(xiàn)肺癌疾病與它產(chǎn)生的可能因素間的規(guī)則,利用規(guī)則模式指導(dǎo)肺癌的診斷與預(yù)防。”
大家紛紛介紹本行業(yè)中關(guān)聯(lián)規(guī)則的應(yīng)用情況,令徐教授驚詫不已,不解地問:“你們怎么都知道這么多?”
學(xué)員們只笑不語。
李部長道出了其中的奧秘:“徐老師,誰都知道您上課的最大特點是激情豪邁,互動共鳴。我們EMBA班的學(xué)員都工作了數(shù)年,現(xiàn)能坐在教室充電,倍感機會來之不易,大家在您上課的先一天晚上都進(jìn)行預(yù)習(xí)并準(zhǔn)備與您配合的材料。”
徐教授高興地笑了,接著說:“那我就要再問了,最基本的關(guān)聯(lián)規(guī)則挖掘算法是什么?該算法的基本思想是什么?”
教室里鴉雀無語。
徐教授環(huán)視了一周,發(fā)現(xiàn)超市集團(tuán)的萬總躍躍欲試,便鼓勵說:“萬總,你試說說,不完全我來補充。”
萬總鼓足了勇氣,大聲道:“最經(jīng)典的關(guān)聯(lián)規(guī)則算法是由Agrawal和Verkamo于1994年提出的Apriori算法,此后近十多年來,這方面的文章已達(dá)上萬篇之多,但都是基于這種算法圍繞著如何提高關(guān)聯(lián)規(guī)則挖掘算法的效率、在海量數(shù)據(jù)集上進(jìn)行關(guān)聯(lián)規(guī)則提取、如何挖掘有價值的關(guān)聯(lián)規(guī)則和關(guān)聯(lián)規(guī)則的應(yīng)用這些主題研究的。至于Apriori算法的思想……,我記不太清楚了。”
徐教授鼓勵說:“回答的不錯,可見課前準(zhǔn)備花了很大功夫,值得表揚。”
徐教授的話音剛落,萬總又開了口:“我記起來了,Apriori算法的基本思想是:首先從事件集中尋找所有頻繁出現(xiàn)的事件子集,然后在這些頻繁事件子集中發(fā)現(xiàn)可信度較高的規(guī)則。”
徐教授示意萬總坐下,繼續(xù)說:“Apriori算法的大概思想就是這樣。由于許多應(yīng)用問題往往更復(fù)雜,大量研究從不同的角度對關(guān)聯(lián)規(guī)則做了擴展,將更多的因素集成到關(guān)聯(lián)規(guī)則挖掘方法之中,以此豐富關(guān)聯(lián)規(guī)則的應(yīng)用領(lǐng)域,拓寬支持管理決策的范圍。如考慮屬性之間的類別層次關(guān)系,時態(tài)關(guān)系,多表挖掘等。近年來圍繞關(guān)聯(lián)規(guī)則的研究主要集中于兩個方面,即擴展經(jīng)典關(guān)聯(lián)規(guī)則能夠解決問題的范圍,改善經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法效率和規(guī)則興趣性。”

“今天關(guān)于關(guān)聯(lián)規(guī)則挖掘的內(nèi)容就介紹到這里。同學(xué)們,下節(jié)課見!”