投稿策略

期刊推薦

雜志分類

首頁學術雜志科普訂閱 SCI期刊投稿經驗期刊咨詢文秘服務論著出書出版社

首頁 > 精品范文 > 數據分析論文

數據分析論文模板(10篇)

時間：2023-05-16 15:18:18

導言：作為寫作愛好者，不可錯過為您精心挑選的10篇數據分析論文，它們將為您的寫作提供全新的視角，我們衷心期待您的閱讀，并希望這些內容能為您提供靈感和參考。

數據分析論文

篇1

2建立標簽關系的反向工程

當我們框定了熵減的方法體系后，在數據間建立血緣關系則顯得尤為重要，由于數據生長動力呈現由內而外的泛化驅動，但是本身這種泛化在信息化過程中很多是無組織的行為，缺少邏輯上預先定義，所以數據生成后，大量的數據關系被衰減掉，從正向渠道難以對數據關系建立血緣，工程極其浩瀚復雜。由于血緣關系無法完全在數據生長中自然形成，正向人工干預又存在操作難度，所以反其道而行之則是唯一通道。數據加工的反向性，優勢首先體現在由微觀到宏觀的加工難度大幅下降，因為其工作處于抽象的最底層，使采用眾包模式加工成為可能。其次，這種加工模式，可以在有效建立一種數據關系的閉環管理的同時，不會抑制數據生長的空間和速率，不會因加工效率低而凝固數據資產化的進程。在反向加工的過程中，需要通過標簽聯結數據關系，這時候我們要關注標簽的質量和復用度，由于標簽定義存在難度，所以要松綁標簽定義來促成數據加工的快速實施，解決的重點則遷移到標簽在后期管理中的智能化上。首先，可以通過標簽在關系聯結中的重復出現進行跟蹤，識別是標簽二義性還是加工者的活動差異?；顒硬町悩撕炞罨镜奶幚矸椒ㄊ沁M行聚合，形成知識歸納；二義標簽則需要改進表達。其次，依賴血緣關系建立可視化圖譜，從數據結構工程里可以有效識別關系路徑的黏合點，即發現重復路徑中出現的一個以上的標簽，消除由知識結構差異造成的人為誤會，對標簽進行合并。這樣，通過標簽的智能化后期管理就可以將加工難度上移，建立分層加工的工廠模式。這種加工存在基本準則，并要建立基本的衡量尺度來保證標簽有效性，加工工藝可以從標簽質量、使用度、命中率等指標進行測量。其中，質量有賴于標簽本身定義成分的內涵，要確認其被受眾廣泛理解；使用度是在加工活動中的使用次數，是否被數據關系廣泛應用，使用度較低的標簽要確認其存在價值，通過標簽間同時出現概率決定其含義表達是否具備唯一性；命中率則建立在使用者的自然需要基礎上，如果某一標簽絕少被使用者利用或調度，與整體觀測結果是否存在數值上的明顯差異。整體上看，通過這些基本準則建立標簽管理的異常檢測分析，來保證加工質量的方式具備技術的可行性，但同時更需要對后期的數據運行建立領域指標模型來校驗。

篇2

數據的采集是指利用傳感器、社交網絡以及移動互聯網等方式獲得的各種類型的結構化、半結構化以及非結構化的海量數據，這是一切數據分析的基礎。數據的采集需要解決分布式高速高可靠數據的采集、高速數據全映像等數據收集技術。還要設計質量評估模型，開發數據質量技術。而數據采集一般分為大數據智能感知層：主要包括數據傳感體系、網絡通信體系、傳感適配體系、智能識別體系及軟硬件資源接入系統，實現對海量數據的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理和管理等。

1.2數據預處理

數據采集的過程本身就有會有很多數據庫，但如果想達到有效分析海量數據的目的，就必將這些來自前端的數據導入到一個集中的大型分布式數據庫，或者分布式存儲集群，而且在導入基礎上做一些簡單的辨析、抽取、清洗等操作。

①抽?。阂驗槲覀兺ㄟ^各種途徑獲取的數據可能存在多種結構和類型，而數據抽取過程可以有效地將這些復雜的數據轉換為單一的結構或者便于處理的類型。以達到快速分析處理的目的。

②清洗：對于海量數據而言，數據所處的價值層次不一樣，就必然存在由于價值低而導致開發成本偏大的數據，還有與數據分析毫無關系的數據，而另一些數據則是完全錯誤的干擾項，所以對數據通過過濾“去噪”從而提取出有效數據是十分重要的步驟。

1.3數據的存儲與管理

當我們采集數據完成后，就需要將其存儲起來統一管理，主要途徑就是建立相應的數據庫，進行統一管理和調用。在此基礎上，需要解決大數據的可存儲、可表示、可處理、可靠性及有效傳輸等幾個關鍵問題。還需開發可靠的分布式文件系統（DFS）、能效優化的存儲、計算融入存儲、數據的去冗余及高效低成本的大數據存儲技術；以及分布式非關系型大數據管理與處理技術、異構數據的數據融合技術、數據組織技術、研究大數據建模技術、索引、移動、備份、復制、可視化技術。

1.4數據的統計分析

一般情況下，統計與分析主要就是利用分布式數據庫，或者分布式計算集群來對存儲于其內的海量數據進行普通的分析和分類匯總等，以滿足大多數常見的分析需求，在這方面，一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata，以及基于MySQL的列式存儲Infobright等，而一些批處理，或者基于半結構化數據的需求可以使用Hadoop。統計與分析這部分的主要特點和挑戰是分析涉及的數據量大，其對系統資源，特別是I/O會有極大的占用。

1.5數據分析與挖掘

所謂數據挖掘是指從數據庫中的大量不完全的、有噪聲的、模糊的、隨機的實際應用數據中，揭示出隱含的、先前未知的并有潛在價值的信息的過程。與前面統計和分析過程不同的是，數據挖掘一般不會有預先設計好的主題，主要是在現有數據上面進行基于各種算法的計算，從而起到預測（Predict）的效果，從而實現一些高級別數據分析的需求。比較典型的算法有用于聚類的K-means、用于統計學習的SVM和用于分類的NaiveBayes，主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用于挖掘的算法很復雜，并且計算涉及的數據量和計算量都很大，常用數據挖掘算法都以單線程為主。

2數據分析的8個層次

2.1標準化報告（StandardReports）

標準化報告作為數據分析的第一個層次，要求相對較低，主要是借助相應的統計工具對數據進行歸納總結，得出包含主要參數指標的標準化報告。類似于一個銷售企業每月或者每季度的財務報表。

2.2即席查詢（AdHocReports）

用戶可以通過自己的需求，靈活地選擇查詢條件，系統就能夠根據用戶的需求選擇生成相應的統計報表。即席查詢與普通應用查詢最大的不同是普通的應用查詢是定制開發的，而即席查詢所有的查詢條件都是用戶自己定義的。在面向高層的數據分析軟件中，用戶隨意添加想要查詢的指標按鈕再加上相應的限制條件，就可以立即生成可視化的統計結果，不僅一目了然，而且沒有任何操作難度。

2.3多維分析（QueryDrilldown）

多維分析是指對具有多個維度和指標所組成的數據模型進行的可視化分析手段的統稱，常用的分析方式包括：下鉆、上卷、切片（切塊）、旋轉等各種分析操作。以便剖析數據，使分析者、決策者能從多個角度多個側面觀察數據，從而深入了解包含在數據中的信息和內涵。上卷是在數據立方體中執行聚集操作，通過在維級別中上升或通過消除某個或某些維來觀察更概括的數據。上卷的另外一種情況是通過消除一個或者多個維來觀察更加概括的數據。下鉆是在維級別中下降或者通過引入某個或者某些維來更細致地觀察數據。切片是在給定的數據立方體一個維上進行的選擇操作，切片的結果是得到了一個二維的平面數據（切塊是在給定的數據立方體的兩個或者多個維上進行選擇操作，而切塊的結果是得到了一個子立方塊）。轉軸相對比較簡單，就是改變維的方向。

2.4儀表盤與模擬分析(Alerts)

儀表盤用于監控一些關鍵指標。模擬分析是由操作者動態地加以調節的控件（如滑動塊、可調旋鈕、選擇框等），來控制管理決策模型行為某些參數。當操作者通過控制面板對模型中的參數值或變量值進行調節時，圖形中的曲線、柱形組或分析指標等要素就會發生相應的運動，而這種運動正好反映了該參數的變化對模型行為的影響，如果這種變動引起了模型中最優解或其他關鍵數字的變化，能夠隨時將關于這種變化的結論正確地顯示出來。

2.5統計分析（StatisticallyAnalysis）

我們知道概率論是數理統計的基礎，數理統計是在其基礎上研究隨機變量，并應用概率論的知識做出合理的估計、推斷與預測。概率論中討論的各種分布在數理統計中作為統計模型來分析處理帶有隨機誤差的數據。典型的數理統計方法有參數估計、假設檢驗和回歸分析。而統計分析主要是對用戶所關注的問題進行推斷、預測和控制的分析方法。具體可以分為以下三方面：

①描述統計：主要是集中趨勢、離散程度、分布形狀等，統計圖（方圖、箱線圖、散點圖等）；

②數據的分類匯總；

③基礎統計分析：方差分析、時間序列分析、相關和回歸分析、（主成分）因子分析等統計分析方法。

2.6預測（Forecasting）

在統計分析和數據挖掘領域，對未來的預測已經有了很多數學模型以及解決具體問題的相關算法。其核心思想便是從歷史數據中找出數據的發展模式，然后以這些模式為支點，就可以對未來進行預測。

2.7預測模型（PredictiveModeling）

隨著數據分析學家對數據挖掘技術的不斷探索，出現了很多預測模型以及與之相對應的算法，但是很難確定某個模型是最精確的，因為不同的領域，不同的條件，對應的預測模型是不一樣的，所以沒有統一化的最優模型，只存在有選擇性的最優模型。下面介紹幾種典型的預測模型。

①回歸模型:回歸模型可以分為一元線性回歸模型和多元線性回歸模型。一元線性回歸模型可表示為yt=b0+b1xt+ut，該式表示變量yt和xt之間的真實關系。其中yt稱作被解釋變量（或相依變量、因變量），xt稱作解釋變量（或獨立變量、自變量），ut稱作隨機誤差項，b0稱作常數項（截距項），b1稱作回歸系數。b0+b1xt是非隨機部分，ut是隨機部分。而在很多情況下，回歸模型必包含兩個或更多自變量才能夠適應地描述經濟現象各相關量之間的聯系，這就是多元線性回歸模型需要解決的問題，其一般形式為：Y=a+b1X1+b2X2+…+bmXm，式中X1、X2、…、Xm是這個多元回歸問題的m個自變量，b1、b2、…、bm是回歸方程對應于各自變量的系數，又稱偏回歸系數。

②貝葉斯網絡：貝葉斯網絡是基于概率推理的數學模型，而概率推理是通過一些產量的信息來獲取其他概率信息的過程。貝葉斯網絡會建立一個有向無環圖和一個概率表集合，有向無環圖中的每一個節點便是一個隨機變量，而有向邊表示隨機變量間的條件依賴，條件概率表中的每一個元素對應有向無環圖中唯一的節點，存儲此節點對其所有直接前驅節點的條件概率。貝葉斯網絡是為了解決不定性與不完整性問題而提出的，在多個領域中獲得廣泛應用。

③基于時間序列分析的指數平滑模型在時間序列分析中指數平滑模型是最靈活和準確的方法，在經濟領域也被證明是最有效的預測模型。在不同的時間序列下，指數平滑模型可以分為簡單指數平滑法、帶有趨勢調整的指數平滑法、帶有阻尼趨勢的指數平滑法、簡單季節指數平滑法、帶有趨勢和季節調整的指數平滑法五種不復雜度的模型。

2.8最優化

（Optimization）因為優化問題往往可以帶來巨額的收益，通過一系列可行的優化，可以使收益得到顯著提高。所謂最優化就是從有限或者無限種可行的方案中選取最優的方案。如果可以通過簡單的評判，就可以確定最優方案那是最好的。但是事實不會那么簡單，所以優化技術已經發展出了一系列的理論來解決實際問題。其常用的優化技術為：

①線性規劃：當目標函數與約束函數都是線性函數時，就是一個線性規劃問題。而當同時滿足約束函數和目標函數時，則可以認為是最優解。

②整數規劃：要求決策變量取整數值的數學規劃。

③多目標規劃：指衡量一個決策優劣的標準不止一個，也就是有多目標函數。

④動態規劃：將一個復雜的問題劃分為多個階段，逐段求解，最終求出全局最優解。

3用Excel實現簡單的數據分析

①對于企業而言最重要的是利潤，所以管理者必須要從這張表中得到最關鍵也最容易得到的銷量和銷售額以及與其相關的一些數據，通常是用最基本的數理統計結果來直觀地反映該企業在某個期間的盈利情況。

②其次，我們必須要做進一步的分析。已經對整體的情況有了一定的把握，所以就可以朝著不同的方向去挖掘一些有價值的信息，為企業高層做決策提供有力的依據。對產品銷售而言，客戶結構能夠有效地反映客戶的地域分布，企業可以根據客戶的來源，在未開辟客戶的地域去尋找新的目標客戶群。而銷量結構可以直觀地反映企業最大銷量來自哪個地區，對銷量較小的地區可以加大宣傳力度或者增加銷售網點來保持各地區銷售均衡。還可以及時地調整銷售方式來擴大市場份額，而對于銷量最小的地區考慮開辟新的市場。

統計了各地區的銷售總額和平均銷售額以及兩者的對比關系。由此可以得出地區平均購買力大小，以及各地區總銷售額大小。借助圖表描述，管理者可以對企業在某段期間內的銷售狀況有一個大概的把握，只有掌握了這些的信息，才能更細化地去研究具體的影響因素。劃分等級，對于經常性大量購買的客戶必須要以最優惠的價格和最好的服務讓其滿意，以形成一個穩定的大客戶群。而對于那些少量購買的客戶，也要制定出相應合適的方案來留住客戶。所以，分析銷售額的分布情況，可以掌握客戶的購買力度而且還能及時做一些留住大客戶的舉措。

4用R語言實現數據多層次分析

R語言是一種自由軟件編程語言與操作環境，是一套完整的數據處理、計算和制圖軟件系統，它是一種用來進行數據探索、統計分析和作圖的解釋型語言。它可以提供一些集成的統計工具，但更大量的是它提供各種數學計算、統計計算的函數，從而使使用者能靈活機動地進行數據分析，甚至創造出符合需要的新的統計計算方法。而在使用R語言進行數據分析處理時，當我們遇到很大的原始數據，但用來建模的數據較小，則可以先在數據庫中進行整理，然后通過R與數據庫的接口提取數據，數據庫適合存放和整理比較規整的數據，和R中的數據框有良好的對應關系，這也是R中絕大多數統計模型的標準數據結構。數據庫中大部分的運算都不需要消耗很大的內存。

篇3

改革以來中國發生的大規模人口遷移，是制度變遷和經濟轉型共同作用的結果。中國傳統的計劃經濟體制是圍繞推行重工業優先發展戰略而形成的。在資本稀缺的經濟中，推行資本密集型重工業優先發展戰略，不可能依靠市場來引導資源配置，因而必須通過計劃分配的機制把各種資源按照產業發展的優先序進行配置。由此，以資本和勞動力為代表的資源或生產要素，既無必要，也不允許根據市場價格信號自由流動，因此，隨著20世紀50年代這種發展戰略格局的確定，一系列相關制度安排把資本和勞動力的配置，按照地域、產業、所有制等分類人為地“畫地為牢”，計劃之外的生產要素流動成為不合法的現象。其中把城鄉人口和勞動力分隔開的戶籍制度，以及與其配套的城市勞動就業制度、城市偏向的社會保障制度、基本消費品供應的票證制度、排他性的城市福利體制等，阻礙了勞動力這種生產要素在部門間、地域上和所有制之間的流動。在這種制度下，不存在勞動力市場，農村居民沒有政府的許可不可能向城市流動，勞動和人事部門通過計劃來控制勞動力跨部門流動。

1978年底開始的農村家庭承包制改革，使農戶成為其邊際勞動努力的剩余索取者，從而解決了制度下因平均分配原則而長期解決不了的激勵問題（meng，2000）。與此同時，政府開始對價格進行改革，誘導農民提高農業生產率。在農業剩余勞動力被釋放出來后，非農產業活動更高的報酬吸引勞動力轉移（cook，1999），從而推動農村生產要素市場的發育，原來主要集中在農業的勞動力開始向農村非農產業、小城鎮甚至大中城市流動。

由于各種阻礙勞動力流動的障礙尚未拆除，以及政府鼓勵農村勞動力就地轉移的政策引導，20世紀80年代前期的勞動力轉移以從農業向農村非農產業轉移為主，主要是在鄉鎮企業中就業，即所謂的“離土不離鄉”。但隨著鄉鎮企業遇到來自國有企業、“三資”企業和私人企業越來越強勁的競爭，必須提高技術水平和產品質量，因而鄉鎮企業資本增加的速度逐漸加快，吸納勞動力的速度相應減緩。農村勞動力面臨著越來越強烈的跨地區轉移的壓力。與此同時，外商投資企業、中外合資企業、私營企業和股份公司等其他非國有部門在東部地區發展較快，擴大了對勞動力需求，并成為消除制約勞動力流動體制障礙的一支重要力量。

隨著農村勞動力就地轉移渠道日益狹窄，1983年政府開始允許農民從事農產品的長途販運和自銷，第一次給予農民異地經營以合法性。1984年進一步放松對勞動力流動的控制，甚至鼓勵勞動力到臨近小城鎮打工。1988年中央政府則開了先例，允許農民自帶口糧進入城市務工經商。到20世紀90年代，中央政府和地方政府分別采取一系列措施，適當放寬對遷移的政策限制，也就意味著對戶籍制度進行了一定程度的改革。例如，許多各種規模的城市很早就實行了所謂的“藍印戶口”制度，把絕對的戶籍控制變為選擇性地接受。此外，1998年公安部對若干種人群開了進入城市的綠燈，如子女可以隨父母任何一方進行戶籍登記，長期兩地分居的夫妻可以調動到一起并得以戶籍轉換，老人可以隨子女而獲得城市戶口，等等。雖然執行時在一些大城市遇到阻力，但至少在中央政府的層次上為戶籍制度的進一步改革提供了合法性依據。城市福利制度的改革也為農村勞動力向城市流動創造了制度環境。80年代后期開始逐步進行的城市經濟改革，如非國有經濟的發展，糧食定量供給制度的改革，以及住房分配制度、醫療制度及就業制度的改革，降低了農民向城市流動并居住下來和尋找工作的成本。

與其他方面的政策改革相比，戶籍制度改革在很長時間里沒有實質性的突破，成為勞動力流動的最大障礙。所有在就業政策、保障體制和社會服務供給方面對外地人的歧視性對待，都根源于戶籍制度。隨著時間推移，兩方面的因素變化推動政府對遷移政策進行改革。一是城市戶籍制度不再擁有外部或隱含的福利，也就是地方政府不再根據個人的戶籍來提供就業、社會福利等各方面保障。這樣，城市人口規模擴張不會給地方政府增添額外財政負擔。二是地方政府意識到，勞動力流動不僅帶來資源重新配置，而且也是城市融資的一個重要來源。這樣，市場化發育水平相異的城市根據各自目標來推進城市戶籍制度改革。

可見，通過戶籍制度及一系列其他阻礙人口遷移的制度因素的改革而推動的勞動力流動，不僅是經濟發展的一個重要內容，也是整個經濟體制向市場機制轉變的重要進程，并且以其他領域改革的進展為前提。這個轉變或改革的結果便是勞動力市場的形成與發育，勞動力資源越來越多地由市場來配置。而在整個經濟不斷市場化的過程中，人口遷移也表現出轉軌時期的特點。這是中國轉軌時期人口遷移的特殊性所在。本文旨在利用2000年人口普查資料來分析人口流動與市場化之間的關系。

一、轉軌時期人口遷移理論

人口和勞動力在地區間的流動，是勞動力市場在空間上從不均衡向均衡轉變的過程。發展中國家在其經濟發展過程中，伴隨著工業化和城市化發展，大量農村人口和勞動力從農村流向城市，從低生產率的農業部門流向生產率較高的工業部門。劉易斯（lewis，1954）認為，發展中國家存在著典型的二元經濟結構，農村存在著大量剩余勞動力和隱蔽性失業，農業中勞動力的邊際生產力幾乎等于零或為負值，農村勞動力從農業部門流出不會對農業產出帶來負面影響，反而使留在農業部門勞動力的邊際產出不斷提高；隨著城市中勞動力數量不斷增加，城市工資水平開始下降，直至城市部門的工資水平與農業部門的工資水平相等，農村勞動力向城市流動才會停止。在劉易斯的模型中，勞動力在城鄉之間可以自由流動，不存在顯著的制度。城市現代部門的較高工資水平和傳統農業部門的低工資水平，是勞動力在城鄉之間流動的驅動力量。在托達羅（todaro，1969；harris和todaro，1970）兩部門模型分析中，農村人口和勞動力的遷移取決于城市的工資水平和就業概率，當城市的預期收入水平和農村的工資水平相等時，勞動力在城鄉之間分配和遷移都達到均衡。

由于城市經濟存在著現代正規部門和非正規部門之分，農村勞動力向城市遷移首先進入非正規部門，然后才有可能進入正規部門就業。城市正規部門就業創造率越大，越有利于將更多的非正規部門勞動力轉入正規部門；城鄉收入差距越大，從農村流向城市非正規部門勞動力數量越多，城市非正規部門勞動力規模也越大。由于城市正規部門的就業創造率取決于工業產出增長率及該部門的勞動生產率增長率，城市工業的快速增長將有利于提高正規部門的就業創造率，從而減少城市非正規部門的勞動力規模。但是，這個效應有可能被城市工資增長所誘發的大量新增農村勞動力流入所抵消。因此，城市正規部門的就業創造結果帶來了城市失業率的上升。

費爾茨（fields，1974）認為，托達羅模型中沒有考慮農村勞動力在城市正規部門尋找工作的概率問題。由于非正規部門勞動力獲得正規部門就業機會的相對概率較低，流入城市的農村勞動力大多數只能滯留于非正規部門。他們之所以能夠接受較低的工資水平，主要是在于他們預期能夠從得到的城市正規部門工作機會中獲得補償。在托達羅模型基礎上，費爾茨引入了搜尋工作機會的觀點，一方面強調了城市制度工資和相對就業概率對遷移過程的影響，另一方面也指出，非正式部門大量不充分就業的勞動力保證了勞動力市場實現均衡時的失業率低于托達羅模型得出的估計。非正式部門大量不充分就業的勞動力存在，在一定程度上緩解了城市的失業問題。

隨著勞動力流動，城鄉勞動力市場開始相互作用。但是，根據托達羅理論，城市失業率上升將起到減緩人口繼續向城市遷移。如果依據費爾茨的觀點，城市勞動力市場似乎對農村勞動力流動的影響不大。相比之下，在成熟的市場經濟中，城市的失業率是影響勞動力流動的重要因素。托普爾（topel，1986）利用美國人口普查資料研究發現，1970～1980年，美國東部、中部和北部各州的平均失業率相對于全國水平上升了23%，同時西部和西南部各州的失業率卻顯著下降。同期，人口遷移的空間流向恰好與此相反，人口凈流入地區為西部和西南部地區，東部、中部和北部均為人口凈流出地區。

中國的人口遷移不僅具有發展中國家的一般特征，而且還有經濟體制轉型的獨特之處。如前所述，中國特有的戶籍制度及其改革過程，為人口和勞動力自由流動和擇業提供了制度基礎，這也是研究其他國家人口遷移的理論沒有遇到過的問題。隨著時間的推移，包括戶籍制度在內的各項市場化改革措施必然對人口與勞動力遷移產生顯著影響。同時，城市就業環境變化也為我們觀察城鄉勞動力市場的相互作用提供了條件。

首先，不僅是城鄉之間、地區之間的收入差距驅動人口的遷移，市場化水平在城鄉和地區間的差異也直接影響農村勞動力遷移決策，從而形成特定的遷移流向。在經濟發展的初期，資本相對稀缺而勞動力相對豐富。因此，中國經濟的比較優勢在勞動密集型產業。在20世紀80年代以前的經濟增長模式下，由于政府采取人為扭曲資金價格的方式，在資金密集型產業上投資過多，抑制了具有比較優勢的勞動密集型產業的發展，導致產業結構的扭曲，資源配置效率的損失。經濟改革以來，通過一系列制度變革，資源配置逐漸轉向勞動力較為密集的產業，較好地發揮了中國勞動力資源豐富的比較優勢。產品和生產要素市場的發育帶來了資源重新配置效率的改善，對經濟增長做出了重要的貢獻（cai等，2002）。由于生產要素市場發育上在地區之間不平衡，這種資源重新配置的效果主要體現在沿海地區。2000年，92.1%進出口貿易集中在東部地區，中西部地區分別為4.3%和3.6%.同年，86.5%的外商直接投資集中在東部地區，中西部地區分別為8.9%和4.6%.因此，勞動力遷移在東部地區更為活躍，遷移的流向也以從中西部地區向東部地區為特征。

其次，正如在其他國家觀察到的那樣，較大的遷移距離增加了交通成本、弱化了社會網絡關系和目的地的就業信息，減少了遷移者的收益預期，因此，遷移距離上升降低了遷移發生概率。工作的不穩定性和信息獲得的不確定性，不僅造成了遷移流向是一個從縣內流向縣外，從省內向省外的漸進過程，而且使得親友等社會網絡成為遷移者獲得非正規部門就業信息的主要方式。格林伍得（greenwood，1969）認為，遷移存量對人口在地區之間遷移扮演著社會網絡的作用。先前的遷移可以為后來者提供信息和其他方面的幫助，減少遷移風險，從而對后期的遷移產生影響。蔡fǎng＠①（cai，1999）研究發現，75.8%的省內遷移者、82.4%的跨省遷移者的就業信息獲得是通過住在城里或在城里找到工作的親戚、老鄉、朋友獲得的。因此，農村勞動力向城市流動通常受到距離所反映出的社會網絡強弱的限制，形成分階段遷移。

第三，盡管戶籍制度繼續阻隔著農村勞動力向城市遷移，但市場化改革使得城鄉勞動力市場開始融合，城市就業環境變化必然對農村勞動力向城市流動帶來影響。隨著國有企業虧損和非國有部門擴大，越來越多的原國有企業職工開始和遷移者在非正式部門展開就業競爭。在這種情況下，農村勞動力“是走還是留”，取決于正式部門和非正式部門的就業狀況，而且其決策通常是暫時的，而不是長期的。這與harris和todaro（1970）模型中所討論的情況（遷移者在非正式部門臨時就業、等待得到正式部門就業機會），以及sethuraman（1981）觀察到其他發展中國家的情況（大多數遷移者將他們在非正式部門就業視為永久性的）都有顯著差異。一個普遍觀察到的現象是，中國農村勞動力向城市和發達地區流動，通常具有季節性特點，最多以年為單位在原住地和遷入地之間往返，呈現出“鐘擺式”的流動模式。正如solinger（1999）指出的那樣，城市對農村勞動力的大量需求是推進戶籍制度改革的必要條件。在非國有經濟、特別是外商投資較快的地區，市場力量日益顯現，遷移受到鼓勵。

二、空間分布特征變化

1990年以來，中國地區收入差距進一步擴大，吸引了中西部地區勞動力向東部地區流動。同時，要素市場發育及資源配置市場化程度，對地區經濟增長越來越起著主導性的作用。東部地區不僅對外開放時間早，而且市場發育迅速，較高的市場化水平不斷消除了勞動力等要素跨地區間流動的制度，以至成為勞動力流動的主要吸納地區。而勞動力向東部地區流動反過來也推動了該地區的經濟增長，改善了勞動力資源配置效率（cai等，2002）。表1顯示了人口遷移空間分布狀況的長期變化。1987～2000年，人口遷移的空間分布特征是：地區內部遷移（其中主要是省內遷移）比例始終高于地區間的遷移比例。但地區內部和地區之間的遷移比例則隨著時間不斷發生變化。東部地區內部遷移比例提高，東部地區流向中西部地區的比例下降。而中西部正好與此相反，中部和西部地區內部遷移比例趨于下降，中部向西部、西部向中部的遷移比例也在下降，而中西部向東部地區流入比例不斷上升。

注：（1）從統計口徑上看，1987年遷移數量包括遷入時間在半年以上的市、鎮和縣之間的遷移人口；1990年遷移數量包括遷入時間在1年以上的市、縣之間的遷移人口；1995年遷移數量包括遷入時間在半年以上的市，區、縣之間的遷移人口；2000年遷移數量包括遷入時間在半年以上的鄉、鎮、街道之間的遷移人口。（2）全部遷移人口包括地區內部和地區之間的人口遷移，不同年份在遷移時間規定和遷移范圍上的差別對地區之間分布會帶來一定影響。盡管如此，我們仍可以比較不同年份之間遷移流向的變化。

資料來源：《1987年全國1%人口抽樣調查資料》、《1995年全國1%人口抽樣調查資料》、《中國1990年人口普查資料》、《中國2000年人口普查資料》。

根據2000年第五次人口普查的10%資料顯示，全部遷移人口數量為1246萬，占總人口的10.6%，其中省內遷移為7.7%、跨省遷移為2.9%.在總遷移人口中，省內遷移的比重始終很高，為73.4%.當我們描述跨省遷移的流向時，其主要以東部地區為遷移目的地的傾向更加明顯。表2給出了三類地區跨省遷移比例的空間交叉分布。2000年，東部地區跨省遷移近65%集中在東部其他各?。ㄊ校胁康貐^跨省遷移超過84%集中在東部地區，西部地區跨省遷移超過68%集中在東部地區。從時間趨勢上看，1987～2000年，東部地區內部跨省遷移比例上升了近15%，而中西部地區向東部地區遷移比例上升將近24%，后者比前者高出9個百分點。

從流動的出發地和目的地看，遷移可以被劃分為城市到城市的遷移、城市到農村的遷移、農村到農村的遷移和農村到城市的遷移四種主要類型。從這種類型劃分來觀察地區間遷移的流向，也有助于我們理解轉軌時期中國人口遷移的特點。從全國來看，城市到城市的遷移和農村到城市的遷移是目前遷移的主要形式。2000年，兩者合計占總遷移人口的77.9%，而且農村到城市遷移的比重（40.7%）大于城市到城市的遷移（37.2%）。農村到農村的遷移比重較低，僅占全部遷移的18.2%.而城市到農村的遷移比例最低，不到總遷移人口的1/25.從時間趨勢看，城市到城市的遷移所占比重，在東部、中部和西部三類地區都呈現上升趨勢，而農村到城市的遷移比重略呈下降趨勢。

三、遷移的決定因素：計量分析

在遷移決定因素的實證分析中，早期的遷移模型將重力遷移模型和就業為目的的遷移模型合二為一，假定遷移數量不僅與遷入地和遷出地的人口和遷移距離有關，而且取決于兩個地區之間的工資和失業率的比較。通常，采用下列雙對數模型來分析這些因素對遷移流向的影響（lowry，1966；greenwood，1969；fields，1979）。即：。式中，m為遷移率，x為影響遷移流向的各種因素，d為遷移距離，i，j分別為遷出地和遷入地。

舒爾茨（schultz，1982）認為，人口變量反映的是其他影響遷移而沒有在模型出現的社會經濟變量的作用，它沒有行為學上的意義。由于遷移是人口增長的一部分，在遷移實證模型中引入人口規模會帶來計量上的共同偏差（fields，1979）。而且，由于遷移存量實際上是人口規模的一部分，如果在實證模型中同時引入這兩個變量，將帶來嚴重的多重共線問題，大大降低回歸參數估計的效率。因此，通常做法是在實證模型中不引入人口變量。

在回歸方程的函數形式選擇上，費爾茨（fields，1979）認為，遷移決策本質上是在相互排斥的替代方案之間的一種選擇，非對稱模型比對稱模型對人口遷移具有更強的解釋能力。此外，雙對數線性回歸方程還能夠消除奇異值和異方差對估計效率的影響，滿足理論上就業機會與工資之間的乘積要求，以及提高回歸方程的擬合程度等。他選擇了滯后解釋變量辦法來消除解釋變量的內生性問題。我們也采用了所有解釋變量數據均為1995年數據的辦法來解決遷移模型的內生性問題。

本文數據來自2000年第五次全國人口普查長表資料（10%樣本）和微觀數據（長表1%樣本），1995年全國1%人口抽樣調查資料及國家統計局《中國統計年鑒（1996）》。在數據處理上，正式出版的第五次人口普查長表資料沒有農村向城市跨省遷移勞動力數量及其失業率數據，我們利用第五次全國人口普查的微觀數據計算了這些數據。用于回歸分析變量的統計值見表3.

表3用于回歸分析變量的統計值

注：*根據微觀數據計算。

遷移率的計算，我們采用格林伍得（greenwood，1969）的定義，用1995年11月1日至2000年10月30日從省遷到省的人口數，除以1995年11月1日以前住在省的人口數。根據長表計算得到的遷移率，包括了所有年齡段跨省農村到城市、城市到城市、農村到農村、城市到農村的四種類型遷移人口；用微觀數據計算15～64歲農村勞動力向城市的遷移率。按照這種方法計算得到的兩個遷移率的平均值都不高（見表3）。

遷移距離為省會之間鐵路公里數。中國地域遼闊，鐵路是中國跨省遷移的主要交通方式。這點可以從每年春節農民工返鄉造成的鐵路擁擠狀況中得到印證。遷移距離不僅反應了用于直接交通費用的高低，而且在一定程度上代表了遷移所帶來的心理成本大小。隨著遷移距離增加，遷移帶來的不確定性和遷移風險也會上升，遷移成本隨之增加（schultz，1982；greenwood，1975）。這在勞動力市場不發達的情況下尤其如此。

直接用城市工工資收入和農村人均純收入來作為工資率的變量顯然不合適。隨著收入多元化，相當于實際收入的部分并沒有反映到名義收入之中，城鄉收入在可比性上也存在一定問題（solinger，1995；jefferson，1992）。奧尼爾（o''''neill，1970）建議采用消費指標來克服收入指標作為工資率變量上的不足。我們利用各省城鄉人口作為權重，對城鄉居民人均消費支出進行加權平均，作為各省的工資率變量，預期工資率對遷移流向存在兩種不同的效應。其中，遷入地為正向效應，而遷出地為負向效應。

1995年全國1%抽樣調查和第五次人口普查都對城鄉勞動力的就業狀況進行了統計。1995年調查問卷中有三項指標用來測度勞動力在調查前一周是否處于失業狀態：第一項是從未工作正在找工作，第二項是失去工作正在找工作，第三項是企業停產等待安置的勞動力。2000年人口普查只包括前兩項。據此可以計算得到1995年和2000年城鄉勞動力的失業率，分別為2.2%和3.6%.由于城鄉勞動力的失業率包括了農村勞動力，這低估了城市勞動力市場的就業狀況?！吨袊?000年人口普查資料》公布了分城市、鎮和農村的經濟活動人口資料，據此計算的城市、鎮和農村的失業率分別為9.4%、6.2%、1.2%.利用2000年微觀數據計算的城市本地勞動力、城市向城市遷移勞動力、農村向城市遷移勞動力的失業率，分別為9.1%、7.9%和3.6%.如果在遷移模型中忽略了遷移存量，將導致高估其他解釋變量對遷移的影響（greenwood，1969）。按照格林伍得的方法，遷移存量應該是以1995年為時點，計算出生在省且居住在省的所有人口。由于中國人口普查資料只提供了出生后一直住在本地和1995年11月1日之前遷入本地等資料，因此，我們采用1995年11月1日之前遷入本地人口指標作為遷移存量的變量。本文中長表的遷移存量包括所有人口，微觀數據的遷移存量只包括15～64歲的人口。我們預期遷移存量對人口遷移有正向效應。

在分析地區人均收入差異和經濟增長中，貿易開放程度通常被看做是影響地區收入增長的重要因素（barro和sala-i-martin，1995；cai等，2002）。貿易開放程度越高，參與國際市場一體化程度也越高。但是，扭曲的貿易和發展戰略也同樣起到擴大出口，提高gdp中的貿易份額比重。相比之下，外商直接投資是國外投資者的選擇。從長期來看，為了獲得最大利潤和規避風險，國外企業在其投資過程中要對各地的產品和要素市場發育情況、體制與政策的透明度等因素進行綜合考慮，并最終做出投資選擇。外資企業進入之后，它利用勞動力市場來解決用人需求，這與國有企業的人事制度形成鮮明對比。因此，我們選擇了外商直接投資作為市場化程度的變量，來分析它們對人口遷移的影響。改革以來，雖然所有省份的外商直接投資數量都在增加，但東部地區與中西部地區之間的差異在不斷擴大。中國人口遷移流向分布主要集中在東部地區，這與東部地區對市場化改革程度較高是分不開的。四、回歸結果與討論

方程1～3是利用第五次人口普查長表資料得到的回歸結果，方程4、5是利用第五次全國人口普查微觀數據得到的回歸結果。由于海南、重慶、與其他省會之間距離未能得到，在回歸中剔除了這3個地區，長表資料中實際用于回歸的樣本數量為756個。在微觀數據中，由于有些省份的遷移率或農村向城市遷移勞動力數量為零，取對數后，這些數據變成缺省值，所以用于回歸的樣本數量為506個。

從表4回歸結果看，利用長表資料得到的回歸方程，解釋了大約60%的所有人口跨省遷移的行為；用微觀數據得到的回歸方程，解釋了大約30%的跨省農村勞動力向城市遷移的行為。表4的非對稱雙對數遷移模型估計結果也表明，遷入地社會經濟變量對人口遷移的影響大于遷出地這些變量所發揮的作用。

回歸方程1～5中大多數解釋變量的回歸系數t值，如遷移距離、人均消費水平、失業率、遷移存量等，都達到了1%或5%的顯著性水平，并且作用方向上與前面的理論預期結果也基本一致。

表4中回歸方程1和2的區別是采用了不同的失業率數據，前者是1995年的失業率，后者是2000年的失業率。使用1995年失業率數據雖然有助于克服內生性問題，但方程1中遷出地失業率回歸系數的絕對值大于遷入地失業率回歸系數的絕對值，這個結果可能與現實情況并不吻合。

1995～2000年，中國城市就業環境發生了急劇變化。伴隨著國有企業改革和城市社會福利體制改革，企業大量富余人員被釋放出來，城市失業率迅速上升。為了解決本地城市職工就業問題，不少地方政府采取了城市就業保護政策，這勢必對以就業為目的的勞動力流動產生較大影響。遷移者是理性的，如果目的地的就業機會較小，遷移者將選擇不流動，以減少遷移風險和成本。這樣，遷入地的就業機會就顯得更為重要。

表4遷移決定因素回歸結果

注：（1）采用異方差檢驗方法（breusch-pagan/cook-weisberg）發現，表中回歸方程的依次為：7.85、1.54、1.38、2.80、4.85.我們對回歸方程1、5采用robust估計來消除異方差的影響。（2）方程1和5的括號內為robustt值，方程2～4括號內為t值，*代表5%顯著性水平，**代表1%顯著性水平。

考慮到2000年失業率真實地反映了就業環境的變化，我們以回歸方程2為基準，分析不同因素對遷移的影響，并進行比較。在其他條件不變的情況下，遷移距離上升1%，遷移率下降1.08%.受遷移距離的影響，2000年跨省遷移人口比例不到30%，絕大多數遷移人口選擇了省內流動。遷移距離在空間位置上是固定的，但改善交通運輸條件和制定合理的交通價格有利于減少遷移者的遷移成本，促進勞動力流動。

在做遷移決策時，潛在的遷移者不僅要考慮兩地之間直接的收入差距，而且還要考慮到就業機會大小。在回歸方程2中，遷入地人均消費水平回歸系數在絕對值上是遷出地的近4倍，但遷入地失業率回歸系數在絕對值上是遷出地的3倍以上。遷入地失業率對遷移決策較大的邊際影響與遷移者面臨的選擇有關。本地勞動力市場狀況是既定的，遷移者對它別無選擇。相反，遷移者對遷入地勞動力市場是可以進行選擇的，失業率越高的地區，遷入數量就會下降。

目的地的就業信息提供和幫助，對遷移決策有重要作用。遷移存量的回歸系數也證實了這一點。社會網絡等非正規信息渠道雖然在遷移中發揮著重要作用，但隨著人口流動規模擴大，加快勞動力市場信息體系建設就顯得非常重要。

將外商直接投資變量引入回歸方程2，就得到回歸方程3.引入這個變量之后，遷移距離和失業率等解釋變量的回歸系數及其顯著性變化不大，而人均消費水平的回歸系數及其顯著性發生較大改變。從絕對值來看，方程3中的人均消費水平回歸系數小于回歸方程2中的回歸系數估計值，遷出地人均消費水平的回歸系數顯著性有所下降，主要是人均消費水平與外商直接投資之間存在較高相關關系導致的結果（注：人均消費水平與外商直接投資的相關系數為0.56.）?？缡∪丝谶w移比例主要分布在東部地區，它與外商直接投資之間存在較強的相關關系（注：外商直接投資與遷移存量之間的相關系數為0.76.），引入外商直接投資變量之后，遷移存量的回歸系數數值下降約50%.為了觀察城市勞動力市場對農村勞動力遷移決策的影響，我們利用微觀數據做進一步分析。回歸方程4引入了農村遷移勞動力的失業率，回歸結果進一步支持上述發現，即遷入地的就業機會對遷移者來說更為重要?；貧w方程5引入了城市勞動力失業率。結果表明，城市失業率對于農村勞動力跨省遷移率有顯著性影響，其回歸系數在絕對值上不僅大于回歸方程4中失業率的回歸系數，而且大于回歸方程2中的回歸系數，這說明城市勞動力市場就業形勢確實對農村勞動力的遷移決策有重要作用。改善城市就業環境將有利于促進農村勞動力流向城市，起到加速城市化的作用。

五、結論

20世紀80年代以來在中國出現的大規模人口遷移現象，不僅具有發展中國家從落后的農業經濟向工業經濟轉變的一般特征，還具有從計劃經濟向市場經濟轉變的特殊性。將二者結合在一起，既有助于考察中國獨特的制度特征對人口遷移的影響，又能夠通過對中國案例研究來拓展遷移理論。

經濟發展水平和市場發育程度在地區之間的不平衡，決定了人口遷移的基本方向不僅是從農村向城市的遷移，而且是從中西部地區向東部地區的遷移。既然中國經濟的進一步增長仍然有賴于從生產要素市場發育從而勞動力流動中獲得資源重新配置效率（注：約翰森（johnson，1999）認為，在今后30年，如果遷移障礙被逐漸拆除，同時城鄉收入水平在人力資本可比的條件下達到幾乎相等的話，勞動力部門間轉移可以對年經濟增長率貢獻2～3個百分點。），加快中西部地區市場制度的建設，特別是清除阻礙勞動力市場發育的各種制度，可以引導和規范人口遷移，使其不僅具有微觀理性，而且具有更加理性的宏觀后果。市場化改革措施（如擴大外商直接投資和對外貿易等）所帶來的經濟發展將有助于獲得“一石二鳥”的功效，也就是講，它為勞動力流動不斷營造同樣的發展環境，并在創造就業機會的同時，推進城鄉戶籍制度改革。

「作者簡介蔡昉中國社會科學院人口與勞動經濟研究所所長、研究員；王德文中國社會科學院人口與勞動經濟研究所，副研究員。

「參考文獻

1.中國社會科學院人口研究所（1988）：《中國74城鎮遷移抽樣調查（1986）》，《中國人口科學》編輯部。

2.國家統計局（1988）：《1987年全國1%人口抽樣調查資料》，中國統計出版社。

3.國家統計局（1997）：《1995年全國1%人口抽樣調查資料》，中國統計出版社。

4.國務院人口普查辦公室（1993）：《中國1990年人口普查資料》，中國統計出版社。

5.國務院人口普查辦公室（2002）：《中國2000年人口普查資料》，中國統計出版社。

6.barro，r.&x.sala-i-martin（1995），economicgrowth.newyork：mcgrawhi，inc.

7.cai，fang（1999），spatialpatternsofmigrationunderchina''''sreformperiod，asianandpacificmigrationjournal，vol.8，no.3.

8.cai，fanganddewenwang（1999），sustainabilityofeconomicgrowthandlabourcontributioninchina，journalofeconomicresearch，no.10.

9.cai，fang，dewenwangandyangdu（2002），regionaldisparityandeconomicgrowthinchina：theimpactoflabormarketdistortions，chinaeconomicreview，13，197-212.

10.cook，sarah（1999），surpluslaborandproductivityinchineseagriculture：evidencefromhouseholdsurveydata，thejournalofdevelopmentstudies，vol.35，no.3：16-44.

11.fields，g.s.（1974），rural-urbanmigration，urbanunemploymentandunderemployment，andjob-searchactivityinldcs，journalofdevelopmenteconomics2，165-187.

12.fields，g.s.（1979），placetoplacemigration：somenewevidence，reviewofeconomicsandstatistics，vol.61，issue1，21-32.

13.greenwood，j.michael（1969），ananalysisofthedeterminantsofgeographiclabormobilityintheunitedstates，reviewofeconomicsandstatistics，vol.51，issue2，189-194.

14.greenwoodj.michad（1975），researchoninternalmigrationintheunitedstates：asurvey，journalofeconomicliterature，vol.13，issue2，397-433.

15.harris，j.，andm.todaro（1970），migration，unemploymentanddevelopment：atwosectoranalysis，americaeconomicreview40，126-142.

16.jefferson，g.h.andt.g.rawski（1992），unemployment，underemploymentandemploymentpolicyinchina''''scities，modernchina，18（1），42-71.

17.johnson，d.gale（1999），agriculturaladjustmentinchina：thetaiwanexperienceanditsimplications，officeofagriculturaleconomicsresearch，theuniversityofchicago.

18.leweis，w.a.（1954），economicdevelopmentwithunlimitedsuppliesoflabor，themanchesterschoolofeconomicandsocialstudies22，139-191，reprintedina.n.agarwalaands.p.singh（eds.），theeconomicsofunderdevelopment.bombay：oxforduniversitypress，1958.

19.lin，j.yifu，fangcai，andzhouli（1996），thechinamiracle：developmentstrategyandeconomicreform，hongkong：chineseuniversitypress.

20.lowry，i.s.（1966），migrationandmetropolitangrowth：twoanalyticalmodels.sanfrancisco：chandlerpublishing.

21.meng，xin（2000），labormarketreforminchina，cambridge，uk：cambridgeuniversitypress.

22.o''''neill，j.a.（1970），theeffectofincomeandeducationoninter-regionalmigration，unpublishedph.d.dissertation，columbiauniversity.

23.schultz，t.paul（1982），lifeiimemigrationwithineducationalstratainvenezuela：estimatesofalogisticmodel，economicdevelopmentandculturalchange，30（3），559-594.

24.solinger，d.（1995），thechineseworkunitandtransientlaborinthetransitionfromsocialism，modernchina，21（2），155-183.

25.solinger，d.（1999），citizenshipissuesinchina''''sinternalmigration：comparisonswithgermanyandjapan，politicalsciencequarterly，vol.114，no.3，455-478.

篇4

2HANA數據分析平臺實施過程

數據分析平臺建設應遵循最大限度的考慮應用實用性、縮短實現周期、降低技術風險等因素。

2.1需求分析

需求分析是要對用戶的訴求或需求進行深入了解，并在需求的基礎上對整個平臺進行一致約定。因此以重要性、分析的復雜性、數據量大小、以及快速見效為原則，需求分析需要明確下面的內容。

1)選擇需要分析的主題，結合當前電力營銷業務在計量、業擴、抄表、電費核算、電費繳納、賬務等工作職能的劃分，也要考慮分析的主題具有針對性的業務場景，這些場景往往跨越多個職能。

2)分析并描述各個主題的業務背景，包括使用的用戶角色，使用的業務場景。以電費出賬異常為例：電費出賬異常主要是由于用戶檔案錯誤、抄表錯誤所引發的，涉及到業擴、抄表、電費核算等多個職能部門。以電費出賬異常作為分析的主題，其業務場景主要用于電費發行后，對引發電費異常的用戶檔案數據、計量信息、抄表信息進行檢查并按職能需求進行分別展示。

3)分析各個主題間的關系，在這個平臺上用戶的所有活動信息，如用戶請求的數量，用戶對這些數據的訪問頻率、時間、數據細節層次、請求多大的數據量等之間的關聯。

4)分析主題所涉及的表的目錄、表的內容、表的容量、每個表的平均行大小、表的記錄數、表的增長情況等。

2.2平臺規劃

HANA數據分析平臺應用架構一般采用四層：數據源層、數據抽取及復制層、HANA數據集市層以及報表展示層。

1）數據源層：作為平臺的分析對象，提供報表分析所需的數據，數據源層可同時支持各種類型的數據庫，數據源層為營銷系統（管理庫），生產庫到管理庫之間采用SharePlex復制工具實現數據同步，以避免數據抽取對生產系統的影響。

2）數據抽取和復制層：數據抽取和復制層負責將數據源層中源系統的數據抽取和復制到HANA分析數據庫中，主要構成是數據抽取和復制工具，可以分別采用實時同步服務（SLT）以及非實時同步的數據服務（DataService）兩種不同的復制工具來滿足不同特征的源數據要求。在確定采用哪種工具前，需要對每個數據源的大小、變更時間、變更頻繁度、增量大小等信息做詳細了解，對不同數據源表選擇合適的復制工具。

3）數據集市層：數據集市層是整體系統架構的核心，負責分析數據的儲存、報表模型的建立以及數據計算。該層包含分析數據庫以及虛擬模型架構兩個主要組成，所有需分析展示的數據在數據集市層通過集市層進行儲存、壓縮、建立邏輯模型并計算，通過該平臺特有的內存計算技術可以使這個過程的效率大幅提升。

4）報表展示層：報表展示層負責將HANA數據庫中的數據運算結果按照報表需求進行展示，采用SAPBusinessObjectBI4.0以及EXCEL作為展示工具。

2.3平臺實現

2.3.1模型設計

依據報表的需求分析、功能需求、性能需求、模型擴展性、模型的靈活性、實現成本進行平衡，在達到性能要求的前提下，設計出可以重用的模型，HANA平臺不同于傳統的數據倉庫需要物理化模型設計，HANA采用了邏輯視圖模型設計的概念，邏輯視圖從表面看體現的是傳統的星型、雪花型模型設計，但這些模型中的數據并不是物理存放的。HANA提供了屬性視圖、分析視圖、計算視圖三種模型設計，屬性視圖實現對維度的設計，分析視圖則實現傳統的星型模型設計，計算視圖實現更復雜的雪花型模型設計。模型設計時是先將需求階段所確定的分析主題作為分析對象，梳理每個主題展示所需的事實表數據內容和數據粒度、分析維度、分析的數據指標。例如：一個以分析電費構成為主題的業務場景，該主題分析當期電費的構成情況，并同期比較各個電費構成的變動情況，那它的指標可以為目錄電度電費、峰谷品跌、豐枯品跌、基本電費、力調費、代征費、電度電費、結算電費等指標。分析的維度可包含：時間維度、用戶維度、組織維度、用電服務維度、抄表維度、計收維度等。并在此時完成對事實表和維度表的邏輯數據模型設計。

2.3.2表樣及功能設計

報表的樣式和功能應當考慮用戶對數據進行分析的使用習慣，借鑒數據倉庫中的多維數據可視化方法，通過對報表的上鉆、下鉆、切片等展示功能技術的利用，實現對匯總性數據、明細類數據、核心數據的快速查看和分析。以上述的分析電費構成主題為例，其展示需求決定表樣的設計采用圖型混合表格的方式，功能上采用按照組織維度進行上鉆、下鉆功能可查看不同供電區域的電費構成情況和各個指標的排名情況，前端展示采用了BOWebintelligence嵌入DashBoard圖表設計實現。

2.3.3數據抽取及復制設計

為確保數據質量，應當進行數據抽取和復制的規劃設計。首先，根據模型設計中指標、維度信息分別列舉出其相應的數據來源，即營銷系統的物理表和字段，指標來源于營銷系統的交易數據，而維度來源于營銷系統的主數據。其次，根據邏輯數據模型和數據來源確定營銷數據庫到HANA數據庫的ETL規劃，根據數據的質量規則（包括：數據清除、空值處理、數據替換、規范化數據格式等），確認營銷系統源數據到HANA目標數據庫數據的轉換規則，同時依據數據大小、數據變更時間、數據變更頻繁度、數據增量大小要求確定采用的實時工具SLT還是定時抽數工具BODataService，例如：收費賬務相關的交易數據存在記錄基數大、變更頻率很高等特征，采用實時復制增量數據更合適，而賬務的月結數據僅在每月初產生且數據量非常巨大，因此采用定時批量復制更合適。

2.3.4模型及報表開發

模型及報表開發共分為數據裝載、HANA建模、定義語義層（IDT）、報表開發、數據校驗五個步驟，這五個步驟相互交疊與重復，直至到達最優化設計。其中數據裝載的方式利用了SLT的實時同步技術，SLT同步技術其核心是基于數據庫的觸發器模式實現對源數據的增量復制，最大限度的避免了對源系統表結構的改變，同時采用的多任務復制機制使得實時復制的效率可保持在5~10秒內的數據延遲，裝載后的HANA數據的大小比較源數據庫數據大小可壓縮30%~70%的容量。

3發展前景

不斷的完善HANA數據分析平臺的分析主題，不僅是基于電力營銷系統，還可以基于用電采集系統等構建起電力企業的大數據分析平臺。利用HANA內置的PAL(預測分析庫)對海量電量數據、客戶服務數據實現數據高級分析，建立其有效的事前預測、事中控制、事后改善的企業快速輔助決策模式。營銷業務可以在客戶服務中對受理業務的情況信息、執行過程、執行結果進行深入分析、對客戶需求進行快速響應，改進服務質量、提升電網服務建設。更可以利用海量電能量數據對偷竊電稽核、客戶用電行為、能效管理等進行過分析和應用，助力營銷輔助決策與分析能力的快速提升。

篇5

2蚊蟲的轉錄組學研究

轉錄組學（transcriptomics）是一個活細胞所能轉錄出來的所有RNA的總和，是研究細胞表型和功能的一個重要手段。傳統上用于轉錄組數據獲得和分析的方法主要有基于雜交技術的芯片技術包括cDNA芯片和寡聚核苷酸芯片，但目前使用最普遍的是RNA-seq即轉錄組測序技術?；贗llumina高通量測序平臺的轉錄組測序技術能夠在單核苷酸水平對任意物種的整體轉錄活動進行檢測，在分析轉錄本的結構和表達水平的同時，還能發現未知轉錄本和稀有轉錄本，精確地識別可變剪切位點以及cSNP（編碼序列單核苷酸多態性），提供最全面的轉錄組信息。相對于傳統的芯片雜交平臺，轉錄組測序無需預先針對已知序列設計探針，即可對任意物種的整體轉錄活動進行檢測，提供更精確的數字化信號，更高的檢測通量以及更廣泛的檢測范圍，是目前深入研究轉錄組復雜性的強大工具。巨蚊屬是蚊科中三種不吸血的蚊屬之一，其幼蟲階段以同在小型水體中孳生的白紋伊蚊和埃及伊蚊為食，兩性成蚊均不吸血，以植物汁液和花蜜為食。為了探究巨蚊與其它吸血蚊種在搜尋宿主方面的基因水平上有何差異，國外有學者從巨蚊上分離出觸須、觸角和身體其他部分，分別提取這三部分的RNA，利用RNA-seq技術，將獲得的序列片段從頭組裝，與目前已公布的致倦庫蚊、岡比亞按蚊、埃及伊蚊基因組數據進行系統進化樹分析，發現巨蚊與埃及伊蚊的種屬關系最近，并且在上述四種蚊種中均發現了編碼氣味分子受體（odorantreceptor,OR）蛋白和離子轉移受體（ionotropicreceptor,IR）蛋白的基因，但值得注意的是，巨蚊受體蛋白的表達量與豐度上較其它蚊種都有所降低［18］。因為這些受體蛋白被認為與吸血昆蟲搜尋宿主氣味分子如CO2有關，所以，巨蚊在長期的生物進化過程中，喪失了原本存在的吸血習性。蚊唾液腺蛋白與其吸血傳病密切相關。國外有學者提取白紋伊蚊雌性成蚊的唾液腺RNA后進行轉錄組和蛋白質組分析，發現至少有32個基因在雌性成蚊的唾液腺中表達程度或者增高或者降低，另外有17個基因表達在雌性成蚊唾液腺和雄性成蚊中，但不表達在雌性成蚊的其他組織中。通過分析發現，其中大約三分之一的基因功能表現在吸血、消化糖、免疫應答等方面，但是并未發現其余基因的明確功能，所以非常有可能是長期吸血的過程中進化出的新的功能分子。利用同樣的方法，分析岡比亞按蚊、斯氏按蚊、達氏按蚊、埃及伊蚊、白紋伊蚊、致倦庫蚊和致死按蚊（Anophelesfunestus）的唾液蛋白相關的轉錄組，可以將這些蛋白歸納為：

（1）昆蟲唾液腺中普遍存在的唾液蛋白，包括抗原-5蛋白家族、核酸酶、碳水化合物水解酶等；

（2）在吸血的長角亞目昆蟲（包括白蛉、蚋、蠓等）中豐富表達的D7蛋白；

（3）僅在蚊唾液腺中存在的蛋白，包括30000左右的過敏原蛋白家族（allergenfamily）和一些粘蛋白。很多昆蟲都被發現具有一種獨特的生物學現象——滯育（diapause）。昆蟲的滯育現象被認為是一種休眠的形式，在昆蟲發育時遇到不適宜的環境時，就會馬上由體內激素調節并控制，暫時停止發育。白紋伊蚊被發現同樣具有滯育現象，這是它能適應環境氣候變化，實現快速擴張入侵的生物學基礎之一。白紋伊蚊的雌性成蚊在每日受到較短時間的光照后，產下的卵不會立即孵化，這便是一種滯育的現象。有趣的是，同是伊蚊屬的埃及伊蚊，其雌性成蚊產的卵如果沒有接觸到水，也不會孵化、發育，這卻被認為是一種靜息狀態（quiescence）。這兩種現象的區別在于，發生滯育后，白紋伊蚊的卵即使收到合適的外界環境的刺激，仍需要經過一段時間的恢復才會孵化，而處于靜息狀態的埃及伊蚊的卵，只要受到適宜條件的刺激（如接觸到水），就會馬上進入發育階段。國外有學者利用RNA-seq技術，對這兩種現象進行分析，發現這兩種現象在發育停止的階段，分子水平上是很相近的，不同之處在于滯育現象的早期準備階段和后期修復階段，是其所獨有的。關于滯育現象的早期準備階段，國外學者通過RNA-seq技術，比較滯育前階段（pre-diapause）的白紋伊蚊胚胎與同時期非滯育的白紋伊蚊胚胎基因表達水平上的差異，發現前者在基因表達模式上有非常大的改變。目前，已有學者歸納和總結出了一套利用RNA-seq技術研究白紋伊蚊滯育現象的方法，為今后更全面、徹底地認識白紋伊蚊以及其他媒介昆蟲的滯育現象提供了堅實的基礎。利用RNA-seq技術，我們對白紋伊蚊不同發育時期（卵、幼蟲、蛹、雄蚊、雌蚊）和感染登革病毒前后的轉錄組進行了分析。對比分析不同發育階段特別是雌雄蚊的基因表達譜，我們找到了在胚胎早期對性別分化具有重要作用的候選基因和對雌蚊吸血傳病相關的性別偏愛基因。對比分析登革病毒感染與否的白紋伊蚊轉錄組，我們發現了可能與蚊媒與病原相互作用有關的免疫分子（未發表結果）。目前，針對這些候選基因的進一步功能分析正在進行之中。另外，對白紋伊蚊抗藥品系和敏感品系的RNA-seq對比分析也在進行中，這對于其抗藥機制的闡明非常重要。

3蚊蟲的小RNA組學研究

小RNA（smallRNAs）主要指長度在18~30nt的一類非編碼RNA（ncRNAs），在真核生物中，具有基因表達調控功能的小RNA主要有微小RNA（microRNAs,miRNAs）、內源小干擾RNA（endo-siRNAs）和piwi干擾RNA（piRNAs）。piRNA長度集中在26-31nt,目前只在動物的生殖系細胞及干細胞中被發現，其主要功能是參與轉座子的沉默。miRNAs和endo-siRNAs長度主要集中在20~24nt。miRNAs在動植物和微生物中都普遍存在，據估計一個物種中約1/3的基因會受到miRNA的調控，大量的實驗也表明miRNAs參與了諸多生命過程的調控，例如細胞周期、細胞分化、組織器官的發生、營養代謝、信號途徑以及對外界生物的非生物的環境的反應；同時，miRNAs在生產實踐與臨床治療上也具有很大的應用前景。以往用于尋找miRNAs等小RNA的方法有實驗克隆法、計算機預測法?？寺》梢灾苯佑糜阼b定新小RNA，是初期發掘小RNA的常用方法，不足之處是實驗周期較長，對低表達的小RNA的發現能力十分有限。計算機預測法多是針對某一已知的小RNA特征設計算法，從全基因組或EST數據庫中快速發掘大量潛在的小RNA，一定程度上彌補了克隆法的缺點，然而，預測的小RNA最終還需要實驗證明，同時計算機預測法對新類型小RNA的發掘能力十分有限。隨著第二代高通量測序技術的問世，小RNA高通量測序（smallRNA-Seq）技術開始逐漸取代原始的小RNA發掘法方法，該法具有速度快、成本低、覆蓋度深等多方面的優點，對鑒定與發現生命體內的小分子RNA及其功能與機理研究起極大的推動作用。全世界有超過3000種蚊蟲，目前為止僅有岡比亞按蚊、斯氏按蚊、埃及伊蚊、致倦庫蚊以及白紋伊蚊鑒定出miRNA。一些miRNA的文庫和功能分析表明miRNA對蚊蟲的卵巢發育和吸血后的血液消化具有調節作用。病毒感染可以對宿主細胞miRNA的表達水平產生深遠影響，可能與宿主抗病毒機制及病毒入侵后改變細胞內環境有關，雌蚊中miRNA的表達模式會隨著病原體的感染而發生變化。Hussain等對登革病毒（DENV）編碼的miRNA或病毒小RNA（vsRNAs）的進行了功能研究，他們發現6個vsRNAs能通過作用于病毒基因組RNA莖環結構中的5''''和3''''的UTR區，顯著增加病毒復制。中腸屏障是蚊蟲防止病原體入侵而建立的重要屏障，Alexander等的研究發現miR-1174僅在伊蚊和按蚊的中腸中表達，且雌蚊吸血后其表達量明顯上調；而當miR-1174表達下調后，蚊子吸血率明顯降低，壽命明顯縮短。作者認為：蚊特異性miRNAs，特別是miR-1174具有重要的生物學意義，它們可能影響人們今后控制蚊蟲的策略。我們對白紋伊蚊不同發育時期（卵、幼蟲、蛹、雄蚊、雌蚊、吸血后雌蚊）的小RNA進行了深度測序分析。結果在白紋伊蚊中篩選出119條已知的miRNA基因，確定了15條novelmiRNA基因，其中11條是伊蚊特異的，并且觀察到許多miRNA呈現期特異表達的特點。經過實驗驗證，miR-286、miR-2492和miR-1891分別在白紋伊蚊的卵、幼蟲和成蟲期特異高效表達，敲低/敲除這些miRNA會對蚊蟲的生長發育造成顯著影響。這些研究為新型生物殺蟲劑的研發提供了靶標。我們還對感染登革病毒前后白紋伊蚊的細胞和成蟲的小RNA進行了深度測序分析。結果在感染登革病毒的白紋伊蚊中找到了10條表達上調的miRNA和11條表達下調的miRNA。通過對這些差顯表達miRNA的功能分析，發現miR-252通過與E蛋白3''''-UTR區域的結合，對登革病毒的復制起到抑制作用；而miR-281則通過與E蛋白5''''-UTR區域的結合，對登革病毒的復制具有促進作用。這些研究為抗登革病毒藥物的設計和研發提供了線索。piRNA來源于轉座元件、基因間隔區和一些編碼蛋白質基因的3''''UTRs，對維持基因的完整性和穩定性有一定作用，但最近的研究證明它在抗病毒免疫中也有較大作用。Schnettler等的研究證明：對蚊蟲細胞感染蟲媒病毒可以引發piRNA路徑，而敲除piRNA蛋白質會使病毒產生增多。Castellano等確定了多個24-30nt的Piwi相互作用RNAs基因組簇，通過比對到轉座元件和蛋白質編碼基因的3''''UTRs，發現許多TEs和一些內源性基因的3''''UTR產生大量具有piRNA樣特征的29-nt小RNAs峰。此外，來自岡比亞按蚊和黑腹果蠅TEs的正義和反義piRNAs揭示了piRNA序列偏差的新特征。弗吉尼亞理工大學的研究人員最近在庫蚊中發現了一種新型的抗病毒途徑，Morazzani等在無dicer-2和無突變的蚊細胞中進行的實驗表明，病毒產生的piRNA樣小RNA可以在病毒產生siRNA的過程中調節病毒感染的發生。同時也表明新的piRNA途徑存在于蚊媒的體細胞中并且可能發揮著比siRNA途徑更寬泛的的抗病毒作用，顯示出其為強大的免疫系統。因此，理解病毒如何繞開蚊蟲的雙重抗病毒反應對于科學家來說是越來越有趣的挑戰。

篇6

2工程概況

普光氣田天然氣凈化廠循環水應急池位于普光氣田天然氣凈化廠一臺地的填挖交界區域，地質狀況復雜。水池平面尺寸110m×50m，深6m(泵區深6.5m)，設計有效容積30000m3，主要用于廠內緊急情況下循環水的應急排放。池體結構為鋼筋混凝土，設有一縱五橫6條沉降縫，池體混凝土強度等級為C30、抗滲等級為S6，基礎采用C15毛石混凝土換填，換填深度為3m。

3沉降監測網的布設與施測

3.1沉降監測網的布設為了保證水池蓄水試驗過程中，池體沉降監測的順利進行，需在水池周邊布設一個獨立沉降監測網。沉降監測網布設過程中，考慮到新建沉降監測網基準點自身穩固需要一定的時間跨度和本地區常年多雨的氣候條件限制，在沉降監測網基準點布設時不再重新埋設基準點，而是利用距離水池100m以外的3個廠內原有的、且經過施工期間多次觀測精度可靠的控制點作為本工程水池沉降觀測的基準點。為便于后期對池體進行沉降監測和能夠反映出池體的準確沉降情況，沉降觀測點設在最能反映池體沉降的沉降縫兩側及轉角處。在池底板混凝土澆筑時預先埋設沉降監測點，沉降監測點埋設位置為距池壁外側約50cm的底板上，沉降監測點分布原則為每條沉降縫兩側及轉角處各埋設1個，共計28個。

3.2儀器選擇與施測為了保證水池沉降觀測數據的準確有效，為水池蓄水試驗過程中池體結構安全提供參考依據以及為3個基準點賦予新的獨立高程數值。蓄水試驗前使用蘇州一光EL302A電子水準儀對沉降監測網內的3個基準點，分別按照閉合水準路線和附合水準路線進行多次二等水準測量，其偶然中誤差M和全中誤差MW均小于0.8mm，完全符合二等水準測量的精度要求。

4沉降監測

4.1確定觀測次數

為了取得水池沉降監測的參照數據，水池充水前應進行一次與沉降監測精度(二等)相同的水準測量，以測得的各監測點高程數據為基準，計算蓄水試驗期間各監測點的沉降量。同時，為了保證水池蓄水試驗過程中池體結構安全，避免因水池充水速度過快導致池體失穩垮塌，水池蓄水試驗過程中應緩慢充水。每2m高度或每次充水觀測一次，發生不均勻沉降時應停止充水，并增加觀測次數，直至穩定后再繼續充水;水池蓄水達到設計高度后，觀測一次，24h后觀測一次，連續觀測3d，以后每15d觀測一次，直至沉降穩定;放水前后再各觀測一次。

4.2沉降監測

本工程沉降監測的測量儀器使用蘇州一光EL302A電子水準儀。測量時除了轉角點外，均采用間視法進行觀測。但是，最長視線長度不得大于50m，最短視線長度不得小于3m，最低視線高度不得低于0.6m;觀測讀數應精確到0.01mm，從而達到保證測量精度的目的，以保證沉降監測數據的有效性。

5數據分析

5.1數據處理數學模型

為了保證沉降監測數據計算的準確無誤，在數據計算時利用Excel表格進行［6］。同時，為了充分體現各監測點的沉降變化和不均勻沉降程度，首先用充水后的每次觀測的各監測點的高程與蓄水試驗前測得的相應點的高程進行計算比較，以取得各監測點的沉降量。計算公式如下:Si=Si前－Si后式中:Si前為蓄水試驗前測得的點i的高程;Si后為充水后的每次觀測的點i的高程，Si為點i充水以后相對蓄水試驗前的沉降量。沉降速度計算可參照相關規范和公式，由于本工程水池的沉降在第3次充水后的第3天(3月27日)后已基本穩定，所以這里不再贅述該水池的沉降速度計算和數據處理等。

5.2數據處理結果與分析

根據每次觀測的各監測點的高程，通過以上數學模型可以計算得出:各監測點的沉降量。若在沉降監測中發現建筑物有較大不均勻沉降時，需根據沉降量計算基礎的傾斜度。因本工程沉降監測過程中未發現較大不均勻沉降現象，這里不再贅述。其計算方法可參照《建筑變形測量規范》(JGJ8－2007)中有關沉降觀測的內容。通過表2中的相關數據可以清晰看出，在蓄水試驗過程中各監測點均有不同程度的沉降，試驗前期沉降量較大，隨著試驗的進行逐漸減小、趨于穩定，雖然沉降量的大小各異，但基本趨于均勻;總體來看，位于填方區的東南方向的沉降量大于位于挖方區的西北區域，但未出現較大的不均勻沉降現象;某些測點略有回升，也可能是由于測量過程中的誤差造成的。另外，在蓄水試驗完成水池內試驗用水全部排出后，各監測點均出現了一定程度的回升現象，其可能是因為水池基底土體受到的荷載卸載后，在基底應力場平衡的影響下，基底出現了回彈現象所致。

篇7

1.1數據采集

大數據的采集是整個流程的基礎，隨著互聯網技術和應用的發展以及各種終端設備的普及，使得數據的生產者范圍越來越大，數據的產量也越來越多，數據之間的關聯也越來越復雜，這也是大數據中“大”的體現，所以需要提高數據采集速度和精度要求。

1.2數據處理與集成

數據的處理與集成主要是對前一步采集到的大量數據進行適當的預處理，包括格式化、去噪以及進一步集成存儲。因為數據采集步驟采集到的數據各種各樣，其數據結構也并不統一，不利于之后的數據分析，而且，一些數據屬于無效數據，需要去除，否則會影響數據分析的精度和可靠性，所以，需要將數據統一格式并且去除無效數據。通常會設計一些過濾器來完成這一任務。

1.3數據分析

在完成了數據的采集和處理后，需要對數據進行分析，因為在進行數據分析后才能體現所有大數據的重要價值。數據分析的對象是上一步數據的處理與集成后的統一格式數據，需要根據所需數據的應用需求和價值體現方向對這些原始樣本數據進一步地處理和分析?，F有的數據分析通常指采用數據倉庫和數據挖掘工具對集中存儲的數據進行分析，數據分析服務與傳統數據分析的差別在于其面向的對象不是數據，而是數據服務。

1.4數據解釋

數據解釋是對大數據分析結果的解釋與展現，在數據處理流程中，數據結果的解釋步驟是大數據分析的用戶直接面對成果的步驟，傳統的數據顯示方式是用文本形式體現的，但是，隨著數據量的加大，其分析結果也更復雜，傳統的數據顯示方法已經不足以滿足數據分析結果輸出的需求，因此，數據分析企業會引入“數據可視化技術”作為數據解釋方式。通過可視化結果分析，可以形象地向用戶展示數據分析結果。

2云計算與大數據分析的關系

云計算是基于互聯網的相關服務的增加、使用和交付模式，通常涉及通過互聯網來提供動態易擴展且經常是虛擬化的資源，是一種按使用量付費的模式。這種模式提供可用的、便捷的、按需的網絡訪問，進入可配置的計算資源共享池（資源包括網絡、服務器、存儲、應用軟件、服務），這些資源能夠被快速提供，只需投入很少的管理工作，或與服務供應商進行很少的交互。目前，國內外已經有不少成熟的云計算的應用服務。數據分析是整個大數據處理流程里最核心的部分。數據分析是以數據的價值分析為目的的活動，而基于大數據的數據分析通常表現為對已獲取的海量數據的分析，其數據來源可能是企業數據也可能是企業數據與互聯網數據的融合。從目前的趨勢來看，云計算是大數據的IT基礎，是大數據分析的支撐平臺，不斷增長的數據量需要性能更高的數據分析平臺承載。所以，云計算技術的不斷發展可以為大數據分析提供更為靈活、迅速的部署方案，使得大數據分析的結果更加精確。另一方面，云計算的出現為大數據分析提供了擴展性更強，使用成本更低的存儲資源和計算資源，使得中小企業也可以通過云計算來實現屬于自己的大數據分析產品。大數據技術本身也是云計算技術的一種延伸。大數據技術涵蓋了從數據的海量存儲、處理到應用多方面的技術，包括海量分布式文件系統、并行計算框架、數據庫、實時流數據處理以及智能分析技術，如模式識別、自然語言理解、應用知識庫等等。但是，大數據分析要走向云計算還要賴于數據通信帶寬的提高和云資源的建設，需要確保原始數據能遷移到云環境以及資源池可以隨需彈性擴展。

3基于云計算環境的Hadoop

為了給大數據處理分析提供一個性能更高、可靠性更好的平臺，研究者基于MapReduce開發了一個基于云計算環境的開源平臺Hadoop。Hadoop是一個以MapReduce算法為分布式計算框架，包括分布式文件系統（HDFS）、分布式數據庫（Hbase、Cassandra）等功能模塊在內的完整生態系統，已經成為當前最流行的大數據處理平臺，并被廣泛認可和開發應用?；贖adoop，用戶可編寫處理海量數據的分布式并行程序，并將其運行于由成百上千個節點組成的大規模計算機集群上。

4實例分析

本節以電信運營商為例，說明在云計算環境中基于Hadoop的大數據分析給大數據用戶帶來的價值。當前傳統語音和短信業務量下滑，智能終端快速增長，移動互聯網業務發展迅速，大數據分析可以為運營商帶來新的機會，幫助運營商更好地轉型。本文數據分析樣本來自于某運營商的個人語音和數據業務清單，通過Hadoop2.6.0在Ubuntu12.04系統中模擬了一個大數據分析平臺來處理獲得的樣本。希望通過對樣本數據的分析與挖掘，掌握樣本本身的一些信息。以上分析只是一些很基本的簡單分析，實際上樣本數據中所蘊含的價值要遠遠大于本文體現的。以上舉例意在說明基于云計算的大數據分析可以在數據分析上體現出良好的性能，為企業帶來更豐富更有效率的信息提取、分類，并從中獲益。

篇8

一、市場調查

根據一份市場調查顯示；賣家本身體現的實力給人與信任可依賴程度越高，用戶越愿意來購買商品。

在我評論之前，我申明一下，一家之言只代表一個群體的言論，并不能涵蓋每個人的想法與判斷，電子商務的數據報告只能說明趨勢，并不能完全反應出每個顧客真實的意圖。賣家信譽-28%。價格-26%。網站的外觀和感覺-16%。網站易用性-15%。商品打折-4%?？爝f和交付等原因-3%。出現在搜索引擎上-2%。

這是一份市場調查的結果，數據報告對實際商業產生怎樣的影響，一個關鍵問題就是篩選問題的分類方式，他是否獨立又相互依存，論點論據之間重合度越低，數據報告能說明的問題越準確。但在這之前首先是樣本數據的獲取與篩選方法，這里就不追溯了。我只是想根據個人對電子商務的理解，結合這份報告說點事，實際上這一組數據比較接近我個人對網購的理解，首先我們逐條說明這些影響一個網店的因素：

二、賣家信譽

之所以被普遍認為是最重要的，是因為我們網購時并不真實的接觸到產品，也并不了解向你推銷商品的人是否值得可信，這都是顧客基本的一個需要認知過程，互聯網上哪里去確認?當然如果你在一家多賣家的平臺上，往往都會有商家信用，評論等功能，很容易通過別的顧客消費情況增加自己對商家的認知。電子商務為什么要打假信用?這只是順應顧客需求，維護健康秩序所必須做的事情。所以作為賣家不要輕易嘗試作假信用，或者你今天逃過一劫，但說不定你明天網店剛做大的時候被強行關閉了。

三、價格

價格是一道屏障，在相互比拼中，有人拼得起，有人拼不起，但如何更好的控制價格，削減顧客成本，不僅為自己贏得更多展示機會，也會贏得更多顧客。價格不會是越低廉越好，最好的平衡體系沒有，只有一個方法，如何在綜合上為自己贏得市場??有人習慣選一些比如3.99美元的價格，看上去不加拿一分錢顧客潛在心理是這個人沒賺錢，但值得說的是商品定價因產品，因地域時間，顧客等因素制宜，現在的顧客不都是傻子，商品有的是比價機會。也有人選擇款0利潤或者賠本的商品推，但在商品里關聯組合商品賣，通過吸引用戶購買自己的組合商品或者別的商品來拉動自己銷售利潤；還有的人也是利用免費贈送或者賠本的方式掛商品，但通過物流利潤來保證自己不虧本的方式拉動店鋪其他產品行銷。

四、網站的外觀與感覺

有的人店鋪半年一年都是淘寶默認的最爛的那套模板，也不知道為什么淘寶沒更新還是咋的，我沒賣過商品，還不是很了解那個，但我買東西基本不光顧這樣的店鋪，店主對店鋪的打理程度決定了我對店主的看法，因為信用不是絕對可靠的；產品，服務好不好，全在你的形象與行為上。

五、網站易用性

你能忍受自己在一個網站嘩啦了半天結果沒搞懂應該怎么買商品嗎?我一個朋友，按照我的認識他也是比較理性，屬于心思敏捷的，他說他在XX網站搞了好久，都不知道怎么買東西，所以以后都沒去過；雖然易用的應用都還是不能被所有人接受，但簡單清楚的，沒有歧義的每一步流程總是好的。不過這個雖然用戶關注的多，但我覺得但凡有點認識的，認識相應語言的人大概都明白很多網購系統的操作流程。這里就不說什么了。

六、促銷打折

商品打折也屬于價格范疇，只是這里細化成了一個活動，活動可以是定期的比如每周二，三，四晚上限量搶購啊；選2款顧客競價??；前面“價格”里也提到的0價格換信用，換軟文之類的啊；參與商盟聯合促銷啊；換季狂甩啊之類的?？傊畢⑴c打折的，有資本經歷運作打折的，只要PV高，顧客肯定不會少，除非你的商品含有價格，性能，服務等水分太大，用什么樣的打折方法，最關鍵的你是銷售一時還是為了希望吸引到長久的顧客而去設計。

七、快遞與交付等原因

物流過程中雖然有很多不可控因素導致一些商品容易磨損之類的，但物流懼怕承擔責任的態度決定了自己的發展框架，假設一下，你的企業就在你的心胸里；你心胸只有100㎡大小，即使你鼓足了勁你也最多到120㎡，這樣的容量是沒有辦法和猶如大海寬廣心胸的人比較的。我是沒記住你，但有人記住你了，他下次要走物流，肯定不會選你，你損失的不只是一個用戶，而是損失了一個未來。

八、搜索排名

我沒有看到他們分析提交的數據時基于怎樣的搜索引擎，這個分類其實很不準確，雖然數字已經很少了，我自己買商品在淘寶，有啊上都用他們站內的搜索引擎，如果我常用的幾個排序商品方法篩選數據你都沒排列在前三頁，那么即使你離我最近，就住在我隔壁，你服務態度最好，商品也不必別人的差；但你離我還是太遠了，我根本找不到你。

對我個人來說，像百度，GOOGLE的網頁搜索這樣的綜合搜索出來的商品，對我吸引力太小了，綜合搜索出來的商品并不是他信譽最高，價格最低，服務最好就顯示在了綜合搜索引擎上，只因為他的頁面更適合搜索引擎邏輯而已。商品真正追求的東西不在文本上，而在商品與服務內在的東西里。當然，在同等條件下，不要錯過這樣一個增加PV與交易機會的機會。

九、總結

目前，數據挖掘技術正以前所未有的速度發展，并且擴大著用戶群體，在未來越來越激烈的市場競爭中，擁有數據挖掘技術必將比別人獲得更快速的反應，贏得更多的商業機會?，F在世界上的主要數據庫廠商紛紛開始把數據挖掘功能集成到自己的產品中，加快數據挖掘技術的發展。我國在這一領域正處在研究開發階段，加快研究數據挖掘技術，并把它應用于電子商務中，應用到更多行業中，勢必會有更好的商業機會和更光明的前景。

參考文獻：

[1]韓家煒.Web挖掘研究[J].計算機研究與發展，2001.

[2]陳宏.消費者數據挖掘系統建立的幾個問題.

篇9

一、轉軌時期人口遷移理論

資料來源：《1987年全國1%人口抽樣調查資料》、《1995年全國1%人口抽樣調查資料》、《中國1990年人口普查資料》、《中國2000年人口普查資料》。

三、遷移的決定因素：計量分析

表3用于回歸分析變量的統計值

注：*根據微觀數據計算。

四、回歸結果與討論

表4遷移決定因素回歸結果

將外商直接投資變量引入回歸方程2，就得到回歸方程3.引入這個變量之后，遷移距離和失業率等解釋變量的回歸系數及其顯著性變化不大，而人均消費水平的回歸系數及其顯著性發生較大改變。從絕對值來看，方程3中的人均消費水平回歸系數小于回歸方程2中的回歸系數估計值，遷出地人均消費水平的回歸系數顯著性有所下降，主要是人均消費水平與外商直接投資之間存在較高相關關系導致的結果（注：人均消費水平與外商直接投資的相關系數為0.56.）?？缡∪丝谶w移比例主要分布在東部地區，它與外商直接投資之間存在較強的相關關系（注：外商直接投資與遷移存量之間的相關系數為0.76.），引入外商直接投資變量之后，遷移存量的回歸系數數值下降約50%.為了觀察城市勞動力市場對農村勞動力遷移決策的影響，我們利用微觀數據做進一步分析?；貧w方程4引入了農村遷移勞動力的失業率，回歸結果進一步支持上述發現，即遷入地的就業機會對遷移者來說更為重要?；貧w方程5引入了城市勞動力失業率。結果表明，城市失業率對于農村勞動力跨省遷移率有顯著性影響，其回歸系數在絕對值上不僅大于回歸方程4中失業率的回歸系數，而且大于回歸方程2中的回歸系數，這說明城市勞動力市場就業形勢確實對農村勞動力的遷移決策有重要作用。改善城市就業環境將有利于促進農村勞動力流向城市，起到加速城市化的作用。五、結論