為什麼模型預測時間越長越好
A. 時間跨度越長天氣預報越不準,為什麼會這樣
這種現象不是天氣預報越來越不準確,而是天氣預報越來越准確,預報給用戶的手段越來越豐富、越來越快。首先,我們應該認識到,天氣預報是對未來天氣現象的預測,既然是預測,就不可能100%准確。由於物理學中的測不準原理,在數學計算中有各種近似方法。因此,隨著預測時間的延長,由數學模型計算的預測結果的准確性迅速降低。然而,隨著時間的推移,我們離預測時間越來越近,計算結果也越來越准確。目前,我們的氣象部門必須及時修改預報。
填補這一真空非常困難,氣候模型必須准確描述天氣預報與氣候預報之間的「差距」"為填補這項差距,延長期內的天氣預報可被視為傳統天氣預報與氣候預報之間的"差距"。「填補這一空白非常困難」,准確描述氣候模型的氣候系統和氣候有多困難。
B. 用IPTG誘導表達的時間是否越長越好,為什麼
用IPTG誘導表達的時間不是越長越好,因為只有在特定的環境信號(加入IPTG)刺激下,目的基因才會被激活,之後才會產生大量的代謝表達產物,收集有較多表達量的菌體。
如果不用IPTG的話,大部分目的蛋白是不會表達的,有少部分可能會有極少量的表達,稱之為泄漏表達。
科學研究:
IPTG常用於需要誘導β-半乳糖苷酶活性的克隆實驗。它常與X-Gal或Bluo-Gal結合使用,用於重組細菌菌落的藍白篩選,這些菌落可以誘導lac操縱子在大腸桿菌中的表達。IPTG與lacI阻遏蛋白結合並改變其構象而發揮作用,防止β-半乳糖苷酶編碼基因lacZ的抑制。
C. VAR模型下,觀測時間越長越好嗎
當然是觀測的時間越長越好對以後的發展多餘挺好
D. 准穩態實驗為什麼不是時間越長數據越好
因為准穩態最大的優點,在於大大縮短測試周期
准穩態測試方法的最大優點,在於大大縮短測試周期,將以往穩態法常溫下一個溫度點的測試周期從48小時以上縮短到36小時內測試一條有效導熱系數隨溫度的變化曲線。准穩態法是指在給定自變數的作用下,相應的響應信號並未達到完全穩定。人為規定在每一個自變數停留同樣的時間,在時間到達前的瞬間記錄相應的響應信號。
值得一提的是,准穩態有效導熱系數測試技術是一種新型測試手段,這種測試技術是採用一維熱流加熱方式,被測試樣在被加熱到一定階段後,通過試樣的熱流速度將達到一個緩慢變化狀態,也就是准穩態狀態。
E. 短期預測和長期預測的預測時間分別是多少 一般來說 短期預測和長期預測 哪種誤差較大為什麼急 急 急
短期是一年內 長期是5年以上 長期誤差較大
以為市場等因素變化在長期內是不能完全確定的
F. 時間序列分析預測法優缺點
優點:可以從時間序列中找出變數變化的特徵、趨勢以及發展規律,從而對變數的未來變化進行有效地預測。
缺點:在應用時間序列分析法進行市場預測時應注意市場現象未來發展變化規律和發展水平,不一定與其歷史和現在的發展變化規律完全一致。間序列預測法因突出時間序列暫不考慮外界因素影響,因而存在著預測誤差的缺陷,當遇到外界發生較大變化,往往會有較大偏差。
其基本特徵:
1、趨勢性:某個變數隨著時間進展或自變數變化,呈現一種比較緩慢而長期的持續上升、下降、停留的同性質變動趨向,但變動幅度可能不相等。
2、周期性:某因素由於外部影響隨著自然季節的交替出現高峰與低谷的規律。
3、隨機性:個別為隨機變動,整體呈統計規律。
4、綜合性:實際變化情況是幾種變動的疊加或組合。預測時設法過濾除去不規則變動,突出反映趨勢性和周期性變動。
G. 您好,請問對於長期的預測,用什麼模型准確率比較高
自我感覺哈。。。長期的預測應該用智能預測相對來說比較准確一點,如神經網路預測,二時間序列模型預測適合短期預報,時間稍微長一點就完全不準確,灰色模型預測也是。。
H. svm的模型越大,預測時間會不會變長
SVM理論是在統計學習理論的基礎上發展起來的,由於統計學習理論和SVM方法對有限樣本情況下模式識別中的一些根本性的問題進行了系統的理論研究,很大程度上解決了以往的機器學習中模型的選擇與過學習問題、非線性和維數災難、局部極小點問題等。應用SVM進行回歸預測的步驟具體如下:
1)實驗規模的選取,決定訓練集的數量、測試集的數量,以及兩者的比例;2)預測參數的選取;3)對實驗數據進行規范化處理;4)核函數的確定;5)核函數參數的確定。其中參數的選擇對SVM的性能來說是十分重要的,對於本文的核函數使用RBF核函數,對於RBF核函數,SVM參數包括折衷參數C、核寬度C和不敏感參數E。目前SVM方法的參數、核函數的參數選擇,在國際上都還沒有形成統一的模式,也就是說最優SVM演算法參數選擇還只能是憑借經驗、實驗對比、大范圍的搜尋和交叉檢驗等進行尋優。實際應用中經常為了方便,主觀設定一個較小的正數作為E的取值,本文首先在C和C的一定范圍內取多個值來訓練,定下各個參數取值的大概范圍,然後利用留一法來具體選定參數值
股價時間序列的SVM模型最高階確定
股價數據是一個時間序列,從時間序列的特徵分析得知,股價具有時滯、後效性,當天的股價不僅還與當天各種特徵有關,還與前幾天的股價及特徵相關,所以有必要把前幾天的股價和特徵作為自變數來考慮。最高階確定基本原理是從低階開始對系統建模,然後逐步增加模型的階數,並用F檢驗對這些模型進行判別來確定最高階n,這樣才能更客觀反映股票價格的時滯特性。具體操作步驟如下:假定一多輸入單輸出回歸模型有N個樣本、一個因變數(股價)、m- 1個自變數(特徵),由低階到高階遞推地採用SVM模型去擬合系統(這兒的拓階就是把昨天股價當做自變數,對特徵同時拓階),並依次對相鄰兩個SVM模型採用F檢驗的方法判斷模型階次增加是否合適[ 7]。對相鄰兩模型SVM ( n)和SVM ( n+ 1)而言,有統計量Fi為:Fi=QSVR (n)- QSVR( n+1)QSVR (n)1N - m n - (m -1)mi =1,2,,, n(1)它服從自由度分別為m和(N - m n - (m -1) )的F分布,其中QSVR (n)和QSVR( n+1)分別為SVR ( n)和QSVR( n+1)的剩餘離差平方和,若Fi< F(?,m, N-m n- (m-1) ),則SVM (n )模型是合適的;反之,繼續拓展階數。
前向浮動特徵篩選
經過上述模型最高階數的確定後,雖然確定了階數為n的SVM模型,即n個特徵,但其中某些特徵對模型的預測精度有不利影響,本文採用基於SVM和留一法的前向浮動特徵特徵篩選演算法選擇對提高預測精度有利影響的特徵。令B= {xj: j=1,2,,, k}表示特徵全集, Am表示由B中的m個特徵組成的特徵子集,評價函數MSE (Am)和MSE (Ai) i =1,2,,, m -1的值都已知。本文採用的前向浮動特徵篩選演算法如下[9]:1)設置m =0, A0為空集,利用前向特徵篩選方法尋找兩個特徵組成特徵子集Am(m =2);2)使用前向特徵篩選方法從未選擇的特徵子集(B -Am)中選擇特徵xm +1,得到子集Am+1;3)如果迭代次數達到預設值則退出,否則執行4);4)選擇特徵子集Am+1中最不重要的特徵。如果xm+1是最不重要的特徵即對任意jXm +1, J (Am +1- xm+1)FJ(Am +1- xj)成立,那麼令m = m +1,返回2) (由於xm+1是最不重要的特徵,所以無需從Am中排除原有的特徵);如果最不重要的特徵是xr( r =1,2,,, m )且MSE (Am+1- xr) < MSE (Am)成立,排除xr,令A'm= Am+1- xr;如果m =2,設置Am= A'm,J (Am) = J (A'm), ,返回2),否則轉向步驟5);5)在特徵子集A'm中尋找最不重要的特徵xs,如果MSE (A'm- xs)EM SE (Am-1),那麼設置Am= A'm, MSE (Am)= MSE (A'm),返回2);如果M SE (A'm- xs) < M SE (Am -1),那麼A'm從中排除xs,得到A'm-1= Am- xs,令m = m -1;如果m =2,設置Am= A'm, MSE (Am) = MSE (A'm)返回2),否則轉向5)。最後選擇的特徵用於後續建模預測。
預測評價指標及參比模型
訓練結果評估階段是對訓練得出的模型推廣能力進行驗證,所謂推廣能力是指經訓練後的模型對未在訓練集中出現的樣本做出正確反應的能力。為了評價本文模型的優劣,選擇BPANN、多變數自回歸時間序列模型( CAR)和沒有進行拓階和特徵篩選的SVM作為參比模型。採用均方誤差(mean squared error, MSE)和平均絕對誤差百分率(mean ab-solute percentage error, MAPE)作為評價指標。MSE和MAP定義如下:M SE=E(yi- y^i)2n( 2)MAPE=E| yi- y^i| /yin( 3)其中yi為真值, y^i為預測值, n為預測樣本數。如果得出M SE, MAPE結果較小,則說明該評估模型的推廣能力強,或泛化能力強,否則就說明其推廣能力較差
I. 為什麼做回歸預測分析,日度數據優於周度數據優於月度數據,為什麼時間區間越短越好呢
時間區間越短,相應的樣本量就越豐富,整個樣本包含的信息就越豐富。
J. 預測模型建立
鬆散含水層含水量預測模型的建立,主要是將預測鬆散含水層含水量問題轉化為利用支持向量機求解的數學模型,主要包括如下4個步驟:
1)選取訓練集T={(x1,y1),…,(xl,yl)}∈(χ×y)l。
2)選擇適當的核函數K(x,x'),如線性核函數、徑向基核函數、多項式核函數和Sigmoid核函數。
3)確定支持向量機中的參數,如C,ε,γ等。
4)建立模型。
(一)訓練集的選取
1.預測基本輸入特徵量
選取合適的訓練集,對於建立鬆散含水層含水量預測模型是非常重要的,本課題對預測模型輸入特徵量的選取遵循以下原則:
1)現有物探儀器設備可測、或可轉換參數,具有實用性和可觀測性。
2)要與所研究地下含水層結構的綜合物探方法相配套,充分挖掘所獲觀測數據的信息資源。
3)優化組合,兼顧所利用的輸入特徵量間的互補性,避免或減少冗餘性。
4)保障預測模型具有廣泛的推廣能力。
建模時要把所有的數據分為訓練集和測試集,根據訓練集,求出決策函數,而用測試集測試所得決策函數的准確率。那麼選擇一個合適的訓練集,第一要滿足訓練集中的樣本點數量不能過多,也不能太少;第二訓練集中所含特徵向量不能太少,如果太少則不能夠反映實際情況,影響分類或者回歸的准確性,但也不能太多,否則會增加計算難度,甚至影響訓練速度和時間。除了樣本點多少的選擇以外,還要在數據中不能選擇過多的屬性。屬性選擇要達到以下3個目的:首先是確認哪些屬性與預測輸出特徵量相關的特性;其次是盡量降低輸入空間維數,縮小求解問題的規模;最後是提高准確率,得到更好的決策函數。
基於上述原則,將支持向量機預測模型的預測輸入基本特徵量選定為:反演電阻率值ρ、反演含水層厚度H,半衰時Th,衰減度D,視極化率ηs,縱波速度v等地面物探觀測參數作為基本輸入特徵量討論。
為了驗證上述輸入特徵量選擇原則的正確性,選擇了石家莊市西馬庄水源地現有電測深資料與單孔單位涌水量資料並進行了秩相關性分析,原始數據見表5-1所示。分析結果如表5-2所示。
表5-1 西馬庄原始數據
表5-2 西馬庄電性參數與涌水量相關分析
2.綜合性參數的引入
鑒於第四紀含水層一般呈高阻性,在電測深反演解釋過程中易產生Th等值現象的解釋誤差。依據含水層的富水性對應於一定的電阻率值,而單孔單位涌水量既與含水層富水性有關,又與其厚度有關。為了盡可能消除因等值現象導致解釋所產生的誤差,又能使輸入特徵量與預測量有更為密切的相關性,使預測模型具有良好的推廣能力,對此,將電測深反演後的含水層電阻率與其層厚度相乘作為一個輸入特徵量T',該特徵量T'與含水層單孔單位涌水量相關分析結果表明,二者有更為密切的相關性,見表5-3所示。
表5-3 綜合參數與涌水量相關分析
考慮到不同的地區地下水所含礦化度的不同,因其孔隙水的導電性不同,將會導致同類富水層電阻率有較大差別。為了消除孔隙水的導電性對預測精度的影響,突出含水層有效孔隙度特徵,基於ρ=αΦ-ms-nρw式,引入了相對綜合因子參數T″,其表達式為
含水層含水量預測綜合物探技術
式中:ρf為孔隙流體的電阻率;ρt為岩石的電阻率;H為含水層厚度。
從而將原基本輸入特徵量ρ和H組合為一個輸入特徵量T″。
3.激發比的引入
考慮到激發比可以放大激電異常,對第四系含水層有更為靈敏的反應。因此將激電模型里的極化率、衰減度參量用激發比參量代替,其表達式為J=ηsD。由表5-4和表5-5可知,激發比的引入,改善了模型預測精度。
表5-4 未引入激發比模型預測結果
表5-5 引入激發比模型預測結果
4.輸入特徵量的歸一化
由於各輸入特徵量的量度差異較大,在用支持向量回歸機進行建模訓練和使用時,有必要對輸入特徵量進行歸一化。歸一化是指將屬性數據按比例縮放,使之落入一個小的特定區域,如[-1,1]或[0,1]范圍內。
歸一化可以幫助防止具有較大初始值域的屬性與具有較小初始值域的屬性相比,權重差距過大。本次所建模型採用最小-最大規范化方法:將輸入特徵量歸一化到[0,1]范圍內。歸一化公式為
含水層含水量預測綜合物探技術
式中:x為某個輸入參數對應的值;xmin和xmax分別為該項特徵量的設置最小值和最大值;xs為該輸入參數的歸一化值。
5.預測輸入特徵量的優選
在基本預測輸入特徵量歸一化處理的基礎上,需要進一步研究特徵量組合結構的優化性問題,即確定預測模型最佳輸入特徵量的數量和成分。
通過電測深找水實踐證明:
第四紀地下含水層結構對應特定的電測深異常特徵,所獲取的地電參數與單孔涌水量均存在著一定的對應關系,但深入研究還表明:作為預測輸入量而言,每一參量與單孔涌水量間存在著不同的相關性,輸入量相互之間可能還存在著冗餘成分,為提高預測模型的預測精度和模型運算速度,探討上述地電參量與地下水單孔涌水量的相關性和輸入特徵量的最佳組合問題,揭示地電參數與地下含水層含水量的內在關聯是十分必要的,也是確定預測模型輸入特徵向量的基礎。
鑒於地電參數與地下含水層含水量間不存在明確的函數關系,在優化分析過程中,以石家莊市西馬庄水源地的已知8眼井孔的資料為基礎,將現有的已知特徵量參數:T″,Th,D,ηs及激發比J作為分析對象,利用高斯徑向基核函數,C=1024,ε=0.5,γ=1.0和ε-SVR模型進行7+1循環式訓練-預測方式。其分析結果如表5-6所示。
由表5-6所列預測精度可得到以下結論:
表5-6 特徵量的優化分析表 單位:%
第一,隨著特徵數量的增大,其預測精度得到提高,四個特徵量預測精度最好;
第二,若採用三個特徵量時,其中的T″,Th,D組合最佳,其次為T″,D,ηs。以上結論對建模時輸入特徵量的優化篩選提供了重要的參考依據。
6.預測模型輸入特徵量的確定
基於上述分析,針對研究對象的尺度及精度要求,建立了4種預測模式。對於不同的預測模型,分別確定了其輸入特徵量。
模型一:輸入特徵量為含水層的反演電阻率ρ、隔水層的反演電阻率ρ隔、含水層厚度h、含水層層數n和井孔孔徑。該模型主要用於對精度要求不高的區域水文地質調查。
模型二:輸入特徵量為含水層的反演電阻率ρ、隔水層的反演電阻率ρ隔、視極化率ηs、含水層的半衰時Th、含水層厚度h、含水層層數n和井孔孔徑。該模型主要用於專門性水文地質調查。
模型三:輸入特徵量為含水層的反演電阻率ρ、隔水層的反演電阻率ρ隔、視極化率ηs、半衰時Th、衰減度D、含水層厚度h、含水層層數n和井孔孔徑。該模型主要用於對精度要求較高但探測深度要求不高的地下水源評價與開發工作。
模型四:輸入特徵量為含水層的反演電阻率ρ、隔水層的反演電阻率ρ隔、視極化率ηs、縱波波速v、含水層厚度h、含水層層數n和井孔孔徑。該模型主要用於對精度要求較高,探測深度較深的地下水源評價與開發工作。
(二)核函數的選擇
在建立預測模型過程中,需要選擇函數K(·,·),即選擇一個映射Φ(·),把x所在的輸入空間χ映射到另一個空間H。H是一個Hilbert空間,即可以是有限維空間也可以是無窮維空間。因此核函數方法的核心內容就是採用非線性變換Φ將n維矢量空間中的隨機矢量x映射到高維特徵空間,在高維特徵空間中設相應的線性學習演算法,由於其中各坐標分量間的相互作用只限於內積,因此不需要知道非線性變換Φ的具體形式,只要利用滿足Mercer條件的核函數替換線性演算法中的內積,就能得到原輸入空間中對應的非線性演算法。
支持向量回歸機中的核函數對於預測模型的推廣能力產生直接的影響,在選取核函數時,通常採用的方法有:一是利用專家的先驗知識預先給定核函數;二是採用Cross-Validation方法,即在核函數選取時,分別試用不同的核函數,歸納預測誤差最小的核函數就是最好的核函數。在本課題中我們採用了第二種方法進行核函數的選擇。
為使確定的核函數具有最佳的預測效果,首先要對相應的核數的參數進行優化篩選。由(5-20),(5-22),(5-24)式可見,徑向基核函數需要確定1個核參數,即系數γ;Sigmoid核函數需要確定2個參數,分別為:系數γ和常數r;多項式核函數需要確定3個參數,分別為:階數d、系數γ和常數r。
在篩選過程中,將石家莊市西馬庄水源地的井旁電測深成果和抽水試驗數據作為研究基礎,具體數據詳見表5-1所示。
將其劃分為兩個子集,即一個訓練集和一個預測驗證集。由此對上述每一種核函數利用已確定的訓練集進行建模參數優化篩選。具體方法為:對於徑向基函數採取了交叉驗證和網格搜索的方法,多項式核函數和Sigmoid核函數採用了試湊法。
試驗一:徑向基核函數交叉驗證
對石家莊西馬庄水源地8眼井作試驗數據,選出7個作為訓練樣本,一個不參加訓練的樣本。再將選出的7個訓練樣本隨機分為3組,選擇其中兩組進行訓練,另外一組作為驗證,這樣一個接一個,進行3次。每次驗證時,嘗試所有的參數對,計算其交叉校驗的平均性能MSE,最後以模型在3次驗證數據上的性能平均值作為這一學習參數下的模型性能,然後循環8次,從而確定最佳參數值范圍。確定的搜索范圍分別為C(2-10,215),ε(2-10,23),γ(2-10,210)。為了增加搜索速度,我們步長選擇的是2的指數倍。最終確定參數C=1024,ε=0.5,γ=1。
試驗二:多項式核函數試湊法
借鑒試驗一的分析結果,選擇參數C=1024,ε=0.5。在選取核參數之前,我們需要對多項式核的階數d做出限定,選擇的階數不易過大,如階數太大,不僅增加了學習模型的復雜性,易出現「過擬合」現象,導致SVM的推廣性能降低。因此,規定d的取值不超過4。另外對γ和r做了初步篩選,圈定了其范圍分別為:γ∈[1,4];r∈[0.1,1]。然後採用階梯式搜索分別找出最優的階數d、系數γ和常數r;
首先進行階數d的選擇,設定參數γ=1,r=0.2;從8眼井中選出7個作為訓練樣本,d依次選擇1、2、3、4進行訓練,預測那個沒有參加訓練的樣本,循環8次然後將預測結果進行對比。本文採用兩個誤差指標來衡量模型的預測效果:均方誤差(MSE)和平均絕對百分比誤差(MAPE),其表達式分別為
含水層含水量預測綜合物探技術
式中: 為預測值;xi為實測值;N為試驗次數,這里N取8。
由表5-7可以看出:當d=3或d=4時,預測精度相近,但考慮到階數越大,學習模型的復雜性越大,因此選取d=3最佳參數。
表5-7 不同階數多項式核函數對預測結果影響統計表
然後進行系數γ選擇,設定參數d=3,r=0.2;γ依次選擇1、2、3、4進行訓練,然後將預測結果進行對比,可知γ=1為最佳參數(表5-8)。
表5-8 不同γ多項式核函數對預測結果影響統計表
最後進行常數r的選擇,設定參數d=3,γ=1.0;r依次選擇0.2、0.4、0.6、0.8和1進行訓練,然後將預測結果進行對比,可知r=0.8為最佳參數(表5-9)。
表5-9 不同r多項式核函數對預測結果影響統計表
最終確定參數d=3,γ=1,r=0。
試驗三:Sigmoid核函數試湊法
選取石家莊西馬庄水源地8眼井作試驗數據,仍借鑒試驗一的分析結果,選擇參數C=1024,ε=0.5。
對γ和r做了初步篩選後,確定γ為0.1;圈定r∈[0.01,1]。下邊對參數r進行精細選擇,設定r值分別為:0.01、0.1、0.2、0.4、0.8,從8眼井中選出7個作為訓練樣本,預測樣本不參加訓練集,經過8次循環,通過對預測結果的對比,從而確定r=0.01~0.1時預測效果最好。分析結果如表5-10所示。
表5-10 不同rSigmoid核函數對預測結果影響統計表
核函數的選擇通常採用Cross-Validation法,即在核函數選取時,分別試用不同的核函數,歸納預測誤差最小的核函數就是最好的核函數。
我們將石家莊西馬庄8眼井的資料與北京潮白河水源地7眼井的資料組合建立新的建模集,從中任意選出14個作為訓練集樣本,另外1個樣本組成預測集,這樣進行了8組試驗,通過圖5-3我們看到基於RBF核函數的預測模型預測精度最高。因此我們認為利用RBF核函數建立的含水層含水量預測模型預測效果最佳。
圖5-3 三種核函數預測精度對比
(三)參數確定
採用徑向基核函數所建立的模型需要確定的參數共有三個,分別為核函數參數γ,懲罰系數C和鬆弛變數ε。
懲罰因子C為正常數,懲罰因子C決定了對超出誤差ε的樣本懲罰程度。從結構風險的角度考慮,C值取得過大,問題傾向於經驗最小,忽略對結構復雜程度的考慮;反之則更多地考慮了問題的復雜程度,忽略了經驗數據的作用。因此可以說,C是支持向量機回歸和泛化能力的平衡參數。懲罰因子C取不同的常數值,對結果有不同的影響。
由表5-11可知當C值取1024和2048時預測精度相同,說明當C大於一定值時,其變化對分析結果產生的影響變小。
表5-11 不同C值對預測結果影響統計表
通過對比試驗,最終取值C=1024,ε=0.5,γ=1.0。
(四)模型建立
構造並求解最優化問題
含水層含水量預測綜合物探技術
得到最優解 每個支持值β=(a*i-ai)。
構造決策函數
含水層含水量預測綜合物探技術
其中
將所求得的核函數系數、β值及b值帶入5-44式,即為ε-SVR預測模型。