Luận văn Thử nghiệm phân tích thống kê hoạt động kinh doanh của Công ty Tài Chính Việt

16 trang yendo 10530

Download

Bạn đang xem tài liệu "Luận văn Thử nghiệm phân tích thống kê hoạt động kinh doanh của Công ty Tài Chính Việt", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

luan_van_thu_nghiem_phan_tich_thong_ke_hoat_dong_kinh_doanh.pdf

Nội dung text: Luận văn Thử nghiệm phân tích thống kê hoạt động kinh doanh của Công ty Tài Chính Việt

Thử nghiệm phân tích thống kê hoạt động kinh doanh của Công ty Tài Chính Việt Chu Thị Hồng Đăng Trường Đại học Khoa học Tự nhiên Luận văn Thạc sĩ ngành: Lý thuyết xác suất và thống kê; Mã số: 60 46 15 Người hướng dẫn: PGS.TS Hồ Đăng Phúc Năm bảo vệ: 2012 Abstract: Trình bày một số kiến thức chuẩn bị về xác suất: phần tử ngẫu nhiên và phân phối xác suất; một số đặc trưng của đại lượng ngẫu nhiên; một số phân phối thường gặp. Nghiên cứu quá trình ngẫu nhiên: một số quá trình ngẫu nhiên thường gặp. Giới thiệu về hồi quy Poisson. Mô hình hồi quy Poisson tổng quát. Phân tích hoạt động tín dụng tiêu dùng. Keywords: Toán học; Phân tích thống kê; Hoạt động kinh doanh; Công ty Tài chính Việt Content 1. Một số kiến thức chuẩn bị về xác suất 1.1. Phần tử ngẫu nhiên và phân phối xác suất Định nghĩa 1. Giả sử (  , A, P) là không gian xác suất cơ bản và (E, F) là không gian đo được. Ta gọi X : E là một biến ngẫu nhiên nếu nó là một ánh xạ đo được (tức là X-1 (F)  A) Đặc biệt, nếu E = Rn và F = Bn là  - đại số Borel của Rn thì ta gọi X là véc tơ ngẫu nhiên n chiều và viết X thay cho X. Trong trường hợp n = 1, ta viết X thay cho X và gọi X là đại lượng ngẫu nhiên. Định nghĩa 2. Phân bố xác suất (hay còn gọi là phân phối xác suất) của một biến ngẫu nhiên X (trên R) là phân bố xác suất PX trên R, với - đại số là - đại số Borel B của R, cho bởi công sau: -1 PF(B) = P(X (B) với mọi tập con B của R nằm trong - đại số B. Định nghĩa 3. Hàm phân phối xác suất của phân bố xác suất PX trên R của một biến ngẫu nhiên X là hàm Fx: R [0; 1] cho bởi công thức FX : P ( X x ) P (( , x ])
Định lý 1. Hàm phân phối FX của một phân bố xác suất tuỳ ý trên R thoả mãn 4 tính chất sau: 1. Đơn điệu không giảm: FX(x) FX(y) với mọi x y. 2. Liên tục bên phải: lim 0 FX (x ) FX (x) với mọi x, 3. lim x FX (x) 0 4. limxX Fy ( ) 1 Ngược lại, mọi hàm số thực trên R thoả mãn 4 tính chất trên là hàm phân phối của một phân bố xác suất trên R. Định nghĩa 4. Một phân bố PX trên R được gọi là liên tục nếu như hàm phân phối xác suất FX là hàm liên tục trên R. Nó được gọi là liên tục tuyệt đối nếu như tồn tại một hàm số X :RR khả tích và không âm, sao cho với mọi a R ta có a F()(,)() a P a x dx XXX . Hàm X : R R+ thoả mãn như trên gọi là hàm mật độ của PX Định nghĩa 5. Một phân bố xác suất PX được gọi là rời rạc nếu như nó tập trung trên các điểm hạt của nó: PX (AX) = 1, PX (R\ AX) = 0 1.2. Một số đặc trưng của đại lượng ngẫu nhiên Đối với trường hợp rời rạc: Giá trị kỳ vọng của một biến ngẫu nhiên X, ký hiệu là E(X), chính là trung bình cộng có trọng số của biến ngẫu nhiên đó. Từ đó, có thể suy ra rằng hai biến ngẫu nhiên có cùng phân bố xác suất trên R thì có cùng kỳ vọng. Bởi vậy, thay vì nói về kỳ vọng của biến ngẫu nhiên, ta có thể nói về kỳ vọng của phân bố xác suất trên R. Trong trường hợp không gian xác suất là một tập hợp hữu hạn hoặc đếm được,  ={ 1,2 } với xác suất P(i ),i P( i ) 1thì công thức tính giá trị kỳ vọng của một biến ngẫu nhiên X là EXXP()()()  ii i Trong trường hợp tổng quát, công thức tính giá trị kỳ vọng được viết dưới dạng phân Lesbesgue của X trên không gian xác suất ( , R): E(X ) XdP  Định nghĩa 7. Phương sai của biến ngẫu nhiên X là đại lượng: D(X) = E[X-E(X)]2 còn  DX() được gọi là độ lệch tiêu chuẩn của X. 1.3. Một số phân phối thường gặp 2
Sau đây, ta đưa ra một số phân phối thường gặp trong thực tế. Định nghĩa 8. Giả sử a, b là hai số thực, với b > a. Khi đó phân phối đều trên đoạn thẳng [a; b] là phân bố liên tục với hàm mật độ xác suất được cho như sau: 1 khi a x b (x) b a 0 khi x a hoac x b Phân bố xác suất đều trên [a;b] hay được ký hiệu là U(a;b). Trong định nghĩa trên ta có thể thay đoạn thẳng đóng [a;b] bằng các khoảng mở (a;b) hoặc nửa đóng, nửa mở cũng được. Ví dụ, vị trí của một người đi trên đường có thể mô hình hoá bằng một biến ngẫu nhiên với phân bố đều, nếu chúng ta không có thông tin gì ngoài thông tin người đi bộ trên quãng đường đó. Khái niệm phân bố đều có thể mở rộng lên trường hợp nhiều chiều: Không gian xác suất là một miền của Rn (n 2), và xác suất một miền con (n chiều) tỷ lệ thuận với thể tích (n chiều) của miền con đó. Định nghĩa 9. Phân bố xác suất chuẩn (hay phân bố Gauss) trên R với trung bình  và độ lệch chuẩn  là phân bố liên tục với hàm mật độ sau: 1 (x  )2 . ()()x e xp  2 2 2 Ký hiệu phân phối chuẩn trên đây là N( , 2 ), phân bố chuẩn với = 0, 2= 1 được gọi là chuẩn tắc. Phân bố chuẩn là một trong những phân bố quan trọng nhất vì nhiều phân bố xác suất gặp trong thực tế có dáng điệu khá giống phân bố chuẩn. Định nghĩa 10. Phân bố mũ với tham số  là phân bố xác suất liên tục tuyệt đối trên R cho bởi hàm mật độ sau: e x khi x 0 (x) 0 khi x 0 Định nghĩa 11. Một biến ngẫu nhiên X được gọi là có phân bố nhị thức với tham số n, p nếu hàm phân bố xác suất của nó có dạng k k n k P( X k ) Cn p (1 p ) ; k 0,1,2 , n ;0 p 1 Giá trị kỳ vọng và phương sai của biến ngẫu nhiên có phân bố nhị thức lần lượt là np và np (1-p) Định nghĩa 12. Một biến ngẫu nhiên Y được gọi là phân phối Poisson với tham số  >0 nếu nó nhận các giá trị nguyên y = 0, 1, 2, với xác suất e  y P Y y (1) y! 3
Khi đó ta ký hiệu YP () Phân phối Poisson là giới hạn của phân bố nhị thức với tham số p =  / n và n, khi n tiến tới vô cùng. 2. Quá trình ngẫu nhiên 2.1. Một số quá trình ngẫu nhiên thường gặp Chuyển động Brown Quá trình Wiener Wt có ba đặc điểm: 1. W0 = 0 2. Wt liên tục hầu chắc chắn. 3. Wt có số gia độc lập với phân phối Wt - Ws ~ N(0, t - s) (với 0 s t). Ở đây N(, 2 ) biểu thị phân phối chuẩn với giá trị trung bình  và phương sai  2 . Điều kiện quá trình có số gia độc lập có nghĩa là nếu 0 s1 t1 s2 t2 thì Wt1 - Ws1 và Wt2- Ws2 là những biến ngẫu nhiên độc lập. Một đại diện của quá trình ngẫu nhiên rời rạc chính là quá trình Poisson, sẽ được đề cập chi tiết ở mục sau. 3. Giới thiệu về hồi quy Poisson 3.1. Phân bố Poisson Phân phối Poisson là phân phối được đặt theo tên nhà toán học người Pháp Siméon Denis Poisson (1781 - 1840). Như trên ta đã nói, một biến ngẫu nhiên Y được gọi là có phân phối Poisson với tham số  > 0 nếu nó nhận các giá trị nguyên y = 0, 1, 2, với xác suất e  y P Y y (2) y! Giá trị trung bình và phương sai của phân phối này được chỉ ra bằng: E(Y) = Var (Y) = Một tính chất quan trọng của phân phối Poisson là tổng của các biến ngẫu nhiên Poisson độc lập cũng có phân phối Poisson. Cụ thể, nếu Y1, Y2 là các biến ngẫu nhiên độc lập, Yi ~ Pi(i ), 1; 2 thì Y1 Y2 ~ P()12 . Kết quả này có thể mở rộng cho tổng nhiều hơn hai biến ngẫu nhiên Poisson. Giả sử ta có ni nhóm quan sát có cùng phương sai, ký hiệu Yij là số lượng biến cố của quan sát thứ j trong lớp nhóm thứ i. Trên các nhóm đó, Yi là toàn bộ các quan sát của nhóm thứ i. Với giả thiết thông thường về tính độc lập và Yij ~ P( i) với j = 1,2, ni thì Yi ~ Pn()ii . 3.2. Quá trình hồi quy Poisson 4
Một quá trình Poisson, là một quá trình ngẫu nhiên được định nghĩa theo sự xuất hiện của các biến cố. Một quá trình ngẫu nhiên N(t) là một quá trình Poisson (thời gian - thuần nhất, một chiều) nếu: 1. N (0) = 0 2. Số các biến cố xảy ra trong hai khoảng thời gian không giao nhau là các biến ngẫu nhiên độc lập. 3. Xác suất của số biến cố trong một khoảng con [t, t +  ] nào đó được cho bởi công thức e  ( )k P(N (t  ) N(t)) k k 0,1, k! trong đó số  dương là một tham số cố định, được gọi là tham số cường độ, có nghĩa là, biến ngẫu nhiên N(t+ ) - N(t) mô tả số lần xuất hiện trong khoảng thời gian [t, t+ ] tuân theo một phân bố Poisson với tham số  . 3.3. Mô hình loga tuyến tính cho quá trình Poisson Giả sử ta có một mẫu bao gồm n quan sát Y1, Y2, ,Yn là các biến ngẫu nhiên độc lập có phân phối Poisson, Yi ~ P( i ), ta mong muốn i phụ thuộc vào một véc tơ các biến độc lập, ta có thể bắt đầu bằng mô hình tuyến tính đơn giản. ' i xi  j (3) Tuy nhiên vế phải của (3) là một số thực bất kỳ trong khi vế trái là giá trị trung bình không âm. Phương án thay thế giải quyết vấn đề này là ta nghĩ đến logarit của giá trị trung bình. Ta lấy i log(i ) và xét mô hình tuyến tính. ' log(i ) xi  j (4) Trong mô hình này  j biểu diễn sự thay đổi của loga giá trị trung bình ứng với mỗi thay đổi của xj. Lấy luỹ thừa cơ số e hai vế của (4) ta thu được mô hình ' i e xp xi  j  (5) Để ước lượng các tham số của phân phối Poisson trong mô hình trên, người ta dùng phương pháp ước lượng hợp lý cực đại. Trước tiên ta xây dựng hàm hợp lý là tích các giá trị của biểu thức (2) lấy trên n quan sát độc lập có phân phối Poisson với tham số i thoả mãn (3), tức là n e i  yi L()  i (6) i 1 yi! Lấy loga hai vế ta có 5
n LogL()  yi log( i ) i  (7) i 1 Ở đó i phục thuộc vào các biến độc lập xi và  là vecto gồm p tham số được cho ở (3). Lấy đạo hàm riêng hai vế theo từng phần tử của  và cho chúng bằng 0. Nghiệm của các phương trình đó cho ta ước lượng hợp lý cực đại của mô hình loga tuyến tính Poisson. Có thể chỉ ra rằng các nghiệm đó thoả mãn phương trình. X ' y Y'ˆ (8) Ở đây X là ma trận thiết kế với mỗi hàng là mỗi quan sát, mỗi cột là biến dự báo (có thể bao gồm hằng số). Y biến đáp ứng, ˆ là một vectơ của giá trị dự báo, được tính toán thông qua ước lượng ˆ bằng cách lấy exp mũ của dự báo tuyến tính  X 'ˆ . Một độ đo đánh giá mức độ phù hợp của mô hình với tập giá trị quan sát là độ chệch có dạng n y  i ˆ D 2 yi log( ) (yi i  (9) i 1 ˆi  Với cỡ mẫu lớn, D là đại lượng có phân phối xấp xỉ phân phối khi bình phương với (n- p) bậc tự do, ở đây n là số lượng quan sát, p số lượng tham số. Do vậy D thường được sử dụng trực tiếp để kiểm tra tính đúng đắn của mô hình. Một độ đo khác có thể dùng thay thế là thống kê Khi bình phương của Peason 2 2 (yi ˆi ) X p  ˆi Khi cỡ mẫu lớn, phân phối của thống kê Peason cũng xấp xỉ phân phối khi bình phương với (n-p) bậc tự do. Hai độ đo trên được dùng để kiểm định sự phù hợp của mô hình với dữ liệu quan sát được. 4. Mô hình hồi quy Poisson tổng quát Giả sử biến phụ thuộc Y là một biến đếm tuân theo luật Poisson tổng quát chịu tác động của p biến mô tả (xi1, xi2, xip). Mô hình hồi quy Poisson tổng quát được xây dựng bởi Famoye nói rằng phân phối của Yi lấy điều kiện theo (xi1, xi2, xip) và được định nghĩa bằng i  i(1 yy i )yi 1  i (1 i ) 1 P( Yi y |)() x i f y i ( ).exp( ) (10) 1 i 1  i 1 yy i i ! yi = 0,1, với x1 = (1, xi1, xip) là véctơ (p + 1) . 1 chiều, i 0 là giá trị trung bình phụ thuộc của Yi với điều kiện xi. Ta cũng có phân tích phổ biến cho i là 6
t E( Yi | x i )  i e xp ( x i ) (11) Phương sai của Y được cho bởi 22 V ar( Yi | x i )  y/ x  i (1  i ) (12) Ở đây  (0 ,1,  p ) là một véc tơ p + 1 chiều của các tham số hồi quy, tham số là một độ đo của hàm mật độ. Khi = 0 mô hình hồi quy Poisson tổng quát ở (10) trở thành mô hình hồi quy Poisson bình thường. Với > 0 mô hình hồi quy Poisson tổng quát có thể sử dụng cho mô hình có số liệu đếm có độ phân tán vượt trội, tương tự < 0, mô hình hồi quy Poisson tổng quát sử dụng cho mô hình có số liệu đếm có độ phân tán thiếu hụt. Với một vài quan sát trong tập số liệu, giá trị Yi có thể bị mất theo dõi, từ đó mô hình hồi quy Poisson tổng quát mất theo dõi được Faymoye và Wang đề xuất năm 2004. Nếu quan sát không bị mất theo dõi thì Yi = yi. Nếu quan sát mất theo dõi thì Yi yi, và phân phối được áp dụng cho số liệu mẫu là phân phối nhị phân di được xác định như sau: di = 1 nếu Yi yi và di = 0 nếu ngược lại. Mô hình hồi quy Poisson tổng quát bị mất theo dõi được cho bởi: di yi 1 1 di p( yi , d i | x i )  f ( y i ) 1 f ( j ) (13) j 0 Mô hình hồi quy Poisson tổng quát (13) bao gồm (p+2) tham số được sắp xếp trong véctơ  (', ) , và nó có thể được ước lượng bằng phương pháp hợp lý cực đại như trình bày tiếp sau đây. 4.1. Ước lượng tham số Hàm hợp lý của (13) được cho bởi n yi 1 1 ddii L( , , yii )   f ( y ) [1-  f ( j )] (14) i 1 j 0 Hàm log hợp lý là: nnyi 1 LL( , . yi )  (1 d i )log f ( y i )  d i log[(1  f ( j )] (15) i 1 j 0 j 0 Thay công thức hàm mật độ ở (13) vào (15) ta thu được n   (1 y )  LL(, , y ) (1 d )log i (y 1)log(1 y ) i i log( y !) i i 1 i 1 i i  1 i 1 i  n y 1 d log(1 i f ( j) (16) j 0 i j 0  Bằng cách lấy đạo hàm riêng theo từng tham số và cho chúng bằng 0, ta thu được 7
yi 1 f ( j)  ( ) LL(, , y ) n y   n  j 0  i (1 d )( i i )x d 0 (17)  i 2 i   i yi 1   i 1 (1 i ) i 1 (1 f ( j))   j 0  LL(, , y ) n y  y (y 1)  (y  )  i i i i i i i i  (1 di )( ) 2 )  i 1 (1 i ) (1 yi ) (1 i )  yi 1 f ( j)  ( ) n  j 0 d  0 (18) i 1 i y 1  (1 i f ( j))  j 0  Trong đó: f ( j) ( j i ) f ( j) 2 xi , (19)  (1 i ) f ( j) ( j i ) j( j 1) i ( j i ) f ( j) 2 , (20)  (1 i ) 1 j (1 i ) Hệ phương trình hợp lý trên không tuyến tính với các tham số , , chúng được giải bằng cách dùng phương pháp lặp Newtơn - Raphson. Lấy đạo hàm riêng của (16) ta nhận được ma trận thông tin Fisher I(, ) bằng cách lấy kỳ vọng của hiệu các đạo hàm cấp hai. Ma trận nghịch đảo của I(, ) cho ta các phương sai của ước lượng hợp lý cực đại. Phương sai của ước lượng hợp lý cực đại có thể thu được từ ma trận Hessian, H là ma trận vuông cấp p+2. Toàn bộ ma trận Hessian, được ký hiệu là các đạo hàm riêng cấp hai, được cho bởi: 2 2  LL(, , yi )  LL(, , yi ) ( ) ( ) H11 H12 '  ' H() . H H 2 2 21 22  LL(, , yi )  LL(, , yi ) ( ) ( 2 )   Ở đây,  2 LL(, , y ) n 1  2 y  i i i ' H11  (1 di )( 3 )i xi xi  ' i 1 (1 i )  2 y 1 y 1  f ( j) y 1 f ( j) y 1 f ( j)  (1 i f ( j)) i ( ) i ( ) i ( )  j 0  j 0  j 0  j 0 n '  ' di  , i 1 yi 1 2 (1 f ( j))  j 0  2 LL(, , y ) n  (y  )  i i i i H12 2 (1 di )( 3 )xi   i 1 (1 i )  8
2 y 1 y 1  f ( j) y 1 f ( j) y 1 f ( j)  (1 i f ( j)) i ( ) i ( ) i ( )  j 0  j 0  j 0  j 0 n    di  , i 1 yi 1 2 (1 f ( j))  j 0   2 LL(, , y ) n  2 y y 2 (y 1) 2 2 (y  )  i i i i 1 1 i i H 22 2  (1 di )( 2 2 3 )   i 1 (1 i ) (1 yi ) (1 i )  2 yi 1 yi 1  f ( j) yi 1 f ( j) 2  (1 f ( j)) ( ) ( ) n  j 0  j 0 2  j 0 d   , i 1 i y 1  (1 i f ( j))2  j 0  H21= H'12 2  f ( j) 1 i 2 j ( j i ) 2 ' f ( j) ( 3 )i 2 ) xi xi , ' (1 i ) (1 i )  2 f ( j) 2 ( j  ) j   j j( j 1)  ( j   f ( j) i i i ( i ) i i x 3 2 2 i   (1 i ) (1 i ) (1 i 1 j (1 i )  2  2 f ( j)  2 j j 2 ( j 1) 2 2 ( j   j j( j 1)  ( j  )  f ( j) i i i i ) i i   2 (1  )2 (1 j)2 (1  )3 (1  1 j (1  )2 i i i i  Trong trường hợp ma trận Hessian được tính toán tại ước lượng hợp lý cực đại ˆ (', ˆ)' , và có nghịch đảo âm thì ta sẽ nhận được ma trận phương sai - hiệp phương sai 1 được ký hiệu bởi S 2 ˆ, ˆ  H(ˆ) . 4.2. Sự phù hợp của thống kê hợp lý Để kiểm tra sự phù hợp của mô hình CGPS, cũng giống trường hợp hồi quy Poisson, ta dùng tỉ số hợp lý để kiểm tra mô hình, bài toán kiểm định giả thuyết của chúng ta là H0 : 1 2  p 0 (21) Thống kê tỉ lệ hợp lý có dạng ˆˆ D 2((,,) LL0 ˆˆ yi R LL (,,))  y i U (22) ˆˆ Ở đây LL(,,),(,,)0 ˆˆ yi R LL  y i U lần lượt là các hàm loga hợp lý được tính toán từ mô hình được hạn chế và không hạn chế các tham số đưa vào. Với giả thuyết không (21), thống kê D trên có phân phố  2 với p bậc tự do. 4.3. Kiểm định tham số hồi quy và các tham số phân tán Có thể khẳng định rằng nếu trong mỗi bài toán phân tích, mô hình hồi quy Poisson tổng quát được xây dựng chính xác và phù hợp với tập số liệu thì ước lượng hợp lý cực 9
đạiˆ (ˆ', ˆ)' cực đại hàm loga hợp lý của mô hình luon tồn tại với  (', )' và thu được kết quả tiệm cận chuẩn sau: n(ˆ ) N(0; E((1/ n)I (ˆ, ˆ)) 1), Từ đó giúp ta có các kết luận về các hệ số hồi quy và các tham số phân tán . Kiểm định hệ số phân tán Hiện tượng mất theo dõi có thể ảnh hưởng đến mô hình không, mô hình cũng có thể dẫn tới mô hình hồi quy Poisson tổng quát, ta có bài toán kiểm định. H0 : 0; H : 0 (23) Đây là bài toán điểm định sự quan trọng của tham số . Sự xuất hiện của trong mô hình hồi quy Poisson tổng quát được khẳng định nếu giả thuyết H0 bị bác bỏ, thống kê sử dụng cho H0 là: ˆ ˆ D 2(LL(, yi )R LL(, yi )U ). (24) 2 Nếu giả thiết H0 đúng, D có phân phối  với một bậc tự do. Kiểm định các tham số hồi quy Để kiểm định các hệ số mũ J , j = 1, 2, , p ta có bài toán H : = 0; H1: 0 Thống kê cho giả thuyết không là ˆ Z j mle ˆ s(J mle) Ở đây, ˆ là ước lượng hợp lý cực đại của hệ số , s( ˆ ) là sai số chuẩn của các j mle j mle ước lượng này, được xác định từ ước lượng của ma trận phương sai – hiệp phương sai, S2 (  ˆ , ). Dưới giả thuyết không, thống kê Z có phân bố tiệm cận chuẩn. 5. Phân tích hoạt động tín dụng tiêu dùng 5.1. Mô tả số liệu Số lượng sản phẩm khách hàng mua và có tham gia dịch vụ cho vay của công ty là nhân tố chính để đánh giá được hiệu quả kinh doanh của công ty, và cũng góp phần đánh giá hiệu quả kinh doanh của các đại lý bán hàng liên kết. Do vậy, trong mô hình, biến quan sát phụ thuộc Y được chọn là tổng số sản phẩm được bán bằng dịch vụ cho vay trả góp trong một đơn vị thời gian tại một địa điểm bán hàng. 10
Các biến độc lập bao gồm: + Biến macoso là biến mô tả các địa điểm của đại lý bán hàng liên kết với Công ty Tài chính Việt được đặt tại quận: Đống Đa, Ba Đình, Hai Bà Trưng, Cầu Giấy, Thanh Xuân, Hà Đông, Đông Anh, Thanh Trì, Hoàng Mai. Trong số liệu gốc macoso bao gồm các biến “ba dinh” (cơ sở Ba Đình), “cau giay” (cơ sở Cầu Giấy), “dong da” (cơ sở Đống Đa), “hai ba trưng” (cơ sở Hai Bà Trưng), “thanh xuan ha dong” (cơ sở Thanh Xuân – Hà Đông), “dong anh thanh tri hoang mai” (cơ sở Đông Anh – Thanh Trì – Hoàng Mai). Thống kê số lượng sản phẩm được bán tại các cơ sở được mô tả trong Bảng 2. Để các số liệu này phù hợp với mô hình đếm, ta đã mã hoá lại thành các biến mới chỉ nhận các giá trị 0, 1. Khi quan sát số liệu ta thấy Đống Đa có số lượng khách hàng đông nhất trong thời gian quan sát (511 hồ sơ trên tổng số 2179 quan sát) nên chọn dongda (Cơ sở Đống Đa) làm nhóm chứng. Các biến mới được thành lập bao gồm: BaDinh (cơ sở Ba Đình), CauGiay (cơ sở Cầu Giấy), HaiBa (cơ sở Hai Bà Trưng), TXHDong (cơ sở Thanh Xuân, Hà Đông có vị trí tương đối gần nhau, ta ghép thành một biến quan sát) và biến DATTrHMai là biến quan sát các cơ sở tại Đông Anh, Thanh Trì, Hoàng Mai. Vì các cơ sở này có số lượng không nhiều so với các nơi khác nên ta ghép chung vào một nhóm quan sát. Các biến mới được thành lập kể trên là các biến nhị phân nhận giá trị 1 nếu sản phẩm được bán tại các cơ sở tương ứng đó và nhận giá trị 0 trong trường hợp còn lại. + Biến gioikh thể hiện giới tính của khách hàng mua sản phẩm. Cụ thể, biến nhận giá trị 0 nếu khách hàng là nữ, nhận giá trị 1 khi khách hàng có giới tính nam. Phân bố giới tính của khách hàng được trình bày trong Bảng 3. + Biến tuoikh là thể hiện nhóm tuổi khách hàng tại thời điểm tham gia dịch vụ của Công ty. Tuổi khách hàng được phân thành 3 nhóm: Nhóm khách hàng "trẻ" từ 21 đến 29 tuổi có 886 quan sát, nhóm khách hàng từ 30 tuổi đến 44 tuổi có 921 quan sát, nhóm còn lại là những khách hàng từ 45 tuổi trở lên (nhưng dưới 60 tuổi) có 372 quan sát. Vì nhóm khách hàng từ 30 tuổi đến 44 tuổi có số lượng quan sát lớn nhất nên được chọn làm nhóm chứng, đồng thời ta thành lập 2 biến mới, biến TuoiKHDuoi30 nhận giá trị 1 nếu rơi vào nhóm khách hàng "trẻ" và nhận giá trị 0 trong các trường hợp còn lại. Tương tự, biến TuoiKHTu45 là biến nhận giá trị 1 với những khách hàng có độ tuổi từ 45 đến 60, nhận giá trị 0 trong các trường hợp còn lại. Phân bố độ tuổi của khách hàng được mô tả trong Bảng 4. + Biến Madckh là biến mô tả địa chỉ cư trú của khách hàng tại các khu vực khác nhau. Trong số liệu gốc madckh bao gồm “ba dinh” (khách hàng ở Ba Đình), “cau giay” (khách hàng ở Cầu Giấy), “dong da” (khách hàng ở Đống Đa), “gia lam” (khách hàng ở Gia Lâm), 11
“ha dong” (khách hàng ở Hà Đông), “hai ba trung” (khách hàng ở Hai Bà Trưng), “hoan kiem” (khách hàng ở Hoàn Kiếm), “hoang mai” (khách hàng ở Hoàng Mai), “long bien” (khách hàng ở Long Biên), “thanh tri” (khách hàng Thanh Trì), “dong anh” (khách hàng Đông Anh), “tay ho” (khách hàng Tây Hồ), “ngoai thanh” (khách hàng ở ngoại thành), “thanh xuan” (khách hàng ở Thanh Xuân), “tu liem” (khách hàng ở Từ Liêm). Phân bố địa chỉ khách hàng được cho ở Bảng 5. Vẫn chọn dongda làm nhóm chứng, chúng ta cũng thành lập các biến đếm mới: biến KHbadinh là biến đếm nhận giá trị 1 nếu khách hàng có địa chỉ ở Ba Đình, nhận giá trị 0 trong các trường hợp còn lại. Tương tự các biến CGTLTTayHo (khách hàng ở Cầu Giấy, Từ Liêm, Tây Hồ), HdongTXuan (khách hàng ở Hà Đông, Thanh Xuân), TtriHMai (Thanh Trì, Hoàng Mai), HBTrung (Hai Bà Trưng), LBGLDAnh (Long Biên, Gia Lâm, Đông Anh), HKiem (Hoàn Kiếm) và NTthanh (khách hàng ở những huyện ngoại thành khác). + Biến pos-kha thể hiện mối quan hệ giữa địa chỉ khách hàng với địa điểm khách đó mua hàng. Biến nhận giá trị 1 nếu địa chỉ khách hàng có cùng khu vực với địa điểm của đại lý bán hàng, biến nhận giá trị 0 trong trường hợp còn lại. Bảng 6 mô tả quan hệ giữa địa chỉ khách hàng và địa điểm đại lý bán hàng cho ta thấy chỉ có 566 trường hợp khách hàng có địa chỉ cùng khu vực với đại lý và có tới 1613 trường hợp khách hàng không cùng khu vực với đại lý bán hàng. + Biến magiatri cho ta biết giá của sản phẩm ở thời điểm hiện tại, đã được gán các giá trị tương xứng với giá sản phẩm khách hàng mua.Biến này chia các sản phẩm thành 3 nhóm: nhóm sản phẩm có giá trị dưới 15 triệu, nhóm các sản phẩm có giá trì từ 15 triệu đến dưới 30 triệu và nhóm sản phẩm có giá trị trên 30 triệu đồng. Phân bố các sản phẩm theo giá được mô tả trong Bảng 7. Lấy nhóm sản phẩm có giá trị từ 15 đến dưới 30 triệu đồng làm nhóm chứng, ta thành lập hai biến mới là: Duoi15Tr biến nhận giá trị 1 nếu sản phẩm khách hàng mua có giá dưới 15 triệu, và nhận giá trị 0 nếu ngược lại. Biến Tu30Tr nhận giá trị 1 nếu sản phẩm có giá từ 30 triệu đồng trở lên và nhận giá trị 0 trong trường hợp còn lại. + Biến mattoan là biến cho biết khả năng thanh toán, trả trước của khách hàng là bao nhiêu phần trăm so với sản phẩm mình mua. Với biến này, khả năng thanh toán của khách hàng được chia thành 3 nhóm: nhóm “duoi 30 ptram” (dưới 30 phần trăm, có 369 số liệu), nhóm “tu 30 den duoi 40 ptram” (từ 30 phần trăm đến dưới 40 phần trăm, có 1589 số liệu) và nhóm “tu 40 ptram trở lên” (từ 40 phần trăm trở lên , có 221 số liệu). Phân bố số lượng sản phẩm theo tỷ lệ thanh toán được thể hiện trong Bảng 8 12
Cũng như trên, ta chọn nhóm thanh toán từ 30 phần trăm đến dưới 40 phần trăm làm nhóm chứng, thành lập hai biến mới sau là biến D30PT (khách hàng vay dưới 30 phần trăm) biến nhận giá trị 1 nếu khách hàng mua sản phẩm vay dưới 30 phần trăm, nhận giá trị 0 trong tình huống còn lại và tương tự ta cũng có biến Tu40PT (khách hàng vay từ 40 phần trăm trở lên). + Biến nhomthhan cho biết thời gian khách hàng vay tiền của công ty để mua sản phẩm. Biến này nhận 4 giá trị: “duoi 1 nam” (thời hạn vay dưới 1 năm), “1 nam” (thời hạn 1 năm), “13-23 thang” (thời hạn vay từ 13 đến 23 tháng) và “2 nam” (thời hạn vay 2 năm). Phân bố số lượng sản phẩm theo thời hạn thanh toán của khách hàng được cho trong Bảng 9. Chọn nhóm thời hạn vay 2 năm làm nhóm chứng, ta thành lập được 3 biến mới: biến Duoi1N, biến nhận giá trị 1 nếu khách hàng vay trong thời hạn dưới 1 năm và nhận giá trị 0 trong các tình huống còn lại, tương tự biến ThHan1N (khách hàng vay trong thời hạn 1 năm), biến ThH1323T (thời hạn vay từ 13 tháng đến 23 tháng). Các biến này nhận giá trị 1 ứng với mỗi sản phẩm được khách vay trong thời gian tương ứng với biến và nhận giá trị 0 trong trường hợp còn lại. + Biến gioi_th mô tả giới tính của nhân viên công ty trực tiếp giới thiệu, tư vấn và hướng dẫn khách hàng tham gia dịch vụ mua trả góp của công ty, chú ý ta không nên nhầm lẫn đó là giới tính người bán hàng ở các đại lý mà công ty liên kết. Biến này nhận giá trị 0 nếu người thực hiện có giới tính nữ và nhận giá trị 1 nếu người thực hiện này có giới tính nam. Bảng 10 mô tả phân bố giới tính của nhân viên thực hiện các giao dịch với khách hàng. + Biến machmon mô tả cho ta thấy chuyên môn của những người thực hiện ở trên. Biến machmon nhận 4 giá trị “ky thuat, it” (nhóm nhân viên có chuyên môn về kỹ thuật, công nghệ thông tin), “kinh te taichinh ngan hang” (nhóm nhân viên tốt nghiệp các chuyên ngành liên quan đến kinh tế, tài chính, ngân hàng), “quan ly, luat, xahoi” (nhóm nhân viên tốt nghiệp các chuyên ngành quản lý, luật, xã hội) và “nganh khac” (nhóm các ngành khác như dược, tốt nghiệp THPT, vv ). Bảng 11 mô tả phân bố của số lượng khách hàng theo chuyên môn của nhân viên thực hiện. Từ biến machmon trên, để đòi hỏi các biến độc lập nhận giá trị 0,1, ta thành lập thêm 3 biến mới sau đây (nhóm ngành kỹ thuật, công nghệ thông tin có số lượng lớn nhất được ta chọn làm nhóm chứng). Đó là biến CMKinhte biến nhận giá trị 1 nếu người thực hiện có chuyên môn nằm trong nhóm những người có chuyên môn kinh tế, tài chính, ngân hàng, và nhận giá trị 0 trong các trường hợp còn lại, cùng với hai biến CMQuanly (người thực hiện có chuyên môn nằm trong nhóm quản lý, luật, xã hội), biến CMKhac (người thực hiện năm trong nhóm chuyên môn khác) được thành lập tương tự. 13
5.2. Kết quả phân tích A/ Mô hình hồi quy Poisson dự báo số lượng tiêu thụ sản phẩm công nghệ cao Sau khi chạy bộ số liệu trong Stata, sử dụng mô hình hồi quy Poisson cho quá trình đếm để xem xét sự phụ thuộc của biến quan sát sphamit vào các biến gioikh, pos-khan, gioi_th, BaDinh, CauGiay, HaiBa, TXHaDong, DATTHMai,Duoi15Tr,Tu30Tr,D30PT,Tu40PT,Duoi1N,ThHan1N,ThH1323T,TuoiKHDuoi30, TuoiKHTu45, KHBaDinh, CGTLTayHo, HdongTXuan, TtriHmai, HBTrung, LBGLDAnh, Hkiem, Nthanh, CMKinhte, CMQuanly, CMkhac ta thu được kết quả trong Bảng 12. Mô hình hồi quy Poisson rút gọn, chỉ chứa các biến độc lập thực sự ảnh hưởng đến biến phụ thuộc được trình bày trong Bảng 14. Bảng 14: Mô hình Poisson rút gọn dự báo số lượng sản phẩm IT Poisson regression Number of obs = 2179 LR chi2(5) = 995.44 Prob > chi2 = 0.0000 Log likelihood = -661.5161 Pseudo R2 = 0.4294 sphamit Coef. Std. Err. z P>|z| [95% Conf. Interval] pos_khan -.4027385 .1559514 -2.58 0.010 -.7083977 -.0970794 CauGiay .4156177 .0992609 4.19 0.000 .2210699 .6101656 Duoi1N .3621661 .1064238 3.40 0.001 .1535794 .5707529 D30PT 3.095639 .152551 20.29 0.000 2.796645 3.394634 Tu40PT .8112706 .267273 3.04 0.002 .2874251 1.335116 _cons -3.338353 .1398704 -23.87 0.000 -3.612494 -3.064212 Từ bảng 14, ta có thể đưa ra mô hình loga tuyến tính phụ thuộc sau đây: log(Sphamit) = - 0.4027385 pos_khan + 0,4156177 CauGiay + 0.3621661 Duoi1N + 3.095639 D30PT + 0.8112706 Tu40PT – 3.338353. Lũy thừa cơ số e hai vế của phương trình trên ta thu được Sphamit = exp{ - 0.4027385 pos_khan + 0,4156177 CauGiay + 0.3621661 Duoi1N + 3.095639 D30PT + 0.8112706 Tu40PT – 3.338353.} Hay: Sphamit=(0.668^{pos_khan}).(1,5153^{CauGiay}).(1.4364^{Duoi1N}) .(22.10136 ^{D30PT}).(2.2508 ^{Tu40PT}).0,0355 B/ Mô hình hồi quy Poisson dự báo số lượng tiêu thụ xe máy Ta tiếp tục sử dụng mô hình hồi quy Poisson nhờ phần mềm Stata để xem xét sự phụ thuộc của biến xemay vào các biến: gioikh, pos-khan, gioi_th,BaDinh,CauGiay,HaiBa,TXHaDong,DATTHMai,Duoi15Tr,Tu30Tr,Tu40PT,Duoi1N, 14
ThHan1N,ThH1323T,TuoiKHDuoi30,TuoiKHTu45,KHBaDinh, CGTLTayHo, HdongTXuan, TtriHmai, HBTrung, LBGLDAnh, Hkiem, Nthanh, CMKinhte, CMQuanly, CMkhac Bảng 16: Sự phụ thuộc của biến xemay vào các biến khác Poisson regression Number of obs = 2179 LR chi2(12) = 267.06 Prob > chi2 = 0.0000 Log likelihood = -2035.914 Pseudo R2 = 0.0615 xemay Coef. Std. Err. z P>|z| [95% Conf. Interval] pos_khan .1442418 .0565967 2.55 0.011 .0333143 .2551692 gioi_th -.1916381 .0596857 -3.21 0.001 -.3086199 -.0746564 BaDinh .6638394 .0797971 8.32 0.000 .5074399 .8202389 CauGiay -.3671758 .1097185 -3.35 0.001 -.5822202 -.1521314 HaiBa .6414941 .0885326 7.25 0.000 .4679734 .8150148 TXHaDong .7284974 .0865411 8.42 0.000 .55888 .8981147 DATTrHMai .5958677 .0932499 6.39 0.000 .4131013 .7786342 Duoi15Tr -.1480117 .050219 -2.95 0.003 -.2464391 -.0495843 Duoi1N -.3203397 .0936402 -3.42 0.001 -.5038712 -.1368082 HDongTXuan -.1770705 .0877812 -2.02 0.044 -.3491185 -.0050225 CMKinhte -.1932794 .0668398 -2.89 0.004 -.3242831 -.0622757 CMKhac -.2571134 .0684224 -3.76 0.000 -.3912189 -.1230079 _cons -.3738565 .0729181 -5.13 0.000 -.5167733 -.2309397 Kết quả ở Bảng 16 cho thấy, với xác suất ý nghĩa nhỏ hơn 5% trung bình số lượng xe máy được bán cho vay trả góp tại một địa điểm trong một ngày thực sự phụ thuộc vào các biến pos_khan, gioi_th, BaDinh, CauGiay, HaiBa, TXHaDong, Duoi15Tr, Duoi1N, HDongTXuan, CMKinhte, CMKhac. Ta thu được mô hình hồi quy loga tuyến tính Poisson biểu diễn sự phụ thuộc của biến xemay như sau: Log(xemay)= 0.1442418 pos_khan - 0.1916381 gioi_th + 0.6638394 BaDinh – 0.3671758 CauGiay + 0.6414941 HaiBa + 0.7284974 TXHDong + 0. 5958677 DATTrHMai - 0.1480117 Duoi15Tr – 0.3203397 Duoi1N – 0.1770705 HDongTXuan – 0.1932794 CMKinhte – 0.2571134 CMKhac – 0.3738565. Lấy lũy thừa cơ số e hai vế ta thu được: xemay = exp{0.1442418 pos_khan - 0.1916381 gioi_th + 0.6638394 BaDinh – 0.3671758 CauGiay + 0.6414941 HaiBa + 0.7284974 TXHDong + 0. 5958677 DATTrHMai - 0.1480117 Duoi15Tr – 0.3203397 Duoi1N – 0.1770705 HDongTXuan – 0.1932794 CMKinhte – 0.2571134 CMKhac –0.3738565} Hay: Xemay =(1,15516^{pos_khan}).(0,8256^{gioi_th}) .(1,94224 ^{BaDinh}).( 0,69269^{CauGiay})(1,89931^{HaiBa})(2,07196^{TXHDong})(1,814^ {DATTrHMai})(0,86242^{Duoi15T}).(0,72590^{Duoi1N}).(0,83772^ 15
{HdongTXuan}).(0,82425^{CMKinhte}).( 0,77328 ^{ CMKhac}). 0,68808 References Tiếng Việt 1. Đào Hữu Hồ (1998), Xác suất Thống kê, In lần thứ 3, Nhà xuất bản Đại học quốc gia Hà Nội, 224 Tr. 2. Đặng Hùng Thắng (1998), Mở đầu về lý thuyết Xác suất và các ứng dụng, In lần thứ 2, Nhà xuất bản Giáo Dục, Hà Nội 3. Nguyễn Duy Tiến (2000), Các mô hình xác suất và ứng dụng; Phần 1: Xích Markov và ứng dụng, Nhà xuất bản Đại học Quốc Gia, Hà Nội. 4. Nguyễn Duy Tiến (chủ biên), Đặng Hùng Thắng (2000), Các mô hình xác suất và ứng dụng,Phần 2: Quá trình dừng và ứng dụng, Nhà xuất bản Đại học Quốc Gia, Hà Nội. Tiếng Anh 5. Blundell, R. Griffith, and J. Van Reenen (1995),” Dynamic Count Data models of Technological innovation”, Economic Journal, 105, pp.333– 344. 6. Cameron, A.C, and D.K Trivedi (1998), Regression analysis of count data, Cambrige University press, NewYork. 7. Noriszura Ismail, Abdul Azizjemain (2005), Generalized Poisson regression: An alternative for risk classication, Universiti teknologi Malaysia. 16