hoan hỉ

Các phương pháp khai thác dữ liệu (Phần 1)

Ban đầu mình dùng “Các bài toán trong khai thác dữ liệu“, nhưng thấy có vẻ không thoát nghĩa hơn so với việc dùng “Phương pháp” nên quyết định dùng từ này cho chủ đề của bài viết.

Thuật ngữ “Data mining” trong tiếng việt được dịch lại nhiều hơn dưới cụm từ “khai phá dữ liệu“, nhưng mình thích dùng cụm từ “khai thác” hơn. Không có lí do gì đặc biệt, mình cảm thấy “khai thác” miêu tả tốt hơn quá trình thu thập và sử dụng các thuật toán để trích xuất thông tin từ dữ liệu thô hơn từ “khai phá“.

Đi vào chủ đề chính, bài này mình sẽ giới thiệu 1 số phương pháp thực tế được sử dụng trong việc khai thác dữ liệu. Sau khi hiểu vấn đề cần giải quyết là gì (tham khảo Data Mining process), chúng ta cần phải tính toán xem phương pháp nào sẽ được sử dụng để đánh giá và khai thác dữ liệu 1 cách hiệu quả nhất. Việc sử dụng phương pháp nào rất quan trọng vì nó ảnh hưởng trực tiếp data model được xây dựng sau này.

Mình sẽ dùng 1 ví dụ để giúp giải thích các phương pháp 1 cách rõ ràng hơn. Bài toán là nhà mạng Vinaphone đang dần mất đi một số lượng lớn thuê bao trả sau. Bạn là một nhà phân tích dữ liệu được Vinaphone thuê về để tìm hiểu xem chuyện gì đang xảy ra và đưa ra cách khắc phục để hạn chế vấn đề này.

1. Classification (phân loại)
Phương pháp này dự đoán xem đối với mỗi cá thể trong một tập dữ liệu (ở ví dụ trên, cá thể là một thuê bao, tập dữ liệu là danh sách các thuê bao 3G của Vinaphone) sẽ thuộc về loại nào. Ở ví dụ trên, giả sử sau khi phân tích về dữ liệu hành vi của các thuê bao, bạn đưa ra một model để giúp cho nhóm marketing của Vinaphone trả lời câu hỏi: “Đối với gói offer thế này, thì liệu thuê bao A có đồng ý gia hạn hợp đồng trả sau với Vinaphone hay không?“. Câu trả lời ở đây là 2 loại: “” hoặc “Không“. Như vậy có thể hiểu “Loại” là một tập số ít các khả năng có thể xảy ra sau khi phân tích mục tiêu.

Một câu hỏi khác có thể là: “Khách hàng A liệu sẽ chấp thuận gói offer A, B hay không chấp nhận gói offer nào và vẫn kết thúc hợp đồng?“. Như vậy tập khả năng ở đây là “A“, “B“, hoặc “Không

Một phương pháp tương tự với Classification là Class probability estimation (Scoring). Nôm na là đưa ra xác suất một cá thể nhất định có thể thuộc về một loại nào đó. Ví dụ, thay vì trả lời câu hỏi thuê bao nào sẽ gia hạn hợp đồng với Vinaphone, ta sẽ đi trả lời câu hỏi: “Đối với gói offer này thì xác suất bao nhiêu phần trăm thuê bao A sẽ chấp nhận và tiếp tục gia hạn hợp đồng?

2. Regression (value estimation)

Phương pháp này đưa ra dự báo cho mỗi cá thể một giá trị số học về một biến số nào đó. Nếu như phương pháp Classification đưa ra dự báo rằng thuê bao A liệu có hay không chấp nhận gói offer X của Vinaphone thì phương pháp Regression đưa ra dự báo thuê bao A sẽ sử dụng bao nhiêu phần trăm của gói offer đó (ví dụ chấp nhận gói offer 2 năm trong 3 gói 1, 2 và 3 năm).

Nói nôm na thì Classification giải bài toán sự kiện X có xảy ra hay không, còn Regression thì giải bài toán sự kiện X xảy ra (nhiều) như thế nào.

Đọc đến đây các bạn có thể thắc mắc là kết quả dự báo của phương pháp Regression là giá trị số học, vậy liệu phương pháp ở mục 1, Class Probability Estimation cũng trả về 1 giá trị số học thì có phải là 1 loại phương pháp Regression hay không? Câu trả lời là Đúng. Nhưng nó được gọi là Logistic Regression. Còn phương pháp regression thông thường được gọi là Linear Regression

3. Similarity matching (tìm điểm chung)
Phương pháp này đánh giá hoặc xác định xem với các đặc điểm của cá thể A thì có những cá thể nào tương tự với A. Similarity matching là một trong những phương pháp cơ bản nhất trong việc xây dựng hệ thống gợi ý sản phẩm trên các trang e-commerce (tìm những khách hàng tương đồng với khách hàng X bằng việc phân tích lịch sử mua bán của những khách hàng đó để có thể gợi ý cho khách hàng X những sản phẩm mà anh ta có thể thích mua hoặc quan tâm đến.)

Kết quả tính toán của phương pháp này thường được sử dụng làm nền tảng để thực hiện các phương pháp khác: classification, regression và clustering.

4. Clustering (gộp/nhóm)
Clustering là phương pháp đưa ra đánh giá về các cá thể trong một tập hợp và gộp các cá thể có chung đặc tính về một nhóm, nhưng không thực hiện tác vụ gì trên các nhóm vừa tạo ra. Ở ví dụ về thuê bao 3G của Vinaphone, Clustering có thể được sử dụng để trả lời câu hỏi: “Thuê bao X, Y, Z thuộc phân khúc người dùng nào?”

Mặc dù Clustering không thực hiện tác vụ gì trên nhóm các cá thể được tạo ra, nhưng kết quả của nó có thể được dùng để xây dựng các chiến lượng như: “Liệu phân khúc người dùng này có chấp nhận gói offer này hay không?” hay “Liệu nhóm chăm sóc khách hàng của Vinaphone được xây dựng như vậy đã hợp lí chưa?

(Còn tiếp)

Written by hoanvu

August 10, 2014 at 5:40 pm

3 Responses

Subscribe to comments with RSS.

  1. […] Các bạn có thể đọc phần 1 ở đây […]

  2. […] các bạn 9 phương pháp được dùng trong việc khai thác và phân tích dữ liệu (Phần 1 và Phần 2). Trong các bài post tiếp theo mình dự định sẽ đi sâu vào chi tiết 1 […]

  3. […] các bạn 9 phương pháp được dùng trong việc khai thác và phân tích dữ liệu (Phần 1 và Phần 2). Trong các bài post tiếp theo mình dự định sẽ đi sâu vào chi tiết 1 […]


Comments are closed.

%d bloggers like this: