hoan hỉ

Các phương pháp khai thác dữ liệu (Phần 2)

Các bạn có thể đọc phần 1 ở đây

Như phần 1 mình có đề cập, là sẽ dùng ví dụ liên quan tới việc nhà mạng Vinaphone đang dần mất đi một số lượng lớn thuê bao 3G để giúp cho việc giải thích các phương pháp dễ dàng hơn.

Có 1 số thuật ngữ mà các bạn nên biết:
population: thuật ngữ này được dùng rất nhiều trong xác xuất và thống kê. Gọi nôm na là 1 tập dữ liệu. Các bạn xem ví dụ để hiểu rõ hơn
individual: nôm na là 1 cá thể, là một thành phần đơn lẻ trong một tập dữ liệu
group: một nhóm cá thể, tập con của 1 tập dữ liệu. Thông thường trong giai đoạn ban đầu của quá trình khai thác và phân tích, chúng ta nên trích xuất 1 phần trong tập dữ liệu để xem và nắm được cấu trúc chung của tập dữ liệu đang khai thác

5. Profiling (mô tả hành vi/trạng thái)
Phương pháp này được dùng để mô tả hoặc phân loại một cá thể, nhóm cá thể hoặc 1 tập dữ liệu. Trong ví dụ của nhà mạng Vinaphone, Profiling được dùng để trả lời cho câu hỏi: “Mô tả hành vi sử dụng dịch vụ viễn thông của phân khúc người dùng cao cấp?

Để đưa ra được thông tin chi tiết về hành vi của người dùng là không hề dễ dàng. Để trả lời câu hỏi trên có thể phải phân tích nhiều khía cạnh như mật độ sử dụng dịch vụ vào đêm và cuối tuần như thế nào? sử dụng dịch vụ khi ra nước ngoài như thế nào? thời gian nhắn tin SMS, … Như định nghĩa ở trên thì Profiling có thể được dùng để mô tả hành vi của toàn bộ tập dữ liệu hoặc nhỏ lẻ như của 1 nhóm hoặc 1 cá thể riêng biệt.

Phương pháp này được sử dụng phổ biến trong các ứng dụng phát hiện các hành vi hoặc hiện tượng bất bình thường như: truy cập trái phép (fraud detection), spam email. Ví dụ, hệ thống sẽ dựa vào profiling để đưa ra một mẫu các hoạt động trên tài khoản Google của bạn, khi có một hành động hoặc truy cập lạ từ tài khoản của bạn, Google có thể phân tích và dựa vào đó xác định rằng hoạt động này có thể là truy cập trái phép và thông báo cho chủ tài khoản.

6. Link prediction
Phương pháp này được dùng để dự đoán mối quan hệ giữa các cá thể, thường bằng việc tìm mối liên kết giữa các cá thể đó, và có thể ước lượng độ mạnh của liên kết đó. Có thể thấy Link prediction là phương pháp được dùng phổ biến trong các hệ thống mạng xã hội: “Vì bạn và Yến có 10 bạn chung nên có thể bạn cũng muốn làm bạn hoặc là bạn cũ của Yến?

Một ứng dụng phổ biến khác của link prediction là hệ thống gợi ý. Để có thể gợi ý cho Nam bộ phim Avatar, hệ thống sẽ phải phân tích và xây dựng mối liên kết giữa Nam và các bộ phim mà anh ấy đã xem hoặc đánh giá. Nếu như các bộ phim đó cùng thể loại chẳng hạn, hệ thống có thể gợi ý cho Nam phim Avatar. Tuy nhiên liên kết giữa Avatar và các phim khác cần phải mạnh thì mới có hiệu ứng tích cực với người dùng, nếu không sẽ có tác dụng ngược.

7. Co-occurence grouping
Có thể gọi nôm na phương pháp này là tìm và gộp các nhóm cá thể có liên quan tới nhau theo một điều kiện nào đó. Phương pháp này còn được biết đến như: frequent itemset mining, association rule discovery, market-basket analysis.

Một ví dụ cơ bản để hiểu rõ hơn phương pháp này là đi trả lời câu hỏi: “Những mặt hàng nào thường được đặt mua chung với nhau?” Nếu như bạn hay mua hàng trên Amazon thì sẽ hiểu rất rõ phương pháp này. Ở phần 1, phương pháp Clustering nhóm các cá thể có liên quan tới nhau bằng cách so sánh các đặc điểm của chúng. Nhưng phương pháp này nhóm các cá thể có liên quan bằng cách theo dõi sự xuất hiện của chúng trong các phiên giao dịch của người dùng.

Ví dụ như phân tích log giao dịch của Big C, chúng ta có thể phát hiện ra bánh ngọt và nước giải khát hay được mua chung cùng với nhau chẳng hạn. Nếu tìm ra được những thông tin như vậy, BigC có thể sẽ đưa ra được những chiến dịch marketing có hiệu quả và đem lại doanh thu và lượng người dùng lớn (giảm giá cho combo bánh ngọt + nước giải khát).

8. Data reduction
Phương pháp này được thực hiện bằng cách trích xuất một nhóm cá thể từ một tập dữ liệu lớn hơn để dễ dàng cho việc phân tích và đánh giá. Tất nhiên những cá thể được tách ra cần phải chứa những thông tin quan trọng của tập dữ liệu lớn. Việc thao tác trên tập dữ liệu nhỏ sẽ dễ dàng hơn rất nhiều và có thể sẽ đưa ra được nhiều thông tin quan trọng và thú vị mà rất khó để nhận biết khi phân tích toàn bộ dữ liệu.

9. Causal modeling (nhân quả/hệ quả)
Phương pháp này giúp cho người phân tích hiểu rõ một tác vụ hoặc sự kiện nào đó có thể ảnh hưởng tới những cá thể đang khai thác. Ví dụ, đội ngũ marketing của Vinaphone muốn xem liệu chiến dịch quảng bá sắp tới có thu hút được sự quan tâm của thuê bao và giảm thiểu lượng thuê bao chấm dứt hợp đồng với nhà mạng này hay không? Với sự giúp đỡ của nhóm phân tích, rõ ràng sau đó lượng thuê bao chấm dứt giảm hẳn và dịch vụ tăng thêm 20%. Câu hỏi đặt ra là liệu có phải chiến dịch marketing đúng đắn đã mang lại kết quả khả quan này? Hay đơn giản là do model được xây dựng bởi các nhà phân tích đã đưa ra một cách chính xác phân khúc người dùng tiềm năng sẽ không chấm dứt hợp đồng và tăng sức sử dụng dịch vụ của Vinaphone hay không?

Một kĩ thuật thường được dùng cho phương pháp này là randomized controlled environment (A/B tests). Đại loại là đưa dữ liệu ngẫu nhiên vào một hệ thống để kiểm thử và xem với mỗi tập dữ liệu ngẫu nhiên sẽ có tác động thế nào tới kết quả. Kĩ thuật này đòi hỏi phải có một sự đầu tư khá lớn vào dữ liệu. Có 1 số ví dụ về các ngân hàng nhỏ do muốn áp dụng thử phương pháp mới vào việc chăm sóc khách hàng nhưng lại không có đủ dữ liệu để phân tích đã dùng kĩ thuật này để thu thập dữ liệu và đạt được kết quả thành công vượt trội.

Kết: Mặc dù trong 2 phần này mình chưa đưa được nhiều thông tin, nhưng có lẽ các bạn cũng đã hình dung được các phương pháp cơ bản được dùng trong data mining. Mỗi phương pháp có thể được áp dụng cho một vấn đề khác nhau, hoặc nhiều phương pháp được dùng để giải một vấn đề. Chính vì thế mà người phân tích dữ liệu trước hết cần hiểu rõ vấn đề của doanh nghiệp là gì và có hướng tiếp cận phù hợp.

Written by hoanvu

August 12, 2014 at 5:46 pm

2 Responses

Subscribe to comments with RSS.

  1. […] 9 phương pháp được dùng trong việc khai thác và phân tích dữ liệu (Phần 1 và Phần 2). Trong các bài post tiếp theo mình dự định sẽ đi sâu vào chi tiết 1 chút lí […]

  2. […] 9 phương pháp được dùng trong việc khai thác và phân tích dữ liệu (Phần 1 và Phần 2). Trong các bài post tiếp theo mình dự định sẽ đi sâu vào chi tiết 1 chút lí […]


Comments are closed.

%d bloggers like this: