hoan hỉ

Cài đặt môi trường thực hành

Trong 2 bài trước mình đã giới thiệu các bạn 9 phương pháp được dùng trong việc khai thác và phân tích dữ liệu (Phần 1Phần 2). Trong các bài post tiếp theo mình dự định sẽ đi sâu vào chi tiết 1 chút lí thuyết của các phương pháp này và hướng dẫn các bạn thực hành, xây dựng các model để phân tích các tập dữ liệu cụ thể. Mình dự định sẽ dùng từ 1 tới 2 bài viết để mô tả kĩ hơn cho mỗi phương pháp và giải các bài toán cụ thể.

Đây cũng coi như là một lần mình ghi lại để nhớ các kiến thức đã học. Những gì mà mình viết ở đây chắc chắn có nhiều sai sót nên mong các bạn nếu quan tâm hãy cùng góp ý để mình sửa đổi bài viết cho chính xác.

1. Ngôn ngữ

Python

2. IDE

IPython có lẽ là IDE tốt nhất cho lập trình viên Python. Nó có nhiều tính năng hỗ trợ như tính tương tác cao, dễ sử dụng, nhanh, và đặc biệt là tính năng IPython Notebook. Notebook giống như một cuốn sổ điện tử cho phép bạn ghõ lệnh vào các shell, chỉnh sửa, và tính năng tương tác rất thú vị. Đặc biệt là bạn có thể chia sẻ các notebook đó cho cộng đồng giống như các bài tutorial rất tuyệt vời.

Bản thân mình thì luôn dùng kết hợp IPython và một text editor (Notepad++) để lập trình, viết code trên text editor và test trên IPython.  Có một phần mềm khá thú vị tích hợp luôn cả 2 tính năng này là Canopy Express. Canopy Express chạy trên nền của IPython và có sẵn 1 text editor. Ngoài ra, nó còn rất nhiều tính năng khác như kiểm tra cú pháp, quản lí package của Python, …

Nói chung là mình recommend dùng IDE này để lập trình với Python🙂. Các bạn có thể download tại đây.

3. Package

Để hiểu rõ các phương pháp khai thác dữ liệu cần nhiều kiến thức liên quan tới toán và xác suất thống kê. Sẽ có khá nhiều công thức. Đối với những bạn chưa biết mình sẽ cố gắng giải thích chi tiết hết mức có thể những kiến thức đó.

Đối với việc implementation, tức là dùng ngôn ngữ lập trình Python để viết code xây dựng thuật toán cho mỗi phương pháp, mình sẽ không trình bày việc xây dựng thuật toán từ ban đầu (from scratch) mà sử dụng luôn các package dành cho Python mà các nhà phát triển đã xây dựng sẵn. Mỗi phương pháp như phân loại, tuyến tính có rất nhiều package được viết ra nhằm hỗ trợ cho developer và giảm thời gian coding, cũng như nâng cao chất lượng code được viết ra (improve code quality). Tất nhiên là mình mặc định bạn phải biết một chút về Python để có thể hiểu được các bài tutorial sắp tới. Trên mạng có rất nhiều tutorial tuyệt vời dành cho người mới làm quen với Python.

Trong các bài tutorial sắp tới mình sẽ sử dụng package scikit-learn, đây là package khá nổi tiếng dành cho các tác vụ phân tích và khai thác dữ liệu. Các bạn vào đây để xem hướng dẫn cài đặt. Khi cài đặt xong các bạn có thể import vào IPython để dùng.

Ví dụ:

from sklearn.linear_model import LinearRegression

Ngoài ra mình sẽ sử dụng các package để xử lí dữ liệu thô như Pandas, NumPy, Matplotlib, …

Written by hoanvu

August 15, 2014 at 6:03 pm

%d bloggers like this: