Chủ Nhật, 31 tháng 7, 2016

BigData

From: FB HoangThanh Lam
----------------------
Data science ko phải là lĩnh vực mới mẻ.
Fundamentals của data science là Statistics, sau đó người ta phát triễn lý thuyết trí tuệ nhân tạo gồm rất nhiều nhánh khác nhau. Tuy nhiên trí tuệ nhân tạo vấp phải một số vấn đề và các hướng nghiên cứu trí tuệ nhân tạo mất dần sự thu hút. Lúc này các nhánh nhỏ của trí tuệ nhân tạo như machine learning khởi nguồn từ các nghiên cứu statistics như gắn kết nhiều hơn với data trở nên thịnh hành. Cùng lúc đó lĩnh vực data mining bắt đầu phát triẽn chủ yếu giải quyết các bài toán mà machine learning chưa đụng đến như patern mining, rule mining, data clustering, outlier detection.
Bên cạnh đó phát triễn các cộng đồng giải quyết các bài toán cụ thể với một loại data nhất định như text mining, computer vision.

Gần đây khi máy tính nhanh hơn và data được collect dễ dàng hơn người ta bắt đầu thấy sự trở lại của lĩnh vực trí tuệ nhân tạo với các ứng dụng của deep neural network trong computer vision và text mining. Do vậy data science là một lĩnh vực rộng lớn bao trùm nhiều cộng đồng nghiên cứu khác nhau.

Để bắt đầu hãy đầu tư thời gian cho các môn học sau, statistics, machine learning xem cousera course của Andrew Ng., Data mining, deep learning xem course của Nando de Freitas ở Oxford video lecture trên youtube.

Về tool nên học dùng python và machine learning library, nếu dùng thành thạo R sẽ là lợi thế vô cùng lớn.
Big data system phổ biến nhất hiện nay là Spark, có thể dùng Spark với Java, Scala hay python đều được. Deep learning tools phổ biến hiện nay có thể kể đến Torch, thyano, caffe hoặc tensorflow.

Không thể học tốt dât science nếu ko thực hành, hãy bắt đầu bằng cách thực hành giải quyết các bài toán thực tế thông qua các competition trên Kaggle.com.

Mặc dù data science ko phải là lình vực mới mẻ, nhưng ứng dụng data science vào từng lĩnh vực cụ thể như heathcare, automotive, digital commerce, life science etc. vẫn còn rất nhiều room for investment.