Lịch sử Thị Giác Máy Tính - Phần 1
Edition: Pre-fascicle 1A (Revision -99).
[Đã lâu rồi mình không viết blog, nhưng phải chờ đợi đến một thời điểm chính muồi thì mình mới có thể viết được một bài tâm huyết với chất lượng cao. Hi vọng thông qua bài viết này, các bạn có hứng thú với Thị Giác Máy Tính (TGMT - hoặc CV - Computer Vision) sẽ có thêm động lực và biết được thêm nhiều thông tin về một hướng nghiên cứu khá hấp dẫn này.]
Giới thiệu
Bởi TGMT là một hướng nghiên cứu liên quan đến khá nhiều lĩnh vực khác nhau, đặc biệt là sinh học, khoa học nhận thức, khoa học máy tính, toán học, vật lý; chính điều đó lịch sử của TGMT được xem xét bởi các mốc thời gian khác nhau tùy theo ý kiến của tác giả. Phần dưới được mình tổng hợp từ “timeline” của hai nhà nghiên cứu nổi tiếng là “cô cô” Fei-Fei Li và sư tổ Szeliski thông qua các bài giảng [1] và sách giáo trình [1]. Có thể hiểu ngành TGMT là một nhánh con của trí tuệ nhân tạo (Artificial Intelligence - AI) trong thời kì đầu - những năm 1950s, một trong những mục tiêu tối thượng của AI chính là có thể giả lập được trí tuệ của con người. Đó là đối với AI, CV cũng không phải ngoại lệ; các bài toán trong CV cũng nhằm giải quyết bài toán làm thế nào một hệ thống thị giác có khả năng hiểu và thao tác với hình ảnh giống như cách một hệ thống thị giác sinh học làm được.
Vậy làm thế nào một hệ thống thị giác sinh học có thể quan sát, hiểu được những hình ảnh mà cơ quan cảm thụ (mắt) thu nhận được? Câu hỏi đặt ta phải tìm hiểu về quá trình cơ chế này được phát triển trong tự nhiên và những nghiên cứu về não bộ nhằm hiểu được cơ chế hoạt động của một trong những giác quan quan trọng của cơ thể. Thông qua những tìm hiểu này, đã có nhiều bước tiến diễn ra trong các ngành khác nhau như Vật Lý, Sinh Học, Toán Học, và sau này Trí Tuệ Nhân Tạo.
Pre-computer vision
543 triệu năm trước Công Nguyên
Đây là thời kì “Big Bang của tiến hóa sinh học”, trước thời điểm này các sinh vật hiện diện trên Trái Đất rất hạn chế. Và đột nhiên, như vụ nổ Big Bang, bỗng xuất hiện sự bùng nổ các sinh vật hiện diện tràn ngập trên Trái Đất. Dựa trên các bằng chứng khảo cổ học, nhiều giả thuyết được đặt ra nhằm giải thích cho hiện tượng này. Có thể một thiên thạch chứa mầm sống ngoài vũ trụ đã mang đến các vi sinh vật, hay có chăng sự biến đổi thời tiết và môi trường dẫn đến sự bùng nổ các giống loài. [Những giả thuyết này về sau được đưa vào văn học, điện ảnh khá nhiều. Đồng thời cũng có nhiều nghiên cứu tập trung đến hướng này, đọc thêm: Cosmos - Carl Sagan]
Các nhà sinh vật gọi đây là “vụ nổ kì Cambrian”, chỉ trong một thời gian ngắn, một loạt các sinh vật với cơ thể phức tạp và cấu trúc mới xuất hiện. Một giả thuyết quan trọng được đưa ra chính là sự xuất hiện của cơ quan thị giác, lần đầu tiên có một sinh vật có thể tương tác với môi trường xung quanh. Các sinh vật này không còn thụ động với môi trường nữa; cũng chính bởi điều đó thúc đầy loài săn mồi và con mồi thúc đẩy khả năng cảm nhận của mình, dẫn đến các sinh vật ở thời kì này phát triển cơ chế tương tác với môi trường. Một dẫn chứng quan trọng của giả thuyết này chính là đây là thời kì sớm nhất mà các nhà khoa học có thể tìm thấy cơ quan “thị giác” trong các hóa thạch.
Chính nhờ sự phát triển của cơ quan thị giác, mà sau tất cả bước tiến hóa đến tận bây giờ, hệ thống này đã giúp cho các sinh vật có thể tồn tại, điều hướng, thao tác với môi trường xunh quanh. Đó cũng chính là mục tiêu của các nhà nghiên cứu AI trong giai đoạn đầu hình TGMT: làm thế nào hệ thống AI có thể tồn tại, điều hướng, tao tác với môi trường tác nhân tác nhân (agent)1.
Thế kỉ 16 - Camera Obscura - Leonardo da Vinci
Trong suốt lịch sử, loài người đã dần dần phát minh những thiết bị có thể nắm bắt được những gì trông thấy. Những phát kiến được phát minh ở Trung Quốc, Hi Lạp và các nền văn minh khác. Tuy nhiên đến tận thế kỉ 16, Leonardo da Vinci là người đầu tiên có những ghi chú cụ thể và chi tiết về công cụ này - mà sau này ta gọi là “camera”.
Trong các tài liệu của mình, Leonardo đã sử dụng cơ chế “pin hole” để mô hình hóa cách camera ghi lại khoảnh khắc xung quanh. Đồng thời ông cũng dùng cơ chế này để tìm hiểu cách hoạt động của mắt người. [Chi tiết về cuộc đời và các công trình của Leonardo da Vinci, cuốn Leonardo da Vinci của Walter Isaacson rất đáng đọc.].
Cũng từ sau giai đoạn này, nhiều phát minh đã xuất hiện. Và ngày nay, “camera” trở thành một phần không thể thiếu trong cuộc sống hiện đại. Thống kê năm 2016 có thấy số lượng cảm biến hình ảnh còn nhiều hơn dân số Trái Đất. Tuy nhiên, việc phát minh ra camera, cũng như các ghi chú của Leonardo chỉ dừng lại mức sao chép thế giới thị giác. Lúc này một camera vẫn chưa hiểu được những gì mình thu nhận được.
1959: Hubel & Wiesel
Làm thế nào con người có thể hiểu được những gì đôi mắt nhìn thấy? Cơ chế hoạt động của não bộ khi bắt được tín hiệu hình ảnh? Những câu hỏi này không ngừng thúc đẩy các nhà khoa học tìm hiểu vấn đề này.
Nghiên cứu đạt giải Nobel năm 1981 này được thực nghiệm trên những chú mèo nhằm tìm câu trả lời cho câu hỏi về thị giác trong não bộ. Các nhà khoa học đã gắn các thiết bị ghi nhận tín hiện mỗi khi phần não (primary visual cortex) kích ứng với các sự thay đổi hình ảnh. Khi thử nghiệm với các hình ảnh như cá, thịt, hoa … hầu như não mèo không kích ứng tín hiệu nào. Lúc đó các nhà khoa học hầu như thất vọng với kết quả thu được. Nhưng điều lạ lùng là họ thấy các tín hiệu được kích ứng mỗi khi họ thay đổi tấm phim. Và sau đó, kết luận được đưa ra là tiền đề cho các nghiên cứu sau này của TGMT: tín hiệu não chỉ kích ứng với sự chuyển động của các cấu trúc cơ bản (biên, cạnh). Sau này, trong deep learning, kết quả visualize của tầng conv cũng cho kết quả tương tự.
Điều thú vị của não bộ về xử lí thị giác: não bộ cần khá nhiều phần trăm cơ quan của mình để có thể “hiểu” những gì mắt ghi nhận được (gần 50% thể tích não), và bộ phần này (visual cortex) nằm phần phía sau của não bộ. Có thể hiểu rằng đây là tác vụ khó nhất mà não bộ cần phải làm.
Trong các bài viết sau, mình sẽ đề cập đến những tiến triển của hướng nghiên cứu này trong giai đoạn 1950-1960, khi mà AI trở thành một hướng nghiên cứu năng động và sôi nổi thời bấy giờ.
- Có một mối quan hệ mật thiết với Học Tăng Cường (Reinforcement Learning) [Có lẽ mình cần đề cập một chút ở đây] [return]