Machine learning - Máy học như thế nào?

03/03/2026

Chúng ta hãy bắt đầu bằng cách hiểu AI thực ra hoạt động như thế nào. Các khối căn bản quan trọng của AI là những kỹ thuật học máy và đây là các thuật toán suy ra từ dữ liệu bằng cách sử dụng việc thống kê. Trong khi con người sử dụng ngôn ngữ tự nhiên phức tạp và ám hiệu trực quan, thì máy tính làm việc với những con số để khái quát hóa từ các ví dụ và đạt được khả năng “học tập” mà không cần phải lập trình một cách tường minh, rõ ràng.

Chuyên gia học máy Marily Nika rất thích giải thích việc học máy bằng cách chỉ ra nó học được sự khác biệt giữa mèo và chó như thế nào.10 Đầu tiên, chúng ta gắn nhãn cho những bức ảnh là “mèo” hoặc “chó”. Sau đó, chúng ta cung cấp cho thuật toán với những hình ảnh được gắn nhãn. (Hãy xem Hình 1-1.)

Nguồn: Marily Nika, “Giới thiệu về Al/học máy và học sâu”

https:// marilynika.medium.com/an-intro-to-ai-ml-and-deep-learning- ffd2Í2fbfie.

Hình 1-1 : Huấn luyện một mô hình cách nhận dạng chó và mèo

Máy đọc mẫu của những điểm ảnh (pixel) trong mỗi hình ảnh được gắn nhãn và lưu trữ nó để làm ví dụ về nhãn đó: mẫu này tương đương với mèo, và mẫu kia tương đương với chó. Dĩ nhiên, không phải tất cả mẫu điểm ảnh cấu thành một con mèo trong một tấm hình đều giống nhau, bởi vì có lẽ con mèo đó là nhìn trực diện trong một hình và nhìn nghiêng trong tấm hình khác. Vì vậy, máy tính cần nhiều hình ảnh về mèo và chó để lưu trữ nhiều mẫu và xác định tốt việc nhận dạng một con mèo so với một con chó.

[1] Điểm ảnh là đơn vị căn bản để tạo nên một tấm hình kỹ thuật số. Nó là một điểm vật lý trong một hình ảnh raster (được lưu trữ trong các file hình ảnh với những định dạng khác nhau) - ND.

Nika bổ sung rằng chúng ta có thể điều chỉnh cho máy tính khi nó nói không đúng: “Đây là một con mèo”. Máy tính sẽ ghi nhận lại lỗi của nó. Và nó học được cách không coi mẫu đó là một “con mèo” nữa. Khả năng thích ứng đó chính là lý do tại sao chúng ta sử dụng thuật ngữ “trí thông minh” để mô tả cho quá trình học tập này.

Cơ sở toán học để làm điều này đã tồn tại trong một thòi gian dài, song nó cần có một lượng dữ liệu khổng lồ và nàng lực xử lý mạnh hơn nhiều của máy tính để làm toán học hữu ích trong thế giới thực.¹¹

Chúng ta hãy xem việc học máy hoạt động ra sao thông qua ví dụ do Mark Robins, trưởng bộ phận chiến lược AI doanh nghiệp của Intel, cung cấp. ông là người có gương mặt mà bạn có thể thấy trong Hình 1-2.¹² Theo cách tiếp cận học máy tiêu biểu, một số người nào đó xác định một tập hợp đặc trưng thể hiện duy nhất cho gương mặt của họ, chẳng hạn như của Mark. Khoảng cách giữa hai mắt, bề rộng của mũi, và độ sâu của hốc mắt là những yếu tố phổ biến để so sánh. Thuật toán học máy tiếp nhận những đặc trưng này và xây dựng các hệ thống phân loại về chúng nhờ việc sử dụng những thuật toán khác nhau dựa trên các loại mô hình thống kê khác nhau. Bằng cách lặp lại quá trình này nhiều lần và được điều chỉnh (ít nhất là vào lần đầu tiên) bởi những người biết gương mặt đó, thuật toán học máy sẽ học cách kết hợp một mẫu các đặc trưng đã cho với một người cụ thể.

Như Robins quan sát, và nhiều chuyên gia khác cũng ghi nhận, sự khó khãn trong cách tiếp cận này chính là không phải lúc nào hiển nhiên là những đặc trưng nào hữu ích nhất để xác định một gương mặt cụ thể.¹³ Và thậm chí chúng ta biết rằng một đặc trưng nào đó là quan trọng, thì cũng khó có thể để tính toán được nó. Chẳng hạn, để tính khoảng cách giữa hai mắt, trước tiên bạn cần có thể tìm thấy đôi mắt trong ảnh và tính toán khoảng cách dựa trên mức độ xa từ camera tới khuôn mặt, mà bản thân điều đó có thể là phức tạp rồi. Giờ đây, chúng ta hãy chuyền sang đề tài học sâu (deep learning).

Nguồn: “Sự khác biệt giữa trí tuệ nhân tạo, học máy, và học sâu”, Intel, https://www.intel.com/content/www/us/en/artificial- intelligence/posts/difference-between-ai-machine-learning- deep-learning.html

Hình 1-2 Học máy cô điển so với học sâu

Học sâu là một loại của học máy, trong đó thuật toán không cần được người ta cho biết về những đặc trưng quan trọng. Thay vì vậy, nó có khả năng tự mình khám phá các đặc trưng bằng cách sử dụng mạng thần kinh nhân tạo (neural network) để tự kiểm tra dữ liệu. Thuật ngữ này xuất phát từ một đối tượng toán học được gọi là tế bào thần kinh nhân tạo và nó “kích hoạt” nếu những tín hiệu đầu vào vượt quá ngưỡng nhất định, giống như một tế bào thần kinh trong não bộ kích hoạt. Tế bào thần kinh nhân tạo có thể được sắp xếp theo những lớp, và học sâu có nhiều lớp tế bào thần kinh nhân tạo. Học sâu đòi hỏi hàng triệu tham số (parameter), và đó là lý do tại sao lĩnh vực học sâu chỉ trở nên mạnh mẽ trong thời gian gần đây, bởi vì chúng ta bây giờ có đủ dữ liệu cho nó học và nó có năng lực xử lý để thực hiện phép tính rất phức tạp trong khoảng thời gian hợp lý.

Trong bối cảnh của nhận dạng khuôn mặt, học sâu tránh được việc phải cố gắng liên kết những hình dạng khác nhau trong một hình ảnh tới các đặc trưng được chỉ định trước. Hãy cung cấp cho nó đủ “dữ liệu được gắn nhãn” (tức là hình ảnh về gương mặt đã biết) và huấn luyện cho nó một cách thích hợp, một mô hình học sâu sẽ tự quyết định các đặc trưng nào phù hợp nhất từ những dữ liệu đó. Quá trình này cải thiện đáng kể tính chính xác của thuật toán.¹⁴ Khi được sử dụng với những hình ảnh, học sâu được gọi là thị giác máy tính (computer vision).¹⁵ (Hãy xem Hình 1-3.)

Hình 1-3 : Học máy so với học sâu

Các thuật toán học máy cũng có thể được áp dụng cho văn bản hoặc lời nói để xác định các khuôn mẫu và tạo những mối tương quan theo cách tương tự. Việc xử lý ngôn ngữ tự nhiên (NLP) là đối với những gì liên quan tới lời nói, còn thị giác máy tính là những gì đối với hình ảnh.16 Xử lý ngôn ngữ tự nhiên hoạt động bằng cách tuân theo một tập lệnh để phân loại ngôn ngữ nào đó thành các loại. Đó là sự sàng lọc tương tự thông qua số liệu thống kê. Đầu tiên, các cụm từ được gắn nhãn dựa trên cơ chế phân loại nào đó. Sau đó, máy tính làm sạch các cụm từ này, và loại bỏ những từ dừng (stop word) (như “a” (một),“and” (và), “the” (cái/con), “but” (nhưng), “or” (hoặc) và vân vân) và dấu ngắt câu. Tiếp theo, những từ này được “từ vựng hóa” (một cách nói về mặt kỹ thuật rằng chúng được sắp xếp bằng cách nhóm những biến thể của cùng một từ lại với nhau, như “stopping” (đang dừng), “stopped” (đã dừng) và “stopper” (người/vậtlàm dừng)). Sau đó, chúng được tìm ra gốc từ, tức là những từ này được rút gọn để trở lại dạng nguyên thủy của nó, tức là “stop” (dừng). Cuối cùng, dữ liệu làm sạch được “vector hóa”, hoặc chuyển thành những con số để có thể được phân tích trên phương diện thống kê.

Hãng Yelp kết hợp những kỹ thuật như vậy và sử dụng học máy để giúp nhân viên biên soạn, gắn nhãn, và phân loại hình ảnh cũng như những mô tả về nhà hàng hiệu quả hơn.¹⁷ Các nhãn trong những loại bao quát như “thực đơn”, “đồ ăn”, “tacos’”, và “sushi” được gắn với những hình ảnh dựa trên các bình luận của người dùng đã tải chúng lên mạng. Tiếp theo, việc xác nhận về tính hợp lệ của những nhản được trích xuất này sẽ được thực hiện qua việc dựa trên nguồn lực cộng đồng (crowdsourcing). Sau đó, các hình ảnh và nhãn được sử dụng nhằm huấn luyện loại mạng thần kinh nhân tạo học sâu để làm thị giác máy tính. Một khi nó đã học những gì làm thực đơn, đồ ăn, hoặc taco, hay sushi, mạng thần kinh nhân tạo sẽ tự phân loại và gắn nhãn cho các hình ảnh chưa được gắn nhãn trước đó với thài gian ít hơn nhiều so với thời lượng mà nhiều người phải thực hiện tác vụ tương tự. Với sự gia tăng về số lượng hình ảnh được gắn nhãn, Yelp có thể đưa ra các đặc trưng bổ sung, như việc duyệt hình được đánh dấu dựa trên các loại như “đồ ãn”, “thực đơn”, và “đồ uống”.

Như chúng ta đã thảo luận trong phần giới thiệu, thuật toán là chuỗi chỉ thị có thể được sử dụng để giải quyết một vấn đề. Được lập trình viên phát triển nhằm hướng dẫn máy tính thực hiện những tác vụ nhất định, thuật toán là các khối căn bản để phát triển thế giới số. Tuy nhiên, việc phát triển những thuật toán này cần phải có thời gian. Lợi thế của việc sử dụng mạng thần kinh nhân tạo và các kỹ thuật tương tự chính là chúng

* Taco là món ăn truyền thống dân dã cúa người Mexico. Nó có dạng giống như bánh tráng giòn cuộn ở bên ngoài và nhân bánh được làm từ thịt, cá, rau, nước xốt cà chua có thể tự tạo ra những thuật toán môi. Chúng nhận ra quy tắc hướng dẫn các khuôn mẫu và sau đó được lập trình để tạo ra các quy tắc mới dựa trên những gì chúng học. Và một lần nữa, việc dó mất rất ít thời gian so với con người phải thực hiện công việc tương tự.

Vì vậy, để một thuật toán học máy tạo ra quy tắc mới, đầu tiên nó cần được huấn luyện (thường là do một người đảm trách) để nhận dạng các khuôn mẫu và trích xuất quy tắc từ nhũng mẫu đó. Việc áp dụng nhãn cho những cụm từ là một ví dụ hay về cách một lập trình viên sẽ huấn luyện cho thuật toán học máy. Loại huấn luyện này thường được coi là học có giám sát (supervised learning). Ví dụ, một cụm từ được gắn nhãn là tích cực, tiêu cực, hoặc trung tính. Giờ đây, thuật toán có thể nhận dạng các quy tắc để phân loại một cụm từ là tốt hay xấu. Chẳng hạn, nó có thể quyết định một quy tắc rằng những cụm từ với “tệ nhất” trong chúng là tiêu cực (dù thực tế phức tạp hơn và chúng tôi lấy trường hợp đơn giản này để giải thích cho dễ hiểu.)

Một khi thuật toán được huấn luyện thông qua việc học có giám sát, nó sẵn sàng cho một giai đoạn nâng cao hơn, được gọi là học không giám sát (unsupervỉsed learning). Đây là lúc thuật toán tự động sắp xếp thông qua các hình ảnh Yelp và một mình nó tự đánh giá cũng như phân loại nhà hàng nào đó là tốt hay xấu. Học không giám sát cũng là cách Alibaba và Amazon tìm ra hai mặt hàng thường được khách hàng mua cùng với nhau.

Giai đoạn học thứ ba và thậm chí nâng cao hơn được gọi là học tăng cường (reinforcement learning), khi thuật toán học máy không ngừng được điều chinh dựa trên việc phản hồi. Để lấy ví dụ về học tăng cường, hãy xem xét vài trường hợp hàng ngày mà bạn có thể đã trải qua. Nếu thuật toán học máy suy luận rằng áo nỉ và tất chân thường được người ta mua chung với nhau, nó đưa ra một quảng cáo về tất chân tới người mua áo nỉ. Nhưng nếu người mua đó không mua tất chân, thuật toán tiếp nhận phản hồi đó và sử dụng nó để tinh chỉnh mô hình của nó về việc ai có khả nàng mua mặt hàng gì. Tương tự, nếu tài xế của xe tự hành cầm tay lái để điều chỉnh hướng đi, thuật toán học được rằng mô hình của nó về lộ trình xe không còn thích hợp nữa và cân nhắc dữ liệu điều chỉnh này để tái thiết lập mô hình đó.¹⁸

Việc phát triển tư duy số cũng có nghĩa chấp nhận rằng, trong nhiều trường hợp, máy móc thực hiện tốt hơn con người trong việc đưa ra những dự đoán nào đó và thực hiện các tác vụ cụ thể. Những tiến bộ trong năng lực tính toán liên kết với lượng dữ liệu đồ sộ được tạo ra trong các hệ thống chăm sóc sức khỏe phát sinh làm cho nhiều vấn đề y khoa trở thành ứng viên hoàn hảo cho các ứng dụng AI. Các nhà nghiên cứu tại Bệnh viện và Đại học Y khoa của Viện Đại học Quốc gia Seoul đã phát triền một thuật toán AI có tên là DLAD (Deep Learningbased Automatic Detection/Học sâu - dựa trên Dò tìm Tự động) để phân tích hình chụp X-quang ngực và phát hiện sự tăng trưởng của tế bào bất thường, như có khả năng bị ung thư.¹⁹ Trong một cuộc nghiên cứu kéo dài bốn năm, bệnh viện này phát hiện rằng AI có thể làm giảm đáng kể số trường hợp ung thư phổi bị bỏ sót trên hình chụp X-quang ngực mà không làm tăng số lần kiểm tra theo dõi CT ngực. Đối với bác sĩ và bệnh nhân, đột phá về công nghệ này có nghĩa rằng có sự điều chỉnh những mong đợi trong việc chẩn đoán và thực tiễn. Và một ví dụ khác, bộ phận Google Health đã tạo nên một thuật toán học máy LYNA (LYmph Node Assistant/ Trợ lý Hạch Bạch huyết) để nhận diện khối u ung thư vú di căn từ sinh thiết hạch bạch huyết.²⁰ Điều độc nhất vô nhị từ AI này chính là thuật toán có thể nhận dạng những khu vực khả nghi mà không thể phân biệt được bằng mắt người. LYNA được thử nghiệm trên hai bộ dữ liệu và cho thấy khả năng phân loại một mẫu là ung thư hay không ung thư và luôn chính xác tới mức 99%. Khi được cung cấp cho bác sỉ sử dụng để kết hợp với việc phân tích thủ công thông thường về các mẫu mô được nhuộm màu, LYNA làm giảm một nửa thời gian trung bình xem xét tiêu bản. Một lần nữa, các bác sĩ đả phải tích hợp cấp độ mới này vào quá trình hành nghề của họ. Mặc dù cuối cùng, một tiến bộ được tôn vinh - việc chẩn đoán chính xác hơn thời gian ngắn hơn - nhưng tiến trình công việc và vai trò con người sau đó cần được điều chỉnh, và điều đó không phải lúc nào cũng dễ dàng. Chẳng hạn, trong y tế, có thể cảm thấy mối đe dọa khi máy móc mâu thuẫn với sự chẩn đoán của bạn.²¹ Và đó là lúc ý tưởng máy móc mà không phải con người là điều quan trọng. Tuy cảm thấy mối đe dọa, nhưng mã thì không đe dọa chút nào. Nó chỉ là công cụ để chúng ta khai thác.

Khi bạn nghe nói rằng AI đang mạnh mẽ hơn (và khi các bộ phim cảnh báo rằng máy móc sắp chiếm quyền điều khiển cuộc sống của con người), thực ra điều đó có nghĩa là ngày càng có sẵn nhiều dữ liệu và chúng ta đang ngày càng đạt tới nhiều năng lực xử lý điện toán. Điều này cũng có nghĩa là các khoa học gia máy tính có thể có lợi thế trong khả năng xử lý mạnh mẽ hơn để thiết kế những thuật toán tốt hơn nhằm huấn luyện AI. Hãy nghĩ tới tất cả giao dịch số được tiến hành trực tuyến hàng ngày, hoặc số lượng bộ cảm biến đang được triển khai vào tất cả thiết bị mà bạn sở hữu (xe hơi ngày nay có hơn 100 bộ cảm biến nhằm giám sát các chức năng như mức nhiên liệu và áp lực vỏ xe). Mặc dù những con số đó đã gia tăng nhanh chóng trong thập niên qua, xu hướng năng lực xử lý mạnh mẽ hơn và nhiều dữ liệu hơn vẫn đang tiếp tục mà không hề giảm sút. Mỗi năm, chúng ta tạo ra nhiều dữ liệu hơn tất cả các năm trước cộng lại.²²Những gì là hiện đại của ngày hôm nay sẽ chẳng bao lâu bị coi là lạc hậu trong tương lai. Những công ty như IBM đang nỗ lực làm việc để phát triển các hệ thống điện toán lượng tử nhằm cung cấp lực cho Watson AI của họ.²³ Nếu không còn gì thay đổi, bạn cần biết rằng tiến bộ trong tương lai về AI sẽ phụ thuộc vào sự kết hợp giữa dữ liệu, năng lực tính toán, và các thuật toán tiên tiến hơn.

Thầy Ngô Bá Thành - Giảng viên Khoa CNTT-ĐT

Tin tức khác