Apple ProRAW và tham vọng của Apple về nhiếp ảnh trên điện thoại (P1)

-

Chào các bạn, mình là Pro-K. Bài viết sau đây vốn dĩ mình tính viết dựa trên những tài liệu mà Ben Sandofsky từ team Halide cung cấp. Nhưng sau đó có nhiều vấn đề hay về Apple ProRAW mà mình tin rằng nếu chỉ dịch bài thì có lẽ quá khó để mọi người có thể hiểu. Nên đây sẽ là bài viết dài được bổ sung nhiều thông tin và kiến thức cũng như cố gắng Việt hóa. Diễn giải nhiều vấn đề mang tính khoa học trong nhiếp ảnh.

Sơ lược về Raw và ProRAW

Mình tham khảo từ Ben Sandofsky, một trong các Founder của Lux Optics, nhà phát hành app Halide cực kì nổi tiếng về xử lý ảnh Raw trên iPhone. Khi Apple công bố chuẩn ProRAW thì đội ngũ của Halide đã vô cùng phấn khích và họ đã có rất nhiều điều thú vị để chia sẻ về nó.

Khi ra mắt iPhone 12, Apple công bố máy có thể chụp ảnh RAW ngay trong app Camera có sẵn trên iOS mà không cần đến các phần mềm của bên thứ ba. Trước đây người ta cần phải cài thêm Halide để có thể chụp ảnh RAW thì nay không cần nữa.

Nhiều Studio phát triển phần mềm gần như cuống lên vì nghĩ rằng Apple sẽ nuốt chửng họ bằng cách giành hết khách hàng. Halide thừa nhận họ đã có chút bối rối về nước đi này của Apple.

Chúng tôi (Halide) tự hỏi: “Apple có mục tiêu phát triển và cung cấp sản phẩm để bán cho càng nhiều người dùng phổ thông càng tốt. Số lượng tiêu thụ luôn ưu tiên hàng đầu. Vậy thì, định dạng RAW vốn là một thứ chỉ dành cho những con mọt nhiếp ảnh đặc thù. Nó đòi hỏi phải có kỹ năng để xử lý hậu kì và hiểu biết nhất định thì tại sao Apple lại nhồi nhét tính năng phức tạp đó vào một cái app cơ bản theo máy để làm gì? Khi app đó vốn được thiết kế để đơn giản hóa và tiếp cận đa số người người dùng không cần biết gì về nhiếp ảnh vẫn có thể xài được dễ dàng?

Và ở đây ta phải khằng định lại là Apple không tích hợp chuẩn RAW vào app chụp hình của họ. Thứ họ tích hợp là chuẩn ProRAW, một chuẩn mới hoàn toàn và nó hiện đại hơn RAW.

Khi tìm hiểu sâu vào chuẩn ProRAW, đội ngũ của Halide nhận ra rằng nó không chỉ làm file RAW trở nên mạnh mẽ hơn, mà còn thay đổi cách mà người dùng tiếp cận file RAW và ProRAW trong tương lai. Nó có thể thay đổi cách mà mọi người chụp và chỉnh sửa ảnh. Cái hay là nó vẫn theo đúng tiêu chí của Apple, dù bạn là chuyên gia hay người mới thì đều có thể sử dụng nó dễ dàng.

Để hiểu điều gì khiến nó trở nên đặc biệt thì ở đây có ba phần để nói:

  • Phần đầu tiên chúng ta sẽ nói về cách thức mà một cái máy ảnh kĩ thuật số chụp một bức ảnh.
  • Phần hai chúng ta sẽ nói sâu vào giải thích những điểm mạnh, điểm yếu của một file RAW truyền thống.
  • Cuối cùng chúng ta sẽ đi sâu vào những nét độc đáo của ProRAW cùng cách thức mà nó sẽ thay đổi cuộc chơi và một vài nhược điểm còn sót lại của nó.

Ok hãy order một ly trà sữa, một ly cafe, một bình nước lọc và bắt đầu thôi vì đây sẽ là một câu chuyện dài và hay.

Tìm hiểu một chút về máy ảnh kỹ thuật số

Hãy tưởng tượng bạn nhìn thấy khung cảnh sau qua máy ảnh nhé:

Tìm hiểu về máy ảnh kỹ thuật số.

Khi bạn bấm nút chụp thì ánh sáng sẽ đi qua ống kính được cấu tạo gồm nhiều thấu kính và đích đến chính là cảm biến ảnh kỹ thuật số (trong bài sẽ gọi là Sensor cho gọn nhé). Ở trên Sensor, khung cảnh sẽ được chụp lại thành bức ảnh kỹ thuật số. Thực tế là nó ghi lại dưới dạng những tín hiệu ánh sáng và mã hóa dưới dạng kỹ thuật số. Sau đó qua vài bước xử lý kỳ diệu mới biến nó thành tấm ảnh mà bạn xem được.

Tìm hiểu về máy ảnh kỹ thuật số.

Chúng ta cũng cần đề cập đến ba bước quan trọng để hiểu cách thức mà máy ảnh chuyển những tín hiệu ánh sáng thu được thành một bức ảnh.

Bước 1: Demosaic

Cảm biến kỹ thuật số (Digital Sensor) sẽ hấp thụ các tia sáng và mã hóa nó thành các con số. Ánh sáng mạnh đồng nghĩa với các con số sẽ lớn hơn. Kiểu như tia sáng có giá trị 5 sẽ sáng hơn tia sáng có giá trị 1.

Demosaic

Các bạn thấy các con số minh họa trong hình trên không. Số nhỏ là vùng tối, số lớn là vùng sáng và tại sao tôi lại chuyển bức ảnh trên về dạng trắng đen? Lí do là về cơ bản Sensor nó mù màu. Nó không hề có sự cảm nhận màu sắc nào. Phải đến năm 1976, để có màu, một kỹ sư ở Kodak khi đó nghĩ ra một giải pháp là thêm một lớp lưới màu ngay phía trước Sensor để phân tách các tia sáng thành ba màu riêng lẻ: Red, Green, Blue. Như vậy mỗi pixel màu được phân tách thành ba màu độc lập: Red, Green, Blue.

Lớp lưới Mosaic Bayer Pattern.

Lớp lưới Mosaic đó người ta đặt tên là Bayer Pattern. Tên được đặt theo tên của kỹ sư phát minh ra nó Bruce Bayern. Với lớp filter màu đó, cảm biến ảnh của chúng ta giờ đây có thể nhìn thấy một mảng lưới gồm các màu xen kẽ: Xanh, đỏ, xanh lá. Bây giờ ta sẽ phóng to vào chiếc lá trên cây và xem Sensor nhìn thấy điều gì.

Tìm hiểu về máy ảnh kỹ thuật số.

Mỗi Pixel sẽ có một trong ba màu: Đỏ – Xanh Lá – Xanh Dương. Chúng ta tạo ra màu sắc thực bằng cách xem xét từng pixel rồi xem các điểm ảnh lân cận. Từ đó dự đoán hai màu sắc còn thiếu là màu gì để tái tạo màu sắc thực. Bước quan trọng này gọi là Demosaicing hoặc Debayering. Mình để nguyên gốc tiếng Anh để các bạn có thể tìm hiểu thêm vì hình mình họa trong bài được tạo ra bằng cách Fake Mosaic. Nên sẽ có nhiều bạn ngờ ngợ. Thực tế làm gì có hình nào mà các điểm Red, Green, Blue có cấu trúc đều tăm tắp như thế kia cơ chứ. Nhóm của Halide giả lập để bạn dễ hình dung thôi.

Việc Demosaicing này thật sự rất phức tạp. Những thuật toán đơn giản và phức tạp sẽ cho các kết quả khác nhau và bạn dễ dàng nhận ra các vấn đề tồn đọng giữa thuật toán xịn và kém đó là các hiện tượng như viền tím, mất nét, sai màu… Và từ ngày đầu của hình ảnh kỹ thuật số đến thời điểm viết bài là năm 2021 thì các hãng máy ảnh vẫn không ngừng nâng cấp thuật toán để giải quyết câu chuyện này.

Phía trên là ba tấm hình: bên trái là ảnh gốc Sensor nhận được, ảnh giữa là quá trình Demosaic bởi thuật toán ưu tiên tốc độ và bên phải là thuật toán ưu tiên chất lượng.

Thuật toán ưu tiên tốc độ bên trái thì đương nhiên có chất lượng kém hơn và nó có cảm giác là những pixel rời rạc.

Có một vài thuật toán Demosaic phổ biến để xử lý vấn đề. Mỗi cái đều có điểm mạnh, điểm yếu riêng. Thuật toán hoàn hảo là thuật toán được tạo ra duy nhất dựa trên loại cảm biến, các cài đặt của máy ảnh và thậm chí còn tùy thuộc vào chủ thể mà bạn chụp. Ví dụ như khi bạn chụp bầu trời đêm, có thuật toán nó xử lí rất tốt để thấy các ngôi sao. Có thuật toán nó khử luôn các ngôi sao vì hiểu nhầm đó là Noise (nhiễu).

Một lần nữa tôi phải nói với các bạn rằng đội ngũ của Halide giả lập bức hình này từ bức hình hoàn chỉnh để các bạn dễ hình dung. Thực tế nó có thể khác chút đỉnh và họ không công bố từng hình thực tế ở mỗi giai đoạn đâu. Và như bạn thấy đấy, kết quả nó không đâu vào đâu vì màu sắc và độ sáng tối nó trật lất so với khung cảnh thực mà ta thấy. Và mình phải khẳng định với các bạn rằng chẳng có sai sót gì ở đây dù bạn nhận được một tấm hình trật lất màu sắc như vậy.

Bức hình xanh lè mà bạn nhìn thấy chính xác là thứ mà Sensor nó nhìn thấy và ghi lại toàn độ thông tin ánh sáng mà nó nhận được. Những thông tin mà Sensor nhận được thì không thể hiển thị lên màn hình mà chúng ta xem trực tiếp vì công nghệ hiển thị hiện tại vẫn chưa thể hiển thị tất cả các thông tin mà cảm biến có thể ghi lại được. Cho nên cần phải qua bước thứ 2.

Bước 2: Transform From Scene to Display (chuyển hình ảnh thu được lên màn hình hiển thị)

Đây là một vấn đề gần như rất cơ bản nhưng có một thực tế là gần như rất ít người chụp ảnh quan tâm và tìm hiểu. Ngay đến cả những người làm việc trong ngành nhiếp ảnh lâu năm khi được hỏi đến bản chất của việc hiển thị và thiết bị hiển thị ảnh kỹ thuật số, đa phần đều trả lời rất lờ mờ (PRO-K).

Khi viết bài này dựa trên những thông tin mà team của Halide cung cấp, tôi nghĩ mình cần thêm một vài thông tin để các bạn có thể hiểu được phần nhiều về câu chuyện hiển thị. Không những thế, tôi cũng khá lưỡng lự trong việc cố gắng chuyển thể dịch hoàn toàn sang tiếng Việt hay không và sau cùng tôi đi đến quyết định là sẽ bổ sung vào đây những thông tin liên quan, cùng với việc sẽ giữ một số từ tiếng Anh làm keyword để các bạn muốn tìm hiểu sâu hơn có thể dễ dàng làm điều đó.

Rồi đầu tiên ta nói về màu sắc.

Trước khi nói điều gì đó thì tôi phải nói với các bạn rằng những thứ trên đời các bạn nhìn thấy nó không hề đơn giản như các bạn nghĩ. Bởi cùng một khung cảnh thì:

  • Mắt các bạn nhìn thấy số lượng màu sắc và sáng/tối theo kiểu số một, “Human eyes”.
  • Sensor có thể nhìn thấy khác theo kiểu số hai, “Sensor capturing”.
  • Màn hình có thể hiển thị theo kiểu số ba, “Display type”.

Mắt người là một dạng thực thể sinh học nên giữa những con người với nhau, khả năng nhìn thấy cũng khác nhau và cùng một người nó cũng không hề cố định tùy thuộc vào tuổi tác, sức khỏe…

Sensor là thứ nhìn thấy khung cảnh hoàn toàn dựa trên yếu tố khoa học vật lý. Nó định lượng mọi thứ một cách chính xác nên mới tạo ra bức hình màu xanh mà bạn thấy ở trên.

Còn các công nghệ hiển thị bao gồm màn hình, in ấn, máy chiếu… đều có những giới hạn khả năng hiển thị bởi những yếu tố như công nghệ, chi phí lẫn hiệu ứng thị giác của người dùng.

Trong hình trên, người ta mô tả màu sắc mà con người có thể nhìn thấy được và màu sắc mà phần lớn màn hình có thể hiển thị được. Chỗ này có nhiều bạn đã biết rồi nhưng mình cũng sẽ nói qua một chút là cái phần tam giác đó là giới hạn về mặt công nghệ lẫn chi phí. Nên phần lớn các màn hình hiển thị chỉ có thể hiển thị được các mảng màu nội trong vùng tam giác đó. Với các màu sắc trong thực tế có vượt ngưỡng của vùng tam giác này thì nó sẽ được mặc định đưa về màu có bão hòa cao nhất ở ngay các biên của tam giác.

Và có một chi tiết nó khiến cho mọi thứ trở nên phức tạp đó là “màu trắng nào là màu trắng thật”. Chắc các bạn đã nghe qua khái niệm White-balance rồi đúng không. Trước đây trong nhiếp ảnh kỹ thuật số, họ theo đuổi cái gọi là màu trắng tuyệt đối về mặt vật lý học tức là Real White 100%. Nhưng điều này không hề chính xác. Khi các nhiếp ảnh gia sáng tác ảnh, họ cần cái gọi True White theo ngữ cảnh. Tức là dưới ánh sáng vàng màu trắng nó cũng sẽ ám vàng ấm lên. Ngoài ra mắt con người là một bộ vi xử lí vô cùng mạnh. Dựa trên nhiều yếu tố ngữ cảnh, giác quan của con người, mà tự nó cân bằng trắng trong cái nhìn riêng khiến cho dù không gian đó có ám màu gì đi nữa, thì con người luôn có thể nhìn ra được đâu là màu trắng.

Não của chúng ta thông qua các giác quan khác cùng với sự hiểu biết tích lũy về mọi thứ xung quanh, khi có những gợi ý như thế, não sẽ tự động cân bằng màu sắc mà ta nhìn thấy. Nó gọi là Color Constancy (hằng số màu). Và không biết bạn có còn nhận ra là chúng ta đang nói về ProRAW của Apple không nên khi đề cập đến vấn đề màu sắc của hiển thị thì tôi rất vui khi phải nhắc bạn rằng, Apple là hãng tiên phong trong việc áp dụng True Tone vào trong hiển thị. Nó làm cho màn hình của iPhone, iPad, MacBook thay đổi theo môi trường.

Thật là thông minh khi họ hiểu rằng mắt người sẽ thích nghi theo điều đó thay vì chạy theo cái gọi là sự đúng màu tuyệt đối. Rất nhiều người từng phàn nàn rằng họ bỏ ra rất nhiều tiền cho một dàn máy tính xịn cùng với màn hình siêu đẹp lên đến trăm triệu, nhưng chỉ vì không gian sống của họ có ánh sáng vàng nên cái màn hình siêu đẹp đắt tiền kia bỗng trở nên xanh lè khó chịu vô cùng.

Để minh họa cho điều này, mời các bạn xem hình dưới đây để hiểu con mắt của bạn nó có tính thích nghi lớn cỡ nào nhé:

Trong hai vùng đóng khung bên trái và phải, rõ ràng màu sắc trên chiếc tạp dề và váy về mặt vật lý học, khoa học nó chính xác là những màu giống nhau. Nhưng tại sao bên trái bạn lại nhìn ra đó là cặp màu “xanh đen” còn bên phải là “trắng vàng”?

Đây là chiếc váy gây tranh cãi. Trong ảnh là màu xanh đen hay trắng vàng và bạn biết tôi phải nói thế nào không? Tùy vào việc bạn đang nhìn tấm hình nào dưới ánh đèn nào, môi trường làm việc nào, thì bạn sẽ nhìn ra nó có màu xanh đen hay vàng trắng.

Hầu hết các máy ảnh hiện đại bây giờ đều có thuật toán tìm ra màu trắng hoàn hảo. Cho nên ta chỉ cần dựa trên vùng mà chúng ta biết chắc chắn nó là màu trắng thì ngay lập tức mọi thứ màu sắc sẽ tự được tính toán trở về đúng màu.

Ok, bây giờ sau khi dùng các thuật toán phân tách để định nghĩa đâu là màu trắng mà mắt con người sẽ nhìn thấy, thì nó đã chuyển bức ảnh từ màu xanh kia thành màu trắng.

Nhìn ổn rồi đấy nhưng chưa đủ. Hãy nhìn lên mái nhà mà xem, nó hơi tối. Là một người chụp ảnh lâu năm, có nhiều kinh nghiệm, tôi cũng thấy hình này trong nó lờ nhờ, tối tối.

Vậy ta tăng sáng lên nào.

Sáng rồi, các ô cửa đã có đủ ánh sáng rồi đấy. Phần mái nhà cũng có chi tiết hơn rồi nhưng mà phần bầu trời bây giờ nó đã quá sáng. Không còn có thể nhìn thấy màu xanh đâu nữa rồi.

Chuyện gì thế này? Và bạn của tôi ơi, tôi phải nói với bạn thế này. Máy ảnh của bạn khi chụp nó chụp được nhiều chi tiết lắm nhưng màn hình của bạn không thể hiển thị được hết các chi tiết. Thành ra các bạn sẽ nghe những câu chuyện như:

  • Chụp Raw đi rồi về kéo màu, kéo chi tiết lại.
  • Chụp Raw đi rồi chỗ nào cháy hay tối ta cứu lại.

Thực tế bức hình của bạn không hề bị cháy cũng như không hề bị tối như bạn nghĩ. Mà chẳng qua màn hình của bạn nó không thể hiển thị được hết một khoảng Dynamic rộng như vậy. Nên khi nó ưu tiên hiển thị vùng tối thì vùng sáng bị cháy còn ưu tiên hiển thị vùng sáng thì vùng tối nó đen thui. Bởi thế ta bắt đầu cần những khái niệm như màn hình HDR và hay màn hình XDR để hiển thị tốt hơn.

Và chỗ này tôi sẽ cần nói với các bạn về DR, HDR, XDR là gì để các bạn có thêm nội dung tham khảo.

Nói về DR – Dynamic Range một chút nhé

Dynamic Range là khả năng ghi hình của máy chụp hình hoặc khả năng hiển thị hình ảnh của màn hình. DR của các thiết bị ghi hình hiện tại nó đang vượt xa khả năng hiển thị của các thiết bị hiển thị như màn hình. Một máy chụp hình có thể có DR là 13, tức là 13 stop. Nghĩa là nó có khả năng hiển thị đến 2 lũy thừa 13 chi tiết khác biệt trên mỗi kênh màu. Trong khi một màn hình chỉ có thể có thể hiển thị 8-bit tức là chỉ khoảng 2 lũy thừa 8 chi tiết khác biệt trên mỗi kênh màu.

Như vậy tức là, một máy ảnh khi chụp một bức ảnh có thể cho số lượng chi tiết nhiều gấp 32 lần màn hình hiển thị ở mỗi kênh màu. Nếu tính tổng cả ba kênh màu thì nó có số lượng chi tiết chụp được nhiều gấp (2^5)x(2^5)x(2^5) = 32.768 lần màn hình có thể hiển thị.

Cho nên bây giờ bạn hay nghe đến các màn hình HDR hay XDR. Các hãng sản xuất đang cố gắng tạo ra màn hình hiển thị nhiều chi tiết hơn. Giải pháp có thể bằng cả phần cứng lẫn phằn mềm.

Về phần cứng đã có rất nhiều màn hình cho phép hiển thị 10-bit.

Về phần mềm họ tạo ra các định dạng và Codec cập nhật vào file ảnh để đánh dấu các mảng nằm ở vùng quá sáng hoặc quá tối. Để màn hình hiển thị hiểu là những mảng đó nằm ngoài khả năng hiển thị nếu chỉ hiển thị theo phương pháp thông thường. Và thế là màn hình đó chuyển hóa các điểm quá tối hay quá sáng vượt quá khả năng hiển thị về lại vùng chi tiết mà màn hình có thể hiển thị. Thuật toán này gọi là “Local Tone Mapping​”.

Một thông tin bên lề cho những bạn nhiếp ảnh là thật ra cái thuật toán Local Tone Mapping này không hề mới. Từ 50 năm trước, trên máy phim người ta cũng áp dụng và chính các nhiếp ảnh gia vẫn dùng mỗi ngày một chức năng này trên Photoshop gọi là “Dodge & Burn”.

Trước khi có màn hình HDR hay XDR thì bản thân các nhiếp ảnh gia phải xử lý thủ công các mảng sáng tối bằng công cụ “Dodge & Burn” để làm “Local Tone Mapping”​ ra một bức ảnh như sau:

Và giờ thì bức ảnh đã trông ổn rồi đó và bắt đầu upload lên mạng được rồi. Ê mà khoan khoan, trời ơi bức ảnh trông đẹp đẽ kia có dung lượng 100 Megabyte lận. Lý do nó có dung lượng khủng khiếp như vậy là vì nó vẫn còn chứa quá nhiều dữ liệu hình ảnh thừa thải mà chúng ta không nhìn được vì do giới hạn của màn hình hiển thị. Như ở trên tôi đã nói là một bức ảnh nó nhiều chi tiết phải gấp trên 32.000 lần so với khả năng hiển thị của một cái màn hình. Cho nên việc giữ nguyên một bức ảnh nguyên si như khi chụp là không cần thiết vì có quá nhiều chi tiết ta không thấy được. Vậy thì chuyển tới bước ba là tối ưu hóa dung lượng.

Bước 3: Optimize (tối ưu hóa dung lượng và chất lượng)

Trong đồ họa máy tính, nếu càng có nhiều bit thì thuật toán càng chính xác. Vì thế trong quá trình xử lí ta cần 64-bit mỗi pixel để có thể có kết quả chính xác. Sau khi quá trình hậu kì hoàn tất, ta sẽ chuyển về lưu dưới file 32-bit và thực tế là không ai có thể nhìn ra được sự khác biệt.

Kế đến là ta loại bỏ phần lớn những thông tin phụ về màu sắc đi kèm. Điều này có thể làm giảm một nữa dung lượng.

Cuối cùng chúng ta sẽ làm một thứ mà ta gọi là “Lossy Compression” (nén có hao hụt dữ liệu). Đó là một trong những thuộc tính của file JPEG và ta có một file ảnh chỉ có 1,6 MB để chia sẻ cho bạn bè. Từ một file ảnh cả trăm MB thì ta đã có một file ảnh chỉ còn 1,6 MB và không phải ai cũng có thể phân biệt được sự khác nhau giữa những file ảnh này vì đó là giới hạn của thiết bị hiển thị. Trừ khi bạn có những thiết bị hiển thị siêu xịn hoặc in ra dưới chất lượng cao thì nó mới có thể phân biệt.

Ok và sau những câu chuyện dài dòng bên trên giờ ta đi đến một câu hỏi lớn về file RAW. Mời bạn đón đọc tiếp phần 2 trên OnTop.vn.


Phần 2:

https://ontop.vn/9719/apple-proraw-va-tham-vong-cua-apple-ve-nhiep-anh-tren-dien-thoai-p2

Phần 3:

https://ontop.vn/9844/apple-proraw-va-tham-vong-cua-apple-ve-nhiep-anh-tren-dien-thoai-p3

Bài liên quan