Sau 15 năm làm việc trong lĩnh vực tự động hóa và công nghệ, chứng kiến các công cụ tiến hóa từ những đoạn script cục mịch sang mạng nơ-ron thần kinh, tôi có thể tự tin nói rằng chúng ta đã chạm đến một bước ngoặt.
Xin giới thiệu Prompt Veo 3.1 (Các câu lệnh Veo 3.1).
Nếu bạn đã từng nghịch thử trình tạo sinh Veo AI, bạn sẽ thấy tiềm năng của nó là cực kỳ khủng khiếp. Nhưng đây là sự thật phũ phàng mà hầu hết các bài hướng dẫn sẽ không nói cho bạn biết: AI chỉ giỏi ngang tầm với những chỉ dẫn mà bạn đưa cho nó. Bạn có thể sở hữu động cơ mạnh nhất thế giới, nhưng nếu không biết lái, bạn sẽ chẳng đi đến đâu cả. Tôi đã dành vài tuần qua để “stress-test” (kiểm tra khả năng chịu tải) mô hình này, đốt sạch hàng đống credit và phân tích dữ liệu đầu ra để giải mã quy trình của nó.
Trong bài viết này, tôi sẽ chia sẻ “bí kíp” cá nhân của mình. Chúng ta sẽ không chỉ ném đại vài từ vào khung văn bản; chúng ta sẽ học cách viết prompt Veo 3.1 sao cho thực sự tạo ra kết quả đạt chuẩn sản xuất (production-ready). Từ việc hiểu công thức cốt lõi đến làm chủ kỹ thuật prompt theo mốc thời gian, đây là những kiến thức mà tôi ước gì mình có được ngay từ ngày đầu tiên.
Phần Chuẩn bị: Những gì bạn cần trước khi bắt đầu
Trước khi đi sâu vào cú pháp, hãy sắp xếp lại khâu chuẩn bị một chút. Khách hàng hay hỏi tôi câu này: “Tôi có cần siêu máy tính không?”
Câu trả lời ngắn gọn là không, vì Veo hoạt động trên đám mây (cloud). Tuy nhiên, để thực sự thành công với Veo 3.1 Prompts, bạn cần một thiết lập phù hợp:
- Quyền truy cập công cụ: Đảm bảo bạn có tài khoản đang hoạt động và còn credit. Veo tiêu tốn khá nhiều tài nguyên, và việc hết token giữa lúc đang thử nghiệm thực sự là một điều tụt hứng.
- Kết nối internet ổn định: Nghe có vẻ hiển nhiên, nhưng việc tạo ra các tài sản video độ phân giải cao đòi hỏi băng thông ổn định để xem trước và tải xuống.
- Một “Ngân hàng Prompt”: Tôi sử dụng một trang Notion đơn giản hoặc bảng tính Excel để lưu lại các mã hạt giống (seed) và prompt của những kết quả ưng ý nhất. Tin tôi đi, sau này bạn sẽ muốn tái tạo lại một phong cách cụ thể, và bạn sẽ không thể nhớ nổi chính xác các tính từ mình đã dùng đâu.
1. Công thức Vàng cho Veo 3.1 Prompts
Qua quá trình thử sai, tôi nhận thấy Veo sẽ bị bối rối nếu bạn viết lan man. Nó cần cấu trúc. Hãy nghĩ về nó giống như việc bạn đang chỉ đạo diễn viên và người quay phim cùng một lúc. Để tạo ra những ví dụ prompt Veo 3.1 tốt nhất, tôi sử dụng cấu trúc 5 phần nghiêm ngặt. Nếu bạn bỏ qua một phần, AI sẽ bắt đầu đoán mò, và những phỏng đoán của AI thường… khá kỳ quặc.
Đây là công thức mà tôi tâm đắc nhất:
[Kỹ thuật quay phim] + [Chủ thể] + [Hành động] + [Bối cảnh] + [Phong cách & Không khí]
Phân tích chi tiết
Hãy xem tại sao từng phần lại quan trọng:
- Kỹ thuật quay phim (Cinematography): Đây là chỉ đạo máy quay của bạn. Cận cảnh hay toàn cảnh? Máy quay có bay lượn không?
- Chủ thể (Subject): Chúng ta đang nhìn vào ai hoặc cái gì?
- Hành động (Action): Chuyện gì đang xảy ra? Hình ảnh tĩnh rất nhàm chán; chúng ta cần chuyển động.
- Bối cảnh (Context): Chúng ta đang ở đâu? Các chi tiết hậu cảnh.
- Phong cách & Không khí (Style & Ambiance): Cái “vibe” của video. Đáng sợ? Lãng mạn? Hay phong cách Cyberpunk?
Ví dụ thực tế của tôi:
Thay vì viết: “Một người đàn ông đang làm việc trên máy tính vào thập niên 80,” (công thức cho ra những thước phim stock chung chung), tôi viết thế này:
“Cảnh trung, một nhân viên văn phòng mệt mỏi đang day thái dương vì kiệt sức, ngồi trước chiếc máy tính cồng kềnh thập niên 1980 trong một văn phòng bừa bộn vào đêm khuya. Cảnh phim được chiếu sáng bởi ánh đèn huỳnh quang gay gắt trên trần và ánh sáng xanh lục từ màn hình đơn sắc. Thẩm mỹ hoài cổ, quay như phim màu thập niên 1980, hơi nhiễu hạt.”
Bạn thấy sự khác biệt chứ? Tôi đã xác định ánh sáng, loại phim (film stock) và cảm xúc cụ thể. Đó là cách viết prompt Veo 3.1 để giành chiến thắng.
2. Chuyên sâu: Sử dụng Ngôn ngữ Điện ảnh
Là một chuyên gia về các công cụ tạo video, tôi có thể nói rằng sai lầm lớn nhất mà người mới mắc phải là phớt lờ ngôn ngữ máy quay. Veo 3.1 đã được huấn luyện trên hàng triệu giờ phim. Nó biết cú máy “dolly zoom” là gì. Hãy tận dụng kiến thức đó.
Chuyển động máy quay
Cảnh tĩnh cũng ổn, nhưng video là phải có chuyển động. Khi tôi muốn thổi năng lượng vào một cảnh, tôi dùng các thuật ngữ chuyên môn:
- Tracking Shot (Quay theo dấu): Hoàn hảo để đi theo nhân vật.
- Crane Shot (Quay cần cẩu): Tuyệt vời cho những cảnh mở màn hoặc tiết lộ bối cảnh hoành tráng.
- POV Shot (Góc nhìn thứ nhất): Tăng tính nhập vai, đặt người xem vào vị trí của nhân vật.
Đây là một prompt tôi vừa dùng cho khách hàng mảng giả tưởng (fantasy) gần đây:
“Cảnh quay bằng cần cẩu (Crane shot) bắt đầu từ góc thấp quay một người leo núi đơn độc và nâng dần lên cao, để lộ ra cảnh người đó đang đứng trên mép một hẻm núi khổng lồ đầy sương mù lúc bình minh, phong cách giả tưởng tráng lệ, gây kinh ngạc, ánh sáng ban mai dịu nhẹ.”
Bố cục và Ống kính
Đây là nơi phân định giữa dân nghiệp dư và dân chuyên nghiệp. Nếu bạn không chỉ định ống kính, Veo sẽ mặc định một cái nhìn phẳng lì, tiêu chuẩn. Tôi rất thích dùng Shallow Depth of Field (Độ sâu trường ảnh nông/Xóa phông) để làm nổi bật chủ thể.
Hãy thử cái này cho các Veo 3.1 Prompts tập trung vào cảm xúc:
“Cận cảnh với độ sâu trường ảnh rất nông (xóa phông), khuôn mặt một người phụ nữ trẻ đang nhìn ra cửa sổ xe buýt ngắm ánh đèn thành phố lướt qua với hình phản chiếu của cô ấy mờ mờ trên kính, bên trong xe buýt vào ban đêm trong một cơn bão mưa, tâm trạng u sầu với tông màu xanh lạnh, đầy cảm xúc, đậm chất điện ảnh.”
Để hiểu thêm về vật lý của ống kính máy quay, bạn có thể tham khảo tài liệu từ các đơn vị đầu ngành như RED để hiểu tiêu cự thay đổi nhận thức người xem như thế nào.
3. Chỉ đạo âm thanh (Soundstage): Prompt cho Âm thanh
Một tính năng khiến tôi kinh ngạc trong các bản cập nhật hướng dẫn Veo mới là khả năng tạo âm thanh. Chúng ta không còn làm phim câm nữa. Veo có thể tạo nhạc nền, lời thoại và hiệu ứng âm thanh tiếng động (foley) dựa trên văn bản của bạn.
Tôi coi âm thanh là một lớp riêng biệt trong prompt. Đừng trộn lẫn nó quá lộn xộn với mô tả hình ảnh.
- Hội thoại: Sử dụng dấu ngoặc kép. Một người phụ nữ nói: “Chúng ta phải rời đi ngay bây giờ.”
- SFX (Hiệu ứng âm thanh): Hãy mô tả rõ ràng. Hiệu ứng âm thanh: tiếng sấm nổ vang rền ở phía xa.
- Ambient (Tiếng ồn môi trường): Thiết lập bối cảnh âm thanh nền. Tiếng ồn môi trường: tiếng vo ve yên tĩnh của khoang lái tàu vũ trụ.
4. Kỹ thuật Nâng cao: Prompt theo Mốc thời gian (Timestamp Prompting)
Được rồi, đây là “vũ khí bí mật”. Đây là phần chứng minh cho 15 năm kinh nghiệm của tôi. Hầu hết người dùng chỉ tạo ra một đoạn clip ngắn. Nhưng với các kỹ thuật nâng cao của Veo 3.1, chúng ta sử dụng Prompt theo Mốc thời gian để chỉ đạo cả một chuỗi cảnh trong một lần tạo.
Điều này cho phép bạn kiểm soát nhịp độ và việc dựng phim ngay trong một lần generate. Nó giống như bạn vừa là biên tập viên vừa là đạo diễn cùng một lúc vậy.
Quy trình thực hiện
Bạn vạch ra kịch bản video theo giây bằng định dạng [Bắt đầu-Kết thúc]. Dưới đây là phân tích một cảnh phong cách “Tomb Raider” mà tôi vừa tạo hôm qua:
[00:00-00:02] Cảnh trung từ phía sau một nữ nhà thám hiểm trẻ với chiếc túi da và mái tóc nâu rối buộc đuôi ngựa, khi cô ấy gạt sang bên một dây leo rừng lớn để lộ ra một lối đi ẩn.
[00:02-00:04] Cảnh quay ngược lại (reverse shot) khuôn mặt tàn nhang của nhà thám hiểm, biểu cảm đầy kinh ngạc khi cô nhìn vào những tàn tích cổ xưa phủ đầy rêu ở phía sau. Hiệu ứng âm thanh: Tiếng xào xạc của lá cây rậm rạp, tiếng chim lạ kêu phía xa.
[00:04-00:06] Cảnh quay theo dấu (tracking shot) đi theo nhà thám hiểm khi cô bước vào khoảng đất trống và lướt tay qua những hình chạm khắc tinh xảo trên bức tường đá đang sụp đổ. Cảm xúc: Ngạc nhiên và tôn kính.
[00:06-00:08] Cảnh quay cần cẩu góc rộng từ trên cao, để lộ nhà thám hiểm đơn độc đứng nhỏ bé ở trung tâm của khu đền thờ rộng lớn bị lãng quên, một nửa đã bị rừng già nuốt chửng. Hiệu ứng âm thanh: Một bản nhạc giao hưởng nhẹ nhàng nhưng dâng trào bắt đầu vang lên.
Bằng cách sử dụng các Prompt Veo 3.1 chi tiết với mốc thời gian này, tôi đã có được một đoạn clip 8 giây liền mạch kể một câu chuyện hoàn chỉnh, thay vì 4 đoạn clip rời rạc ngẫu nhiên.
5. Prompt Phủ định: Những gì cần loại bỏ
Đôi khi, AI sáng tạo hơi quá đà. Prompt phủ định (Negative prompts) chính là lưới an toàn của bạn. Nó bảo cho bộ máy biết không được render cái gì. Theo kinh nghiệm của tôi, sự cụ thể cũng rất hữu ích ở đây.
Đừng chỉ nói “không có tòa nhà xấu”. Hãy nói “một phong cảnh hoang vắng không có bất kỳ tòa nhà hay con đường nào.”
Các prompt phủ định thường gặp trong quy trình làm việc với Veo 3.1 Prompts của tôi:
- Mờ, mất nét (trừ khi có chủ đích)
- Văn bản bị méo, biển báo vô nghĩa
- Thừa chân tay (nỗi kinh hoàng kinh điển của AI)
- Màu sắc quá bão hòa (oversaturated)
Khắc phục sự cố: Khi mọi thứ đi chệch hướng
Ngay cả với 15 năm trong nghề, tôi vẫn gặp rắc rối như thường. Dưới đây là các vấn đề phổ biến với Veo 3.1 Prompts và cách tôi sửa chúng.
Vấn đề “Ảo giác” (Hallucination)
Triệu chứng: Chủ thể thay đổi quần áo hoặc khuôn mặt giữa video.
Cách sửa: Prompt của bạn quá mơ hồ. Hãy củng cố mô tả chủ thể trong từng phân đoạn thời gian nếu cần thiết. Ví dụ: “Vẫn là người phụ nữ mặc áo khoác da đó…”
Video bị “Đóng băng”
Triệu chứng: Hình ảnh trông rất đẹp nhưng hầu như không chuyển động.
Cách sửa: Bạn đã quên động từ chỉ [Hành động]. Hãy thêm các từ như “đang chạy”, “lao tới”, “khiêu vũ”, hoặc các chuyển động máy quay như “zoom nhanh”.
Âm thanh thuộc vùng “Thung lũng kỳ lạ” (Uncanny Valley)
Triệu chứng: Lời thoại không khớp hoàn hảo với chuyển động môi.
Cách sửa: Đây là hạn chế của công nghệ hiện tại, nhưng nó đang dần tốt lên. Tôi thường che giấu lỗi khớp khẩu hình (lip-sync) bằng cách sử dụng cảnh toàn cho các đoạn hội thoại hoặc để nhân vật quay mặt đi khi nói. Đó là một mẹo cũ của các nhà làm phim!
Mẹo chuyên gia để làm chủ công cụ
Dưới đây là một vài hạt ngọc trí tuệ giúp bạn tạo video AI đậm chất điện ảnh phong cách Veo:
- Thử nghiệm trên Seed (Mã hạt giống): Nếu bạn nhận được một bố cục ưng ý nhưng hành động bị sai, hãy giữ nguyên số “Seed” (nếu giao diện cho phép) và chỉ chỉnh sửa câu prompt.
- Ánh sáng là tất cả: Đừng chỉ nói “ban ngày”. Hãy dùng các thuật ngữ như “Giờ vàng” (Golden Hour), “Giờ xanh” (Blue Hour), “Ánh sáng thể tích” (Volumetric Lighting), hoặc “Tương phản tối sáng” (Chiaroscuro).
- Giữ cho sạch sẽ: Tránh các thuật ngữ mâu thuẫn. Đừng yêu cầu “tối giản” và “bừa bộn” trong cùng một cảnh.
Bạn có thể tìm hiểu thêm về công nghệ nền tảng của các mô hình này từ nghiên cứu của Google DeepMind, tài liệu này cung cấp cái nhìn sâu sắc về cách mô hình diễn giải dữ liệu không gian.
Kết luận
Làm chủ Veo 3.1 Prompts không chỉ là biết các từ khóa; mà là tư duy như một đạo diễn. Đó là sự kết hợp giữa độ chính xác kỹ thuật của mã code với tầm nhìn nghệ thuật của điện ảnh. Khi các công cụ tạo sinh video tiếp tục phát triển, khoảng cách giữa trí tưởng tượng và thực tế đang thu hẹp lại rất nhanh.
Tôi khuyến khích bạn lấy các công thức tôi đã chia sẻ ở đây—đặc biệt là kỹ thuật Prompt theo Mốc thời gian—và thử nghiệm chúng ngay hôm nay. Đừng sợ thất bại. Một số khám phá tuyệt vời nhất của tôi đến từ những prompt bị lỗi hoàn toàn.
Sẵn sàng để tạo ra kiệt tác của bạn chưa? Mở giao diện Veo lên, gõ dòng lệnh đầu tiên và để phép màu xảy ra. Và nà, nếu bạn tạo ra được thứ gì đó tuyệt vời, hãy để lại bình luận hoặc liên hệ với tôi nhé. Tôi rất muốn xem bạn tạo ra được những gì.
Câu hỏi thường gặp (FAQ)
Cấu trúc tốt nhất cho Veo 3.1 Prompts là gì?
Cấu trúc hiệu quả nhất là công thức 5 phần: [Kỹ thuật quay phim] + [Chủ thể] + [Hành động] + [Bối cảnh] + [Phong cách & Không khí]. Điều này đảm bảo AI hiểu được góc máy, nhân vật, chuyển động, hậu cảnh và tâm trạng tổng thể của video.
Veo 3.1 có thể tạo âm thanh và lời thoại không?
Có, Veo 3.1 có khả năng âm thanh tiên tiến. Bạn có thể yêu cầu lời thoại cụ thể bằng cách sử dụng dấu ngoặc kép, mô tả hiệu ứng âm thanh (SFX) và xác định tiếng ồn môi trường nền ngay trong prompt văn bản của mình.
Làm thế nào để sửa lỗi nhân vật không nhất quán trong video AI?
Để giữ nhân vật nhất quán, hãy mô tả thật chi tiết trong phần định nghĩa chủ thể ban đầu. Sử dụng Prompt theo Mốc thời gian (Timestamp Prompting) giúp duy trì các đặc điểm của nhân vật qua các cảnh quay khác nhau bằng cách xử lý nó như một chuỗi liên tục thay vì các lần tạo riêng biệt.
Prompt theo mốc thời gian trong Veo 3.1 là gì?
Prompt theo mốc thời gian cho phép bạn chỉ đạo các hành động cụ thể tại các thời điểm cụ thể trong một lần tạo video duy nhất. Ví dụ: sử dụng `[00:00-00:02]` để mô tả phần mở đầu và `[00:02-00:05]` để mô tả sự thay đổi góc máy. Điều này tạo ra các câu chuyện phức tạp, nhiều cảnh quay.