เทคโนโลยีใหม่ของ Google ปัญญาประดิษฐ์ (AI) สามารถสร้างวิดีโอสั้นได้จากภาพเพียงภาพเดียว

เฟรมเวิร์ก AI ใหม่ สามารถใช้ภาพบริบทเพื่อสร้างวิดีโอได้สูงสุด 30 วินาที

เหตุใดจึงสำคัญ: นักวิจัยยังคงค้นหาวิธีใหม่ ๆ ในการใช้ประโยชน์จากปัญญาประดิษฐ์และความสามารถในการเรียนรู้ของเครื่องในขณะที่เทคโนโลยีกำลังพัฒนาขึ้น นักวิทยาศาสตร์ของ Google ได้ประกาศการสร้าง Transformer ซึ่งเป็นเฟรมเวิร์กใหม่ที่มีความสามารถในการสร้างวิดีโอสั้น ๆ ได้ โดยอิงจากอินพุตภาพเอกพจน์ ซึ่งเทคโนโลยีใหม่นี้อาจช่วยเสริมโซลูชันการเรนเดอร์แบบดั้งเดิม ที่ช่วยให้นักพัฒนาสามารถสร้างสภาพแวดล้อมเสมือนจริงตามความสามารถในการเรียนรู้ของเครื่องได้

ชื่อของเฟรมเวิร์กใหม่ (และในบางแง่คือ แนวคิด) เป็นการพาดพิงถึงโมเดล AI แบบอื่นที่รู้จักกันในชื่อของ Transframer โดย Transformer เป็นสถาปัตยกรรมโครงข่ายประสาทเทียมที่เปิดตัวครั้งแรกในปี 2560 ที่สามารถสร้างข้อความโดยการสร้างแบบจำลองและเปรียบเทียบคำอื่น ๆ ในประโยคได้ และนับตั้งแต่นั้นมาโมเดลนี้ก็ได้รวมอยู่ในเฟรมเวิร์กการเรียนรู้เชิงลึกมาตรฐาน อย่างเช่น TensorFlow และ PyTorch เป็นต้น

เช่นเดียวกับ Transformer ที่ใช้ภาษาในการทำนายผลลัพธ์ที่อาจเกิดขึ้น โดย Transframer จะใช้ภาพบริบทที่มีคุณลักษณะคล้ายกันร่วมกับคำอธิบายประกอบการสืบค้นเพื่อสร้างวิดีโอสั้น และวิดีโอที่ได้จะเคลื่อนที่ไปรอบ ๆ ภาพเป้าหมายและแสดงภาพมุมมองที่แม่นยำ แม้มันจะไม่ได้ให้ข้อมูลทางเรขาคณิตใด ๆ ในอินพุตภาพต้นฉบับก็ตาม

เทคโนโลยีใหม่นี้แสดงให้เห็นโดยใช้แพลตฟอร์ม DeepMind AI ของ Google ซึ่งทำงานโดยการวิเคราะห์รูปภาพบริบทรูปภาพเดียวเพื่อรับข้อมูลสำคัญต่าง ๆ ของรูปภาพ และสร้างรูปภาพเพิ่มเติม ในระหว่างการวิเคราะห์นี้ ระบบจะระบุการจัดเฟรมของรูปภาพ ซึ่งจะช่วยให้ระบบสามารถคาดการณ์สภาพแวดล้อมของรูปภาพได้

จากนั้นรูปภาพบริบทจะถูกนำมาใช้เพื่อคาดการณ์เพิ่มเติมว่ารูปภาพจะปรากฏจากมุมต่าง ๆ อย่างไร ซึ่งจะเป็นการคาดคะเนจำลองของความน่าจะเป็นของเฟรมภาพเพิ่มเติมตามข้อมูล คำอธิบายประกอบ และข้อมูลอื่น ๆ ที่มีอยู่จากเฟรมบริบท

เฟรมเวิร์กถือเป็นก้าวสำคัญในเทคโนโลยีวิดีโอ โดยให้ความสามารถในการสร้างวิดีโอที่ถูกต้องตามสมควรโดยอิงจากชุดข้อมูลที่จำกัด อีกทั้งงาน Transframer ยังแสดงให้เห็นผลลัพธ์ที่น่าพึงพอใจอย่างมากในงานที่เกี่ยวข้องกับวิดีโอและการวัดประสิทธิภาพอื่น ๆ ตัวอย่างเช่น การแบ่งส่วนความหมาย การจัดประเภทรูปภาพและการคาดการณ์การไหลของแสง

สำหรับอุตสาหกรรมที่ใช้วิดีโอ เช่น การพัฒนาเกมที่อาจมีขนาดใหญ่มาก ซึ่งสภาพแวดล้อมการพัฒนาเกมในปัจจุบันนั้นต้องอาศัยเทคนิคการเรนเดอร์หลัก เช่น การแรเงา การทำแผนที่พื้นผิว ความชัดลึกและการติดตามรังสี โดยเทคโนโลยีต่าง ๆ เช่น Transframer นี้มีศักยภาพที่จะเสนอเส้นทางการพัฒนาใหม่ ให้กับนักพัฒนาโดยใช้ AI และการเรียนรู้ของเครื่องเพื่อสร้างสภาพแวดล้อม ในขณะเดียวกันก็ช่วยลดเวลา ทรัพยากร และความอุตสาหะในการสร้างได้

ที่มา: https://bit.ly/3fyW3Tz