ถอดเสียง 2 ชั่วโมง เป็นบทความ 22 หน้า A4 ใน 15 นาที จากเนื้อหาวีดีโอ 2 ชั่วโมง ของงาน Google I/O 2024 ใหม่! โหด! ก้าวกระโดดของ AI สู่ยุคใหม่
มีขั้นตอนดังนี้
- ดาวน์โหลดไฟล์ Youtube จากลิงค์นี้ https://www.youtube.com/watch?v=XEzRZ35urlk&t=1722s
- ถอดเสียงเป็นข้อความ ดูไฟล์ข้อความที่นี่ https://drive.google.com/file/d/1FzsN1Pd6lzuGNEtttMbgR3uSUKxCHXHE/view?usp=sharing
- นำไฟล์ข้อความไป แปลและเขียนใหม่ ดูตัวอย่างที่นี่ https://g.co/gemini/share/806cbbea08ba
บทความด้านล่างนี้คือตัวอย่างผลงาน
Google I/O 2024 ใหม่! โหด! ก้าวกระโดดของ AI สู่ยุคใหม่
หน้า 1-10
ความทะเยอทะยานของ Google และการเปิดตัวปัญญาประดิษฐ์ Gemini AI กำลังจะเริ่มใช้งาน และกำลังเปลี่ยนแปลงวิธีการทำงานของเราอย่างสิ้นเชิง รู้ไหมว่ามีหลายสิ่งเกิดขึ้นในปีที่ผ่านมา มีจุดเริ่มต้นใหม่ ๆ เราค้นพบวิธีใหม่ในการค้นหาไอเดียใหม่ ๆ และวิธีแก้ปัญหาเก่า ๆ เราฝันถึงสิ่งต่าง ๆ ที่ไม่เคยแก่เกินไปสำหรับบ้านต้นไม้ เราฝึกฝนเพื่อสิ่งต่าง ๆ และเรียนรู้เกี่ยวกับสิ่งนี้ เราพบเส้นทางใหม่ ก้าวไปอีกขั้น และสร้างสิ่งที่ยิ่งใหญ่ เราใช้เวลาหลายวันเหมือนหลายสัปดาห์ และมีหลายสิ่งเกิดขึ้นในหลายเดือนมากกว่าที่เคยเกิดขึ้นในหลายปี สิ่งต่าง ๆ ยิ่งใหญ่ขึ้น ไม่ใช่แค่สำหรับเขาหรือเธอเท่านั้น แต่สำหรับทุกคน และรู้ไหมว่าเรากำลังเริ่มต้นเท่านั้นเอง
สวัสดีทุกคน ยินดีต้อนรับสู่ Google Io ยินดีที่ทุกคนมาอยู่กับเราในวันนี้ เรามีนักพัฒนาร่วมกับเราที่นี่ในวันนี้หลายพันคน และมีอีกหลายล้านคนที่เข้าร่วมทางออนไลน์ทั่วโลก ขอบคุณทุกคนที่อยู่ที่นี่ สำหรับคนที่ยังไม่เคยเห็น Io มาก่อน มันเป็นเหมือนร้านค้าของ Google แต่มีการเปลี่ยนแปลงน้อยกว่า ที่ Google เราอยู่ในยุคของ Gemini อย่างเต็มที่ คุณจะได้ยินเกี่ยวกับเรื่องนี้มากมายในวันนี้ ก่อนที่เราจะเริ่ม ผมอยากจะสะท้อนถึงช่วงเวลาที่เรากำลังเผชิญอยู่ เราลงทุนใน AI มานานกว่าทศวรรษแล้ว และสร้างสรรค์นวัตกรรมในทุกระดับ ทั้งการวิจัย ผลิตภัณฑ์ และโครงสร้างพื้นฐาน เราจะพูดถึงทั้งหมดในวันนี้ ถึงกระนั้น เรายังอยู่ในช่วงเริ่มต้นของการเปลี่ยนแปลงแพลตฟอร์ม AI เรามองเห็นโอกาสมากมายสำหรับผู้สร้าง นักพัฒนา สตาร์ทอัพ และทุกคน การช่วยขับเคลื่อนโอกาสเหล่านั้นคือสิ่งที่ Gemini ของเราเกี่ยวกับทั้งหมด ดังนั้นเรามาเริ่มกันเลย
ปีที่แล้วบนเวทีนี้ เราได้แบ่งปันแผนการของเราสำหรับ Gemini เป็นครั้งแรก ซึ่งเป็นโมเดลที่สร้างขึ้นเพื่อรองรับหลายรูปแบบตั้งแต่เริ่มต้น สามารถให้เหตุผลเกี่ยวกับข้อความ รูปภาพ วิดีโอ โค้ด และอื่น ๆ อีกมากมาย เป็นก้าวสำคัญในการเปลี่ยนอินพุตใด ๆ ให้เป็นเอาต์พุตใด ๆ Io สำหรับคนรุ่นใหม่ นับตั้งแต่นั้นมา เราได้เปิดตัวโมเดล Gemini รุ่นแรกที่สามารถทำได้มากที่สุด พวกเขาแสดงให้เห็นถึงประสิทธิภาพที่ล้ำสมัยในทุกเกณฑ์มาตรฐานแบบหลายรูปแบบ และนั่นเป็นเพียงแค่การเริ่มต้น สองเดือนต่อมา เราได้เปิดตัว Gemini 1.5 Pro ซึ่งเป็นการพัฒนาครั้งใหญ่ในเรื่องของบริบทที่ยาวนาน มันสามารถรัน 1 ล้านโทเค็นในการผลิตได้อย่างต่อเนื่อง มากกว่าโมเดลพื้นฐานขนาดใหญ่อื่น ๆ ในปีนี้
เราต้องการให้ทุกคนได้รับประโยชน์จากสิ่งที่ Gemini ทำได้มากขึ้น ดังนั้นเราจึงทำงานอย่างรวดเร็วเพื่อแบ่งปันความก้าวหน้าเหล่านี้กับพวกคุณทุกคนในวันนี้ นักพัฒนามากกว่า 1.5 ล้านคนใช้โมเดล Gemini ในเครื่องมือต่าง ๆ ของเรา คุณกำลังใช้มันเพื่อดีบักโค้ด รับข้อมูลเชิงลึกใหม่ ๆ และสร้างแอปพลิเคชัน AI รุ่นต่อไป นอกจากนี้เรายังนำความสามารถที่โดดเด่นของ Gemini มาใช้ในผลิตภัณฑ์ของเราในรูปแบบที่มีประสิทธิภาพ เราจะแสดงตัวอย่างในวันนี้ใน Search Photos Workspace Android และอื่น ๆ อีกมากมายในวันนี้ ผลิตภัณฑ์ทั้งหมด 2 พันล้านผลิตภัณฑ์ของเราใช้ Gemini และเราได้เปิดตัวประสบการณ์ใหม่ ๆ ด้วย รวมถึงบนมือถือที่ผู้คนสามารถโต้ตอบกับ Gemini ได้โดยตรงผ่านแอป ซึ่งตอนนี้มีให้บริการบน Android และ iOS และ Gemini Advanced ที่ให้การเข้าถึงโมเดลที่มีความสามารถมากที่สุดของเรา มีผู้ลงทะเบียนมากกว่า 1 ล้านคนเพื่อทดลองใช้ในเวลาเพียงสามเดือน และยังคงแสดงให้เห็นถึงแรงผลักดันที่แข็งแกร่ง
หนึ่งในการเปลี่ยนแปลงที่น่าตื่นเต้นที่สุดสำหรับ Gemini คือใน Google Search ในปีที่ผ่านมาเราได้ตอบคำถามหลายพันล้านคำถาม ซึ่งเป็นส่วนหนึ่งของประสบการณ์การค้นหาแบบสร้างสรรค์ ผู้คนกำลังใช้มันเพื่อค้นหาในรูปแบบใหม่ ๆ และถามคำถามประเภทใหม่ ๆ คำค้นหาที่ยาวขึ้นและซับซ้อนขึ้น แม้กระทั่งการค้นหาด้วยรูปภาพ และได้รับสิ่งที่ดีที่สุดที่เรามีให้ เราได้ทดสอบประสบการณ์นี้นอกห้องทดลอง และเรารู้สึกดีใจที่ได้เห็นไม่เพียงแต่การใช้งานการค้นหาที่เพิ่มขึ้น แต่ยังรวมถึงความพึงพอใจของผู้ใช้ที่เพิ่มขึ้นด้วย ผมตื่นเต้นที่จะประกาศว่าเราจะเริ่มเปิดตัวประสบการณ์ที่ได้รับการปรับปรุงใหม่นี้อย่างเต็มรูปแบบให้กับทุกคนในสหรัฐอเมริกาในสัปดาห์นี้ และจะนำไปยังประเทศอื่น ๆ ในเร็ว ๆ นี้ มีนวัตกรรมมากมายที่เกิดขึ้นในการค้นหาด้วย Gemini เราสามารถสร้างประสบการณ์การค้นหาที่ทรงพลังมากขึ้น รวมถึงภายในผลิตภัณฑ์ของเรา ขอให้ผมแสดงตัวอย่างใน Google Photos
เราเปิดตัว Google Photos เกือบ 9 ปีที่แล้ว นับตั้งแต่นั้นมา ผู้คนใช้มันเพื่อจัดระเบียบความทรงจำที่สำคัญที่สุดของพวกเขา ทุกวันนี้มีรูปภาพและวิดีโอมากกว่า 6 พันล้านรายการที่อัปโหลดทุกวัน และผู้คนชอบใช้ Photos เพื่อค้นหาช่วงชีวิตของพวกเขา ด้วย Gemini เราทำให้สิ่งนั้นง่ายขึ้นมาก สมมติว่าคุณอยู่ในลานจอดรถพร้อมที่จะจ่ายเงิน แต่จำหมายเลขป้ายทะเบียนรถของคุณไม่ได้ ก่อนหน้านี้คุณสามารถค้นหารูปภาพสำหรับคำหลัก จากนั้นเลื่อนดูรูปภาพหลายปีเพื่อหารูปที่ถูกต้อง ตอนนี้คุณสามารถถาม Photos ได้เลย มันรู้จักรถที่ปรากฏบ่อย ๆ มันแปลว่าคันไหนเป็นของคุณ และบอกหมายเลขป้ายทะเบียนให้คุณได้เลย
และ Ask for those ยังสามารถช่วยคุณค้นหาความทรงจำของคุณได้ลึกซึ้งยิ่งขึ้น ตัวอย่างเช่น คุณอาจจะระลึกถึงเหตุการณ์สำคัญในช่วงต้นของลูกสาวของคุณ Lucia คุณสามารถถามถึงสิ่งเหล่านั้นได้ เมื่อ Lucia เรียนว่ายน้ำครั้งแรก คุณยังสามารถติดตามสิ่งที่ซับซ้อนกว่านี้ได้ เช่น แสดงให้ฉันเห็นว่าการว่ายน้ำของ Lucia พัฒนาขึ้นอย่างไร ที่นี่ Gemini ทำมากกว่าการค้นหาแบบง่าย ๆ โดยการรับรู้บริบทที่แตกต่างกัน ตั้งแต่การว่ายน้ำในสระไปจนถึงการดำน้ำตื้นในมหาสมุทร ไปจนถึงวันที่ในใบรับรองการว่ายน้ำของเธอ และ Photos รวบรวมทั้งหมดไว้ในสรุปที่คุณสามารถรับชมและหวนระลึกถึงความทรงจำที่น่าทึ่งได้อีกครั้ง เราจะเปิดตัว Ask Photos ในฤดูร้อนนี้พร้อมกับความสามารถเพิ่มเติมที่จะมาปลดล็อกความรู้ในรูปแบบต่าง ๆ
นี่คือเหตุผลที่เราสร้าง Gemini เพื่อให้เป็นหลายรูปแบบตั้งแต่เริ่มต้น เป็นโมเดลเดียวที่มีความสามารถทั้งหมดในตัว ดังนั้นไม่เพียงแต่เข้าใจอินพุตแต่ละประเภทเท่านั้น แต่ยังค้นหาความเชื่อมโยงระหว่างกันด้วย มัลติโมดัลช่วยขยายคำถามที่เราสามารถถามและคำตอบที่เราจะได้รับอย่างมาก บริบทที่ยาวนานช่วยให้เราก้าวไปอีกขั้น ทำให้เราสามารถนำข้อมูลเข้ามาได้มากยิ่งขึ้น หลายร้อยหน้าของข้อความ เสียงหลายชั่วโมง วิดีโอเต็มชั่วโมง หรือแม้แต่โค้ดหลายพันบรรทัด หรือถ้าคุณต้องการ เมนูของ Cheesecake Factory ประมาณ 96 รายการ สำหรับเมนูจำนวนมากนั้น คุณต้องมีหน้าต่างบริบท 1 ล้านโทเค็น ซึ่งตอนนี้เป็นไปได้ด้วย Gemini 1.5 Pro นักพัฒนาได้ใช้มันในวิธีที่น่าสนใจมาก ลองมาดูกัน
หน้า 11-20
นี่คือสิ่งที่เป็นไปได้ด้วยพลังของ Gemini คุณสามารถให้ข้อมูลจำนวนมากในรูปแบบใดก็ได้ และมันสามารถเปลี่ยนแปลงในแบบที่เป็นส่วนตัวและโต้ตอบกับคุณได้ กลับไปที่คุณ Sundar ขอบคุณ Josh ตัวอย่างนี้แสดงให้เห็นถึงโอกาสที่แท้จริงด้วยความสามารถหลายรูปแบบ ในไม่ช้าคุณจะสามารถผสมผสานอินพุตและเอาต์พุตได้ตามต้องการ นี่คือสิ่งที่เราหมายถึงเมื่อเราพูดว่ามันคือ Io สำหรับคนรุ่นใหม่ และผมสามารถเห็นพวกคุณทุกคนกำลังคิดถึงความเป็นไปได้ แต่มันจะเป็นอย่างไรถ้ามันสามารถไปได้ไกลกว่านี้ นั่นคือหนึ่งในโอกาสที่เรามองเห็นด้วย AI agents ขอผมอธิบายเพิ่มเติมว่าผมหมายถึงอะไร ผมคิดว่าพวกมันเป็นระบบอัจฉริยะที่แสดงเหตุผล การวางแผน และความจำ สามารถคิดได้หลายขั้นตอน ทำงานข้ามซอฟต์แวร์และระบบต่าง ๆ ทั้งหมดเพื่อทำบางสิ่งในนามของคุณ และที่สำคัญที่สุด ภายใต้การดูแลของคุณ เรายังอยู่ในช่วงเริ่มต้น และคุณจะเห็นตัวอย่างของแนวทางของเราตลอดทั้งวัน แต่ขอให้ผมแสดงให้เห็นถึงกรณีการใช้งานที่เรากำลังพยายามอย่างหนักเพื่อแก้ไข
เริ่มจากการช้อปปิ้ง มันค่อนข้างสนุกที่จะซื้อรองเท้า และสนุกน้อยกว่ามากที่จะส่งคืนถ้ามันไม่พอดี ลองนึกภาพว่าถ้า Gemini สามารถทำทุกขั้นตอนให้คุณได้ ค้นหาใบเสร็จในกล่องจดหมายของคุณ ค้นหาหมายเลขคำสั่งซื้อจากอีเมลของคุณ กรอกแบบฟอร์มการส่งคืน และแม้กระทั่งการกำหนดเวลารับสินค้า ง่ายกว่ามากใช่มั้ย ลองมาดูอีกตัวอย่างหนึ่งที่ซับซ้อนกว่านี้ สมมติว่าคุณเพิ่งย้ายไปชิคาโก คุณสามารถจินตนาการว่า Gemini และ Chrome ทำงานร่วมกันเพื่อช่วยคุณทำหลายสิ่งหลายอย่างเพื่อเตรียมพร้อม จัดระเบียบ ให้เหตุผล สังเคราะห์ข้อมูลในนามของคุณ ตัวอย่างเช่น คุณอาจต้องการสำรวจเมืองและค้นหาบริการใกล้เคียง ตั้งแต่ร้านซักแห้งไปจนถึงคนพาสุนัขเดินเล่น คุณจะต้องอัปเดตที่อยู่ใหม่ของคุณในหลายเว็บไซต์ Gemini สามารถทำงานข้ามงานเหล่านี้ และจะแจ้งให้คุณทราบเมื่อต้องการข้อมูลเพิ่มเติม เพื่อให้คุณควบคุมได้ตลอดเวลา ส่วนนั้นสำคัญมาก ในขณะที่เราสร้างต้นแบบประสบการณ์เหล่านี้ เรากำลังคิดอย่างหนักเกี่ยวกับวิธีการทำในลักษณะที่เป็นส่วนตัว ปลอดภัย และใช้งานได้สำหรับทุกคน นี่เป็นกรณีการใช้งานง่าย ๆ แต่ทำให้คุณเข้าใจถึงประเภทของปัญหาที่เราต้องการแก้ไขโดยการสร้างระบบอัจฉริยะที่คิดล่วงหน้า ให้เหตุผล และวางแผนทั้งหมดในนามของคุณ
พลังของ Gemini ที่มีความสามารถหลายรูปแบบ บริบทที่ยาวนาน และเอเจนต์ ทำให้เราเข้าใกล้เป้าหมายสูงสุดของเรา นั่นคือการทำให้ AI เป็นประโยชน์สำหรับทุกคน เราเห็นว่านี่คือวิธีที่เราจะก้าวหน้ามากที่สุดในการทำภารกิจของเรา การจัดระเบียบข้อมูลของโลกในทุกอินพุต ทำให้เข้าถึงได้ผ่านทุกเอาต์พุต และรวมข้อมูลของโลกกับข้อมูลในโลกของคุณในแบบที่เป็นประโยชน์อย่างแท้จริงสำหรับคุณ เพื่อให้ได้รับประโยชน์อย่างเต็มที่จาก AI เราจะยังคงพัฒนาพื้นที่ใหม่ ๆ Google DeepMind กำลังทำงานอย่างหนักเพื่อแบ่งปันข้อมูลเพิ่มเติม โปรดต้อนรับสู่เวที Io เป็นครั้งแรก เดโมส ฮัสซาบิส ขอบคุณครับ และ อ่า เป็นเรื่องที่น่ายินดีมากที่ได้มาอยู่ที่นี่ นับตั้งแต่ผมยังเป็นเด็กที่เล่นหมากรุกให้กับทีมเยาวชนของอังกฤษ ผมคิดเกี่ยวกับธรรมชาติของความฉลาดมาโดยตลอด ผมหลงใหลในแนวคิดของคอมพิวเตอร์ที่สามารถคิดเหมือนคนได้ นั่นเป็นเหตุผลที่ผมกลายเป็นโปรแกรมเมอร์และศึกษาประสาทวิทยาศาสตร์ ผมร่วมก่อตั้ง DeepMind ในปี 2010 โดยมีเป้าหมายที่จะสร้าง AGI ปัญญาประดิษฐ์ทั่วไป (Artificial General Intelligence) ในสักวันหนึ่ง
ผมเชื่อมาตลอดว่าถ้าเราสามารถสร้างเทคโนโลยีนี้ได้อย่างมีความรับผิดชอบ ผลกระทบของมันจะมีความลึกซึ้งอย่างแท้จริง และมันสามารถเป็นประโยชน์ต่อมนุษยชาติในรูปแบบที่น่าทึ่ง ปีที่แล้วเราได้ก้าวไปสู่เหตุการณ์สำคัญบนเส้นทางนั้น เมื่อเรารวม Google DeepMind เข้าด้วยกัน รวมความสามารถด้าน AI จากทั่วทั้งบริษัทเข้าเป็นหน่วยเดียว นับตั้งแต่นั้นมา เราได้สร้างระบบ AI ที่สามารถทำสิ่งที่น่าทึ่งได้หลากหลาย ตั้งแต่การเปลี่ยนภาษาและวิสัยทัศน์ให้เป็นการกระทำสำหรับหุ่นยนต์ การนำทางสภาพแวดล้อม 3 มิติเสมือนจริงที่ซับซ้อน การแก้ปัญหาคณิตศาสตร์ระดับโอลิมปิก และแม้กระทั่งการค้นพบวัสดุใหม่หลายพันชนิด เมื่อสัปดาห์ที่แล้ว เราได้ประกาศโมเดล AlphaFold รุ่นต่อไปของเรา มันสามารถทำนายโครงสร้างและปฏิสัมพันธ์ของโมเลกุลเกือบทั้งหมดของสิ่งมีชีวิต รวมถึงวิธีที่โปรตีนมีปฏิสัมพันธ์กับสาย DNA และ RNA สิ่งนี้จะเร่งการวิจัยทางชีววิทยาและการแพทย์ที่สำคัญอย่างยิ่ง ตั้งแต่ความเข้าใจโรคไปจนถึงการค้นพบยา และทั้งหมดนี้เกิดขึ้นได้ด้วยโครงสร้างพื้นฐานที่ดีที่สุดสำหรับยุค AI รวมถึงหน่วยประมวลผลเทนเซอร์ (TPU) ที่ได้รับการปรับแต่งอย่างสูงของเรา
หัวใจสำคัญของความพยายามของเราคือโมเดล Gemini ของเรา มันถูกสร้างขึ้นมาตั้งแต่ต้นเพื่อรองรับหลายรูปแบบ เพราะนั่นคือวิธีที่เราโต้ตอบและเข้าใจโลกใบนี้ เราสร้างโมเดลที่หลากหลายสำหรับกรณีการใช้งานที่แตกต่างกัน คุณได้เห็นแล้วว่า Gemini 1.5 Pro มีประสิทธิภาพมากแค่ไหน แต่เราก็รู้จากความคิดเห็นของผู้ใช้ว่าบางแอปพลิเคชันต้องการเวลาในการตอบสนองที่ต่ำกว่าและต้นทุนในการให้บริการที่ต่ำกว่า ดังนั้นวันนี้เราจึงขอแนะนำ Gemini 1.5 Flash Flash เป็นโมเดลที่มีน้ำหนักเบากว่าเมื่อเทียบกับ Pro มันถูกออกแบบมาให้รวดเร็วและประหยัดต้นทุนเพื่อให้บริการในระดับใหญ่ ในขณะที่ยังคงมีคุณสมบัติการให้เหตุผลแบบหลายรูปแบบและบริบทที่ยาวนานที่ก้าวล้ำ Flash ได้รับการปรับแต่งสำหรับงานที่เวลาในการตอบสนองและประสิทธิภาพมีความสำคัญมากที่สุด เริ่มตั้งแต่วันนี้ คุณสามารถใช้ 1.5 Flash และ 1.5 Pro ที่มีโทเค็นสูงสุด 1 ล้านโทเค็นใน Google AI Studio และ Vertex AI และนักพัฒนาสามารถลงทะเบียนเพื่อทดลองใช้ 2 ล้านโทเค็น เรารู้สึกตื่นเต้นมากที่จะเห็นสิ่งที่พวกคุณทุกคนจะสร้างขึ้นมา และคุณจะได้ยินเพิ่มเติมเกี่ยวกับ Flash ในภายหลังจาก Josh
เรารู้สึกตื่นเต้นมากกับความก้าวหน้าที่เราทำได้จนถึงตอนนี้กับโมเดล Gemini ของเรา แต่เรามุ่งมั่นที่จะผลักดันขีดจำกัดของเทคโนโลยีให้ดียิ่งขึ้นไปอีก ในทุกช่วงเวลา เรามีหลายโมเดลที่กำลังฝึกฝน และเราใช้โมเดลที่มีขนาดใหญ่และทรงพลังมากของเราเพื่อช่วยสอนและฝึกอบรมโมเดลที่พร้อมสำหรับการผลิต ร่วมกับความคิดเห็นของผู้ใช้ การวิจัยที่ทันสมัยนี้จะช่วยให้เราสร้างผลิตภัณฑ์ใหม่ ๆ ที่น่าทึ่งสำหรับผู้คนหลายพันล้านคน ตัวอย่างเช่น ในเดือนธันวาคม เราได้แบ่งปันภาพรวมเกี่ยวกับอนาคตของวิธีที่ผู้คนจะโต้ตอบกับ AI แบบหลายรูปแบบ และนี่จะนำไปสู่การสร้างประสบการณ์ใหม่ ๆ ที่เปลี่ยนแปลงโลก วันนี้เรามีความคืบหน้าใหม่ ๆ ที่น่าตื่นเต้นที่จะแบ่งปันเกี่ยวกับอนาคตของ AI assistance ที่เราเรียกว่า Project Astra
เป็นเวลานานที่เราต้องการสร้าง AI agent สากลที่สามารถช่วยเหลือได้อย่างแท้จริงในชีวิตประจำวัน งานของเราในการทำให้วิสัยทัศน์นี้เป็นจริงย้อนกลับไปหลายปี นั่นเป็นเหตุผลที่เราสร้าง Gemini ให้เป็นหลายรูปแบบตั้งแต่เริ่มต้น เอเจนต์แบบนี้ต้องเข้าใจและตอบสนองต่อโลกที่ซับซ้อนและเปลี่ยนแปลงตลอดเวลาของเรา เหมือนที่เราทำ มันจะต้องรับรู้และจดจำสิ่งที่เห็นเพื่อให้สามารถเข้าใจบริบทและดำเนินการได้ และมันจะต้องเป็นเชิงรุก สอนได้ และเป็นส่วนตัว เพื่อให้คุณสามารถพูดคุยกับมันได้อย่างเป็นธรรมชาติโดยไม่มีความล่าช้า ในข
หน้า 21-30
คุณสามารถลงทะเบียนเพื่อทดลองใช้ Imagine 3 ใน Image FX ซึ่งเป็นส่วนหนึ่งของชุดเครื่องมือ AI ของเราที่ labs.google ได้แล้ว และจะเปิดให้บริการสำหรับนักพัฒนาและลูกค้าองค์กรใน Vertex AI เร็ว ๆ นี้
อีกหนึ่งพื้นที่ที่เต็มไปด้วยความเป็นไปได้ในการสร้างสรรค์คือดนตรีที่สร้างขึ้น ผมทำงานในด้านนี้มานานกว่า 20 ปีแล้ว และนี่เป็นปีที่น่าตื่นเต้นที่สุดในอาชีพของผมเลยทีเดียว เรากำลังสำรวจวิธีการทำงานร่วมกับศิลปินเพื่อขยายความคิดสร้างสรรค์ของพวกเขาด้วย AI ร่วมกับ YouTube เราได้สร้าง MusicLM Sandbox ซึ่งเป็นชุดเครื่องมือ AI ระดับมืออาชีพสำหรับดนตรี ที่สามารถสร้างส่วนของเครื่องดนตรีใหม่ ๆ ขึ้นมาจากศูนย์ ถ่ายโอนสไตล์ระหว่างแทร็ก และอื่น ๆ อีกมากมาย เพื่อช่วยเราในการออกแบบและทดสอบเครื่องมือเหล่านี้ เราได้ทำงานอย่างใกล้ชิดกับนักดนตรี นักแต่งเพลง และโปรดิวเซอร์ที่ยอดเยี่ยม บางคนถึงกับสร้างเพลงใหม่ทั้งหมดในรูปแบบที่ไม่สามารถทำได้หากไม่มีเครื่องมือเหล่านี้ มาฟังจากศิลปินบางคนที่เราได้ร่วมงานด้วยกัน
“ฉันจะใส่สิ่งนี้กลับเข้าไปใน MusicLM เพื่อให้ได้เสียงบูม บูม บูม บูม บูม เหมือนเดิม จะเกิดอะไรขึ้นถ้าเฮติมาพบกับบราซิล ฉันไม่รู้เลยว่าอะไรจะออกมา นี่คือสิ่งที่ทำให้ฉันตื่นเต้น ในฐานะโปรดิวเซอร์ฮิปฮอป เราขุดหาแผ่นเสียงไวนิลเหล่านี้ และในส่วนที่ไม่มีเสียงร้อง เราดึงมันออกมา เราสุ่มตัวอย่างมันและสร้างเพลงทั้งหมดขึ้นมาจากสิ่งนั้น ตอนนี้เรากำลังขุดในลังเพลงที่ไม่มีที่สิ้นสุด”
“ฉันพบว่า AI มีประโยชน์สำหรับฉันจริงๆ ในการเติมเต็มองค์ประกอบที่เบาบางหรือขาดหายไปของลูปของฉัน โอเค ลองใช้บองโก เราจะใส่ไวโอลิน เราจะใส่เสียงปรบมือตามจังหวะ และเราจะดูว่าเกิดอะไรขึ้น และมันทำให้เสียงที่ออกมาในตอนท้ายฟังดูเหมือนมนุษย์มากขึ้น ดังนั้นนี่คือลูปของ Google ทั้งหมด ใช่มั้ย นี่คือลูป มันเหมือนกับมีเพื่อนแปลก ๆ ที่คอยบอกว่า ลองอันนี้ ลองอันนั้น แล้วคุณก็แบบ โอเค ใช่ ฉันรู้ว่ามันค่อนข้างเจ๋ง”
“เครื่องมือเหล่านี้มีความสามารถในการเร่งกระบวนการที่อยู่ในหัวของฉัน ให้ออกมา คุณสามารถเคลื่อนที่ด้วยความเร็วแสงด้วยความคิดสร้างสรรค์ของคุณ นี่มันน่าทึ่งมากตรงนั้นเลย”
ฉันคิดว่าสิ่งนี้แสดงให้เห็นถึงสิ่งที่เป็นไปได้จริงๆ เมื่อเราทำงานร่วมกับชุมชนศิลปินในอนาคตของดนตรี คุณสามารถค้นหาเพลงใหม่ ๆ จากศิลปินและนักแต่งเพลงที่มีชื่อเสียงเหล่านี้ได้ในช่อง YouTube ของพวกเขาแล้วตอนนี้
มีอีกหนึ่งพื้นที่ที่ผมตื่นเต้นที่จะแบ่งปันกับคุณ ทีมของเราได้สร้างความก้าวหน้าที่น่าทึ่งในด้านวิดีโอที่สร้างขึ้น วันนี้ผมตื่นเต้นที่จะประกาศโมเดลวิดีโอที่สร้างขึ้นใหม่ล่าสุดและมีความสามารถมากที่สุดของเราที่เรียกว่า Phenaki Phenaki สร้างวิดีโอคุณภาพสูง 1080p จากข้อความ รูปภาพ และวิดีโอตัวอย่าง มันสามารถจับรายละเอียดของคำแนะนำของคุณในรูปแบบภาพและภาพยนตร์ที่แตกต่างกัน คุณสามารถกำหนดสิ่งต่าง ๆ เช่น ภาพมุมสูงของภูมิทัศน์หรือภาพแบบไทม์แลปส์ และแก้ไขวิดีโอของคุณเพิ่มเติมโดยใช้คำแนะนำเพิ่มเติม คุณสามารถใช้ Phenaki ในเครื่องมือทดลองใหม่ของเราที่เรียกว่า Video Effects เรากำลังสำรวจคุณสมบัติต่าง ๆ เช่น การสร้างสตอรี่บอร์ดและการสร้างฉากที่ยาวขึ้น Phenaki มอบการควบคุมความคิดสร้างสรรค์ที่ไม่เคยมีมาก่อน เทคนิคในการสร้างภาพนิ่งได้ก้าวหน้าไปไกลมาก แต่การสร้างวิดีโอเป็นความท้าทายที่แตกต่างออกไปโดยสิ้นเชิง ไม่เพียงแต่ต้องเข้าใจว่าวัตถุหรือตัวแบบควรอยู่ในตำแหน่งใดในพื้นที่เท่านั้น แต่ยังต้องรักษาความสอดคล้องนี้ไว้ตลอดเวลา เหมือนกับรถในวิดีโอนี้
Phenaki สร้างขึ้นจากการทำงานของโมเดลวิดีโอที่สร้างขึ้นมาเป็นเวลาหลายปีของเรา รวมถึง GQN Imagen Video Poet LaMDA และอื่น ๆ อีกมากมาย เรารวมสถาปัตยกรรมและเทคนิคที่ดีที่สุดเหล่านี้เข้าด้วยกันเพื่อปรับปรุงความสอดคล้อง คุณภาพ และความละเอียดของเอาต์พุต เพื่อดูว่า Phenaki สามารถทำอะไรได้บ้าง เราได้นำมันไปให้ผู้สร้างภาพยนตร์ที่ยอดเยี่ยมคนหนึ่งลองใช้ มาดูกัน
“ผมสนใจ AI มาสองสามปีแล้ว เราได้ติดต่อกับคนบางคนใน Google และพวกเขาก็กำลังทำอะไรบางอย่างของพวกเขาเอง ดังนั้นเราจึงมาพบกันที่ Google Farms เพื่อสร้างหนังสั้น เทคโนโลยีหลักคือโมเดลวิดีโอที่สร้างขึ้นของ Google DeepMind ที่ได้รับการฝึกฝนเพื่อแปลงข้อความอินพุตเป็นวิดีโอเอาต์พุต มันดูดี เราสามารถนำความคิดมาสู่ชีวิตที่ไม่สามารถทำได้ เราสามารถเห็นภาพสิ่งต่าง ๆ ในช่วงเวลาที่เร็วกว่าเดิม 10 หรือ 100 เท่า เมื่อคุณกำลังถ่ายทำ คุณไม่สามารถทำซ้ำได้มากเท่าที่คุณต้องการ ดังนั้นเราจึงได้รับฟังความคิดเห็นว่ามันช่วยให้มีแรงบันดาลใจในการสร้างสรรค์มากขึ้น แต่สิ่งที่เจ๋งเกี่ยวกับมันคือคุณสามารถทำผิดพลาดได้เร็วขึ้น นั่นคือทั้งหมดที่คุณต้องการในท้ายที่สุด อย่างน้อยในงานศิลปะก็แค่ทำผิดพลาดอย่างรวดเร็ว”
“ดังนั้นโดยใช้ความสามารถหลายรูปแบบของ Gemini เพื่อเพิ่มประสิทธิภาพกระบวนการฝึกอบรมโมเดล Phenaki สามารถจับความแตกต่างจากข้อความได้ดีขึ้น ดังนั้น สิ่งนี้รวมถึงเทคนิคการสร้างภาพยนตร์และเทคนิคพิเศษภาพ ทำให้คุณมีการควบคุมความคิดสร้างสรรค์อย่างสมบูรณ์”
“ทุกคนจะกลายเป็นผู้กำกับ และทุกคนควรเป็นผู้กำกับ เพราะหัวใจสำคัญของทั้งหมดนี้คือการเล่าเรื่อง ยิ่งเราใกล้ชิดกับความสามารถในการบอกเล่าเรื่องราวของเรามากเท่าไหร่ เราก็จะยิ่งเข้าใจกันและกันมากขึ้นเท่านั้น โมเดลเหล่านี้ช่วยให้เราสามารถสร้างสรรค์ได้มากขึ้นและแบ่งปันความคิดสร้างสรรค์นั้นให้กันและกัน”
ในอีกไม่กี่สัปดาห์ข้างหน้า คุณสมบัติบางอย่างเหล่านี้จะพร้อมใช้งานสำหรับผู้สร้างที่เลือกผ่าน Video Effects ที่ labs.google และรายการรอเปิดอยู่แล้ว แน่นอนว่าความก้าวหน้าเหล่านี้ในวิดีโอที่สร้างขึ้นไม่ได้จำกัดอยู่แค่ภาพที่สวยงามที่คุณเห็นในวันนี้ โดยการสอนโมเดล AI ในอนาคตถึงวิธีแก้ปัญหาอย่างสร้างสรรค์ หรือจำลองฟิสิกส์ของโลกของเรา เราสามารถสร้างระบบที่มีประโยชน์มากขึ้นที่สามารถช่วยให้ผู้คนสื่อสารในรูปแบบใหม่ ๆ และด้วยเหตุนี้จึงก้าวไปสู่ขอบเขตใหม่ของ AI เมื่อเราเริ่มต้นการเดินทางครั้งนี้เพื่อสร้าง AI มากกว่า 15 ปีที่แล้ว เรารู้ว่าวันหนึ่งมันจะเปลี่ยนแปลงทุกสิ่ง ตอนนี้เวลานั้นมาถึงแล้ว และเรายังคงประหลาดใจกับความก้าวหน้าที่เราเห็นและได้รับแรงบันดาลใจจากความก้าวหน้าที่จะเกิดขึ้นบนเส้นทางสู่ AGI ขอบคุณ และกลับไปที่คุณ Sundar ขอบคุณ Dennis
มีนวัตกรรมมากมายที่เกิดขึ้นที่ Google DeepMind เป็นเรื่องที่น่าทึ่งมากที่เราได้ก้าวหน้าไปมากแค่ไหนในหนึ่งปี การฝึกอบรมโมเดลที่ทันสมัยต้องใช้พลังการประมวลผลจำนวนมาก ความต้องการของอุตสาหกรรมสำหรับการประมวลผล ML ได้เพิ่มขึ้นเป็นล้านเท่าในช่วงหกปีที่ผ่านมา และทุก ๆ ปีก็เพิ่มขึ้นสิบเท่า Google ถูกสร้างขึ้นมาเพื่อสิ่งนี้ เป็นเวลา 25 ปีที่เราได้ลงทุนในโครงสร้างพื้นฐานทางเทคนิคระดับโลก ตั้งแต่ฮาร์ดแวร์ที่ทันสมัยที่ขับเคลื่อนการค้นหาไปจนถึงหน่วยประมวลผลเทนเซอร์ที่กำหนดเองของเราที่ขับเคลื่อนความก้าวหน้าของ AI Gemini ได้รับการฝึกฝนและให้บริการทั้งหมดบน TPU รุ่นที่ 4 และ 5 ของเรา และบริษัท AI ชั้นนำอื่น ๆ เช่น Anthropic ได้ฝึกอบรมโมเดลของพวกเขาบน TPU เช่นกัน วันนี้เรารู้สึก
หน้า 31-40
คุณเคยได้ยินเกี่ยวกับ AI Overviews มาแล้ว และผู้คนพบว่ามันมีประโยชน์มากแค่ไหน ด้วย AI Overviews Google ทำงานให้คุณ แทนที่จะรวบรวมข้อมูลทั้งหมดด้วยตัวคุณเอง คุณสามารถถามคำถามของคุณ และอย่างที่คุณเห็น คุณจะได้รับคำตอบทันที พร้อมกับมุมมองที่หลากหลายและลิงก์สำหรับการสำรวจเพิ่มเติม ดังที่ Sundar ได้แชร์ AI Overviews จะเริ่มเปิดให้ทุกคนในสหรัฐอเมริกาได้ใช้งานตั้งแต่วันนี้เป็นต้นไป และจะขยายไปยังประเทศอื่น ๆ ในเร็ว ๆ นี้ และภายในสิ้นปีนี้ AI Overviews จะเข้าถึงผู้คนมากกว่า 1 พันล้านคนในการค้นหาของ Google แต่นี่เป็นเพียงก้าวแรกเท่านั้น เรากำลังทำให้ AI Overviews มีประโยชน์มากยิ่งขึ้นสำหรับคำถามที่ซับซ้อนที่สุดของคุณ ประเภทที่เป็นเหมือน 10 คำถามในหนึ่งเดียว คุณสามารถถามคำถามทั้งหมดของคุณพร้อมกับคำถามย่อยทั้งหมด และรับ AI Overview ในไม่กี่วินาที เพื่อให้เป็นไปได้ เราขอแนะนำการให้เหตุผลแบบหลายขั้นตอนในการค้นหาของ Google เพื่อให้ Google สามารถทำการค้นคว้าให้คุณได้
ตัวอย่างเช่น สมมติว่าคุณพยายามที่จะเข้าสู่โยคะและพิลาทิส การหาสตูดิโอที่เหมาะสมอาจต้องใช้การค้นคว้ามากมาย มีหลายปัจจัยที่คุณต้องพิจารณา ในไม่ช้าคุณจะสามารถขอให้ Search ค้นหาสตูดิโอโยคะและพิลาทิสที่ดีที่สุดในบอสตัน และแสดงรายละเอียดเกี่ยวกับข้อเสนอเบื้องต้นและเวลาเดินจาก Beacon Hill อย่างที่คุณเห็นที่นี่ Google เริ่มทำงานให้คุณ ค้นหาข้อมูลที่เกี่ยวข้องมากที่สุด และนำมารวมกันใน AI Overview ของคุณ คุณจะได้รับสตูดิโอพร้อมคะแนนที่ดีและข้อเสนอเบื้องต้น และคุณสามารถดูระยะทางสำหรับแต่ละแห่งได้ เช่น อันนี้ใช้เวลาเดินเพียง 10 นาที ด้านล่างคุณจะเห็นตำแหน่งของพวกเขาในรูปแบบภาพ และคุณได้รับทั้งหมดนี้จากการค้นหาเพียงครั้งเดียว
เบื้องหลัง โมเดล Gemini แบบกำหนดเองของเราทำหน้าที่เป็น AI agent ของคุณ โดยใช้สิ่งที่เราเรียกว่าการให้เหตุผลแบบหลายขั้นตอน มันแบ่งคำถามใหญ่ของคุณออกเป็นส่วน ๆ ทั้งหมด และคิดว่าปัญหาใดที่ต้องแก้ไขและลำดับใด และด้วยข้อมูลเรียลไทม์และความเชี่ยวชาญด้านการจัดอันดับของเรา มันให้เหตุผลโดยใช้ข้อมูลที่มีคุณภาพสูงสุดที่มีอยู่ ดังนั้นเนื่องจากคุณถามเกี่ยวกับสถานที่ต่าง ๆ มันจึงเข้าถึงดัชนีข้อมูลของ Google เกี่ยวกับโลกแห่งความเป็นจริง ด้วยสถานที่มากกว่า 250 ล้านแห่งและอัปเดตแบบเรียลไทม์ รวมถึงการให้คะแนน รีวิว เวลาทำการ และอื่น ๆ การวิจัยที่อาจใช้เวลาคุณเป็นนาทีหรือหลายชั่วโมง Google สามารถทำในนามของคุณได้ในเวลาไม่กี่วินาที
ต่อไปให้ฉันแสดงวิธีอื่นที่การให้เหตุผลแบบหลายขั้นตอนในการค้นหาของ Google สามารถทำให้ชีวิตของคุณง่ายขึ้น การวางแผนเป็นเรื่องยากสำหรับ AI ที่จะทำให้ถูกต้อง มันเป็นประเภทของปัญหาที่ต้องใช้การให้เหตุผลและตรรกะขั้นสูง ท้ายที่สุดถ้าคุณวางแผนอาหาร คุณอาจไม่ต้องการ Mac and Cheese เป็นอาหารเช้า กลางวัน และเย็น โอเค ลูก ๆ ของฉันอาจจะ แต่สมมติว่าคุณกำลังมองหาความหลากหลายมากกว่านี้ ตอนนี้คุณสามารถขอให้ Search สร้างแผนอาหาร 3 วันสำหรับกลุ่มที่เตรียมได้ง่าย และที่นี่คุณจะได้รับแผนพร้อมสูตรอาหารที่หลากหลายจากทั่วทั้งเว็บ อันนี้สำหรับข้าวโอ๊ตข้ามคืนดูน่าสนใจเป็นพิเศษ และคุณสามารถไปที่เว็บไซต์เพื่อเรียนรู้วิธีการเตรียมได้อย่างง่ายดาย ถ้าคุณต้องการเพิ่มผัก คุณสามารถขอให้ Search เปลี่ยนเป็นอาหารมังสวิรัติได้ และ Search จะปรับแต่งแผนอาหารของคุณ และคุณสามารถส่งออกแผนอาหารของคุณหรือรับส่วนผสมเป็นรายการได้ เพียงแค่แตะที่นี่ มองไปข้างหน้า คุณสามารถจินตนาการถึงการขอให้ Google เพิ่มทุกอย่างลงในตะกร้าสินค้าที่คุณต้องการ จากนั้นเราก็ทำอาหารได้จริงๆ ความสามารถในการวางแผนเหล่านี้หมายความว่า Search จะสามารถช่วยวางแผนทุกอย่างได้
คุณได้เห็นแล้วว่า Google Search สามารถช่วยเหลือคำถามที่ซับซ้อนขึ้นและการวางแผนได้อย่างไร แต่แล้วช่วงเวลาที่คุณไม่รู้ว่าจะถามอะไรดีและต้องการความช่วยเหลือในการระดมสมองล่ะ เมื่อคุณมาที่ Search เพื่อหาไอเดีย คุณจะได้รับมากกว่าคำตอบที่สร้างขึ้นโดย AI คุณจะได้รับทั้งหน้า AI ที่จัดระเบียบขึ้นมาเองสำหรับคุณและคำถามของคุณ สมมติว่าคุณกำลังมุ่งหน้าไปดัลลัสเพื่อฉลองวันครบรอบแต่งงานของคุณ และคุณกำลังมองหาร้านอาหารที่สมบูรณ์แบบ สิ่งที่คุณได้รับที่นี่คือการนำ AI ออกมานอกกรอบและนำมันมาสู่ทั้งหน้า โมเดล Gemini ของเราจะค้นหามุมที่น่าสนใจที่สุดสำหรับคุณเพื่อสำรวจ และจัดระเบียบผลลัพธ์เหล่านี้เป็นกลุ่มที่มีประโยชน์ เช่น คุณอาจไม่เคยพิจารณาร้านอาหารที่มีดนตรีสด หรือร้านอาหารที่มีเสน่ห์ทางประวัติศาสตร์ โมเดลของเราใช้ปัจจัยตามบริบท เช่น ช่วงเวลาของปี ดังนั้นเนื่องจากอากาศอบอุ่นในดัลลัส คุณสามารถรับไอเดียลานระเบียงบนดาดฟ้าได้ และมันรวบรวมทุกอย่างเข้าด้วยกันเป็นประสบการณ์ทั้งหน้าแบบไดนามิก
คุณจะเริ่มเห็นหน้าผลการค้นหาใหม่ที่จัดโดย AI นี้เมื่อคุณมองหาแรงบันดาลใจ เริ่มต้นด้วยห้องอาหาร สูตรอาหาร และไปจนถึงภาพยนตร์ เพลง หนังสือ โรงแรม ช้อปปิ้ง และอื่น ๆ วันนี้คุณได้เห็นว่าคุณสามารถนำคำถามใด ๆ มาสู่ Search และ Google ทำให้งานค้นหาง่ายขึ้น แต่คำถามของคุณไม่ได้จำกัดอยู่แค่คำในกล่องข้อความ และบางครั้งแม้แต่ภาพนั้นก็ไม่สามารถบอกเรื่องราวทั้งหมดได้
ก่อนหน้านี้ได้มีการสาธิตแสดงให้เห็นถึงความก้าวหน้าล่าสุดของเราในการทำความเข้าใจวิดีโอ และผมตื่นเต้นที่จะแบ่งปันว่าในไม่ช้าคุณจะสามารถถามคำถามด้วยวิดีโอได้โดยตรงในการค้นหาของ Google ขอแนะนำให้รู้จักกับ Rose เพื่อแสดงสิ่งนี้ในการสาธิตสด ขอบคุณ Liz ฉันมีเครื่องเล่นแผ่นเสียงมาตลอด และฉันได้อันนี้มาพร้อมกับแผ่นเสียงไวนิลบางแผ่นจากการขายของในบ้านเมื่อเร็ว ๆ นี้ แต่เมื่อฉันเล่นมัน สิ่งนี้มันเลื่อนหลุดตลอดเวลา ฉันไม่รู้ว่าจะแก้ไขยังไงหรือจะเริ่มตรงไหน ก่อนหน้านี้ฉันต้องรวบรวมการค้นหาหลาย ๆ ครั้งเพื่อพยายามหาคำตอบ เช่น เครื่องเล่นแผ่นเสียงยี่ห้ออะไร รุ่นอะไร และสิ่งนี้เรียกว่าอะไรกันแน่ แต่ตอนนี้ฉันสามารถถามด้วยวิดีโอได้แล้ว ลองมาดูกัน ลองทำการสาธิตสด ฉันจะใช้วิดีโอและถาม Google ว่าทำไมมันถึงไม่อยู่กับที่
หน้า 41-50
ความสามารถในการจัดระเบียบไฟล์แนบของคุณใน Drive และสร้างชีต และทำการวิเคราะห์ข้อมูลผ่าน Q&A จะเปิดตัวให้ผู้ใช้ Labs ในเดือนกันยายนนี้ และนี่เป็นเพียงหนึ่งในระบบอัตโนมัติจำนวนมากที่เรากำลังพัฒนาใน Workspace
Workspace ในยุคของ Gemini จะยังคงปลดล็อกวิธีการใหม่ ๆ ในการทำงานให้สำเร็จ เรากำลังสร้างประสบการณ์เชิงลึกขั้นสูง รวมถึงการปรับแต่งวิธีที่คุณใช้ Gemini ในขณะที่เรามองไปยังปี 2025 และอนาคตข้างหน้า เรากำลังสำรวจวิธีการทำงานใหม่ ๆ กับ AI อย่างสิ้นเชิง ตอนนี้ Gemini คุณมีผู้ช่วยที่ขับเคลื่อนด้วย AI อยู่เคียงข้างคุณเสมอ แต่ถ้าคุณสามารถขยายวิธีที่คุณโต้ตอบกับ AI ได้ล่ะ ตัวอย่างเช่น เมื่อเราทำงานกับคนอื่น เราพูดถึงพวกเขาในความคิดเห็นและเอกสาร หรือเราส่งอีเมลถึงพวกเขา เรามีการแชทกลุ่มกับพวกเขา เป็นต้น และไม่ใช่แค่การทำงานร่วมกันเท่านั้น เราแต่ละคนมีบทบาทเฉพาะในทีม และในขณะที่ทีมทำงานร่วมกัน เราสร้างชุดประสบการณ์และบริบทโดยรวมเพื่อเรียนรู้ซึ่งกันและกัน เรามีชุดทักษะรวมกันเพื่อดึงออกมาเมื่อเราต้องการความช่วยเหลือ ดังนั้นเราจะแนะนำ AI เข้ามาในส่วนผสมนี้และสร้างจากความเชี่ยวชาญร่วมกันนี้ได้อย่างไร นี่เป็นวิธีหนึ่ง
เรากำลังสร้างต้นแบบเพื่อนร่วมทีมเสมือนจริงที่ขับเคลื่อนโดย Gemini เพื่อนร่วมทีมคนนี้มีตัวตน บัญชี Workspace พร้อมกับบทบาทและวัตถุประสงค์เฉพาะ ขอให้ฉันพา Tony มาแสดงให้คุณเห็นว่าฉันหมายถึงอะไร สวัสดี Tony สวัสดีครับเพื่อน สวัสดีทุกคน โอเค งั้นขอเริ่มต้นด้วยการแสดงวิธีการตั้งค่าเพื่อนร่วมทีมเสมือนจริงนี้ อย่างที่คุณเห็น เพื่อนร่วมทีมมีบัญชีของตัวเอง และเราสามารถตั้งชื่อให้มันได้ เราจะตั้งชื่อสนุก ๆ ว่า Chip Chip ได้รับมอบหมายงานเฉพาะ บทบาทที่กำหนดไว้ และคำอธิบายเกี่ยวกับวิธีการช่วยเหลือทีม คุณสามารถดูได้ที่นี่ และงานบางอย่างคือการตรวจสอบและติดตามโครงการ เราได้ระบุไว้บางส่วน เพื่อจัดระเบียบข้อมูลและให้บริบท และอีกสองสามอย่าง
ตอนนี้เราได้กำหนดค่าเพื่อนร่วมทีมเสมือนจริงของเราแล้ว ลองไปดู Chip ทำงานจริง เมื่อวางแผนสำหรับกิจกรรมอย่าง Io เรามีห้องสนทนาจำนวนมากเพื่อวัตถุประสงค์ต่าง ๆ โชคดีสำหรับผม Chip อยู่ในห้องเหล่านั้นทั้งหมด เพื่อติดตามอย่างรวดเร็ว ผมอาจถามคำถามเช่น ใครรู้บ้างว่าสตอรี่บอร์ด Io ของเราได้รับการอนุมัติหรือไม่ เนื่องจากเราได้สั่งให้ Chip ติดตามโครงการนี้ Chip จึงค้นหาการสนทนาทั้งหมดและตอบกลับด้วยคำตอบ นั่นแหละ ง่ายแต่มีประโยชน์มาก
เมื่อทีมเพิ่ม Chip เข้าไปในกลุ่มแชทมากขึ้น ไฟล์มากขึ้น เธรดอีเมลมากขึ้น Chip จะสร้างหน่วยความจำร่วมของงานที่เราทำร่วมกัน ลองดูตัวอย่างเพื่อแสดงให้คุณเห็นทั้งหมด เปลี่ยนไปที่ห้องอื่น ลอง Project Sapphire ที่นี่ และที่นี่เรากำลังพูดคุยเกี่ยวกับการเปิดตัวผลิตภัณฑ์ที่จะเกิดขึ้น และตามปกติยังมีหลายส่วนที่ยังไม่เสร็จ ดังนั้นผมจึงสามารถถามได้ว่า เราอยู่ในเส้นทางสำหรับการเปิดตัวหรือไม่ Chip เริ่มทำงาน ไม่เพียงแต่ค้นหาทุกสิ่งที่สามารถเข้าถึงได้ แต่ยังสังเคราะห์สิ่งที่พบ และกลับมาพร้อมกับการตอบกลับที่ทันสมัย นี่คือไทม์ไลน์ที่ชัดเจน บทสรุปที่ดี และสังเกตว่าแม้ในข้อความแรกนี้ Chip จะตั้งค่าสถานะปัญหาที่อาจเกิดขึ้นที่ทีมควรทราบ เนื่องจากเราอยู่ในพื้นที่กลุ่ม ทุกคนสามารถติดตามได้ ทุกคนสามารถเข้าร่วมได้ตลอดเวลา อย่างที่คุณเห็น มีคนเพิ่งถาม Chip ให้ช่วยสร้างเอกสารเพื่อช่วยแก้ไขปัญหา งานแบบนี้อาจใช้เวลาผมเป็นชั่วโมง หรือหลายสิบชั่วโมง Chip สามารถทำทั้งหมดได้ภายในเวลาไม่กี่นาที ส่งเอกสารมาทันทีที่พร้อม
ความช่วยเหลือในทางปฏิบัติส่วนใหญ่มาจากวิธีที่เราปรับแต่ง Chip ให้ตรงกับความต้องการของทีม และ AI นี้รวมเข้ากับที่ที่เราทำงานอยู่แล้วได้อย่างราบรื่น กลับไปที่คุณครับเพื่อน ขอบคุณ Tony ตอนนี้ผมสามารถจินตนาการถึงเพื่อนร่วมทีมเสมือนจริงประเภทต่าง ๆ ที่กำหนดค่าโดยธุรกิจเพื่อช่วยให้พวกเขาทำในสิ่งที่ต้องการ ตอนนี้เรามีงานต้องทำมากมายเพื่อหาวิธีนำประสบการณ์ของเอเจนต์เหล่านี้ เช่น เพื่อนร่วมทีมเสมือนจริง เข้ามาใน Workspace รวมถึงการเปิดใช้งานบุคคลที่สามเพื่อสร้าง Chip เวอร์ชันของตนเอง เรารู้สึกตื่นเต้นเกี่ยวกับทิศทางนี้ ดังนั้นโปรดคอยติดตาม และในขณะที่ Gemini และความสามารถของมันยังคงพัฒนาต่อไป เรากำลังนำพลังนั้นเข้าสู่ Workspace โดยตรง เพื่อให้ผู้ใช้ของเราทุกคนมีประสิทธิภาพและความคิดสร้างสรรค์มากขึ้น ทั้งที่บ้านและที่ทำงาน
และตอนนี้ถึงตา Sissy ที่จะบอกคุณเพิ่มเติมเกี่ยวกับ Gemini App วิสัยทัศน์ของเราสำหรับแอป Gemini คือการเป็นผู้ช่วย AI ส่วนตัวที่มีประโยชน์มากที่สุด โดยให้คุณเข้าถึงโมเดล AI ล่าสุดของ Google โดยตรง Gemini สามารถช่วยคุณเรียนรู้ สร้างโค้ด และสิ่งอื่น ๆ ที่คุณจินตนาการได้ และในช่วงปีที่ผ่านมา Gemini ได้นำ AI ของ Google ไปสู่มือของผู้คนหลายล้านคน ด้วยประสบการณ์ที่ออกแบบมาสำหรับโทรศัพท์และเว็บของคุณ เรายังเปิดตัว Gemini Advanced ซึ่งเป็นการสมัครสมาชิกแบบพรีเมียมสำหรับการเข้าถึงนวัตกรรม AI ล่าสุดจาก Google วันนี้เราจะแสดงให้คุณเห็นว่า Gemini มอบประสบการณ์ AI ที่ชาญฉลาดที่สุดของเราอย่างไร เริ่มจากแอป Gemini ซึ่งกำลังกำหนดนิยามใหม่ของการโต้ตอบกับ AI มันเป็นแบบหลายรูปแบบโดยกำเนิด ดังนั้นคุณสามารถใช้ข้อความ เสียง หรือกล้องของโทรศัพท์เพื่อแสดงความเป็นตัวคุณเองตามธรรมชาติ และในฤดูร้อนนี้ คุณสามารถสนทนาเชิงลึกกับ Gemini โดยใช้เสียงของคุณ เรียกประสบการณ์ใหม่นี้แบบสด ๆ โดยใช้โมเดลเสียงล่าสุดของ Google Gemini สามารถเข้าใจคุณได้ดีขึ้นและตอบสนองอย่างเป็นธรรมชาติ คุณยังสามารถขัดจังหวะในขณะที่ Gemini กำลังตอบสนอง และมันจะปรับให้เข้ากับรูปแบบการพูดของคุณ และนี่เป็นเพียงจุดเริ่มต้น เรารู้สึกตื่นเต้นที่จะนำความเร็ว การเล่นเกม และความสามารถในการทำความเข้าใจวิดีโอจาก Project Astra มาสู่แอป Gemini เมื่อเปิดตัว คุณจะสามารถเปิดกล้องของคุณเพื่อให้ Gemini สามารถมองเห็นสิ่งที่คุณเห็นและตอบสนองต่อสภาพแวดล้อมของคุณแบบเรียลไทม์
ตอนนี้วิธีที่ฉันใช้ Gemini ไม่ใช่วิธีที่คุณใช้ Gemini ดังนั้นเรากำลังเปิดตัวคุณสมบัติใหม่ที่ช่วยให้คุณปรับแต่งตามความต้องการของคุณเอง และสร้างผู้เชี่ยวชาญส่วนตัวในหัวข้อใดก็ได้ที่คุณต้องการ เราเรียกสิ่งเหล่านี้ว่า gems ฮ่า ๆ มันง่ายมากในการตั้งค่า เพียงแค่แตะเพื่อสร้าง gem เขียนคำแนะนำของคุณหนึ่งครั้งและกลับมาใช้เมื่อใดก็ตามที่คุณต้องการ ตัวอย่างเช่น นี่คือ gem ที่ฉันสร้างขึ้นซึ่งทำหน้าที่เป็นโค้ชการเขียนส่วนตัว มันมีความเชี่ยวชาญในเรื่องสั้นที่มีการบิดที่ลึกลับ และมันยังสร้างจากฉบับร่างเรื่องราวใน Google Drive ของฉันด้วย ฉันเรียกมันว่า Cliffhanger Curator ตอนนี้ gems เป็นตัวช่วยประหยัดเวลาที่ดีเมื่อคุณมีวิธีเฉพาะที่คุณต้องการโต้ตอบกับ Gemini ซ้ำแล้วซ้ำอีก gems จะเปิดตัวในอีกไม่กี่เดือนข้างหน้า และผู้ทดสอบที่เชื่อถือได้ของเรากำลังค้นหาวิธีที่สร้างสรรค์มากมายในการนำไปใช้ พวกเขาสามารถทำหน้าที่เป็นเพื่อนโยคะของคุณ พ่อครัวส่วนตัวของคุณ ครูสอนแคลคูลัสที่ชาญฉลาด ผู้ตรวจทานเพื่อนสำหรับโค้ดของคุณ และอื่น ๆ อีกมากมาย
ต่อไปฉันจะแสดงให้คุณเห็นว่า Gemini กำลังก้าวเข้าใกล้การเป็นผู้ช่วย AI ที่แท้จริงโดยการวางแผนและดำเนินการให้คุณ ตอนนี้เราทุกคนรู้ว่าแชทบอทสามารถให้ไอเดียสำหรับวันหยุดครั้งต่อไปของคุณได้ แต่มีอะไรมากกว่านั้นในการวางแผนการเดินทางที่ยอดเยี่ยม มันต้องใช้เหตุผลที่พิจารณาพื้นที่ เวลา โลจิสติกส์ และความฉลาดในการจัดลำดับความสำคัญและตัดสินใจ การให้เหตุผลและความฉลาดทั้งหมดนี้
หน้า 51-60
สวัสดีทุกคน ยินดีที่ได้กลับมาที่ Google I/O ในวันนี้ คุณได้เห็นแล้วว่า AI กำลังเปลี่ยนแปลงผลิตภัณฑ์ของเราอย่างไร ทั้งใน Gemini Search, Workspace และอื่น ๆ อีกมากมาย เรากำลังนำนวัตกรรมทั้งหมดนี้มาไว้บนโทรศัพท์ Android ของคุณโดยตรง และเรากำลังก้าวไปไกลยิ่งกว่านั้น เพื่อทำให้ Android เป็นสถานที่ที่ดีที่สุดในการสัมผัสประสบการณ์ Google AI
ยุคใหม่ของ AI นี้เป็นโอกาสอันยิ่งใหญ่ที่จะทำให้สมาร์ทโฟน “ฉลาด” อย่างแท้จริง โทรศัพท์ของเรามาไกลมากในช่วงเวลาสั้น ๆ แต่ถ้าคุณลองคิดดู มันก็ผ่านมาหลายปีแล้วตั้งแต่ประสบการณ์ของผู้ใช้ได้เปลี่ยนแปลงไปอย่างมาก นี่เป็นช่วงเวลาครั้งหนึ่งในรอบหลายชั่วอายุคนที่จะสร้างสิ่งใหม่ ๆ ที่โทรศัพท์สามารถทำได้ ดังนั้นเราจึงเริ่มต้นการเดินทางหลายปีเพื่อสร้าง Android ใหม่ด้วย AI เป็นหัวใจสำคัญ และเริ่มต้นด้วยการพัฒนาที่สำคัญสามประการที่คุณจะได้เห็นในปีนี้
ประการแรก เรากำลังวาง Search ที่ขับเคลื่อนด้วย AI ไว้ที่ปลายนิ้วของคุณ สร้างวิธีใหม่ ๆ ในการรับคำตอบที่คุณต้องการ ประการที่สอง Gemini กำลังจะกลายเป็นผู้ช่วย AI คนใหม่ของคุณบน Android คอยช่วยเหลือคุณได้ทุกเมื่อ และประการที่สาม เรากำลังควบคุม AI บนอุปกรณ์เพื่อปลดล็อกประสบการณ์ใหม่ ๆ ที่ทำงานได้รวดเร็วเท่ากับคุณ ในขณะที่ยังคงรักษาข้อมูลส่วนตัวของคุณให้เป็นความลับ
เริ่มต้นด้วยการค้นหาที่ขับเคลื่อนด้วย AI เมื่อต้นปีนี้ เราได้ก้าวสำคัญครั้งแรกที่ Samsung Unpacked โดยการแนะนำ Circle to Search มันนำสิ่งที่ดีที่สุดของ Search มาสู่ประสบการณ์ของผู้ใช้โดยตรง เพื่อให้คุณสามารถเจาะลึกเกี่ยวกับสิ่งที่คุณเห็นบนโทรศัพท์ของคุณได้โดยไม่ต้องสลับแอป แฟชั่นนิสต้ากำลังหารองเท้าที่สมบูรณ์แบบ พ่อครัวที่บ้านกำลังค้นพบส่วนผสมใหม่ ๆ และด้วยการอัปเดตล่าสุดของเรา การแปลสิ่งที่อยู่บนหน้าจอของคุณไม่เคยง่ายอย่างนี้มาก่อน เช่น โพสต์บนโซเชียลในภาษาอื่น และยังมีวิธีอื่น ๆ อีกมากมายที่ Circle to Search สามารถช่วยได้
สิ่งหนึ่งที่เราได้ยินจากนักเรียนคือพวกเขากำลังทำงานในโรงเรียนมากขึ้นโดยตรงบนโทรศัพท์และแท็บเล็ตของพวกเขา ดังนั้นเราจึงคิดว่า Circle to Search จะเป็นเพื่อนร่วมเรียนที่สมบูรณ์แบบของคุณได้ไหม สมมติว่าลูกชายของฉันต้องการความช่วยเหลือเกี่ยวกับโจทย์ปัญหาฟิสิกส์ที่ยาก เช่น ข้อนี้ ความคิดแรกของฉันคือ โอ้พระเจ้า มันนานมากแล้วตั้งแต่ฉันคิดเกี่ยวกับจลนศาสตร์ ถ้าเขาติดอยู่กับคำถามนี้ แทนที่จะถามฉัน เขาก็สามารถวนส่วนที่เขาติดอยู่ และรับคำแนะนำทีละขั้นตอนได้ 바로 ที่ที่เขากำลังทำงานอยู่
“อ่า ใช่แล้ว ความเร็วสุดท้ายเท่ากับความเร็วเริ่มต้นบวกความเร่งคูณด้วยเวลาที่ผ่านไป ใช่ไหม ฉันกำลังจะพูดแบบนั้น”
เอาจริง ๆ นะ ผมชอบที่มันแสดงวิธีแก้ปัญหา ไม่ใช่แค่คำตอบ ความสามารถใหม่นี้มีให้ใช้งานแล้วในวันนี้ และในปลายปีนี้ Circle to Search จะสามารถแก้ปัญหาที่ซับซ้อนมากขึ้นที่เกี่ยวข้องกับสูตรสัญลักษณ์ แผนภาพ กราฟ และอื่น ๆ อีกมากมาย Circle to Search มีเฉพาะบน Android เท่านั้น โดยมีให้ใช้งานบนอุปกรณ์มากกว่า 100 ล้านเครื่องในปัจจุบัน และเรากำลังดำเนินการเพื่อเพิ่มจำนวนเป็นสองเท่าภายในสิ้นปีนี้
คุณเคยได้ยินจาก Sissy เกี่ยวกับการอัปเดตที่น่าทึ่งที่จะเกิดขึ้นกับแอป Gemini บน Android แล้ว Gemini เป็นมากกว่านั้น มันกำลังกลายเป็นส่วนพื้นฐานของประสบการณ์ Android นี่คือ Dave ที่จะมาแบ่งปันเพิ่มเติม
สวัสดีทุกคน สองสามเดือนก่อน เราเปิดตัว Gemini บน Android และเช่นเดียวกับ Circle to Search Gemini ทำงานในระดับระบบ ดังนั้นแทนที่จะไปที่แอปแยกต่างหาก ฉันสามารถนำ Gemini มาสู่สิ่งที่ฉันกำลังทำได้เลย ตอนนี้เรากำลังทำให้ Gemini ตระหนักถึงบริบท ดังนั้นมันจึงสามารถคาดการณ์สิ่งที่คุณพยายามทำและให้คำแนะนำที่เป็นประโยชน์มากขึ้นในขณะนั้น กล่าวอีกนัยหนึ่งคือเป็นผู้ช่วยที่เป็นประโยชน์มากขึ้น ดังนั้นขอให้ฉันแสดงให้คุณเห็นว่ามันทำงานอย่างไร และฉันมี Pixel Fold ใหม่เอี่ยมของฉันที่นี่เพื่อช่วยฉัน ดังนั้นเพื่อนของฉัน Pete กำลังถามว่าฉันต้องการเล่น pickleball ในสุดสัปดาห์นี้หรือไม่ และฉันรู้วิธีเล่นเทนนิส พอจะพูดได้ แต่ฉันยังใหม่กับ pickleball นี้ ดังนั้นฉันจะตอบกลับและพยายามที่จะตลก และฉันจะพูดว่า “มันเหมือนเทนนิสแต่ใช้ pickle หรือเปล่า” อันนี้จะตลกกว่านี้มากถ้ามันเข้าใจ ดังนั้นขอฉันให้ Gemini ช่วยเรื่องนี้ และฉันจะพูดว่า “สร้างภาพเทนนิสกับ pickle”
อย่างแรกที่คุณคิดว่าคุณจะสังเกตเห็นคือหน้าต่าง Gemini ตอนนี้ลอยอยู่เหนือแอปเพื่อให้พวกเขาอยู่ในโฟลว์ โอเค มันสร้างภาพที่ดีทีเดียว สิ่งที่ดีคือฉันสามารถลากและวางสิ่งเหล่านี้ลงในข้อความด้านล่างได้เลย เจ๋งมาก ขอฉันส่งอันนั้นไป โอเค Pete กำลังพิมพ์และเขาพูดว่า เขาส่งวิดีโอเกี่ยวกับวิธีการเล่น pickleball ให้ฉัน โอเค ขอบคุณ Pete แตะที่นั่นเพื่อเปิด YouTube แต่คุณก็รู้ว่าฉันมีคำถามสำคัญเพียงข้อหรือสองข้อเกี่ยวกับเกมนี้ และฉันสามารถนำ Gemini ขึ้นมาช่วยได้ และเนื่องจากมันมีความเข้าใจในบริบท Gemini รู้ว่าฉันกำลังดูวิดีโออยู่ ดังนั้นมันจึงแสดง “ถามวิดีโอนี้” ให้ฉันเห็นก่อน ดังนั้นขอฉันแตะที่นั่น และตอนนี้ฉันสามารถถามคำถามเฉพาะเกี่ยวกับวิดีโอได้ ตัวอย่างเช่น “กฎสองครั้งคืออะไร” เพราะนั่นคือสิ่งที่ฉันเคยได้ยินมา แต่ไม่ค่อยเข้าใจในเกม
ยังไงก็ตาม สิ่งนี้ใช้สัญญาณต่าง ๆ เช่น คำบรรยายของ YouTube ซึ่งหมายความว่าคุณสามารถใช้กับวิดีโอหลายพันล้านรายการ ดังนั้นให้เวลาสักครู่ และได้รับคำตอบที่ชัดเจน คำตอบคือ “ลูกบอลต้องกระเด้งหนึ่งครั้งในแต่ละด้านของสนามหลังจากเสิร์ฟ” โอเค เจ๋ง ขอฉันกลับไปที่ข้อความ และ Pete ได้ติดตามและเขาพูดว่า “คุณเป็นวิศวกร ดังนั้นนี่คือหนังสือกฎอย่างเป็นทางการสำหรับ pickleball” โอเค ขอบคุณ Pete เขาช่วยเหลือดีมาก
โอเค เราแตะที่นั่น เปิด PDF และนั่นเป็น PDF 84 หน้า ฉันไม่รู้ว่า Pete คิดว่าฉันมีเวลามากแค่ไหน ยังไงก็ตาม พวกเราชาววิศวกร อย่างที่พวกคุณรู้ ชอบทำงานอย่างชาญฉลาด ไม่ใช่หนักกว่า ดังนั้นแทนที่จะเลื่อนดูเอกสารทั้งหมดนี้ ฉันสามารถดึง Gemini ขึ้นมาช่วยได้ และอีกครั้ง Gemini คาดการณ์สิ่งที่ฉันต้องการ และเสนอตัวเลือก “ถาม PDF นี้” ให้ฉัน ดังนั้นถ้าฉันแตะที่นั่น Gemini จะดึงกฎทั้งหมดเข้ามา กลายเป็นผู้เชี่ยวชาญ pickleball และนั่นหมายความว่าฉันสามารถถามคำถามที่เฉพาะเจาะจงมาก ๆ ได้ เช่น “อนุญาตให้เสิร์ฟแบบหมุนได้หรือไม่” และลองกดดู เพราะฉันเคยได้ยินมาว่าอาจมีการเปลี่ยนแปลง
ตอนนี้เนื่องจากฉันเป็นผู้ใช้ Gemini Advanced สิ่งนี้ใช้งานได้กับ PDF ใดก็ได้ และใช้ประโยชน์จากหน้าต่างบริบทที่ยาวนานอย่างเต็มที่ และมีหลายครั้งที่สิ่งนี้มีประโยชน์ ตัวอย่างเช่น สมมติว่าคุณกำลังมองหาคำตอบอย่างรวดเร็วในคู่มือผู้ใช้เครื่องใช้ไฟฟ้า และนั่นคือสิ่งที่คุณได้รับ ปรากฎว่าไม่อนุญาตให้เสิร์ฟแบบหมุน ดังนั้น Gemini ไม่เพียงแต่ให้คำตอบที่ชัดเจนสำหรับคำถามของฉันเท่านั้น แต่ยังแสดงให้ฉันเห็นว่าตรงไหนใน PDF ที่จะเรียนรู้เพิ่มเติมได้อีกด้วย ยอดเยี่ยม
โอเค นั่นคือบางส่วนของวิธีที่เราปรับปรุง Gemini ให้ตระหนักถึงบริบทมากขึ้นและเป็นประโยชน์ในขณะนั้น และสิ่งที่คุณเห็นที่นี่เป็นเพียงจุดเริ่มต้นของหลาย ๆ วิธีใหม่ที่ Gemini จะปลดล็อกประสบการณ์ใหม่ ๆ ในระดับระบบ และมีเฉพาะบน Android เท่านั้น คุณจะเห็นสิ่งเหล่านี้และอื่น ๆ อีกมากมายที่จะมาถึงอุปกรณ์หลายร้อยล้านเครื่องในอีกสองสาม
หน้า 61-70
ทั้ง 1.5 Pro และ 1.5 Flash มีให้บริการแล้วทั่วโลกในกว่า 200 ประเทศและดินแดน คุณสามารถไปที่ AI Studio หรือ Vertex AI หากคุณเป็นลูกค้า Google Cloud เพื่อทดลองใช้ได้เลย
โมเดลทั้งสองนี้เป็นแบบหลายรูปแบบโดยกำเนิด ซึ่งหมายความว่าคุณสามารถสลับข้อความ รูปภาพ เสียง และวิดีโอเป็นอินพุต และใส่ลงในหน้าต่างบริบทขนาดใหญ่ 1 ล้านโทเค็น และถ้าคุณไปที่ AI.Google Dev วันนี้ คุณสามารถลงทะเบียนเพื่อทดลองใช้หน้าต่างบริบท 2 ล้านโทเค็นสำหรับ 1.5 Pro นอกจากนี้ เรายังเพิ่มคุณสมบัติใหม่ ๆ สำหรับนักพัฒนาอีกมากมาย เริ่มต้นด้วยการแยกเฟรมวิดีโอที่จะอยู่ใน Gemini API การเรียกใช้ฟังก์ชันแบบขนาน เพื่อให้คุณสามารถส่งคืนการเรียกใช้ฟังก์ชันมากกว่าหนึ่งครั้งในแต่ละครั้ง และสิ่งที่ฉันชอบที่สุดคือการแคชบริบท เพื่อให้คุณสามารถส่งไฟล์ทั้งหมดของคุณไปยังโมเดลหนึ่งครั้งและไม่ต้องส่งซ้ำแล้วซ้ำอีก ซึ่งจะทำให้บริบทที่ยาวนานมีประโยชน์และราคาไม่แพงมากขึ้น มันจะเปิดตัวในเดือนหน้า
ตอนนี้เรากำลังใช้โครงสร้างพื้นฐานของ Google เพื่อให้บริการโมเดลเหล่านี้ เพื่อให้นักพัฒนาอย่างพวกคุณทุกคนสามารถได้รับราคาที่ดี 1.5 Pro ราคา $7 ต่อ 1 ล้านโทเค็น และผมตื่นเต้นที่จะแบ่งปันว่าสำหรับพรอมต์ที่มีขนาดไม่เกิน 128k จะลดลง 50% เหลือ $3.50 และ 1.5 Flash จะเริ่มต้นที่ 35 เซนต์ต่อ 1 ล้านโทเค็น
สิ่งหนึ่งที่คุณอาจสงสัยคือโมเดลใดดีที่สุดสำหรับกรณีการใช้งานของคุณ นี่คือวิธีที่เราคิดในทีม เราใช้ 1.5 Pro สำหรับงานที่ซับซ้อนที่คุณต้องการการตอบกลับที่มีคุณภาพสูงสุด และไม่เป็นไรถ้าใช้เวลานานขึ้นเล็กน้อยในการตอบกลับ เราใช้ 1.5 Flash สำหรับงานด่วนที่ความเร็วของโมเดลมีความสำคัญมากที่สุด และในฐานะนักพัฒนา คุณสามารถลองใช้ทั้งสองอย่างได้ในวันนี้และดูว่าแบบใดเหมาะกับคุณที่สุด
ตอนนี้ผมจะแสดงให้คุณเห็นว่ามันทำงานอย่างไรใน AI Studio วิธีที่เร็วที่สุดในการสร้างด้วย Gemini เราจะดึงมันขึ้นมาที่นี่ และคุณสามารถเห็นว่านี่คือ AI Studio ใช้งานได้ฟรี คุณไม่ต้องกำหนดค่าอะไรเพื่อเริ่มต้น เพียงไปที่ AI Studio.google.com เข้าสู่ระบบด้วยบัญชี Google ของคุณ และคุณสามารถเลือกโมเดลที่เหมาะสมกับคุณได้ทางด้านขวา
หนึ่งในวิธีที่เราใช้ 1.5 Flash คือการเรียนรู้จากความคิดเห็นของลูกค้าเกี่ยวกับผลิตภัณฑ์ Labs บางอย่างของเรา Flash ทำให้สิ่งนี้เป็นไปได้ด้วยเวลาในการตอบสนองที่ต่ำ ดังนั้นสิ่งที่เราทำที่นี่คือเรานำความคิดเห็นที่หลากหลายจากฟอรัมลูกค้าของเรามาใส่ใน Flash โหลดพรอมต์และกด Run ในเบื้องหลัง สิ่งที่มันจะทำคือมันจะผ่านข้อมูล 93,000 โทเค็นนั้น และคุณสามารถเห็นได้ว่ามันเริ่มสตรีมกลับมา นี่เป็นประโยชน์มากเพราะมันดึงธีมออกมาให้เรา มันให้สถานที่ที่เหมาะสมทั้งหมดที่เราสามารถเริ่มดูได้ และคุณสามารถเห็นได้ว่านี่มาจากประโยชน์บางอย่างจาก NotebookLM ที่เราแสดงให้เห็นก่อนหน้านี้
สิ่งที่ดีเกี่ยวกับเรื่องนี้คือคุณสามารถนำสิ่งนี้ไปไว้ใน AI Studio สร้างต้นแบบได้ใน 10 วินาที และด้วยการคลิกเพียงครั้งเดียวที่มุมซ้ายบน กดปุ่ม API key หรือที่นี่ที่มุมขวาบน เพียงแค่แตะ Get code และคุณจะได้รับการกำหนดค่าโมเดลทั้งหมด การตั้งค่าความปลอดภัยพร้อมที่จะใช้งานได้ทันทีใน IDE ของคุณ
เมื่อเวลาผ่านไป หากคุณพบว่าคุณต้องการคุณสมบัติระดับองค์กรเพิ่มเติม คุณสามารถใช้โมเดล Gemini 1.5 เดียวกันและการกำหนดค่าเดียวกันได้ใน Vertex AI ด้วยวิธีนี้คุณสามารถขยายขนาดด้วย Google Cloud ได้เมื่อความต้องการขององค์กรของคุณเติบโตขึ้น
นั่นคือ Gemini 1.5 Pro ที่ได้รับการอัปเดตใหม่ของเราและ 1.5 Flash ใหม่ ซึ่งทั้งสองอย่างนี้มีให้บริการแล้วทั่วโลกในวันนี้ และคุณจะได้ยินเพิ่มเติมเกี่ยวกับพวกมันในการประชุมนักพัฒนาในภายหลังวันนี้
ทีนี้มาเปลี่ยนเกียร์และพูดคุยเกี่ยวกับ Gemmaly ตระกูลโมเดลแบบเปิดของเรา ซึ่งมีความสำคัญอย่างยิ่งต่อการขับเคลื่อนนวัตกรรมและความรับผิดชอบของ AI Gemmaly สร้างขึ้นจากงานวิจัยและเทคโนโลยีเดียวกันกับ Gemini มันมีประสิทธิภาพสูงสุดและมาในขนาดที่เบา 7B และ 2B นับตั้งแต่เปิดตัวเมื่อไม่ถึงสามเดือนที่ผ่านมา มันได้รับการดาวน์โหลดไปแล้วหลายล้านครั้งในทุกศูนย์กลางโมเดลหลัก นักพัฒนาและนักวิจัยได้ใช้และปรับแต่งโมเดล Gemmaly พื้นฐาน และใช้ตัวแปรที่ผ่านการฝึกอบรมล่วงหน้าของเราบางส่วน เช่น ULM, CodeLM และสมาชิกใหม่ล่าสุดในวันนี้ PolyLM โมเดลแบบเปิดวิสัยทัศน์และภาษาตัวแรกของเรา และพร้อมให้ใช้งานแล้วตอนนี้ มันได้รับการปรับแต่งสำหรับงานต่าง ๆ เช่น การบรรยายภาพ การถามตอบด้วยภาพ และงานการติดฉลากภาพอื่น ๆ ดังนั้นลองไปใช้งานดู
ผมยังตื่นเต้นที่จะประกาศว่าเรามี Gemmaly 2 ที่กำลังจะมาถึง มันคือรุ่นต่อไปของ Gemmaly และจะพร้อมใช้งานในเดือนมิถุนายน หนึ่งในคำขออันดับต้น ๆ ที่เราได้ยินจากนักพัฒนาคือโมเดล Gemmaly ที่ใหญ่ขึ้น แต่ยังคงมีขนาดที่ใช้งานง่ายสำหรับพวกคุณทุกคน ดังนั้นในอีกไม่กี่สัปดาห์ข้างหน้า เราจะเพิ่มโมเดลพารามิเตอร์ 27 พันล้านตัวใหม่ให้กับ Gemmaly 2 และนี่คือสิ่งที่ยอดเยี่ยมเกี่ยวกับมัน: ขนาดนี้ได้รับการปรับแต่งโดย Nvidia ให้ทำงานบน GPU รุ่นต่อไป และสามารถทำงานได้อย่างมีประสิทธิภาพบนโฮสต์ TPU เดียวใน Vertex AI ดังนั้นอัตราส่วนคุณภาพต่อขนาดจึงน่าทึ่ง เพราะมันจะมีประสิทธิภาพดีกว่าโมเดลที่มีขนาดใหญ่กว่าสองเท่า เราแทบรอไม่ไหวที่จะเห็นสิ่งที่คุณจะสร้างขึ้นด้วยมัน
เพื่อสรุป ผมอยากจะแบ่งปันเรื่องราวที่สร้างแรงบันดาลใจนี้จากอินเดีย ที่ซึ่งนักพัฒนาได้ใช้ Gemmaly และการสร้างโทเค็นที่ไม่เหมือนใคร เพื่อสร้าง Navarasa ชุดของโมเดลที่ปรับแต่งตามคำแนะนำ เพื่อขยายการเข้าถึงภาษาอินเดีย 15 ภาษา สิ่งนี้ต่อยอดจากความพยายามของเราที่จะทำให้ข้อมูลเข้าถึงได้ในกว่า 7,000 ภาษาทั่วโลก
“ภาษาเป็นปัญหาที่ยากมากในการแก้ไขจริง ๆ และเนื่องจากอินเดียมีความหลากหลายทางภาษาอย่างมาก และมันเปลี่ยนไปทุก ๆ 5 กิโลเมตร เมื่อเทคโนโลยีได้รับการพัฒนาสำหรับวัฒนธรรมเฉพาะ มันจะไม่สามารถแก้ไขและเข้าใจความแตกต่างของประเทศอย่างอินเดียได้”
“หนึ่งในคุณสมบัติของ Gemmaly คือ tokenizer ที่ทรงพลังอย่างไม่น่าเชื่อ ซึ่งช่วยให้โมเดลสามารถใช้คำ สัญลักษณ์ และตัวอักษรหลายแสนตัวในหลายตัวอักษรและระบบภาษาต่างๆ คำศัพท์จำนวนมากนี้มีความสำคัญต่อการปรับ Gemmaly ให้ทำงานกับโครงการต่าง ๆ เช่น Navarasa”
“Navarasa เป็นโมเดลที่ได้รับการฝึกฝนสำหรับภาษาอินเดีย มันเป็นโมเดลที่ได้รับการปรับแต่งอย่างละเอียดโดยใช้ Gemmaly ของ Google เราสร้าง Navarasa เพื่อทำให้โมเดลภาษาขนาดใหญ่มีรากฐานทางวัฒนธรรม ที่ซึ่งผู้คนสามารถพูดคุยในภาษาพื้นเมืองของตนและได้รับการตอบกลับในภาษาพื้นเมือง”
“ความฝันที่ยิ่งใหญ่ที่สุดของเราคือการสร้างโมเดลเพื่อรวมทุกคนจากทุกมุมของอินเดีย”
“ทุกวันนี้ ภาษาที่คุณพูดอาจเป็นเครื่องมือและเทคโนโลยีที่คุณใช้ในการแก้ปัญหาในโลกแห่งความเป็นจริง และนั่นคือพลังของ Generative AI ที่เราต้องการนำไปสู่ทุกมุมของอินเดียและทั่วโลก”
ฟังทุกสิ่งที่ประกาศในวันนี้ เห็นได้ชัดว่า AI กำลังช่วยเหลือผู้คนแล้ว ตั้งแต่งานประจำวันไปจนถึงความพยายามที่ทะเยอทะยาน มีประสิทธิผล และสร้างสรรค์มากที่สุด นวัตกรรม AI ของเรา เช่น ความสามารถหลายรูปแบบ บริบทที่ยาวนาน และเอเจนต์ กำลังผลักดันขี
หน้า 71-75
ด้วย Learning Coach คุณจะได้รับคำแนะนำการเรียนทีละขั้นตอน พร้อมแบบฝึกหัดที่เป็นประโยชน์และเทคนิคการจำที่ออกแบบมาเพื่อสร้างความเข้าใจ แทนที่จะให้แค่คำตอบ ลองนึกภาพว่าคุณเป็นนักศึกษาที่กำลังเตรียมตัวสอบชีววิทยา หากคุณต้องการเคล็ดลับในการจำสูตรการสังเคราะห์ด้วยแสง Learning Coach ก็สามารถช่วยได้ Learning Coach พร้อมกับ gems สำเร็จรูปอื่น ๆ จะเปิดตัวใน Gemini ในอีกไม่กี่เดือนข้างหน้า และคุณสามารถจินตนาการได้ว่าคุณสมบัติอย่าง Gemini Live จะปลดล็อกการเรียนรู้อะไรได้บ้าง
อีกตัวอย่างหนึ่งคือฟีเจอร์ใหม่ใน YouTube ที่ใช้ LearnLM เพื่อทำให้วิดีโอเพื่อการศึกษามีการโต้ตอบมากขึ้น ช่วยให้คุณสามารถถามคำถามเพื่อความกระจ่าง ได้รับคำอธิบายที่เป็นประโยชน์ หรือทำแบบทดสอบ ฟีเจอร์นี้ยังใช้งานได้กับการบรรยายหรือสัมมนาที่ยาวนาน ต้องขอบคุณความสามารถในบริบทที่ยาวนานของโมเดล Gemini ฟีเจอร์นี้ใน YouTube กำลังเปิดตัวให้กับผู้ใช้ Android บางรายแล้ว
ในขณะที่เราทำงานเพื่อขยาย LearnLM ไปไกลกว่าผลิตภัณฑ์ของเราเอง เรากำลังร่วมมือกับผู้เชี่ยวชาญและสถาบันต่าง ๆ เช่น Columbia Teachers College, Arizona State University และ Khan Academy เพื่อทดสอบและปรับปรุงความสามารถใหม่ ๆ ในโมเดลของเราสำหรับการเรียนรู้ และเราได้ร่วมมือกับ MIT RAISE เพื่อพัฒนาหลักสูตรออนไลน์เพื่อช่วยให้นักการศึกษามีความเข้าใจและใช้ Generative AI ได้ดียิ่งขึ้น เรายังทำงานโดยตรงกับนักการศึกษาเพื่อสร้างเครื่องมือ Generative AI ที่มีประโยชน์มากขึ้นด้วย LearnLM ตัวอย่างเช่น ใน Google Classroom เรากำลังใช้ประโยชน์จากความก้าวหน้าที่คุณได้ยินเกี่ยวกับในวันนี้เพื่อพัฒนาวิธีใหม่ ๆ ในการลดความซับซ้อนและปรับปรุงการวางแผนบทเรียน และช่วยให้ครูสามารถปรับแต่งบทเรียนและเนื้อหาเพื่อตอบสนองความต้องการเฉพาะของนักเรียนแต่ละคน
การยืนอยู่ที่นี่ในวันนี้ทำให้ผมนึกถึงช่วงเวลาของตัวเองในฐานะนักศึกษาระดับปริญญาตรี ตอนนั้น AI ถือเป็นเรื่องเพ้อฝัน ไกลจากการใช้งานในโลกแห่งความเป็นจริง ทุกวันนี้เราสามารถเห็นว่ามีจริงมากแค่ไหน มันช่วยเหลือผู้คนมากแค่ไหน ตั้งแต่งานประจำวันไปจนถึงความพยายามที่ทะเยอทะยานที่สุด มีประสิทธิผล และสร้างสรรค์ที่สุด และยังมีอีกมากมายที่จะเกิดขึ้น นี่คือสิ่งที่กระตุ้นเรา ผมตื่นเต้นกับสิ่งที่จะเกิดขึ้นในอนาคตและสิ่งที่เราจะสร้างร่วมกับพวกคุณทุกคน กลับไปที่คุณ Sundar
ขอบคุณ James ทั้งหมดนี้แสดงให้เห็นถึงความก้าวหน้าที่สำคัญที่เราได้ทำ ในขณะที่เรามีแนวทางที่กล้าหาญและมีความรับผิดชอบในการทำให้ AI เป็นประโยชน์สำหรับทุกคน ก่อนที่เราจะสรุป ผมรู้สึกว่าบางคนอาจจะนับจำนวนครั้งที่พวกเขาพูดถึง AI ในวันนี้ และเนื่องจากทีมใหญ่ในวันนี้ได้ปล่อยให้ Google ทำงานแทนคุณ เราจึงไปข้างหน้าและนับเพื่อที่คุณจะได้ไม่ต้องทำ นั่นอาจเป็นการบันทึก จำนวนครั้งที่บางคนพูดว่า AI ผมอยากจะพูดอีกสักสองสามครั้ง แต่ผมจะไม่ทำ อย่างไรก็ตาม การนับนี้เป็นมากกว่าแค่การเล่นมุก มันสะท้อนให้เห็นถึงบางสิ่งที่ลึกซึ้งกว่านั้น เราเป็น AI-first ในแนวทางของเรามาเป็นเวลานาน ความเป็นผู้นำด้านการวิจัยของเราเป็นเวลาหลายทศวรรษได้บุกเบิกความก้าวหน้าที่ทันสมัยมากมายที่ขับเคลื่อนความก้าวหน้าของ AI สำหรับเราและสำหรับอุตสาหกรรม นอกจากนั้น เรามีโครงสร้างพื้นฐานชั้นนำระดับโลกที่สร้างขึ้นสำหรับยุค AI การเปลี่ยนแปลงที่ยิ่งใหญ่ในการค้นหาที่ขับเคลื่อนโดย Gemini ผลิตภัณฑ์ที่ช่วยเหลือในระดับที่ไม่ธรรมดา รวมถึง 15 ผลิตภัณฑ์ที่มีผู้ใช้มากกว่าครึ่งพันล้านคน และแพลตฟอร์มที่ช่วยให้ทุกคน พันธมิตร ลูกค้า ผู้สร้าง และพวกคุณทุกคนสามารถสร้างสรรค์อนาคตได้
ความก้าวหน้านี้เกิดขึ้นได้เพราะชุมชนนักพัฒนาที่น่าทึ่งของเรา พวกคุณทำให้มันเป็นจริงผ่านประสบการณ์ที่คุณสร้างขึ้นทุกวัน ดังนั้นสำหรับทุกคนที่นี่และอีกหลายล้านคนที่รับชมทั่วโลก ขอให้เรามุ่งไปสู่ความเป็นไปได้ในอนาคตและสร้างมันขึ้นมาด้วยกัน ขอบคุณ
“ขออนุญาตแนะนำตัวเองอีกครั้ง ฉันชื่อ…” “สิ่งนี้ทำให้คุณนึกถึงอะไร” “แมวของชโรดิงเงอร์ ว้าว” “โอเค เมื่อเครื่องมือทั้งหมดนี้มารวมกัน มันเป็นการผสมผสานที่ทรงพลัง น่าทึ่งมาก นั่นน่าทึ่งมาก มันเป็นชุดของความเป็นไปได้ที่แตกต่างกัน” “สวัสดี ฉันคือ Gemini” “พื้นที่ของลอนดอน เรากำลังสร้างยุคใหม่ร่วมกัน”