https://blog.tanika.ai/wp-content/themes/osmosis/images/empty/thumbnail.jpg 150 150 Tanika Tanika https://blog.tanika.ai/wp-content/themes/osmosis/images/empty/thumbnail.jpg 03/22/2024 03/22/2024

GTC hàng năm vẫn luôn khởi đầu một cách thành công, mạnh mẽ với sự góp mặt của người đồng sáng lập và Giám đốc điều hành Jensen Huang. Họ sẽ cùng nhau trình bày chi tiết về công nghệ phần cứng và phần mềm mới trong “cuộc đua marathon 2 giờ” đầy tốc độ, dữ liệu và các bản demo ấn tượng. Sự kiện thường niên này đã thay đổi qua nhiều năm, từ một hội nghị về đồ họa, giờ đây nó đã trở thành một hội nghị với một loạt công nghệ điện toán tăng tốc đẳng cấp thế giới. Và năm nay cũng không ngoại lệ, Jensen đã có một bài phát biểu quan trọng, thú vị và tuyệt vời. Hội nghị sẽ tiếp tục diễn ra trong tuần này với nhiều bài thuyết trình chi tiết của các kỹ sư và nhà phát triển ứng dụng NVIDIA.

NVIDIA tuyên bố đã tăng hiệu suất AI lên hàng triệu lần trong 10 năm qua.

Key Takeaways:

Hàng loạt công nghệ đã được giới thiệu trong buổi hội thảo này, tuy nhiên, để bạn không phải mất thời gian, Tanika đã liệt kê những ý chính, quan trọng nhất phía dưới đây:

1. Hôm nay thế giới thức dậy trước một bối cảnh thậm chí còn thách thức hơn đối với tất cả những người mới đến muốn giành lấy “một miếng bánh” của Jensen. Trong khi nhiều đối thủ có phần cứng rất tuyệt vời sẽ tìm được những ngôi nhà tốt, thì bộ phần mềm NVIDIA thực sự đã trở nên không thể chấp nhận được trong AI và HPC chính thống. Các đối thủ sẽ phải tìm ra một lợi thế duy nhất, như hiệu suất tiết kiệm năng lượng của Qualcomm, hiệu suất xử lý của con chip Cerebras Wafer Scale, cách tiếp cận cắm và chạy (plug and play) của Graphcore, và hiệu suất ấn tượng trong tính toán hiệu suất cao của AMD. Bạn cần phải tránh các cuộc đối đầu trực diện; tìm một phân khúc thích hợp, thống trị nó, sau đó tìm phân khúc tiếp theo.

2. Lưu ý rằng Jensen không bắt đầu bài phát biểu của mình bằng việc giới thiệu phần cứng mới; ông bắt đầu với phần mềm NVIDIA, phần mềm nắm giữ chìa khóa của vương quốc AI. Chi tiết như thế nào, chúng tôi sẽ viết thêm về điều đó sau.

3. Omniverse hiện diện ở khắp mọi nơi; trên thực tế, tất cả các bản demo và mô phỏng trưng bày đều được tạo bằng nền tảng metaverse của NVIDIA. Bản demo tối ưu hóa trung tâm phân phối bằng Omniverse của Amazon khá ấn tượng. Có thể Meta đã lấy tên đó; NVIDIA đang cung cấp các giải pháp thực tế dựa trên công nghệ và sự hợp tác của bản sao số và kỹ thuật số.

4. Hopper chứng tỏ sự chuyển đổi thành công của NVIDIA từ GPU cũng hỗ trợ AI sang bộ gia tốc điện toán cũng hỗ trợ Đồ họa. Transformer Engine mới là một ví dụ khác về khả năng tăng tốc đã bắt đầu từ hai thế hệ trước với TensorCores dành cho mạng thần kinh “truyền thống”.

Bộ máy biến áp mới là một ví dụ khác về gia tốc bắt đầu từ hai thế hệ trước với TensorCores cho các mạng thần kinh nhân tạo (neural networks) “truyền thống”.

5. CPU Grace dựa trên Arm, ra mắt vào năm 2023, là nhân tố thay đổi cuộc chơi, cả về hiệu suất trên mỗi ổ cắm và khả năng tích hợp CPU-GPU. Jensen thực sự đang hình dung lại trung tâm dữ liệu hiện đại ngay từ đầu. Theo cách nói của Jensen, trung tâm dữ liệu sau khi được tăng tốc sẽ trở thành một “nhà máy trí tuệ”.

6. Chiến lược Superchip của Jensen đã bắt đầu tìm cách tích hợp thiết kế hệ thống ở cấp độ cao hơn trên một gói để tối đa hóa hiệu suất, trong khi những người khác đang tích hợp các chiplet nhỏ để giảm chi phí. Cả hai cách tiếp cận đều có giá trị nhưng mục tiêu khác nhau. Và chỉ có NVIDIA và Cerebras đang theo đuổi con đường hiệu suất tối đa.

7. Trong một động thái mang tính chiến lược và đầy bất ngờ, Jensen đã thông báo rằng IP NVLink Chip2Chip thế hệ mới thứ 4 sẽ có sẵn cho những khách hàng đang tìm cách xây dựng các giải pháp silicon tùy chỉnh, kết nối CPU và GPU NVIDIA với chip do khách hàng thiết kế. Chúng tôi tin rằng NVIDIA sẽ không đi theo con đường này một cách chủ quan; một khách hàng rất lớn phải đứng đằng sau việc này.

8. Cuối cùng, chúng tôi tin rằng Jensen Huang đã trở thành người có tầm nhìn hàng đầu trong ngành công nghệ, dẫn đầu cuộc cách mạng điện toán toàn cầu đồng thời mang đến khả năng thực thi kỹ thuật gần như hoàn hảo. Như Steve Oberlin, NVIDIA’s Acceleration CTO, đã nói với chúng tôi, văn hóa của Jensen dựa trên tốc độ ánh sáng, so sánh kết quả kỹ thuật của mình với điều tốt nhất có thể, không phải là điều tốt nhất mà các đối thủ có thể đạt được..

Kho phần mềm của NVIDIA mở rộng tới gần chục kỹ năng, được tích hợp trên Omniverse và các thư viện AI

GPU Hopper: Một lần nữa NVIDIA “tăng tiền cược”

GPU thương mại nhanh nhất hiện nay dành cho AI là A100 dựa trên NVIDIA Ampere hai năm tuổi. AMD tuyên bố GPU MI200, bắt đầu xuất xưởng ngày hôm nay, sẽ nhanh hơn cho HPC, nhưng trong AI, NVIDIA lại thống trị. Trên thực tế, khi so sánh chip này với chip khácvới tất cả các chỉ số của bộ công cụ AI MLPerf, A100 vẫn là bộ khuếch đại AI nhanh nhất, không phải GPU hay ASIC. A100 đã mở rộng việc sử dụng công cụ tăng tốc NVIDIA TensorCore cho nhiều loại dữ liệu hơn và NVIDIA hiện đã giới thiệu một công cụ mới trong GPU mới nhất của mình. Như chúng tôi đã nói, GPU mới của NVIDIA giờ đây trông giống như một ASIC cũng làm đồ họa chứ không phải một chip đồ họa cũng làm AI.

Với Hopper, dự kiến xuất xưởng vào quý tới, NVIDIA đã sử dụng năng lực kỹ thuật của mình để tăng tốc các mẫu Transformer, công nghệ AI “dựa trên sự chú ý” đã tạo ra một làn sóng ứng dụng mới kể từ khi Google phát minh ra mô hình này vào năm 2017. Transformers thực sự rất lớn, chứ không phải chỉ ở tác động đến thị trường mà ở quy mô khổng lồ của nhiều mẫu mã, được đo bằng hàng chục hoặc hàng trăm tỷ thông số. (Hãy coi các tham số của mô hình AI giống như các khớp thần kinh của não.) Mặc dù ban đầu được xây dựng để mô hình hóa các ngôn ngữ tự nhiên (NLP), các máy biến áp hiện đang được sử dụng cho nhiều loại công việc AI, một phần vì chúng cực kỳ chính xác, nhưng cũng vì chúng có thể được đào tạo dễ dàng hơn mà không cần tập dữ liệu được dán nhãn lớn; GPT-3 được huấn luyện bằng cách cho nó ăn Wikipedia. Với Hopper, NVIDIA đang đặt cược rằng “Mô hình PR” như GPT-3 sẽ trở thành công cụ thiết thực và phổ biến hơn cho thế giới thực.

Các mô hình Transformer hiện đang tìm kiếm các ứng dụng mới như thị giác máy tính, protein folding và phân đoạn

Một ví dụ tuyệt vời là OpenAI CLIP, có thể được sử dụng để tạo ra tác phẩm nghệ thuật từ đầu vào đơn giản chỉ bằng một từ. Hãy xem tác phẩm nghệ thuật hấp dẫn do AI tạo ra tại đây của Alberto Romero.

Nhưng vấn đề với máy biến áp, đặc biệt là máy biến áp lớn như GPT-3 của OpenAI, là phải mất hàng tuần để đào tạo các mô hình này với chi phí đáng kể hoặc thậm chí rất cao. Để giải quyết rào cản này đối với việc áp dụng rộng rãi hơn, NVIDIA đã tích hợp Transformer Engine vào GPU Hopper mới, tăng hiệu suất lên gấp sáu lần theo công ty. Vì vậy, thay vì mất một tuần, người ta có thể đào tạo một người mẫu trong một ngày. Phần lớn điều này được thực hiện thông qua việc triển khai độ chính xác động và cẩn thận bằng cách sử dụng định dạng dấu phẩy động 8 bit mới để bổ sung cho dấu phẩy động 16 bit. GPU cũng là GPU đầu tiên hỗ trợ HBM3 mới cho bộ nhớ cục bộ nhanh và I/O PCIe thế hệ 5.

GPU hiếm khi được sử dụng riêng lẻ. Để giải quyết các vấn đề AI lớn, siêu máy tính sử dụng hàng trăm hoặc thậm chí hàng nghìn GPU để giải quyết công việc. Để tăng tốc khả năng giao tiếp giữa các GPU, H100 dựa trên Hopper giới thiệu NVLink thế hệ thứ 4 mới, có băng thông cao hơn 50%. NVIDIA cũng đã giới thiệu bộ chuyển đổi NVLink, có thể kết nối tới 256 GPU Hopper. Trên thực tế, NVIDIA đã thông báo rằng họ đang xây dựng phiên bản kế nhiệm cho Selene, siêu máy tính Eos mới sẽ sử dụng để tăng tốc quá trình phát triển chip và tối ưu hóa mô hình của riêng NVIDIA. Ở quy mô nhỏ hơn nhiều, NVIDIA đã thông báo rằng NVLink hiện sẽ hỗ trợ liên lạc kết hợp bộ nhớ đệm Chip-to-Chip, như chúng ta sẽ thấy sau đây khi chúng ta sử dụng CPU Grace Arm. Và như chúng tôi đã nói, IP C2C sẽ có sẵn cho khách hàng để thiết kế tùy chỉnh.

NVIDIA HGX100 mới

Tất nhiên, nền tảng H100 mới sẽ có sẵn trong các máy chủ DGX, DGX Super Pods và bo mạch HGX từ hầu hết các nhà cung cấp máy chủ. Chúng tôi hy vọng gần như mọi nhà cung cấp dịch vụ đám mây sẽ hỗ trợ GPU Hopper vào cuối năm nay.

Hiệu suất của H100 khá tuyệt vời, với thời gian đào tạo trên quy mô nhanh hơn tới sáu lần, tận dụng NVLink mới và thông lượng suy luận cao hơn 30 lần.

NVIDIA tuyên bố đào tạo nhanh hơn tới 9 lần và hiệu suất suy luận nhanh hơn 30 lần so với GPU A100

Để giải quyết vấn đề xử lý suy luận của trung tâm dữ liệu, H100 hỗ trợ GPU đa phiên bản, A100 cũng vậy. NVIDIA tiết lộ rằng một phiên bản H100 MIG có thể hoạt động tốt hơn hai GPU suy luận NVIDIA T4. Lớn vào. Nhỏ ra. Vì vậy, chúng tôi không mong đợi sớm có H4, nếu có.

Cuối cùng, NVIDIA đã thông báo rằng Hopper hỗ trợ Điện toán bí mật hoàn toàn, cung cấp sự cách ly và bảo mật cho dữ liệu, mã và mô hình, những điều quan trọng trong cơ sở hạ tầng doanh nghiệp và đám mây dùng chung.

Hopper hỗ trợ Transformer Engine, tính toán bảo mật và MIG

Bước tiếp theo: Grace

Năm ngoái, NVIDIA đã thông báo trước rằng họ đang xây dựng một CPU Arm cấp trung tâm dữ liệu có tên Grace để kích hoạt các yếu tố mạng và tính toán được tích hợp chặt chẽ có thể tạo thành khối xây dựng cho điện toán AI quy mô não. Mặc dù Grace vẫn chưa sẵn sàng ra mắt nhưng dự kiến vào nửa đầu năm 2023, Jensen đã thông báo rằng nền tảng này sẽ được xây dựng dưới dạng “SuperChips”, một gói Grace có GPU Hopper và một gói có CPU Grace thứ hai. Trên thực tế, cái sau có thể tăng gấp đôi hiệu suất của bất kỳ ổ cắm máy chủ Intel hoặc AMD nào, trong khi cái trước sẽ cho phép chia sẻ bộ nhớ và liên lạc GPU với CPU cực nhanh.

Grace “Superchip” là bộ 2 vi mạch với 2 CPU Arm Grace hoặc 1 CPU & 1 GPU Hopper

Chúng tôi khẳng định rằng cạnh tranh trực tiếp với các nhà cung cấp CPU không phải là mục đích chiến lược của NVIDIA; họ không mấy quan tâm đến việc trở thành nhà cung cấp CPU thương mại, một thị trường đang phải đối mặt với sự cạnh tranh gay gắt từ các nhà cung cấp Intel, AMD, Arm và ngày càng tăng từ kỳ lân RISC-V SiFive. Grace hướng đến việc cho phép các hệ thống CPU/GPU/DPU được tích hợp chặt chẽ để có thể giải quyết các vấn đề không thể giải quyết được bằng cấu trúc liên kết CPU/GPU truyền thống. Siêu chip Grace tạo thành nền tảng cho thế hệ hệ thống được tối ưu hóa tiếp theo của NVIDIA.

Kết luận

Như chúng tôi đã nói trước đây, NVIDIA không còn chỉ là nhà cung cấp chất bán dẫn nữa; họ là một công ty trung tâm dữ liệu tăng tốc. Chỉ cần xem xét hình ảnh dưới đây. NVIDIA không chỉ có phần cứng tuyệt vời mà còn có “Hệ điều hành” đầy đủ dành cho AI, trên đó họ đã xây dựng các kỹ năng để đẩy nhanh thời gian tiếp cận thị trường của khách hàng trong các lĩnh vực chính. Đối với chúng tôi, đây không giống một công ty chip và thể hiện chiều sâu và bề rộng của hào nước phần mềm bao quanh NVIDIA, vượt xa CUDA.