Tôi có cần GPU để khuếch tán ổn định không? Hướng dẫn PC, Điểm chuẩn khuếch tán ổn định: GPU nào chạy AI nhanh nhất (cập nhật) | Phần cứng của Tom s
Điểm chuẩn khuếch tán ổn định: GPU nào chạy AI nhanh nhất (cập nhật)
Chúng ta sẽ nhận được một số số hiệu suất tính toán lý thuyết khác trong một khoảnh khắc, nhưng một lần nữa hãy xem xét RTX 2080 TI và RTX 3070 TI làm ví dụ. Lõi tenor 2080 TI không hỗ trợ thưa thớt và có tới 108 TFLOPS của FP16 tính toán. RTX 3070 TI hỗ trợ sự thưa thớt với 174 TFLOPS của FP16 hoặc 87 TFLOPS FP16 mà không có sự thưa thớt. Thực tế là 2080 Ti đánh bại 3070 Ti chỉ rõ sự thưa thớt không phải là một yếu tố. Logic tương tự áp dụng cho các so sánh khác như 2060 và 3050, hoặc 2070 Super và 3060 Ti.
Tôi có cần GPU để khuếch tán ổn định không?
Bạn có tự hỏi liệu bạn có cần GPU để khuếch tán ổn định không? Bạn đã đến đúng nơi.
Sự khuếch tán ổn định chắc chắn là một công cụ tạo nghệ thuật AI nhanh và trực quan như Dall-E và Midjourney. Kết quả của nó rất ấn tượng, vì vậy nó có hàng triệu người dùng ngay bây giờ. Tuy nhiên, nếu bạn muốn sử dụng nó trên PC của mình, hãy đảm bảo các yêu cầu được đáp ứng, đặc biệt là khi nói đến card đồ họa. Nói về điều đó, chúng ta sẽ nói về việc liệu khuếch tán ổn định có thể hoạt động mà không có GPU hay không nếu bạn vẫn cần một card đồ họa để hoạt động đúng.
GPU, hoặc card đồ họa, là những phần công nghệ nhỏ sẽ nâng cấp nghiêm túc mọi trải nghiệm chuyên nghiệp chơi game hoặc sáng tạo. Họ là một điều cần thiết để tạo ra nghệ thuật tạo AI ở cấp độ thương mại hoặc chuyên nghiệp hơn.
Công cụ AI cần thiết
Thỏa thuận độc quyền 10.000 tín dụng tiền thưởng miễn phí
Nội dung AI trên thương hiệu bất cứ nơi nào bạn tạo. Hơn 100.000 khách hàng tạo nội dung thực sự với Jasper. Một công cụ AI, tất cả các mô hình tốt nhất.
Trải nghiệm toàn bộ sức mạnh của trình tạo nội dung AI cung cấp kết quả cao cấp trong vài giây. 8 triệu người dùng thích viết blog nhanh hơn 10 lần, dễ dàng tạo ra các bài đăng trên phương tiện truyền thông xã hội chuyển đổi cao hơn hoặc viết các email hấp dẫn hơn. Đăng ký dùng thử miễn phí. Đọc thêm
Chỉ $ 0.00015 mỗi từ!
Máy dò AI Winston
Winston AI: Máy dò AI đáng tin cậy nhất. Winston AI là công cụ phát hiện nội dung AI hàng đầu trong ngành để giúp kiểm tra nội dung AI được tạo bằng TATGPT, GPT-4, BARD, BING CHAT, Claude và nhiều LLMS khác. Đọc thêm
Chỉ $ 0.01 trên 100 từ
Máy dò AI độc đáo
Nguyên bản.AI là phát hiện AI chính xác nhất.Trên một bộ dữ liệu thử nghiệm gồm 1200 mẫu dữ liệu, nó đạt được độ chính xác là 96% trong khi đối thủ cạnh tranh gần nhất chỉ đạt được 35%. Mở rộng chrome hữu ích. Phát hiện qua các email, tài liệu Google và trang web. Đọc thêm
*Giá trên có thể thay đổi. Hướng dẫn PC được hỗ trợ độc giả. Khi bạn mua qua các liên kết trên trang web của chúng tôi, chúng tôi có thể kiếm được một khoản hoa hồng liên kết. Tìm hiểu thêm
Vì vậy, bạn có cần một card đồ họa từ khuếch tán ổn định để nó hoạt động? Hoặc cái này có thể thay thế cái kia? Hãy cùng tìm hiểu.
Là GPU cần thiết cho khuếch tán ổn định?
Có, để khuếch tán ổn định hoạt động trơn tru mà không gặp vấn đề gì, bạn phải có GPU trên PC. Để có mức tối thiểu, hãy xem các mô hình NVIDIA 8-10 GB. Hơn nữa, hãy đảm bảo bạn có 16 GB RAM PC trong hệ thống PC để tránh mọi sự bất ổn.
GPU sẽ chạy khuếch tán ổn định mà không gặp vấn đề như tốc độ phản hồi chậm hơn. Để nói rằng khuếch tán ổn định độc quyền chạy tốt nhất trên card đồ họa sẽ không sai. Đối với GPU sẽ sử dụng, chúng tôi đề xuất các mẫu NVIDIA RTX 4080 và 4090 với VRAM 16 hoặc 24 GB để có kết quả tốt nhất. Đây là những bộ dụng cụ mạnh mẽ nghiêm túc sẽ đảm bảo cho bạn một dịch vụ nhanh chóng.
Có thể chạy khuếch tán ổn định trên GPU AMD không?
Có, bạn cũng có thể chạy khuếch tán ổn định trên GPU AMD, ngoài các mẫu NVIDIA Series. Tuy nhiên, để sử dụng AMD, hãy đảm bảo bạn có một mô hình trên RX470. Hơn nữa, để có kết quả tốt nhất, hãy đảm bảo có thêm 8GB trở lên để tránh bất kỳ sự bất tiện nào.
Câu hỏi thường gặp
Có thể ổn định khuếch tán trên bộ xử lý Apple Mac?
Có, khuếch tán ổn định hỗ trợ sách của Apple Mac. Tuy nhiên, nó chỉ hỗ trợ các mẫu M1 và M1 dựa trên silicon. Bất kỳ mô hình nào trước đó không phải vì kết quả tốt nhất. Ngay cả một mô hình M1 và M2 cũ hơn cũng sẽ ổn nếu nó đáp ứng các yêu cầu.
Phần kết luận
Có GPU là một yêu cầu bắt buộc trong thế giới công nghệ ngày nay. Cố gắng có mô hình mới nhất và nhanh nhất cho GPU hoặc các hỗ trợ đồ họa khác. Do đó, để khuếch tán ổn định, tốt nhất là có GPU. Mặc dù có một vài cách để chạy nó mà không có GPU, nhưng chúng không đáng tin cậy như chúng có vẻ. Vì vậy, hãy đảm bảo có một card đồ họa tốt trước khi chạy khuếch tán ổn định để có kết quả tốt nhất.
Một card đồ họa cũng là một ý tưởng tốt nói chung để tận dụng tối đa PC của bạn. Họ cải thiện trò chơi và trải nghiệm sáng tạo gấp mười lần. Nếu bạn cần ý tưởng về cái nào sẽ đến, hãy xem các thẻ đồ họa tốt nhất của chúng tôi ở đây.
Điểm chuẩn khuếch tán ổn định: GPU nào chạy AI nhanh nhất (cập nhật)
Trí tuệ nhân tạo và học tập sâu liên tục trong các tiêu đề ngày nay, cho dù đó là nhà thờ tạo ra lời khuyên kém, xe tự lái, nghệ sĩ bị buộc tội sử dụng AI, lời khuyên y tế từ AI, và nhiều hơn nữa. Hầu hết các công cụ này đều dựa vào các máy chủ phức tạp với nhiều phần cứng để đào tạo, nhưng sử dụng mạng được đào tạo thông qua suy luận có thể được thực hiện trên PC của bạn, sử dụng card đồ họa của nó. Nhưng GPU tiêu dùng nhanh như thế nào để thực hiện suy luận AI?
Chúng tôi đã đánh giá điểm khuếch tán ổn định, một người tạo hình ảnh AI phổ biến, trên NVIDIA, AMD mới nhất và thậm chí là GPU Intel để xem cách họ xếp chồng lên nhau. Nếu bạn tình cờ cố gắng để có được sự khuếch tán ổn định và chạy trên PC của riêng bạn, bạn có thể có một số ý nghĩa về mức độ phức tạp – hoặc đơn giản! – đó có thể là. Tóm tắt ngắn là GPU của NVIDIA cai trị con gà trống, với hầu hết các phần mềm được thiết kế bằng CUDA và các công cụ NVIDIA khác. Nhưng điều đó không có nghĩa là bạn không thể có được sự khuếch tán ổn định chạy trên GPU khác.
Cuối cùng chúng tôi đã sử dụng ba dự án khuếch tán ổn định khác nhau để thử nghiệm, chủ yếu là do không có gói nào hoạt động trên mỗi GPU. Đối với NVIDIA, chúng tôi đã chọn phiên bản WebUI của Automatic 1111; Nó hoạt động tốt nhất, có nhiều lựa chọn hơn và dễ dàng chạy. GPU AMD đã được kiểm tra bằng NOD.Phiên bản cá mập của AI – Chúng tôi đã kiểm tra hiệu suất trên GPU NVIDIA (ở cả hai chế độ Vulkan và Cuda) và thấy nó là. thiếu. Việc chạy GPU ARC của Intel là khó khăn hơn một chút, do thiếu sự hỗ trợ, nhưng Openvino khuếch tán ổn định đã cho chúng tôi một số rất chức năng cơ bản.
Tuyên bố miễn trừ trách nhiệm theo thứ tự. Chúng tôi đã không mã hóa bất kỳ công cụ nào trong số này, nhưng chúng tôi đã tìm kiếm những thứ dễ dàng để chạy (dưới Windows) dường như cũng được tối ưu hóa hợp lý. Chúng tôi tương đối tự tin rằng các bài kiểm tra sê-ri 30-series của NVIDIA thực hiện tốt công việc trích xuất gần với hiệu suất tối ưu-đặc biệt là khi XFormers được bật, giúp tăng thêm hiệu suất ~ 20% (mặc dù ở độ chính xác giảm có thể ảnh hưởng đến chất lượng). Kết quả RTX 40-series trong khi đó ban đầu thấp hơn, nhưng George Sv8arj đã cung cấp bản sửa lỗi này, trong đó thay thế các DLL Pytorch Cuda đã tăng hiệu suất lành mạnh cho hiệu suất.
Các kết quả AMD cũng là một chút của một túi hỗn hợp: GPU RDNA 3 hoạt động rất tốt trong khi GPU RDNA 2 có vẻ khá tầm thường. Gật đầu.AI cho chúng tôi biết rằng họ vẫn đang hoạt động trên các mô hình ‘điều chỉnh’ cho RDNA 2, điều này sẽ tăng hiệu suất khá nhiều (có khả năng gấp đôi) khi chúng có sẵn. Cuối cùng, trên Intel GPU, mặc dù hiệu suất cuối cùng dường như phù hợp với các tùy chọn AMD, nhưng trên thực tế, thời gian để kết xuất dài hơn đáng kể – phải mất 5 giây trước khi nhiệm vụ thế hệ thực tế khởi động và có lẽ rất nhiều thêm những thứ nền đang xảy ra làm chậm nó.
Chúng tôi cũng đang sử dụng các mô hình khuếch tán ổn định khác nhau, do sự lựa chọn của các dự án phần mềm. Gật đầu.Phiên bản cá mập của AI sử dụng SD2.1, trong khi Automatic 1111 và OpenVino sử dụng SD1.4 (mặc dù có thể kích hoạt SD2.1 trên tự động 1111). Một lần nữa, nếu bạn có một số kiến thức bên trong về khuếch tán ổn định và muốn đề xuất các dự án nguồn mở khác nhau có thể chạy tốt hơn những gì chúng tôi đã sử dụng, hãy cho chúng tôi biết trong các bình luận (hoặc chỉ gửi email).
Các tham số thử nghiệm của chúng tôi giống nhau cho tất cả các GPU, mặc dù không có tùy chọn nào cho tùy chọn nhắc âm trên phiên bản Intel (ít nhất, không phải chúng tôi có thể tìm thấy). Bộ sưu tập trên được tạo bằng cách sử dụng WebUI của Automatic 1111 trên GPU NVIDIA, với đầu ra độ phân giải cao hơn (mất nhiều, nhiều lâu hơn để hoàn thành). Đó là cùng một lời nhắc nhưng nhắm mục tiêu 2048×1152 thay vì 512×512 mà chúng tôi đã sử dụng cho điểm chuẩn của chúng tôi. Lưu ý rằng các cài đặt chúng tôi đã chọn đã được chọn để làm việc trong cả ba dự án SD; Một số tùy chọn có thể cải thiện thông lượng chỉ có sẵn trên bản dựng của Automatic 1111, nhưng nhiều hơn về sau đó. Dưới đây là các cài đặt thích hợp:
Lời nhắc tích cực:
Thành phố Steampunk Postapocalyptic, Thăm dò, Điện ảnh, Thực tế, Hiêu chi tiết, Chi tiết tối đa quang học, Ánh sáng thể tích, (((Focus))) , dây leo, hủy diệt, tàn phá, wartorn, tàn tích
Lời nhắc tiêu cực:
(((mờ))), ((sương mù)), (((tối))), ((đơn sắc)), mặt trời, ((độ sâu của trường)))
Các bước:
100
Trình phân loại hướng dẫn miễn phí:
15.0
Thuật toán lấy mẫu:
Một số biến thể Euler (Tổ tiên trên Automatic 1111, Shark Euler rời rạc trên AMD)
Thuật toán lấy mẫu dường như không ảnh hưởng lớn đến hiệu suất, mặc dù nó có thể ảnh hưởng đến đầu ra. Automatic 1111 cung cấp nhiều tùy chọn nhất, trong khi bản dựng Intel OpenVino không cung cấp cho bạn bất kỳ lựa chọn nào.
Dưới đây là kết quả từ thử nghiệm của chúng tôi về AMD RX 7000/6000-series, NVIDIA RTX 40/30-series và GPU ARC ARC ARC ARC. Lưu ý rằng mỗi GPU NVIDIA có hai kết quả, một kết quả sử dụng mô hình tính toán mặc định (chậm hơn và màu đen) và thứ hai bằng thư viện “Xformers” nhanh hơn từ Facebook (nhanh hơn và màu xanh lá cây).
Đúng như dự đoán, GPU của Nvidia mang lại hiệu suất vượt trội – đôi khi bằng tỷ suất lợi nhuận lớn – so với bất cứ điều gì từ AMD hoặc Intel. Với bản sửa lỗi DLL cho ngọn đuốc tại chỗ, RTX 4090 mang lại hiệu suất cao hơn 50% so với RTX 3090 T. Chỉ mất hơn ba giây để tạo ra mỗi hình ảnh và ngay cả RTX 4070 TI cũng có thể ré lên qua 3090 Ti (nhưng không phải nếu bạn vô hiệu hóa XFormers).
Mọi thứ rơi ra một cách khá nhất quán từ các thẻ hàng đầu cho GPU NVIDIA, từ 3090 đến 3050. Trong khi đó, RX 7900 XTX của AMD liên kết RTX 3090 Ti (sau khi kiểm tra thêm) trong khi RX 7900 XT có. 7900 thẻ trông khá tốt, trong khi mỗi thẻ RTX 30-series cuối cùng đánh bại các bộ phận RX 6000 của AMD (bây giờ). Cuối cùng, GPU Intel ARC đến gần cuối cùng, chỉ có A770 quản lý để vượt qua RX 6600. Hãy nói thêm một chút về sự khác biệt.
Tối ưu hóa thích hợp có thể tăng gấp đôi hiệu suất trên thẻ RX 6000-series. Gật đầu.AI nói rằng nó nên đã điều chỉnh các mô hình cho rDNA 2 trong những ngày tới, tại thời điểm đó, vị trí tổng thể sẽ bắt đầu tương quan tốt hơn với hiệu suất lý thuyết. Nói về cái gật đầu.AI, chúng tôi cũng đã thực hiện một số thử nghiệm của một số GPU NVIDIA bằng cách sử dụng dự án đó và với các mô hình Vulkan, các thẻ NVIDIA đã chậm hơn đáng kể so với bản dựng của Automatic 1111 (15.52 IT/S trên 4090, 13.31 trên 4080, 11.41 trên 3090 Ti và 10.76 trên 3090 – Chúng tôi không thể kiểm tra các thẻ khác vì chúng cần được bật trước).
Dựa trên hiệu suất của 7900 thẻ sử dụng các mô hình được điều chỉnh, chúng tôi cũng tò mò về các thẻ NVIDIA và mức độ họ có thể hưởng lợi từ lõi tenor của họ. Trên giấy tờ, 4090 có hơn năm lần hiệu suất của RX 7900 XTX – và 2.7 lần hiệu suất ngay cả khi chúng ta giảm thiểu tình trạng khan hiếm. Trong thực tế, 4090 ngay bây giờ chỉ nhanh hơn khoảng 50% so với XTX với các phiên bản chúng tôi đã sử dụng (và điều đó giảm xuống chỉ còn 13% nếu chúng tôi bỏ qua kết quả xformers chính xác thấp hơn). Logic tương tự đó cũng áp dụng cho thẻ cung của Intel.
GPU ARC của Intel hiện mang lại kết quả rất đáng thất vọng, đặc biệt là khi chúng hỗ trợ các hoạt động FP16 XMX (ma trận) sẽ cung cấp tối đa 4 lần thông lượng dưới dạng tính toán FP32 thông thường. Chúng tôi nghi ngờ dự án Openvino khuếch tán ổn định hiện tại mà chúng tôi đã sử dụng cũng để lại rất nhiều chỗ để cải thiện. Ngẫu nhiên, nếu bạn muốn thử và chạy SD trên GPU ARC, lưu ý rằng bạn phải chỉnh sửa ‘Ổn định_diffusion_engine.Tệp ‘và thay đổi “CPU” thành “GPU” – nếu không, nó sẽ không sử dụng các card đồ họa để tính toán và mất nhiều thời gian hơn.
Nhìn chung, sử dụng các phiên bản được chỉ định, thẻ RTX 40 của NVIDIA là lựa chọn nhanh nhất, tiếp theo là 7900 thẻ và sau đó là GPUS RTX 30-series. Các loại chất kém hiệu quả của RX 6000-series và GPU ARC trông thường kém. Mọi thứ có thể thay đổi hoàn toàn với phần mềm được cập nhật và với sự phổ biến của AI, chúng tôi hy vọng đó chỉ là vấn đề thời gian trước khi chúng tôi thấy điều chỉnh tốt hơn (hoặc tìm dự án phù hợp đã được điều chỉnh để mang lại hiệu suất tốt hơn).
Chúng tôi cũng đã thực hiện một số bài kiểm tra về GPU Legacy, cụ thể là kiến trúc Turing của NVIDIA (RTX 20- và GTX 16-series) và AMD RX 5000-series của AMD. RX 5600 XT đã thất bại vì vậy chúng tôi đã rời khỏi thử nghiệm tại RX 5700 và GTX 1660 Super đủ chậm để chúng tôi cảm thấy không cần phải kiểm tra thêm về các phần cấp thấp hơn. Nhưng kết quả ở đây khá thú vị.
Đầu tiên, RTX 2080 TI kết thúc vượt trội so với RTX 3070 Ti. Điều đó thường không xảy ra, và trong các trò chơi, ngay cả Vanilla 3070 có xu hướng đánh bại cựu vô địch. Quan trọng hơn, những con số này cho thấy rằng các tối ưu hóa “thưa thớt” của Nvidia trong kiến trúc ampe hoàn toàn không được sử dụng – hoặc có lẽ chúng chỉ đơn giản là không áp dụng.
Chúng ta sẽ nhận được một số số hiệu suất tính toán lý thuyết khác trong một khoảnh khắc, nhưng một lần nữa hãy xem xét RTX 2080 TI và RTX 3070 TI làm ví dụ. Lõi tenor 2080 TI không hỗ trợ thưa thớt và có tới 108 TFLOPS của FP16 tính toán. RTX 3070 TI hỗ trợ sự thưa thớt với 174 TFLOPS của FP16 hoặc 87 TFLOPS FP16 mà không có sự thưa thớt. Thực tế là 2080 Ti đánh bại 3070 Ti chỉ rõ sự thưa thớt không phải là một yếu tố. Logic tương tự áp dụng cho các so sánh khác như 2060 và 3050, hoặc 2070 Super và 3060 Ti.
Đối với các thẻ RDNA của AMD, RX 5700 XT và 5700, có một khoảng cách rộng về hiệu suất. Vùng đất 5700 XT chỉ trước 6650 XT, nhưng 5700 vùng đất bên dưới 6600. Trên giấy tờ, thẻ XT phải nhanh hơn tới 22%. Tuy nhiên, trong thử nghiệm của chúng tôi, nó nhanh hơn 37%. Dù bằng cách nào, cả hai GPU Navi 10 cũ đều đặc biệt hiệu quả trong các điểm chuẩn khuếch tán ổn định ban đầu của chúng tôi.
Cuối cùng, GTX 1660 Super trên giấy sẽ là khoảng 1/5 hiệu suất lý thuyết của RTX 2060, sử dụng lõi tenor ở sau. Nếu chúng ta sử dụng hiệu suất của shader với fp16 (Turing có gấp đôi thông lượng trên mã shader fp16), khoảng cách sẽ thu hẹp chỉ số thâm hụt 22%. Nhưng trong thử nghiệm của chúng tôi, GTX 1660 Super chỉ có khoảng 1/10 tốc độ của RTX 2060.
Một lần nữa, không rõ chính xác như thế nào được tối ưu hóa bất kỳ dự án nào trong số này. Cũng không rõ liệu các dự án này có tận dụng đầy đủ những thứ như lõi tenor của Nvidia hay lõi XMX của Intel. Như vậy, chúng tôi nghĩ rằng sẽ rất thú vị khi nhìn vào hiệu suất lý thuyết tối đa (TFLOPS) từ các GPU khác nhau. Biểu đồ sau đây cho thấy hiệu suất FP16 lý thuyết cho mỗi GPU (chỉ nhìn vào các card đồ họa gần đây), sử dụng lõi tenor/ma trận nếu có. Kết quả của Nvidia cũng bao gồm sự khan hiếm – về cơ bản khả năng bỏ qua các phép nhân với 0 cho tối đa một nửa các tế bào trong một ma trận, được cho là một sự xuất hiện khá thường xuyên với khối lượng công việc học tập sâu.
Những lõi tenor trên nvidia rõ ràng đóng gói một cú đấm (các thanh màu xám/đen không có độ thưa), và rõ ràng là thử nghiệm khuếch tán ổn định của chúng tôi không khớp với chính xác với những con số này – thậm chí không đóng. Ví dụ, trên giấy tờ RTX 4090 (sử dụng FP16) nhanh hơn tới 106% so với RTX 3090 Ti, trong khi trong các thử nghiệm của chúng tôi, nó nhanh hơn 43% mà không có XFormers và nhanh hơn 50% với XFormers. Cũng lưu ý rằng chúng tôi giả sử dự án khuếch tán ổn định mà chúng tôi đã sử dụng (tự động 1111) không tận dụng các hướng dẫn FP8 mới trên GPU ADA Lovelace, có khả năng tăng gấp đôi hiệu suất trên RTX 40-series một lần nữa.
Trong khi đó, hãy nhìn vào GPU ARC. Các lõi ma trận của chúng sẽ cung cấp hiệu suất tương tự như RTX 3060 TI và RX 7900 XTX, cho hoặc nhận, với A380 xuống xung quanh RX 6800. Trong thực tế, GPU ARC không ở gần những dấu hiệu đó. Vùng đất GPU A770 nhanh nhất giữa RX 6600 và RX 6600 XT, A750 rơi ngay sau RX 6600 và A380 là một phần tư tốc độ của A750. Vì vậy, tất cả chúng đều có một phần tư hiệu suất dự kiến, điều này sẽ có ý nghĩa nếu các lõi XMX không được sử dụng.
Các tỷ lệ nội bộ trên ARC trông có vẻ đúng. Hiệu suất tính toán lý thuyết trên A380 là khoảng một phần tư A750 và đó là nơi nó hạ cánh về hiệu suất khuếch tán ổn định ngay bây giờ. Nhiều khả năng, GPU ARC đang sử dụng Shader cho các tính toán, ở chế độ FP32 chính xác đầy đủ và bỏ lỡ một số tối ưu hóa bổ sung.
Một điều khác cần chú ý là tính toán lý thuyết trên RX 7900 XTX/XT của AMD được cải thiện rất nhiều so với RX 6000-series. Chúng ta sẽ phải xem các mô hình 6000-series được điều chỉnh có đóng các khoảng trống không, như gật đầu.AI cho biết họ mong đợi khoảng 2 lần hiệu suất trên RDNA 2. Băng thông bộ nhớ không phải là một yếu tố quan trọng, ít nhất là đối với độ phân giải mục tiêu 512×512 mà chúng tôi đã sử dụng – các mô hình 3080 10GB và 12GB đất tương đối gần nhau.
Đây là một cái nhìn khác về hiệu suất FP16 lý thuyết, lần này chỉ tập trung vào những gì GPU khác nhau có thể làm thông qua các tính toán shader. Kiến trúc AMPERE và ADA của NVIDIA chạy FP16 với tốc độ tương đương với FP32, vì giả định là FP16 có thể được mã hóa để sử dụng các lõi tenor. Ngược lại, GPU AMD và Intel có hiệu suất gấp đôi trên các tính toán của FP16 Shader so với FP32.
Rõ ràng, cái nhìn thứ hai này về tính toán fp16 không phù hợp với hiệu suất thực tế của chúng tôi tốt hơn biểu đồ với lõi tenxơ và ma trận, nhưng có lẽ có sự phức tạp bổ sung trong việc thiết lập các tính toán ma trận và vì vậy hiệu suất đầy đủ yêu cầu. một cái gì đó thêm. Điều này đưa chúng ta đến một biểu đồ cuối cùng.
Biểu đồ cuối cùng này cho thấy kết quả kiểm tra độ phân giải cao hơn của chúng tôi. Chúng tôi đã không kiểm tra GPU AMD mới, vì chúng tôi phải sử dụng Linux trên thẻ AMD RX 6000-series và rõ ràng là RX 7000-series cần một hạt nhân Linux mới hơn và chúng tôi không thể làm cho nó hoạt động. Nhưng hãy xem kết quả RTX 40-series, với DLL Torch được thay thế.
RTX 4090 hiện nhanh hơn 72% so với 3090 Ti mà không có XFormers và nhanh hơn 134% với Xformers. 4080 cũng đánh bại 3090 TI 55%/18% có/không có xformers. 4070 Ti thú vị là chậm hơn 22% so với 3090 TI không có xformers, nhưng nhanh hơn 20% với xformers.
Có vẻ như độ phân giải mục tiêu phức tạp hơn của 2048×1152 bắt đầu tận dụng lợi thế tốt hơn của các tài nguyên tính toán tiềm năng và có lẽ thời gian chạy dài hơn có nghĩa là các lõi tenor có thể uốn cong hoàn toàn cơ bắp của chúng.
Cuối cùng, đây là một ảnh chụp nhanh trong thời gian hiệu suất khuếch tán ổn định. Chúng tôi đang thấy các bản cập nhật dự án thường xuyên, hỗ trợ cho các thư viện đào tạo khác nhau và hơn thế nữa. Chúng ta sẽ thấy về việc xem lại chủ đề này nhiều hơn trong năm tới, hy vọng với mã được tối ưu hóa tốt hơn cho tất cả các GPUS khác nhau.
Ở lại trước
Tham gia cùng các chuyên gia đọc phần cứng của Tom cho bài hát bên trong trên Tin tức Tech của người đam mê – và đã có hơn 25 năm. Chúng tôi sẽ gửi tin tức phá vỡ và đánh giá chuyên sâu về CPU, GPU, AI, phần cứng của nhà sản xuất và thẳng vào hộp thư đến của bạn.
Bằng cách gửi thông tin của bạn, bạn đồng ý với Điều khoản & Điều kiện và Chính sách bảo mật và từ 16 tuổi trở lên.
Jarred Walton là một biên tập viên cao cấp tại phần cứng của Tom tập trung vào mọi thứ GPU. Anh ấy đã làm việc như một nhà báo công nghệ từ năm 2004, viết cho Anandtech, Maximum PC và PC Gamer. Từ S3 Virge ‘3D Decelerators’ cho đến GPU ngày nay, Jarred theo kịp tất cả các xu hướng đồ họa mới nhất và là người hỏi về hiệu suất trò chơi.