GitHub – Borisdayma/Dalle -Mini: Dall · e Mini – Tạo hình ảnh từ dấu nhắc văn bản, Dalle -Mini hoạt động như thế nào?
Dalle-mini hoạt động như thế nào
Nếu không có gì xảy ra, hãy tải xuống máy tính để bàn GitHub và thử lại.
Tìm kiếm đã lưu
Sử dụng các tìm kiếm đã lưu để lọc kết quả của bạn nhanh hơn
Hủy Tạo Tìm kiếm đã lưu
Bạn đã đăng nhập bằng một tab hoặc cửa sổ khác. Tải lại để làm mới phiên của bạn. Bạn đã đăng xuất trong một tab hoặc cửa sổ khác. Tải lại để làm mới phiên của bạn. Bạn đã chuyển tài khoản trên một tab hoặc cửa sổ khác. Tải lại để làm mới phiên của bạn.
Dall · e mini – Tạo hình ảnh từ dấu nhắc văn bản
Giấy phép
Borisdayma/Dalle-mini
Cam kết này không thuộc về bất kỳ chi nhánh nào trên kho lưu trữ này và có thể thuộc về một cái nĩa bên ngoài kho lưu trữ.
Không thể tải các nhánh
Tên đã được sử dụng
Một thẻ đã tồn tại với tên nhánh được cung cấp. Nhiều lệnh git chấp nhận cả tên thẻ và tên nhánh, vì vậy việc tạo nhánh này có thể gây ra hành vi bất ngờ. Bạn có chắc bạn muốn tạo chi nhánh này không?
- Địa phương
- Không gian mã hóa
Sử dụng Git hoặc thanh toán với SVN bằng URL Web.
Làm việc nhanh chóng với CLI chính thức của chúng tôi. Tìm hiểu thêm về CLI.
Cần đăng nhập
Vui lòng đăng nhập để sử dụng không gian mã hóa.
Khởi chạy máy tính để bàn GitHub
Nếu không có gì xảy ra, hãy tải xuống máy tính để bàn GitHub và thử lại.
Khởi chạy máy tính để bàn GitHub
Nếu không có gì xảy ra, hãy tải xuống máy tính để bàn GitHub và thử lại.
Khởi chạy Xcode
Nếu không có gì xảy ra, hãy tải xuống xcode và thử lại.
Ra mắt mã Visual Studio
Không gian mã của bạn sẽ mở khi sẵn sàng.
Có một vấn đề khi chuẩn bị không gian mã của bạn, vui lòng thử lại.
Cam kết mới nhất
Chỉ số Git
Các tập tin
Không tải thông tin cam kết mới nhất.
Tin nhắn cam kết mới nhất
Ngày 30 tháng 11 năm 2021 04:47
23 tháng 10 năm 2022 17:35
Ngày 30 tháng 11 năm 2021 04:38
Ngày 30 tháng 11 năm 2021 04:14
Readme.md
Dall · e mini
Làm thế nào để sử dụng nó?
Bạn có thể sử dụng mô hình trên craiyon
Làm thế nào nó hoạt động?
Tham khảo các báo cáo của chúng tôi:
- Dall · e mini – Tạo hình ảnh từ bất kỳ dấu nhắc văn bản nào
- Dall · e Mini – Giải thích
- Dall · e mega – tạp chí đào tạo
Phát triển
Cài đặt phụ thuộc
Chỉ để suy luận, hãy sử dụng PIP Cài đặt Dalle-Mini .
Để phát triển, sao chép repo và sử dụng PIP Cài đặt -E “.[Dev] ” . Trước khi tạo PR, hãy kiểm tra kiểu với phong cách Make .
Bạn có thể thử nghiệm từng bước đường ống thông qua sổ ghi chép đường ống suy luận của chúng tôi
Đào tạo Dall · E Mini
Bạn cũng có thể điều chỉnh tệp cấu hình quét nếu bạn cần thực hiện tìm kiếm siêu pharparameter.
Câu hỏi thường gặp
Nơi để tìm các mô hình mới nhất?
Các mô hình được đào tạo có trên model Hub:
- VQGAN-F16-16384 để mã hóa/giải mã hình ảnh
- Dall · e mini hoặc dall · e mega để tạo hình ảnh từ dấu nhắc văn bản
Logo đến từ đâu?
“Ghế bành trong hình bơ” đã được OpenAI sử dụng khi phát hành Dall · e để minh họa các khả năng của mô hình. Có dự đoán thành công về lời nhắc này thể hiện một cột mốc lớn đối với chúng tôi.
Đóng góp
Tham gia cộng đồng trên Laion Discord. Bất kỳ đóng góp nào đều được hoan nghênh, từ báo cáo các vấn đề đến đề xuất sửa chữa/cải tiến hoặc kiểm tra mô hình với lời nhắc tuyệt vời!
Bạn cũng có thể sử dụng các dự án tuyệt vời này từ cộng đồng:
- Xuất bản ứng dụng của riêng bạn với kho lưu trữ sân chơi Dall-e (cảm ơn Sahar)
- Hãy thử dự án Dall · E Flow để tạo, khuếch tán và nâng cấp trong quy trình làm việc của con người (cảm ơn Han Xiao)
- Chạy trên sao chép, trong trình duyệt hoặc qua API
Sự nhìn nhận
- Gương mặt để tổ chức Tuần lễ cộng đồng Flax/Jax
- Chương trình Google TPU Research Cloud (TRC) để cung cấp tài nguyên điện toán
- Trọng lượng & Xu hướng để cung cấp cơ sở hạ tầng để theo dõi thử nghiệm và quản lý mô hình
Tác giả & người đóng góp
Dall · e Mini ban đầu được phát triển bởi:
Rất cám ơn những người đã giúp làm cho nó tốt hơn:
- Các cộng đồng Dalle-Pytorch và Eleutherai để thử nghiệm và trao đổi những ý tưởng tuyệt vời
- Rohan Anil để thêm trình tối ưu hóa dầu gội phân tán và luôn đưa ra những gợi ý tuyệt vời
- Phil Wang đã cung cấp rất nhiều triển khai thú vị của các biến thể Transformer và cung cấp những hiểu biết thú vị với X-Transformers
- Kinda Crowson cho siêu điều hòa
- Nhóm Gradio đã tạo ra một giao diện người dùng tuyệt vời cho ứng dụng của chúng tôi
Trích dẫn Dall · E Mini
Nếu bạn tìm thấy Dall · e mini hữu ích trong nghiên cứu hoặc muốn giới thiệu, vui lòng sử dụng mục nhập bibtex sau đây.
@Misc, doi =, tháng =, tiêu đề =, url =, năm =>
Người giới thiệu
- “Biến thể GLU cải thiện máy biến áp”
- “DeepNet: Transformers tỷ lệ lên 1.000 lớp”
- “Normformer: Cải thiện máy biến áp trước khi chuẩn hóa thêm”
- “Swin Transformer: Máy biến áp tầm nhìn phân cấp sử dụng Windows đã thay đổi”
- “Cogview: Làm chủ thế hệ văn bản từ hình ảnh thông qua Transformers”
- “Bình thường hóa bình phương trung bình”
- “Sunformers: Transformers với sự chú ý ngẫu nhiên gấp đôi”
- “Transformers nền tảng
Trích dẫn
@Misc< title=, author=, year=, eprint=, archivePrefix=, primaryClass= >
@Misc< title=, author=, year=, eprint=, archivePrefix=, primaryClass= >
@Misc< title=, author=, year=, eprint=, archivePrefix=, primaryClass= >
@Misc< title=, author=, year=, eprint=, archivePrefix=, primaryClass= >
@Misc< title=, author=, year=, eprint=, archivePrefix=, primaryClass= >
@Misc< title=, author=, year=, url= >
@Misc< title=, author=, year=, eprint= archivePrefix=, primaryClass= >
@Misc< title=, author=, year=, eprint=, archivePrefix=, primaryClass= >
@inproceedings< title=, author=, booktitle=, year= >
@Misc< title = , author = , year = , eprint = , archivePrefix = , primaryClass = >
@Misc< title = , author = , year = , eprint = , archivePrefix = , primaryClass = >
@Misc< title = , url = , author = , publisher = , year = , >
@Misc< title = , url = , author = , publisher = , year = , >
@Misc< title = , url = , author = , publisher = , year = , >
Về
Dall · e mini – Tạo hình ảnh từ dấu nhắc văn bản
Dalle-mini hoạt động như thế nào?
Dalle Mini là một AI nguồn mở miễn phí, tạo ra hình ảnh tuyệt vời từ đầu vào văn bản. Đây là cách nó hoạt động.
Louis Bouchard
Ngày 15 tháng 6 năm 2022 • 4 phút đọc
Tôi chắc chắn rằng bạn đã nhìn thấy hình ảnh như những hình ảnh trong nguồn cấp dữ liệu Twitter của bạn trong vài ngày qua. Nếu bạn tự hỏi chúng là gì, chúng là những hình ảnh được tạo ra bởi một AI gọi là Dall · e Mini. Nếu bạn không bao giờ nhìn thấy những thứ đó, bạn cần đọc bài viết này vì bạn đang bỏ lỡ. Nếu bạn tự hỏi làm thế nào điều này là có thể, tốt, bạn đang ở trong bài viết hoàn hảo và sẽ biết câu trả lời trong vòng chưa đầy năm phút.
Tên này, Dall · e, phải rung chuông khi tôi trình bày hai phiên bản của mô hình này do mở AI trong năm qua với kết quả đáng kinh ngạc. Nhưng cái này khác. Dall · e Mini là một dự án do cộng đồng mở được lấy cảm hứng từ phiên bản đầu tiên của Dall · e và đã tiếp tục phát triển kể từ đó, với kết quả đáng kinh ngạc nhờ Boris Dayma và tất cả những người đóng góp.
Vâng, điều này có nghĩa là bạn có thể chơi với nó ngay lập tức, nhờ vào Huggingface.
Liên kết nằm trong các tài liệu tham khảo dưới đây, nhưng cho bài viết này thêm vài giây trước khi chơi với nó. Nó sẽ có giá trị nó, và bạn sẽ biết nhiều hơn về AI này hơn mọi người bạn biết xung quanh bạn.
Ở cốt lõi, Dall · e Mini rất giống với Dall · e, vì vậy video ban đầu của tôi trên mô hình là một giới thiệu tuyệt vời về cái này. Nó có hai thành phần chính, khi bạn nghi ngờ, ngôn ngữ và mô -đun hình ảnh.
Đầu tiên, nó phải hiểu lời nhắc văn bản và sau đó tạo hình ảnh theo nó, hai điều rất khác nhau đòi hỏi hai mô hình rất khác nhau. Sự khác biệt chính với Dall · e nằm trong các kiến trúc và dữ liệu đào tạo của mô hình, nhưng quá trình đầu cuối là khá giống nhau. Ở đây, chúng tôi có một mô hình ngôn ngữ gọi là Bart. BART là một mô hình được đào tạo để chuyển đổi đầu vào văn bản thành ngôn ngữ có thể hiểu được cho mô hình tiếp theo. Trong quá trình đào tạo, chúng tôi nuôi các cặp hình ảnh với chú thích với Dall · e mini. Bart lấy chú thích văn bản và biến nó thành các mã thông báo riêng biệt và chúng tôi điều chỉnh nó dựa trên sự khác biệt giữa hình ảnh được tạo và hình ảnh được gửi làm đầu vào.
Nhưng sau đó, điều này là gì ở đây tạo ra hình ảnh? Chúng tôi gọi đây là bộ giải mã. Nó sẽ lấy biểu diễn chú thích mới này được tạo bởi BART, mà chúng ta gọi là mã hóa và sẽ giải mã nó thành một hình ảnh. Trong trường hợp này, bộ giải mã hình ảnh là VQGAN, một mô hình tôi đã đề cập trên kênh, vì vậy tôi chắc chắn mời bạn xem nó nếu bạn quan tâm.
Nói tóm lại, VQGAN là một kiến trúc tuyệt vời để làm điều ngược lại. Nó học được cách đi từ một bản đồ mã hóa như vậy và tạo ra một hình ảnh từ nó. Khi bạn nghi ngờ, GPT-3 và các mô hình tổng thể ngôn ngữ khác thực hiện một điều rất giống nhau, mã hóa văn bản và giải mã bản đồ mới được tạo thành một văn bản mới mà nó gửi lại cho bạn. Ở đây, nó cũng giống như vậy, nhưng với các pixel tạo thành một hình ảnh thay vì các chữ cái tạo thành một câu. Nó học thông qua hàng triệu cặp hình ảnh mã hóa từ Internet, vì vậy về cơ bản các hình ảnh được xuất bản của bạn với chú thích và cuối cùng trở nên khá chính xác trong việc xây dựng lại hình ảnh ban đầu.
Sau đó, bạn có thể cung cấp cho nó các mã hóa mới trông giống như những cái trong đào tạo nhưng hơi khác một chút, và nó sẽ tạo ra một hình ảnh hoàn toàn mới nhưng tương tự. Tương tự, chúng ta thường chỉ thêm một chút nhiễu vào các mã hóa này để tạo một hình ảnh mới đại diện cho cùng một dấu nhắc văn bản.
Và Voila! Đây là cách Dall · e Mini học cách tạo hình ảnh từ chú thích văn bản của bạn.
Xem thêm kết quả trong video:
Như tôi đã đề cập, nó là nguồn mở, và bạn thậm chí có thể chơi với nó ngay lập tức, nhờ vào Huggingface. Tất nhiên, đây chỉ là một cái nhìn tổng quan đơn giản và tôi đã bỏ qua một số bước quan trọng để rõ ràng. Nếu bạn thích nhiều chi tiết hơn về mô hình, tôi đã liên kết các tài nguyên tuyệt vời trong các tài liệu tham khảo bên dưới. Gần đây tôi cũng đã xuất bản hai video ngắn trên YouTube giới thiệu một số kết quả hài hước cũng như kết quả so sánh với Dall · e 2 cho cùng một lời nhắc văn bản.
Nó rất tuyệt khi thấy!
Tôi hy vọng bạn thích bài viết này và video, và nếu vậy, xin vui lòng mất vài giây để cho tôi biết trong các bình luận và để lại một.
Tôi sẽ gặp bạn, không phải tuần tới, nhưng trong hai tuần với một bài báo tuyệt vời khác!
Người giới thiệu
Tham gia kênh Discord của chúng tôi, học AI cùng nhau:
►https: // Discord.GG/learnaitogether
Đăng ký để biết thêm như thế này.
Thích ứng LLM để thực hiện các nhiệm vụ cụ thể!
Tăng hiệu suất AI với tinh chỉnh
Louis Bouchard ngày 19 tháng 9 năm 2023 • 6 phút đọc
MVDREAM: Tạo các mô hình 3D giống như thật từ các từ
MVDREAM: Cách tiếp cận văn bản đến 3 mới (giải thích)!
Louis Bouchard ngày 10 tháng 9 năm 2023 • 6 phút đọc
AI Deep Learning giải thích
Học sâu với một sự tương tự đơn giản
Dall-e Mini
Dall-e 2 là nghiên cứu đột phá từ Openai theo đuổi lời hứa vốn có của công nghệ: cho phép những người bình thường có được những siêu năng lực của người tài năng và phong phú. Hầu hết các cá nhân thiếu các kỹ năng hoặc tài năng để vẽ. Những người không thể nhưng có tiền có thể thuê các chuyên gia. Sự quyến rũ của Dall-e 2 đang vũ trang mỗi người, bất kể kỹ năng hay thu nhập, với khả năng biểu cảm của các nghệ sĩ chuyên nghiệp.
Lẩu.AI cung cấp một cách đơn giản để người tiêu dùng khám phá và khai thác sức mạnh của các trình tạo hình ảnh AI.
Dalle-mini
Trong khi Dall-e 2 là nguồn đóng cửa và độc quyền, Dall-e Mini cung cấp một giải pháp thay thế nguồn mở tuyệt vời, cho phép bất cứ ai có được khả năng tạo hình ảnh với máy tính phù hợp.
Máy phát điện đầu AI
Reimagine bản thân với AI. Tạo Selfies AI, AI Headshot, ảnh của công ty và những bức ảnh quyến rũ của chính bạn theo nhiều phong cách và cảnh khác nhau. Hoàn hảo cho hồ sơ truyền thông xã hội, ứng dụng hẹn hò, hồ sơ LinkedIn hoặc chỉ đơn giản là nhìn thấy mình theo một cách mới.
Nghệ thuật AI
Những tiến bộ trong trí tuệ nhân tạo cho phép bất cứ ai tạo ra nghệ thuật với những hướng dẫn đơn giản, giống như hướng dẫn một nghệ sĩ con người. Công nghệ này cho phép hàng tỷ người thể hiện trực quan theo cách trước đây không thể.
Dựa trên nghiên cứu tiên phong từ NVIDIA, Google, sự ổn định.AI và Openai, các mô hình hình ảnh AI này có thể hiểu các hướng dẫn đơn giản và tạo ra hình ảnh – tương tự như cách các nghệ sĩ người nhận được hướng dẫn từ những người bảo trợ. Nhưng đây là nghệ thuật hay thậm chí là trí thông minh?
Câu trả lời ngắn: Không quan trọng nếu các sản phẩm này phản ánh nghệ thuật hoặc trí thông minh. Điều quan trọng là nếu họ giúp đỡ mọi người. AI có thể giúp biến trí tưởng tượng của bạn thành hiện thực và mang lại nụ cười trên khuôn mặt của bạn hoặc có thể trở thành nền tảng của hàng hóa để bán trên Shopify, hoặc giúp bạn tạo ra tác phẩm nghệ thuật cho album tiếp theo của bạn?
Đọc thêm suy nghĩ về nghệ thuật AI.