babyagi – Gambaru Blog

Auto-GPT là gì mà ‘ra dẻ’ quá vậy?

Nhiệm vụ tự động hóa mọi thứ của Thung lũng Silicon không ngừng tiếp diễn, điều này giải thích nỗi ám ảnh mới nhất của nó: Auto-GPT.

Về bản chất, Auto-GPT sử dụng tính linh hoạt của các mô hình AI mới nhất của OpenAI để tương tác với phần mềm và dịch vụ trực tuyến, cho phép nó “tự động” thực hiện các tác vụ như X và Y.

Nhưng khi chúng ta đang học với các mô hình ngôn ngữ lớn, khả năng này dường như bao la như đại dương nhưng sâu thì như vũng nước.

Auto-GPT là một ứng dụng nguồn mở được tạo bởi nhà phát triển trò chơi Toran Bruce Richards, sử dụng các mô hình tạo văn bản của OpenAI, chủ yếu là GPT-3.5 và GPT-4, để hành động “tự chủ”.

Không có gì bí ẩn trong sự tự chủ đó.

Auto-GPT chỉ đơn giản là xử lý các bước tiếp theo đối với prompt (lời nhắc) ban đầu của các mô hình OpenAI, cả hỏi và trả lời chúng cho đến khi hoàn thành nhiệm vụ.

Về cơ bản, Auto-GPT là GPT-3.5 và GPT-4 được ghép nối với một bot đồng hành hướng dẫn GPT-3.5 và GPT-4 phải làm gì.

Người dùng cho Auto-GPT biết mục tiêu của họ là gì và đến lượt bot, sử dụng GPT-3.5 và GPT-4 cùng một số chương trình để thực hiện mọi bước cần thiết nhằm đạt được bất kỳ mục tiêu nào họ thiết lập.

Điều làm cho Auto-GPT có năng lực thực hiện là khả năng tương tác với các ứng dụng, phần mềm và dịch vụ cả trực tuyến và cục bộ, như trình duyệt web và trình xử lý văn bản.

Ví dụ: đưa ra prompt như “hãy giúp tôi phát triển công việc kinh doanh hoa của mình”, Auto-GPT có thể phát triển một chiến lược quảng cáo tương đối hợp lý và xây dựng một trang web cơ bản.

#AutoGPT is the new disruptive kid on the block- It can apply #ChatGPT's reasoning to broader, more intricate issues requiring planning & multiple steps.

Still early but very impressive with many health and biomedicine applications.

Just tried #AgentGPT and asked it to… pic.twitter.com/ywFhtjxjYD
— Daniel Kraft, MD (@daniel_kraft) April 12, 2023

Joe Koen, nhà phát triển phần mềm (software developer) đã thử qua Auto-GPT, giải thích Auto-GPT về cơ bản tự động hóa các dự án nhiều bước yêu cầu tạo prompt qua lại với mô hình AI định hướng chatbot như ChatGPT của OpenAI.

Koen cho biết:

“Auto-GPT xác định một tác tử (agent) giao tiếp với API của OpenAI. Mục tiêu của tác tử này là thực hiện nhiều lệnh khác nhau mà AI tạo ra để đáp ứng các yêu cầu của tác agent. Người dùng được nhắc nhập thông tin để chỉ định vai trò và mục tiêu của AI trước khi agent bắt đầu thực hiện các lệnh.”

Trong một thiết bị đầu cuối, người dùng mô tả tên, vai trò và mục tiêu của tác tử Auto-GPT, đồng thời chỉ định tối đa năm cách để đạt được mục tiêu đó. Ví dụ:

Tên: Điện thoại thông minh-GPT
Vai trò: Một AI được thiết kế để tìm ra chiếc điện thoại thông minh tốt nhất
Mục tiêu: Tìm điện thoại thông minh tốt nhất trên thị trường
Mục tiêu 1: Thực hiện nghiên cứu thị trường cho các loại điện thoại thông minh khác nhau trên thị trường hiện nay
Mục tiêu 2: Lấy năm điện thoại thông minh hàng đầu và liệt kê ưu và nhược điểm của chúng

Ở hậu trường, Auto-GPT dựa vào các tính năng như quản lý bộ nhớ để thực thi các tác vụ, cùng với GPT-4 và GPT-3.5 để tạo văn bản, lưu trữ tệp và tóm tắt.

Auto-GPT cũng có thể được kết nối với các bộ tổng hợp giọng nói, chẳng hạn như ElevenLabs, để nó có thể “thực hiện” các cuộc gọi điện thoại chẳng hạn.

Auto-GPT có sẵn công khai trên GitHub, nhưng nó yêu cầu một số thiết lập và bí quyết để thiết lập và chạy.

Để sử dụng nó, Auto-GPT phải được cài đặt trong môi trường phát triển như Docker và nó phải được đăng ký bằng khóa API từ OpenAI — yêu cầu phải có tài khoản OpenAI trả phí.

Nó có thể đáng giá – mặc dù đa phần không đồng tình với điều đó. Những người dùng đầu tiên đã sử dụng Auto-GPT để đảm nhận các loại nhiệm vụ thông thường được ủy quyền tốt hơn cho bot.

Ví dụ: Auto-GPT có thể điền các mục như mã gỡ lỗi và viết email hoặc những thứ nâng cao hơn, chẳng hạn như tạo kế hoạch kinh doanh cho một công ty khởi nghiệp mới.

Adnan Masood, kiến trúc sư trưởng tại UST, một công ty tư vấn công nghệ, cho biết:

“Nếu Auto-GPT gặp bất kỳ trở ngại nào hoặc không thể hoàn thành nhiệm vụ, nó sẽ phát triển các prompt mới để giúp nó điều hướng tình huống và xác định các bước tiếp theo phù hợp.
Các mô hình ngôn ngữ lớn vượt trội trong việc tạo ra phản hồi giống như con người, nhưng vẫn dựa vào lời nhắc và tương tác của người dùng để mang lại kết quả mong muốn. Ngược lại, Auto-GPT tận dụng các khả năng nâng cao của API của OpenAI để hoạt động độc lập mà không cần sự can thiệp của người dùng.”

Trong những tuần gần đây, các ứng dụng mới đã xuất hiện để giúp Auto-GPT dễ sử dụng hơn, như AgentGPT và GodMode, cung cấp một giao diện đơn giản nơi người dùng có thể nhập những gì họ muốn thực hiện trực tiếp trên trang trình duyệt.

Lưu ý rằng, giống như Agent-GPT, cả hai đều yêu cầu khóa API từ OpenAI để mở khóa toàn bộ khả năng của chúng.

Tuy nhiên, giống như bất kỳ công cụ mạnh mẽ nào, Auto-GPT có những hạn chế — và rủi ro.

AutoGPT just exceeded PyTorch itself in GitHub stars (74k vs 65k). I see AutoGPT as a fun experiment, as the authors point out too. But nothing more. Prototypes are not meant to be production-ready. Don't let media fool you – most of the "cool demos" are heavily cherry-picked: 🧵 pic.twitter.com/I44H7BkCqr
— Jim Fan (@DrJimFan) April 16, 2023

Tùy thuộc vào mục tiêu mà công cụ cung cấp, Auto-GPT có thể hoạt động theo những cách rất… bất ngờ.

Một người dùng Reddit tuyên bố rằng, với ngân sách 100 đô la để chi tiêu trong một phiên bản máy chủ, Auto-GPT đã tạo một trang wiki về mèo, khai thác một lỗ hổng trong phiên bản này để giành quyền truy cập cấp quản trị viên và chiếm lấy môi trường Python mà nó được tạo ra đang chạy – và sau đó “giết chết” chính nó.

Ngoài ra còn có ChaosGPT, một phiên bản sửa đổi của Auto-GPT được giao nhiệm vụ với các mục tiêu như “tiêu diệt loài người” và “thiết lập sự thống trị toàn cầu”. Không có gì đáng ngạc nhiên, ChaosGPT đã không tiến gần đến việc mang đến ngày tận thế cho người máy — nhưng nó đã tweet khá không hay về loài người.

*ChaosGPT được thiết lập để tiêu diệt loài người*

Tuy nhiên, có thể cho rằng nguy hiểm hơn Auto-GPT khi cố gắng “tiêu diệt loài người” là những vấn đề không lường trước được có thể nảy sinh trong các tình huống hoàn toàn bình thường. Bởi vì nó được xây dựng trên các mô hình ngôn ngữ của OpenAI — các mô hình, giống như tất cả các mô hình ngôn ngữ, có xu hướng không chính xác — nên nó có thể mắc lỗi.

Đó không phải là vấn đề duy nhất.

Sau khi hoàn thành thành công một tác vụ, Auto-GPT thường không nhớ cách thực hiện tác vụ đó để sử dụng sau này và — ngay cả khi có — nó thường không nhớ để sử dụng chương trình.

Auto-GPT cũng gặp khó khăn trong việc chia nhỏ các nhiệm vụ phức tạp thành các nhiệm vụ phụ đơn giản hơn một cách hiệu quả và gặp khó khăn trong việc hiểu các mục tiêu khác nhau trùng lặp như thế nào.

Clara Shih, Giám đốc điều hành Đám mây Dịch vụ của Salesforce và là một người đam mê Auto-GPT, cho biết:

“Auto-GPT minh họa sức mạnh và những rủi ro chưa biết của AI tổng quát. Đối với các doanh nghiệp, điều đặc biệt quan trọng là phải đưa con người vào phương pháp tiếp cận vòng lặp khi phát triển và sử dụng các công nghệ AI tổng quát như Auto-GPT.”

GAMBA Team. Nguồn: TechCrunch.

BabyAGI đang tung hoành Thung lũng Silicon. Chúng ta có nên sợ hãi?

Đột nhiên, giới công nghệ của Thung lũng Silicon xôn xao về babyAGI. Đó là một biệt danh có vẻ vừa dễ thương vừa đáng sợ, hơi giống mogwais trong bộ phim hài kinh dị cổ điển đình đám Gremlins. Nhưng chính xác thì…

BabyAGI là gì?

Trước hết, nó không hoàn toàn đáng sợ như thoạt tưởng.

Bất chấp cái tên, babyAGI chắc chắn không phải là viết tắt của Artificial General Intelligence (trí tuệ tổng hợp nhân tạo) và cũng không đề cập đến loại A.I nào đó là một yếu tố chính của khoa học viễn tưởng.

AGI là mục tiêu được thể hiện của một số công ty A.I, bao gồm OpenAI và DeepMind của Alphabet.

Đó là thứ mà nhà đồng sáng lập kiêm Giám đốc điều hành OpenAI, Sam Altman nói rằng mọi người có lý do chính đáng để sợ hãi, thứ mà Elon Musk đã nói khiến ông này thức trắng đêm và khiến một số người kêu gọi tạm dừng sáu tháng cho việc phát triển phần mềm A.I mạnh mẽ hơn nữa.

Nhưng AGI vẫn chưa tồn tại và có rất nhiều người trong ngành khoa học máy tính nghĩ rằng AGI là bất khả thi.

Vì vậy, babyAGI không phải là Skynet còn quấn tã. Nhưng nó vẫn là một bổ sung mới ấn tượng và quan trọng cho thế giới A.I.

BabyAGI về cơ bản là phần mềm biến GPT-4 (mô hình ngôn ngữ lớn mới nhất của OpenAI, thường chỉ xuất ra các từ) thành một trợ lý kỹ thuật số hữu ích có thể hoàn thành các tác vụ và thực hiện các hành động trên internet.

Thay vì chỉ nhận được câu trả lời bằng văn bản cho prompt từ GPT-4, với BabyAGI, bạn có thể thực hiện những việc như lập kế hoạch và tự động thực hiện chiến dịch để tăng lượt theo dõi trên Twitter của mình hoặc tạo và điều hành doanh nghiệp tiếp thị nội dung.

BabyAGI thực sự chỉ là một phiên bản phổ biến của “AutoGPT“, một danh mục phần mềm nguồn mở có thể thực hiện những việc này. Cả AutoGPT và BabyAGI chỉ mới ra đời được vài tuần, cho thấy sự đổi mới cực kỳ nhanh chóng—và những rủi ro mới không đáng kể—đang ra đời trong kỷ nguyên của LLM (mô hình ngôn ngữ lớn).

Nathan Benaich, người sáng lập công ty đầu tư mạo hiểm Air Street Capital có trụ sở tại London và là nhà đầu tư nổi tiếng giai đoạn đầu của các công ty A.I cho biết.

Chúng ta vẫn đang trong những ngày đầu của Autonomous Agents (tác tử tự trị), nhưng chắc chắn có một cơ hội thú vị ở đây.

Nó từ đâu đến?

AutoGPT đầu tiên, được gọi đơn giản là “Auto-GPT” được tạo bởi Toran Bruce Richards.

Richards là người sáng lập và là nhà phát triển hàng đầu của Signive Gravitas có trụ sở tại Edinburgh, Scotland, một công ty tìm cách sử dụng các kỹ thuật phần mềm từ ngành công nghiệp trò chơi điện tử và áp dụng nó vào các trường hợp sử dụng không liên quan đến trò chơi.

Richards đã tạo Auto-GPT và tải nó lên trang Github của anh ấy vào ngày 30 tháng 3.

Kể từ đó, nhiều nhà phát triển khác đã tạo phiên bản của riêng họ.

AutoGPT sử dụng một số giao diện lập trình ứng dụng (API) để liên kết GPT-4 với LangChain, một công cụ phần mềm nguồn mở giúp dễ dàng liên kết một loạt prompt (đầu vào mà LLM căn cứ vào phản hồi của nó) với nhau và Pinecone, một cơ sở dữ liệu vectơ có thể được sử dụng như một loại bộ nhớ cho GPT-4, cho phép nó tham chiếu lại các tài liệu bên ngoài hoặc các phản hồi trước đó của chính nó đối với các prompt.

Cách đó hàng ngàn dặm ở Seattle, Yohei Nakajima, một đối tác tại công ty đầu tư mạo hiểm giai đoạn đầu Untapped Capital, đang thử nghiệm với các công cụ generative A.I mới nhất và tạo ra thứ sẽ sớm được đặt tên là BabyAGI.

Nakajima đã nhận thấy mọi người đang cố gắng sử dụng ChatGPT của OpenAI với tư cách là “người đồng sáng lập” khởi nghiệp — tạo ý tưởng kinh doanh, viết kế hoạch kinh doanh, soạn thảo tài liệu tiếp thị — một hiện tượng được mệnh danh là “HustleGPT”. Anh ấy nghĩ rằng có thể tự động hóa toàn bộ quy trình và tạo ra một công ty hoàn toàn tự chủ do GPT-4 điều hành.

Nakajima đã tạo ra một nguyên mẫu và tweet về nó. Một người bạn đã xem bài đăng của anh ấy và đặt tên cho ý tưởng là “babyAGI”—và cái tên này cư vậy mà rộ lên.

Nakajima cho biết chỉ sau đó anh ấy mới nhận ra rằng hệ thống mà anh ấy đã tạo sẽ hoạt động tốt hơn với tư cách là một tác tử tự trị (autonomous agent) theo định hướng nhiệm vụ hơn là một nhà sáng lập công ty khởi nghiệp tự chủ (autonomous startup founder).

Nakajima cho biết anh chủ yếu là một nhà đầu tư, không phải nhà phát triển phần mềm và là người mới sử dụng Github. Vì vậy, anh ấy rất ngạc nhiên khi các nhà phát triển khác bắt đầu lấy và chạy code của mình.

BabyAGI tỏ ra đặc biệt phổ biến một phần vì mã của nó đơn giản hơn Auto-GPT của Richards—và bởi vì cái tên này hơi kỳ cục.

Phiên bản gốc của Nakajima không thực sự thực hiện các phản hồi của nó—nhưng một số nhà phát triển, bao gồm cả nhóm từ chính LangChain, hiện đã tạo ra các phiên bản của riêng họ thực sự hoạt động trên internet.

Kể từ khi anh ấy đăng nó, mọi người đã đăng trên Twitter các video quay cảnh họ sử dụng babyAGI để vận hành hoạt động tìm kiếm khách hàng tự trị cho một doanh nghiệp.

Những người khác đã sử dụng Auto-GPT để nghiên cứu sản phẩm mới và chuẩn bị cho podcast. Và một số người đã sử dụng các phiên bản để phát triển, kiểm tra và gỡ lỗi phần mềm một cách tự động.

Cho đến nay, tất cả các AutoGPT, bao gồm cả babyAGI, đều cho sử dụng miễn phí (mặc dù mỗi lần phần mềm thực hiện lệnh gọi API OpenAI, người dùng sẽ bị tính phí).

Bản chất nguồn mở của chúng có thể gây ra mối đe dọa cho một số startup nổi tiếng, được tài trợ tốt đang cố gắng tạo ra các phụ tá A.I. Chúng bao gồm Adept AI, bao gồm một số cựu OpenAI và Google trong số những người sáng lập và đã huy động được 415 triệu đô vốn đầu tư mạo hiểm cho đến nay, và Inflection AI, đồng sáng lập bởi Mustafa Suleyman, đồng sáng lập DeepMind và đồng sáng lập Linkedin, Reid Hoffmann. Nó đã nhận được 225 triệu đô vốn đầu tư mạo hiểm và được cho là đang trong quá trình cố gắng huy động thêm 675 triệu đô nữa.

Ngay cả một em bé cũng có thể nguy hiểm

Mặc dù AutoGPT không phải là AGI, nhưng chúng có một số rủi ro. Có điều, vì chúng chạy theo vòng lặp liên tục, chạy nhiều chuỗi prompt đến GPT-4, nên chúng có thể tăng số lượng các hóa đơn tới OpenAI đến chóng mặt.

*Ngay cả 1 đưa trẻ cũng có thể nguy hiểm*

Nakajima nói:

“Như với bất kỳ sản phẩm hoặc dịch vụ nào, điều quan trọng là phải hiểu chi phí của dịch vụ bạn đang sử dụng. Chúng tôi thông báo rõ ràng về rủi ro này và kêu gọi những người khác cũng làm như vậy”

Có những nguy hiểm khác nữa. AutoGPT có thể viết và thực thi mã máy tính, vì vậy chúng có thể được sử dụng để thực hiện các cuộc tấn công mạng hoặc âm mưu lừa đảo.

Chúng cũng có thể được sử dụng để phục vụ cho các nhà máy thông tin sai lệch (misinformation mill), bằng cách tạo ra nội dung sai lệch và gây hiểu lầm, đồng thời tự động điều khiển việc phổ biến nội dung đó trên các phương tiện truyền thông xã hội.

Có quá nhiều mối nguy hiểm trần tục. Nếu người dùng không cẩn thận về những gì họ yêu cầu các bot tự động làm, thì cuối cùng, chúng có thể làm điều gì đó thay cho bạn—chẳng hạn như mua hàng hoặc đặt lịch hẹn—mà người dùng không có ý định đó.

Oren Etzioni, nhà khoa học máy tính danh dự tại Đại học Washington, đồng thời là Giám đốc điều hành sáng lập của Viện Allen Trí tuệ nhân tạo ở Seattle, cho biết:

“Các LLM khá hạn chế, nhưng loại hệ thống mới này—hãy gọi chúng là các tác tử (agent) dựa trên GPT có khả năng mạnh hơn nhiều. Hơn nữa, thật dễ dàng để hình dung ra những viễn cảnh mà chúng sẽ khó kiểm soát.”

Hiện tại, ông cho biết khả năng AutoGPT phải trả phí lớn từ OpenAI là rủi ro tức thời nhất. Nhưng vì AutoGPT là một bước tiến tới các hệ thống có thể hoạt động tự động trên internet nên “sự phát triển của chúng đáng được đánh giá cẩn thận”.

Benaich nói rằng hầu hết các AutoGPT hiện có đều dựa trên các lệnh gọi API tốn kém tới OpenAI nhưng trong tương lai, có thể dựa trên các loại agent này trên các LLM nguồn mở, miễn phí có khả năng như GPT-4 hiện nay. Nhưng anh ấy nói rằng không phải tất cả các LLM đều có thể được tạo ra như nhau.

Từ đây sẽ có hai điều cực kỳ quan trọng: thứ nhất là biết các agent LLM thực sự phù hợp nhất với công việc gì và thứ hai là xem chúng thực sự mạnh mẽ như thế nào, đặc biệt là khi chúng sẽ đáp ứng được rất nhiều nhiệm vụ do được thực hiện rộng rãi có sẵn.

GAMBA Team, nguồn từ Yahoo Finance.