Image default
Máy Tính

Khám Phá Browser Use: Giải Pháp AI Agent Duyệt Web Mã Nguồn Mở Mạnh Mẽ Thay Thế ChatGPT Operator

Các AI Agent có khả năng điều khiển trình duyệt web và thực hiện các tác vụ giống như con người đang dần vượt ra khỏi phạm vi khái niệm. Mặc dù những công cụ như ChatGPT Operator mang lại sức mạnh đáng nể, chúng đi kèm với mức giá không hề nhỏ. Thay vì chấp nhận chi phí cao, chúng tôi đã tìm kiếm một lựa chọn thay thế miễn phí và bất ngờ tìm thấy một công cụ hoạt động hiệu quả đáng kinh ngạc. Bài viết này sẽ đi sâu vào trải nghiệm của chúng tôi với công cụ đó, Browser Use, đồng thời cung cấp hướng dẫn chi tiết cách bạn có thể tự mình thiết lập và khai thác sức mạnh của một AI Agent duyệt web tiên tiến, tiết kiệm chi phí.

Browser Use – Lựa chọn Mã nguồn mở Đáng Giá cho AI Agent Duyệt Web

ChatGPT Operator có khả năng điều khiển trình duyệt web và thực hiện các hành động như nhấp chuột, cuộn trang một cách tự động. Bạn chỉ cần ra lệnh cho ChatGPT về những gì cần thực hiện, ví dụ như đặt vé hoặc soạn thảo văn bản trong Google Docs, và nó sẽ tự động hoàn thành. Tuy nhiên, để có quyền truy cập, người dùng phải chi trả một mức giá khá cao – 200 USD mỗi tháng cho gói ChatGPT Pro. Mức phí này là một rào cản đáng kể đối với nhiều người, bao gồm cả chúng tôi, và đó là lý do thôi thúc chúng tôi tìm kiếm một giải pháp thay thế, và Browser Use đã xuất hiện.

Browser Use là một AI Agent mã nguồn mở, tương tự như ChatGPT Operator. Nó có khả năng tương tác với trình duyệt web, điều hướng qua các trang web và thực hiện nhiều hành động khác nhau. Điểm khác biệt lớn nhất là chi phí của nó chỉ bằng một phần nhỏ so với giải pháp của ChatGPT. Hơn nữa, người dùng có hai tùy chọn để lựa chọn.

Tùy chọn đầu tiên là trả phí đăng ký 30 USD mỗi tháng, khi đó AI Agent sẽ chạy trên dịch vụ đám mây của họ. Tùy chọn còn lại là tự thiết lập cục bộ trên máy tính cá nhân, và đây là lựa chọn tiết kiệm chi phí nhất (bạn chỉ phải trả phí sử dụng API). Chúng tôi đã quyết định chọn phương án tiết kiệm nhất này để trải nghiệm.

Giao diện trang web Browser Use hiển thị các gói dịch vụ và mức giá khác nhauGiao diện trang web Browser Use hiển thị các gói dịch vụ và mức giá khác nhau

Việc thiết lập Browser Use không đơn giản như ChatGPT Operator, nhưng chỉ với vài dòng mã lệnh, chúng tôi đã có thể khởi chạy nó thành công. Nếu chúng tôi có thể làm được, chắc chắn bạn cũng sẽ làm được!

Hướng dẫn Chi tiết Cài đặt Browser Use trên Máy tính Cá nhân của Bạn

Để bắt đầu với Browser Use, bạn sẽ cần hai thứ: Python 3.11 đã được cài đặt trên máy tính và quyền truy cập API từ OpenAI (hoặc một mô hình ngôn ngữ lớn cục bộ (LLM) nếu bạn có điều kiện).

Chuẩn bị Môi trường Phát triển

Vì Browser Use là một AI Agent, nó yêu cầu một mô hình ngôn ngữ lớn (LLM) để hoạt động. Để có được LLM, bạn có thể đăng ký quyền truy cập API từ trang web của OpenAI hoặc bất kỳ API nào khác tương thích với Browser Use. Lợi ích của việc sử dụng API là bạn có sự linh hoạt để lựa chọn giữa các mô hình khác nhau (như GPT-3.5 và GPT-4), và bạn chỉ phải trả tiền cho những gì bạn sử dụng – thay vì một khoản phí đăng ký trả trước.

Trong quá trình thử nghiệm, chúng tôi đã sử dụng mô hình ChatGPT 4-o. Tổng chi phí cho cả bảy tác vụ mà chúng tôi yêu cầu Browser Use thực hiện là dưới 1 USD. Tuy nhiên, nếu bạn kết hợp nó với DeepSeek API, chi phí sẽ còn rẻ hơn đáng kể.

Bạn cũng có thể sử dụng một LLM chạy cục bộ trên máy tính của mình. Tuy nhiên, để chạy một LLM cục bộ có hiệu năng tương đương ChatGPT 4-o đòi hỏi một lượng lớn sức mạnh tính toán, điều mà hầu hết người dùng thông thường khó có thể đáp ứng. Chúng tôi đã thử nghiệm mô hình LLM DeepSeek 7B trên máy tính của mình, và hiệu suất không mấy khả quan như mong đợi. Do đó, chúng tôi khuyến nghị nên sử dụng API ở thời điểm hiện tại để có trải nghiệm tốt nhất.

Các Bước Cài đặt và Cấu hình Cơ bản

Sau khi bạn đã có quyền truy cập API, bạn có thể tạo một môi trường ảo trong VS Code bằng cách vào View > Command Palette và nhập create environment. Sau đó, mở một terminal mới và cài đặt browser-use bằng pip:

pip install browser-use

Tạo một tệp .env trong thư mục và thêm khóa API của bạn vào đó:

OPENAI_API_KEY="Your API Here"

Tiếp theo, tạo một tệp Python mới với tên app.py và dán đoạn mã sau vào:

from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
from dotenv import load_dotenv

load_dotenv()

async def main():
    agent = Agent(
        task="Go to Reddit, search for 'browser-use', click on the first post and return the first comment.",
        llm=ChatOpenAI(model="gpt-4o"),
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

Thay thế lệnh prompt mặc định bằng lệnh của riêng bạn, ví dụ: “Tìm kiếm Albert Einstein và mở trang Wikipedia của ông.” Cuối cùng, chạy tệp app.py bằng terminal:

python app.py

Kiểm Chứng Khả Năng của Browser Use: Từ Tác vụ Đơn giản đến Phức tạp

Để đánh giá hiệu quả của Browser Use, chúng tôi đã tiến hành một loạt các thử nghiệm từ đơn giản đến phức tạp.

Các Tác vụ Cơ bản và Thành công Ban đầu

Chúng tôi bắt đầu thử nghiệm với các tác vụ đơn giản, chẳng hạn như tìm kiếm “Albert Einstein” trên Google và mở trang Wikipedia của ông. Khi chạy tập lệnh, AI Agent đã mở một cửa sổ trình duyệt mới và thực hiện tác vụ một cách hoàn hảo.

Tiếp theo, chúng tôi yêu cầu nó tìm kiếm các mẫu laptop gaming trên Amazon và mở kết quả đầu tiên. Một lần nữa, AI Agent đã hoàn thành tác vụ thành công mà không gặp bất kỳ trở ngại nào.

Thử thách Nâng cao và Hạn chế Hiện tại

Tại thời điểm này, chúng tôi đã bị thuyết phục rằng Browser Use có thể điều hướng web một cách thông minh. Để đẩy khả năng của nó đi xa hơn, chúng tôi đã hướng dẫn nó truy cập Yahoo News và tóm tắt năm bài báo hàng đầu. Điều đáng ngạc nhiên là Browser Use có thể hoàn thành tác vụ này chỉ trong vài phút. Các bản tóm tắt ngắn gọn và đi thẳng vào vấn đề.

Tuy nhiên, mọi thứ trở nên khó khăn hơn đối với Browser Use khi chúng tôi yêu cầu nó tìm kiếm các chuyến bay từ London đến Paris trên skyscanner.com. Ban đầu, trang web đã chặn truy cập do phát hiện bot, vì vậy chúng tôi phải can thiệp và vượt qua cơ chế phát hiện bot. Mặc dù vậy, Browser Use vẫn gặp khó khăn – nó nhấp vào nút tìm kiếm mà không nhập chính xác “London” và “Paris” vào các trường tương ứng.

Bạn có thể ghép nối Browser Use với trình duyệt chính của mình, nơi tất cả các tài khoản của bạn đã được đăng nhập. Điều này cho phép AI Agent nhập dữ liệu vào Google Sheet hoặc dán các bản tóm tắt từ Yahoo News vào Google Doc. Tuy nhiên, chúng tôi đã gặp phải một số vấn đề trong việc thiết lập nó với trình duyệt đang hoạt động, vì vậy chúng tôi tạm thời gác lại việc này.

Nhìn chung, đây là một thử nghiệm thú vị. Việc chứng kiến một AI Agent điều hướng web và thực hiện các tác vụ thật sự hấp dẫn. Mặc dù Browser Use chưa hoàn hảo, nó đã cho thấy tiềm năng đáng kể của một AI Agent có khả năng duyệt web.

Công nghệ này vẫn còn ở giai đoạn sơ khai, vì vậy chúng ta hoàn toàn có thể mong đợi những cải tiến đáng kể trong tương lai. Hiện tại, nếu bạn sẵn sàng mày mò với việc thiết lập và không ngại một vài trục trặc nhỏ, hãy khởi động máy tính của bạn và cài đặt Browser Use. Đừng ngần ngại chia sẻ trải nghiệm của bạn hoặc đặt câu hỏi trong phần bình luận nếu bạn gặp khó khăn và cần sự trợ giúp.

Related posts

5 trường hợp cho thấy ổ cứng HDD vẫn còn rất hữu ích

Administrator

Internet Archive: Khám Phá Kho Tàng Lịch Sử Số Hóa Và Giải Trí Vô Giá

Administrator

Cách Nâng Tầm Trải Nghiệm Spotify PC Với Spicetify: Cá Nhân Hóa Toàn Diện Và Thêm Tính Năng Độc Đáo

Administrator