ElevenLabs là gì? Cách sử dụng ElevenLabs để tạo giọng nói AI chất lượng cao

ElevenLabs là nền tảng AI chuyển văn bản thành giọng nói (TTS) tiên tiến với khả năng tạo giọng nói tự nhiên và giàu cảm xúc. Trong bài viết này, hãy cùng MindX tìm hiểu cách sử dụng ElevenLabs từ cơ bản đến nâng cao, cũng như giải mã xem điều gì khiến nền tảng này lại nổi bật đến vậy.

ElevenLabs là gì?

ElevenLabs là nền tảng AI chuyên về chuyển văn bản thành giọng nói (TTS), lồng tiếng và sao chép giọng nói. Không giống như các hệ thống TTS truyền thống, ElevenLabs có khả năng khả năng tạo ra các giọng đọc giọng nói giống như con người với âm điệu tự nhiên, giàu cảm xúc và có nhận thức về ngữ cảnh.

Cách sử dụng ElevenLabs 1.png — *ElevenLabs được nhiều người coi là một trong những cái tên tiêu biểu góp phần vào sự bùng nổ của công nghệ AI*

ElevenLabs được thành lập vào năm 2022 bởi Piotr Dąbkowski, cựu kỹ sư máy học của Google và Mateusz Staniszewski, cựu chiến lược gia của Palantir. Vào đầu năm 2024, nền tảng này đã huy động được 80 triệu đô la, qua đó chính thức trở thành start-up kỳ lân với định giá công ty ở mức hơn 1 tỷ đô la.

Ưu điểm & nhược điểm của ElevenLabs

Ưu điểm ElevenLabs

Được nhiều người đánh giá là một trong những nền tảng làm nên sự bùng nổ của công nghệ AI hiện nay, ElevenLabs sở hữu rất nhiều ưu điểm mà bạn sẽ khó tìm thấy ở các ứng dụng chuyển văn bản thành giọng nói khác.

Tạo giọng nói chất lượng cao: ElevenLabs có thể tạo ra giọng đọc với chất lượng vượt trội, mô phỏng giọng nói con người một cách ấn tượng.
Giao diện thân thiện: Với thiết kế giao diện dễ sử dụng, ElevenLabs phù hợp cho tất cả mọi người, ngay cả với những người mới bắt đầu.
Dùng thử miễn phí: Gói dùng thử miễn phí của ElevenLabs bao gồm 10.000 ký tự và ba giọng nói tùy chỉnh mỗi tháng, là lựa chọn hấp dẫn để người dùng trải nghiệm trước khi quyết định mua.
Tính bảo mật cao: Đảm bảo mức độ bảo mật cao cho mọi quá trình xử lý giọng nói, bảo vệ dữ liệu người dùng và duy trì quyền riêng tư.
Nhiều tài liệu hướng dẫn: Hệ thống hỗ trợ toàn diện gồm kênh Discord dành riêng với các hướng dẫn chi tiết, bot trả lời tự động tích hợp AI, và biểu mẫu hỗ trợ đầy đủ, giúp giải quyết nhanh chóng mọi vấn đề của người dùng.
Linh hoạt: ElevenLabs có thể được ứng dụng trong nhiều lĩnh vực khác nhau như podcast, thuyết trình, và sản xuất video.

Cách sử dụng ElevenLabs 2.png — *6 ưu điểm ElevenLabs giúp nền tảng này trở thành nền tảng chuyển văn bản thành giọng nói hàng đầu hiện nay*

Nhược điểm của ElevenLabs

Bất chấp việc sở hữu nhiều ưu điểm, ElevenLabs vẫn tồn tại một số hạn chế:

Giá thành cao: Giá của các gói trả phí có thể là rào cản đối với những người dùng có ngân sách hạn chế.
Kết quả không phải lúc nào cũng chính xác: Kết quả của ElevenLabs phụ thuộc nhiều vào chất lượng văn bản đầu vào. Nếu đầu vào mà người dùng cung cấp không rõ ràng hoặc cách phát âm không chính xác, giọng đọc đầu ra có thể không đạt yêu cầu.
Thiếu ứng dụng di động: làm hạn chế khả năng sử dụng đối với những người thường xuyên làm việc trên thiết bị di động hoặc cần truy cập dịch vụ khi không sử dụng máy tính.
Phụ thuộc vào internet: ElevenLabs yêu cầu kết nối internet ổn định để hoạt động hiệu quả, đây có thể là một hạn chế ở những khu vực có kết nối internet thấp.

Tính năng chính của ElevenLabs

Chuyển văn bản thành giọng nói

Đây là tính năng cốt lõi của ElevenLabs. Nó có hai chế độ: đơn giản và nâng cao, và bạn có thể dễ dàng chuyển đổi giữa chúng.

Chế độ Đơn giản sẽ chuyển văn bản của bạn thành giọng nói, nhưng không cho phép bạn chọn hoặc thay đổi giọng. Chế độ Nâng cao cung cấp nhiều giọng nói khác nhau để bạn lựa chọn, kèm theo các thanh trượt để điều chỉnh phong cách nói.

Chuyển giọng nói thành giọng nói (Speech to Speech)

ElevenLabs cũng cho phép bạn tải một mẫu âm thanh lên ứng dụng, sau đó ứng dụng sẽ chuyển đổi và nhân bản giọng nói trong khi sao chép trực tiếp ngữ điệu của mẫu âm thanh đầu vào.

Tích hợp API

ElevenLabs cũng cung cấp API cho phép người dùng chuyển văn bản thành giọng nói và tạo giọng nói nhân tạo vào trong các ứng dụng của mình. Tính năng này cho phép bạn sử dụng ElevenLabs vào các dự án phần mềm hoặc trang web yêu cầu sử dụng giọng nói AI, như các hệ thống chatbot hay dịch vụ khách hàng tự động một cách dễ dàng.

Hỗ trợ đa ngôn ngữ

ElevenLabs có khả năng tạo giọng đọc ở nhiều ngôn ngữ khác nhau, rất tiện lợi để các nhà phát triển hoặc người sáng tạo nội dung muốn sử dụng AI để tạo các nội dung đa ngôn ngữ.

Cách sử dụng ElevenLabs cơ bản

Bước 1. Tạo tài khoản

Truy cập trang web elevenlabs.io, chọn Log in rồi điền các thôn tin cần thiết như email và mật khẩu để tạo tài khoản. Bạn cũng có thể đăng nhập nhanh qua tài khoản Facebook, GitHub, Google hoặc SSO. Trong lần đăng nhập đầu tiên, ElevenLabs sẽ yêu cầu bạn điền tên và chọn mục đích sử dụng.

Cách sử dụng ElevenLabs 3.png

Người dùng gói miễn phí sẽ nhận được 10,000 tín dụng mỗi tháng, đủ để tạo ra 10 phút âm thanh cho mục đích cá nhân.

Nếu cần sử dụng cho mục đích thương mại, hoặc muốn sao chép giọng nói của chính mình, bạn sẽ phải nâng cấp lên gói trả phí, bắt đầu từ 5 USD mỗi tháng.

Bước 2. Bắt đầu tạo Voice

Nhập văn bản bạn muốn chuyển thành giọng nói vào ô nhập liệu. Tiếp đó, chọn Voice và Model mà bạn muốn sử dụng.

Bước 3. Tùy chỉnh giọng nói

Cách sử dụng ElevenLabs 4.png

Tiến hành điều chỉnh giọng nói, tốc độ và âm điệu ở phần Stability theo sở thích của bạn. Cuối cùng, nhấn Generate speech để chuyển đổi văn bản thành âm thanh.

Cách sử dụng ElevenLabs nâng cao

Bên cạnh cách sử dụng ElevenLabs cơ bản nói trên, MindX sẽ chia sẻ các bước nâng cao để bạn có thể tận dụng tối đa sức mạnh của ứng dụng này.

Bước 1. Lựa chọn giọng nói

Ở bước này, bạn cần lựa chọn sử dụng giọng mặc định của ElevenLabs hay muốn tạo giọng nói của riêng mình.

Cách sử dụng ElevenLabs 5.png

Nếu muốn tạo giọng nói mới, hãy nnhấp vào Voices => Add a New Voice ở Menu bảng điều khiển. Bạn có thể chọn Voice Library hoặc Voice Design. Menu Voice Design cho phép bạn chọn giọng điệu, độ tuổi và giới tính.

Bước 2. Tạo âm thanh theo ý thích

Khi đã có giọng nói, giờ là lúc tạo ra âm thanh mà bạn muốn. Truy cập vào tùy chọn Speech trong thanh bên và thêm văn bản vào ô, hoặc tải lên hoặc ghi âm âm thanh mà bạn muốn sử dụng.

Tùy chọn ghi âm là một cách tuyệt vời để chuyển đổi giọng nói của bạn thành một phiên bản khác mà bạn mong muốn.

Tiếp đó, chọn Generate Speech và chờ trong khi âm thanh của bạn được tạo ra bởi AI. Bạn cũng có thể thấy số tín dụng của mình giảm dần mỗi lần tạo âm thanh, đây là một trải nghiệm thú vị.

Bước 3. Chỉnh sửa âm thanh

Tùy chỉnh âm thanh của bạn bằng cách sử dụng các tùy chọn Settings hoặc Advanced. Tại đây, bạn có thể điều chỉnh các cài đặt giọng nói như độ ổn định âm thanh hoặc độ phóng đại phong cách, và nghe thử kết quả bằng cách nhấn Generate lần nữa.

Cần lưu ý rằng số lần tạo âm thanh sẽ bị giới hạn nếu bạn dùng bản miễn phí, vì thế cách tốt nhất là thử nghiệm với một đoạn văn bản ngắn để tiết kiệm chi phí.

Khi đã hài lòng với âm thanh được tạo ra, bạn có thể nhấn vào biểu tượng Download ở góc dưới bên phải màn hình để tải về một tệp MP3 chất lượng cao, và sau đó sử dụng tệp này theo nhu cầu.

Mẹo sử dụng ElevenLabs hiệu quả

Để việc sử dụng ElevenLabs đạt hiệu quả cao nhất, người dùng cần lưu ý một số mẹo sau:

Nên làm chậm tốc độ giọng nói

Việc làm chậm tốc độ giọng nói sẽ giúp giọng trở nên tự nhiên hơn. Bạn có thể làm điều này bằng cách:

Viết prompt theo phong cách kể chuyện. Điều này cũng có thể được sử dụng để thay đổi tông giọng phù hợp với cảm xúc nhất định.
Dùng thẻ <break time="1.5s" />. Thẻ này sẽ tạo ra một khoảng dừng trong giọng nói.

Cố gắng xử lý các tệp âm thanh đầu vào

Trong trường hợp bạn dùng tính năng chuyển giọng nói thành giọng nói (Speech to Speech), hãy đảm bảo rằng các tệp âm thanh đầu vào đã được loại bỏ hoàn toàn tạp âm và chỉ còn lại âm thanh mà bạn muốn ElevenLabs xử lý.

Nên dùng nhiều tệp âm thanh khác nhau

Tiếp tục là một mẹo với tính năng chuyển giọng nói thành giọng nói, bạn nên dùng nhiều tệp âm thanh khác nhau để kết quả nhận về được chân thực nhất.

Nếu bạn thấy khó hiểu với mẹo này, thì hãy giả sử bạn đang muốn dùng ElevenLabs để tạo âm thanh cho nhân vật Doraemon. Khi đó, bạn nên dùng các tệp âm thanh khi Doraemon ở nhiều hoàn cảnh khác nhau, như nói chuyện bình thường, khi tức giận hoặc vui vẻ. Khi đó, bạn sẽ thấy âm thanh đầu ra chân thực hơn nhiều.

Mong rằng bài viết này đã giúp bạn đã hiểu rõ hơn về ElevenLabs là gì, cách sử dụng ElevenLabs, cũng như các tính năng và mẹo để việc sử dụng công cụ này đạt hiệu quả cao nhất.

Nếu muốn sử dụng thành thạo ElevenLabs, bạn có thể tham khảo Khoá học AI For Marketing tại MindX. Tìm hiểu chi tiết chương trình TẠI ĐÂY.

Đánh giá bài viết

Hoàng Thương

Researcher & Content Marketer tại MindX

Khóa học liên quan

Lộ trình học AI for Work