ElevenLabs là nền tảng AI chuyên về chuyển văn bản thành giọng nói (TTS), lồng tiếng và sao chép giọng nói. Không giống như các hệ thống TTS truyền thống, ElevenLabs có khả năng khả năng tạo ra các giọng đọc giọng nói giống như con người với âm điệu tự nhiên, giàu cảm xúc và có nhận thức về ngữ cảnh.
ElevenLabs được thành lập vào năm 2022 bởi Piotr Dąbkowski, cựu kỹ sư máy học của Google và Mateusz Staniszewski, cựu chiến lược gia của Palantir. Vào đầu năm 2024, nền tảng này đã huy động được 80 triệu đô la, qua đó chính thức trở thành start-up kỳ lân với định giá công ty ở mức hơn 1 tỷ đô la.
Được nhiều người đánh giá là một trong những nền tảng làm nên sự bùng nổ của công nghệ AI hiện nay, ElevenLabs sở hữu rất nhiều ưu điểm mà bạn sẽ khó tìm thấy ở các ứng dụng chuyển văn bản thành giọng nói khác.
Bất chấp việc sở hữu nhiều ưu điểm, ElevenLabs vẫn tồn tại một số hạn chế:
Đây là tính năng cốt lõi của ElevenLabs. Nó có hai chế độ: đơn giản và nâng cao, và bạn có thể dễ dàng chuyển đổi giữa chúng.
Chế độ Đơn giản sẽ chuyển văn bản của bạn thành giọng nói, nhưng không cho phép bạn chọn hoặc thay đổi giọng. Chế độ Nâng cao cung cấp nhiều giọng nói khác nhau để bạn lựa chọn, kèm theo các thanh trượt để điều chỉnh phong cách nói.
ElevenLabs cũng cho phép bạn tải một mẫu âm thanh lên ứng dụng, sau đó ứng dụng sẽ chuyển đổi và nhân bản giọng nói trong khi sao chép trực tiếp ngữ điệu của mẫu âm thanh đầu vào.
ElevenLabs cũng cung cấp API cho phép người dùng chuyển văn bản thành giọng nói và tạo giọng nói nhân tạo vào trong các ứng dụng của mình. Tính năng này cho phép bạn sử dụng ElevenLabs vào các dự án phần mềm hoặc trang web yêu cầu sử dụng giọng nói AI, như các hệ thống chatbot hay dịch vụ khách hàng tự động một cách dễ dàng.
ElevenLabs có khả năng tạo giọng đọc ở nhiều ngôn ngữ khác nhau, rất tiện lợi để các nhà phát triển hoặc người sáng tạo nội dung muốn sử dụng AI để tạo các nội dung đa ngôn ngữ.
Truy cập trang web elevenlabs.io, chọn Log in rồi điền các thôn tin cần thiết như email và mật khẩu để tạo tài khoản. Bạn cũng có thể đăng nhập nhanh qua tài khoản Facebook, GitHub, Google hoặc SSO. Trong lần đăng nhập đầu tiên, ElevenLabs sẽ yêu cầu bạn điền tên và chọn mục đích sử dụng.
Người dùng gói miễn phí sẽ nhận được 10,000 tín dụng mỗi tháng, đủ để tạo ra 10 phút âm thanh cho mục đích cá nhân.
Nếu cần sử dụng cho mục đích thương mại, hoặc muốn sao chép giọng nói của chính mình, bạn sẽ phải nâng cấp lên gói trả phí, bắt đầu từ 5 USD mỗi tháng.
Nhập văn bản bạn muốn chuyển thành giọng nói vào ô nhập liệu. Tiếp đó, chọn Voice và Model mà bạn muốn sử dụng.
Tiến hành điều chỉnh giọng nói, tốc độ và âm điệu ở phần Stability theo sở thích của bạn. Cuối cùng, nhấn Generate speech để chuyển đổi văn bản thành âm thanh.
Bên cạnh cách sử dụng ElevenLabs cơ bản nói trên, MindX sẽ chia sẻ các bước nâng cao để bạn có thể tận dụng tối đa sức mạnh của ứng dụng này.
Ở bước này, bạn cần lựa chọn sử dụng giọng mặc định của ElevenLabs hay muốn tạo giọng nói của riêng mình.
Nếu muốn tạo giọng nói mới, hãy nnhấp vào Voices => Add a New Voice ở Menu bảng điều khiển. Bạn có thể chọn Voice Library hoặc Voice Design. Menu Voice Design cho phép bạn chọn giọng điệu, độ tuổi và giới tính.
Khi đã có giọng nói, giờ là lúc tạo ra âm thanh mà bạn muốn. Truy cập vào tùy chọn Speech trong thanh bên và thêm văn bản vào ô, hoặc tải lên hoặc ghi âm âm thanh mà bạn muốn sử dụng.
Tùy chọn ghi âm là một cách tuyệt vời để chuyển đổi giọng nói của bạn thành một phiên bản khác mà bạn mong muốn.
Tiếp đó, chọn Generate Speech và chờ trong khi âm thanh của bạn được tạo ra bởi AI. Bạn cũng có thể thấy số tín dụng của mình giảm dần mỗi lần tạo âm thanh, đây là một trải nghiệm thú vị.
Tùy chỉnh âm thanh của bạn bằng cách sử dụng các tùy chọn Settings hoặc Advanced. Tại đây, bạn có thể điều chỉnh các cài đặt giọng nói như độ ổn định âm thanh hoặc độ phóng đại phong cách, và nghe thử kết quả bằng cách nhấn Generate lần nữa.
Cần lưu ý rằng số lần tạo âm thanh sẽ bị giới hạn nếu bạn dùng bản miễn phí, vì thế cách tốt nhất là thử nghiệm với một đoạn văn bản ngắn để tiết kiệm chi phí.
Khi đã hài lòng với âm thanh được tạo ra, bạn có thể nhấn vào biểu tượng Download ở góc dưới bên phải màn hình để tải về một tệp MP3 chất lượng cao, và sau đó sử dụng tệp này theo nhu cầu.
Để việc sử dụng ElevenLabs đạt hiệu quả cao nhất, người dùng cần lưu ý một số mẹo sau:
Việc làm chậm tốc độ giọng nói sẽ giúp giọng trở nên tự nhiên hơn. Bạn có thể làm điều này bằng cách:
Trong trường hợp bạn dùng tính năng chuyển giọng nói thành giọng nói (Speech to Speech), hãy đảm bảo rằng các tệp âm thanh đầu vào đã được loại bỏ hoàn toàn tạp âm và chỉ còn lại âm thanh mà bạn muốn ElevenLabs xử lý.
Tiếp tục là một mẹo với tính năng chuyển giọng nói thành giọng nói, bạn nên dùng nhiều tệp âm thanh khác nhau để kết quả nhận về được chân thực nhất.
Nếu bạn thấy khó hiểu với mẹo này, thì hãy giả sử bạn đang muốn dùng ElevenLabs để tạo âm thanh cho nhân vật Doraemon. Khi đó, bạn nên dùng các tệp âm thanh khi Doraemon ở nhiều hoàn cảnh khác nhau, như nói chuyện bình thường, khi tức giận hoặc vui vẻ. Khi đó, bạn sẽ thấy âm thanh đầu ra chân thực hơn nhiều.
Mong rằng bài viết này đã giúp bạn đã hiểu rõ hơn về ElevenLabs là gì, cách sử dụng ElevenLabs, cũng như các tính năng và mẹo để việc sử dụng công cụ này đạt hiệu quả cao nhất.
Nếu muốn sử dụng thành thạo ElevenLabs, bạn có thể tham khảo Khoá học AI For Marketing tại MindX. Tìm hiểu chi tiết chương trình TẠI ĐÂY.