Nhận dạng giọng nói: Suy nghĩ sau về điểm mạnh và điểm yếu của nó

Tôi phải thừa nhận rằng tôi đã không sử dụng bất kỳ loại nhận dạng giọng nói(speech recognition) nào trong một thời gian dài khi tôi được yêu cầu thực hiện các bài hướng dẫn. Lần cuối cùng tôi thử nhận dạng giọng nói(speech recognition) là với Dragon Dictate , tính năng mới khi Windows 98 cũng mới. Cách đây rất lâu trong những năm máy tính!

Tôi rất vui khi giải quyết chủ đề này vì tôi rất quan tâm đến việc nhận dạng giọng nói đã được cải thiện như thế nào. Và cậu bé, nó đã được cải thiện! Ngay cả một ứng dụng cơ bản, được tích hợp sẵn như thế này cũng đã thực hiện một công việc đáng kinh ngạc "ngay khi xuất xưởng." Trong bài viết cuối cùng về Nhận dạng giọng nói(Speech Recognition) này , tôi muốn nói về những gì tôi đã học được trong khi tái hiện lại bản thân với những điều kỳ diệu của nhận dạng giọng nói(speech recognition) và tôi sẽ đi đâu từ đây.

Chưa sẵn sàng cho Star Trek

Tôi chắc rằng nhiều người trong chúng ta đã xem phi hành đoàn của Starship Enterprise nói "Computer!"và nhận được câu trả lời ngay lập tức. Chúng tôi chưa có máy tính Starfleet , nhưng bắt đầu với Windows Vista và tiếp tục trong Windows 7 , chúng tôi có những máy tính sẽ lắng nghe chúng tôi và phản hồi những gì chúng tôi nói với họ — và trả lời chúng tôi, nếu "Đó là cái gì?" ("What was that?")được coi là một câu trả lời.

Nhận dạng giọng nói

Tôi đã gặp sự cố khi lần đầu tiên cố gắng sử dụng Nhận dạng giọng nói(Speech Recognition) và việc khắc phục sự cố không đặc biệt dễ dàng. Các tệp trợ giúp không phải lúc nào cũng đủ hữu ích. Tôi có thể tìm thấy câu trả lời trên trang web(web site) của Microsoft và trong một loạt các diễn đàn trực tuyến mà không cần quá nhiều công sức. Đó là cách tôi phát hiện ra rằng tôi đã quên rằng webcam của tôi (đặt ngay trước mặt tôi trên đầu màn hình của tôi và trực tiếp với cách tôi đang nói) cũng có một micrô hoạt động và làm tăng thêm sự nhầm lẫn. Sau khi tôi sửa được điều đó, mọi việc khá suôn sẻ từ đó trở đi.

Tôi thậm chí đã thử nói với nhiều loại giọng khác nhau ( ví dụ như BBC English and American redneck(BBC British and American redneck) ) và có thể nhận ra khá tốt, cho phép tạo ra sự khác biệt trong cách phát âm chuẩn của người Mỹ. Tất nhiên, nói rằng "Friends, Romans, countrymen, lend me your ears!"trong khi ấn tượng tốt nhất của tôi về Helen Mirren và Jeff Foxworthy(Helen Mirren and Jeff Foxworthy) khiến tôi cười quá nhiều để có được kết quả hoàn toàn chính xác.

Nhận dạng ngôn ngữ

Tính năng Nhận dạng giọng nói(Speech Recognition) có thể được sử dụng với các ngôn ngữ khác nhau và tôi nghĩ mình có thể thử tính năng này với tính năng nhận dạng giọng nói, tiếng Mỹ(American) , tiếng Tây Ban Nha(Spanish) , tiếng Đức và tiếng Pháp(German and French) hạn chế của mình , nhưng tiếc là bạn không thể sử dụng các ngôn ngữ khác trừ khi hệ điều hành(operating system) của bạn cũng sử dụng ngôn ngữ đó. Bạn có thể thay đổi ngôn ngữ của hệ điều hành(operating system) của mình bằng cách cài đặt gói ngôn ngữ(language pack) khác từ Microsoft , nhưng bạn chỉ có thể làm điều đó nếu đang chạy Windows 7 Ultimate hoặc Windows 7 Enterprise.

Nhận dạng giọng nói

Tính năng Nhận dạng giọng nói(Speech Recognition) khả dụng cho tiếng Anh Mỹ(US English) , tiếng Anh Anh(UK English) , tiếng Pháp(French) , tiếng Tây Ban Nha(Spanish) , tiếng Đức(German) , tiếng Nhật(Japanese) , tiếng Trung phồn thể và tiếng Trung giản thể(Traditional Chinese and Simplified Chinese) , và sẽ có trong các phiên bản Windows 7 của các ngôn ngữ đó (tất cả các phiên bản). Tôi rất tiếc khi không thể dùng thử. Tôi không biết điều gì sẽ xảy ra với Windows 8 , nhưng tôi nghĩ khả năng cài đặt các gói ngôn ngữ khác sẽ là một bổ sung tốt cho các phiên bản Windows 8(Windows 8) tương đương với Windows 7 Professional trở lên.

Những gì hoạt động tốt

Như tôi đã đề cập, Nhận dạng giọng nói(Speech Recognition) được thiết kế để hoạt động tốt nhất với các phần mềm khác của Microsoft(Microsoft software) . Miễn là tôi thử nghiệm với các sản phẩm của Microsoft(Microsoft) , tôi đã rất thành công (mặc dù như người ta có thể mong đợi, việc sử dụng Microsoft Office Excel vừa hạn chế vừa phức tạp). Với phần mềm khác, nó đã bị đánh hoặc trượt. Tôi có thể sử dụng trình duyệt Google Chrome khá tốt (chắc chắn không tốt bằng Internet Explorer ) và chương trình email Eudora của tôi , hiện tại có khá nhiều phần mềm cổ(antique software) . Thật đáng để thử nghiệm với phần mềm yêu thích của riêng bạn để xem bạn có thể làm gì. Lệnh "hiển thị số" đặc biệt hữu ích trong việc chọn các mục và lệnh.

Tôi cũng nhận thấy rằng không mất nhiều thời gian để độ chính xác của nhận dạng được cải thiện rõ rệt. Tôi đã xem qua các bài tập huấn luyện hai lần, và sau đó tôi nhận ra gần như % correct . Tôi đã có thể nói nhanh hơn một chút và tạm dừng ít hơn để phần mềm theo kịp. Tôi thực sự thích xem giọng nói của mình được dịch thành từ trên màn hình. Trải nghiệm ban đầu của tôi với phần mềm nhận dạng giọng nói(speech recognition software) không có gì dễ chịu như vậy.

Nhận dạng giọng nói

Những gì không hoạt động tốt

Như tôi đã đề cập, một số phần mềm không tương thích với Nhận dạng giọng nói(Speech Recognition) . Tôi thậm chí không thể mở Adobe Reader hoặc phiên bản Adobe AIR của TweetDeck . Tôi nhận thấy rằng tôi không thể đăng nhập vào tài khoản Google(Google account) của mình bằng Internet Explorer để dùng thử Google Tài liệu(Google Docs) — dường như không có cách nào để nói hoặc đánh vần mật khẩu của tôi. Tôi nghi ngờ đây là vấn đề bảo mật(security issue) , không cho phép nói to mật khẩu ở nơi người khác có thể nghe thấy, nhưng điều đó thật khó chịu.

Tôi có thể mở iTunes và chọn một bài hát để phát, nhưng thực sự không thể phát được bài hát đó. Tôi có thể mở Scrivener (trình xử lý văn bản mà tôi lựa chọn) nhưng "Hiển thị số"("Show numbers") không phủ số lên bất kỳ thứ gì tôi muốn sử dụng. Tôi đã không thực hiện bất kỳ thử nghiệm thực sự rộng rãi nào với phần mềm yêu thích của mình — đó chỉ là một vài thử nghiệm mà tôi đã thử. Sẽ rất đáng giá cho bất kỳ ai muốn sử dụng Nhận dạng giọng nói(Speech Recognition) để kiểm tra các chương trình họ muốn sử dụng nó, để đảm bảo rằng nó sẽ tương thích.

Nhiều liên kết và tài nguyên hơn

Nếu bạn chưa xem các bài viết trước, bạn có thể tìm thấy chúng tại đây:

  • Làm việc với Nhận dạng giọng nói(Speech Recognition) : Thiết lập và cấu hình(Setup and Configuration)
  • Làm việc với Nhận dạng giọng nói(Speech Recognition) : Lệnh, Đọc chính tả văn bản & Duyệt (Dictating Text & Browsing)web
  • Khắc phục sự cố thường gặp về nhận dạng giọng nói(Common Speech Recognition Problems)

Thật kỳ lạ, hầu như không thể tìm thấy bất kỳ thông tin nào về Nhận dạng giọng nói(Speech Recognition) trên trang web (web site)Microsoft Answers mà không nhấp vào liên kết từ tìm kiếm trên Google hoặc Bing(Google or Bing search) . Tôi không thể nhận được bất kỳ câu trả lời nào khi đặt "Nhận dạng giọng nói"("Speech Recognition") vào hộp tìm kiếm(search box) , mặc dù có một số câu hỏi về tính năng này trên diễn đàn. Sử dụng liên kết này để nhận trợ giúp về Nhận dạng giọng nói(Speech Recognition) từ trang web Windows: Kết quả tìm kiếm Nhận dạng giọng nói(Speech Recognition search results) .

Đây là một bài viết ngắn trên Wikipedia(Wikipedia article) nói về lịch sử của nhận dạng giọng nói(speech recognition) tại Microsoft : Windows Speech Recognition .

Dưới đây là một bài viết trên blog(blog entry) cung cấp suy nghĩ của tác giả về việc so sánh Nhận dạng giọng nói(Speech Recognition) với Nhận dạng giọng nói của Rồng tự nhiên : Nói tiếng (Dragon Naturally Speaking)rồng tự nhiên so với Nhận dạng giọng nói trên Windows 7(Dragon NaturallySpeaking Versus Windows 7 Voice Recognition) .

Gói nó lại

Tôi thực sự thích làm việc với Nhận dạng giọng nói(Speech Recognition) và ngạc nhiên trước những cải tiến đã được thực hiện theo thời gian. Nó chắc chắn sẽ đủ tốt để sử dụng bình thường hàng ngày(everyday use) , đặc biệt là với các sản phẩm của Microsoft(Microsoft) .

Tôi sẽ tiếp tục sử dụng Nhận dạng giọng nói(Speech Recognition) chứ? Có, khi tôi có thể. Tại thời điểm này, tôi không cần bất cứ điều gì phức tạp hơn. Nó rất xứng đáng với thời gian để đào tạo nó và đào tạo bản thân tôi để sử dụng nó đúng.



About the author

Tôi là một kỹ sư phần mềm và blogger với gần 10 năm kinh nghiệm trong lĩnh vực này. Tôi chuyên tạo các bài đánh giá và hướng dẫn về công cụ cho các nền tảng Mac và Windows, cũng như cung cấp các bình luận của chuyên gia về các chủ đề phát triển phần mềm. Tôi cũng là một diễn giả và người hướng dẫn chuyên nghiệp, từng thuyết trình tại các hội nghị công nghệ trên thế giới.



Related posts