การทำความเข้าใจการจดจำเสียง

ลองใช้เครื่องมือของเราเพื่อกำจัดปัญหา





ลองนึกภาพตัวเองนั่งสบาย ๆ บนโซฟาและสั่งคอมพิวเตอร์หรือแล็ปท็อปหรือโทรศัพท์มือถือให้ทำงานง่ายๆเช่นพิมพ์จดหมายหรือทำตามคำสั่งไม่กี่คำสั่ง เป็นไปได้ไหม?

แน่นอนว่านั่นคือจุดที่การจดจำเสียงเข้ามาในภาพ




ตามคำจำกัดความมันเป็นกระบวนการจดจำเสียงพูดของมนุษย์และถอดรหัสเป็นรูปแบบข้อความ

หลักการ

หลักการพื้นฐานของ การจดจำเสียง เกี่ยวข้องกับความจริงที่ว่าคำพูดหรือคำพูดที่มนุษย์พูดทำให้เกิดการสั่นสะเทือนในอากาศหรือที่เรียกว่าคลื่นเสียง คลื่นต่อเนื่องหรืออนาล็อกเหล่านี้ถูกแปลงเป็นดิจิทัลและประมวลผลแล้วถอดรหัสเป็นคำที่เหมาะสมแล้วจึงเป็นประโยคที่เหมาะสม



การจดจำเสียง

ส่วนประกอบของระบบรู้จำเสียง

ระบบรู้จำเสียงพื้นฐานประกอบด้วยอะไรบ้าง?

ส่วนประกอบของระบบรู้จำเสียง

  • อุปกรณ์จับเสียงพูด : ประกอบด้วยไมโครโฟนซึ่งแปลงสัญญาณคลื่นเสียงเป็นสัญญาณไฟฟ้าและตัวแปลงอนาล็อกเป็นดิจิตอลซึ่งจะสุ่มตัวอย่างและแปลงสัญญาณอนาล็อกเป็นดิจิทัลเพื่อให้ได้ข้อมูลที่ไม่ต่อเนื่องที่คอมพิวเตอร์สามารถเข้าใจได้
  • โมดูลสัญญาณดิจิทัลหรือโปรเซสเซอร์ : ดำเนินการประมวลผลสัญญาณเสียงพูดดิบเช่นการแปลงโดเมนความถี่กู้คืนเฉพาะข้อมูลที่ต้องการเป็นต้น
  • การจัดเก็บสัญญาณที่ประมวลผลล่วงหน้า : เสียงพูดที่ประมวลผลล่วงหน้าจะถูกจัดเก็บไว้ในหน่วยความจำเพื่อดำเนินการต่อไปในการรู้จำเสียง
  • รูปแบบการพูดอ้างอิง : คอมพิวเตอร์หรือระบบประกอบด้วยรูปแบบคำพูดที่กำหนดไว้ล่วงหน้าหรือแม่แบบที่จัดเก็บไว้แล้วในหน่วยความจำเพื่อใช้เป็นข้อมูลอ้างอิงสำหรับการจับคู่
  • อัลกอริธึมการจับคู่รูปแบบ : สัญญาณเสียงพูดที่ไม่รู้จักถูกเปรียบเทียบกับรูปแบบการพูดอ้างอิงเพื่อกำหนดคำจริงหรือรูปแบบของคำ
การทำงานของระบบ

ตอนนี้ให้เราดูว่าระบบทั้งหมดทำงานอย่างไร


การทำงานของระบบ

  • คำพูดสามารถมองได้ว่าเป็นรูปคลื่นอะคูสติกนั่นคือข้อมูลข้อความที่นำสัญญาณ มนุษย์ปกติที่มีอัตราการเคลื่อนไหวที่ จำกัด ของเครื่องขยายเสียง (อวัยวะในการพูด) สามารถสร้างเสียงพูดได้ในอัตราเฉลี่ย 10 เสียงต่อวินาที อัตราข้อมูลเฉลี่ยประมาณ 50-60 บิต / วินาที หมายความว่าจริงๆแล้วต้องใช้ข้อมูลเพียง 50 บิต / วินาทีในสัญญาณเสียงพูด รูปคลื่นอะคูสติกนี้ถูกแปลงเป็นสัญญาณไฟฟ้าอนาล็อกโดยไมโครโฟน ตัวแปลงอนาล็อกเป็นดิจิตอลจะแปลงสัญญาณอนาล็อกนี้เป็นตัวอย่างดิจิทัลโดยทำการวัดคลื่นอย่างแม่นยำในช่วงเวลาที่ไม่ต่อเนื่อง
  • สัญญาณดิจิทัลประกอบด้วยกระแสของสัญญาณที่สุ่มตัวอย่างเป็นระยะ ๆ ที่ 16000 ครั้งต่อวินาทีและไม่เหมาะที่จะดำเนินการจริง การรู้จำเสียง กระบวนการเนื่องจากรูปแบบไม่สามารถหาได้ง่าย ในการดึงข้อมูลจริงสัญญาณในโดเมนเวลาจะถูกแปลงเป็นสัญญาณในโดเมนความถี่ ซึ่งทำได้โดย Digital Signal Processor โดยใช้เทคนิค FFT ในสัญญาณดิจิตอลส่วนประกอบหลังจากทุกๆ 1/100ของวินาทีจะถูกวิเคราะห์และคำนวณสเปกตรัมความถี่สำหรับแต่ละองค์ประกอบดังกล่าว กล่าวอีกนัยหนึ่งสัญญาณดิจิทัลจะแบ่งออกเป็นส่วนเล็ก ๆ ของแอมพลิจูดความถี่
  • แต่ละส่วนหรือกราฟความถี่แสดงถึงเสียงที่แตกต่างกันของมนุษย์ คอมพิวเตอร์ทำการจับคู่ส่วนที่ไม่รู้จักกับการออกเสียงที่จัดเก็บไว้ของภาษานั้น ๆ การจับคู่รูปแบบนี้ทำได้ 3 วิธี:

ใช้วิธีการออกเสียงแบบอะคูสติก : ในวิธีการออกเสียงแบบอะคูสติกโดยทั่วไปจะใช้ Hidden Markov Model โมเดลนี้พัฒนาแบบจำลองความน่าจะเป็นที่ไม่ได้กำหนดไว้สำหรับการรู้จำเสียง แบบจำลองนี้ประกอบด้วยสองตัวแปร - สถานะที่ซ่อนอยู่ของหน่วยเสียงที่จัดเก็บในหน่วยความจำคอมพิวเตอร์และส่วนความถี่ที่มองเห็นได้ของสัญญาณดิจิทัล หน่วยเสียงแต่ละหน่วยมีความน่าจะเป็นของตัวเองและส่วนจะจับคู่กับหน่วยเสียงตามความน่าจะเป็นจากนั้นหน่วยเสียงที่ตรงกันจะถูกรวบรวมเข้าด้วยกันเพื่อสร้างคำที่ถูกต้องตามกฎไวยากรณ์ที่จัดเก็บไว้ของภาษา

ใช้วิธีการจดจำรูปแบบ : ในแนวทางการจดจำรูปแบบระบบได้รับการฝึกฝนด้วยรูปแบบการพูดเฉพาะสำหรับภาษาใด ๆ และรูปแบบการพูดที่ไม่รู้จักจะถูกเปรียบเทียบกับรูปแบบการพูดอ้างอิงโดยการกำหนดระยะห่างระหว่างสัญญาณโดยใช้เทคนิคการแปรปรวนของเวลา

การใช้ปัญญาประดิษฐ์ : แนวทางปัญญาประดิษฐ์ขึ้นอยู่กับการใช้แหล่งความรู้พื้นฐานเช่นความรู้เกี่ยวกับเสียงที่พูดบนพื้นฐานของการวัดสเปกตรัมความรู้เกี่ยวกับคำที่มีความหมายและสังเคราะห์ที่เหมาะสม

ปัจจัยที่ขึ้นอยู่กับระบบรู้จำเสียง

ระบบรู้จำเสียงขึ้นอยู่กับปัจจัยต่อไปนี้:

  • คำที่แยกได้ : จำเป็นต้องหยุดชั่วคราวระหว่างคำที่พูดต่อเนื่องกันเนื่องจากคำที่ต่อเนื่องกันสามารถทับซ้อนกันทำให้ระบบเข้าใจได้ยากเมื่อคำเริ่มต้นหรือสิ้นสุด ดังนั้นจึงต้องมีความเงียบระหว่างคำที่ติดต่อกัน
  • ลำโพงเดี่ยว : ลำโพงหลายตัวที่พยายามป้อนข้อมูลด้วยเสียงพร้อมกันอาจทำให้เกิดการทับซ้อนกันของสัญญาณและการหยุดชะงัก ระบบรู้จำเสียงที่ใช้ส่วนใหญ่เป็นระบบที่ขึ้นอยู่กับลำโพง
  • ขนาดคำศัพท์ : ภาษาที่มีคำศัพท์ขนาดใหญ่ยากที่จะพิจารณาเพื่อจับคู่รูปแบบมากกว่าภาษาที่มีคำศัพท์ขนาดเล็กเนื่องจากโอกาสที่จะมีคำที่ไม่ชัดเจนจะมีน้อยกว่าในช่วงหลัง
ระบบรู้จำเสียงบน Windows 7

ฉันขอแนะนำขั้นตอนต่อไปนี้สำหรับบุคคลที่ใช้ Windows 7 สำหรับระบบจดจำเสียงพูด

  • เปิดแผงควบคุมจากเมนูเริ่มหรือคลิกที่ไอคอน
  • เลือกความง่ายในการเข้าถึงจากนั้นคลิกการรู้จำเสียง
  • คลิกถัดไปตั้งค่าไมโครโฟนและเลือกไมโครโฟนเดสก์ท็อปจากตัวเลือกที่มี
  • จากนั้นทำแบบฝึกหัดการพูดและทำตามคำแนะนำที่กำหนด
  • หลังจากนั้นฝึกคอมพิวเตอร์ของคุณเพื่อหาทางเลือกที่ดีขึ้นเพื่อให้คอมพิวเตอร์จัดเก็บรูปแบบสัญญาณเสียงพูดของคุณที่แน่นอน ทำได้โดยคลิกที่ตัวเลือก 'ฝึกคอมพิวเตอร์ให้เข้าใจคุณดีขึ้น' จากนั้นทำตามคำแนะนำ
  • ตอนนี้เริ่มไอคอนการรู้จำเสียงและเริ่มกำหนดคำพูดของคุณไปยังคอมพิวเตอร์ คุณยังสามารถเพิ่มคำของคุณเองลงในพจนานุกรมคอมพิวเตอร์
ระบบรู้จำเสียงพูดที่ใช้ได้จริง: การใช้ HM2007

ระบบรู้จำเสียงที่ใช้งานได้จริงสามารถสร้างได้โดยใช้ IC การรู้จำเสียง HM2007 . HM2007 เป็น IC 48 พินซึ่งมีฟังก์ชันการรู้จำเสียง ทำงานในสองโหมด: โหมดแมนนวลหรือโหมด CPU ในทั้งสองโหมด IC จะได้รับการฝึกให้รู้จักคำศัพท์ก่อนโดยผู้ใช้พูดแต่ละคำสำหรับตัวเลขที่เกี่ยวข้องซึ่งกดบนแป้น IC จะเก็บสัญญาณแต่ละคำไว้ในตำแหน่งหน่วยความจำที่ตรงกับคำนั้น เอาต์พุตข้อมูลจาก IC จะเชื่อมต่อกับไมโครคอนโทรลเลอร์จากตำแหน่งที่แสดงบน LCD

ระบบรู้จำเสียงพูดที่ใช้ได้จริง

โดยปกติเราใช้โหมดแมนนวลสำหรับการทำงานของ HM2007

  • HM2007 ประกอบด้วยพิน RDY ซึ่งเป็นพินต่ำที่ใช้งานอยู่แสดงว่า IC พร้อมสำหรับการฝึกอบรม
  • อินพุตเสียงจะให้ผ่านไมโครโฟนที่เชื่อมต่อกับขา MICIN ของ IC
  • IC เชื่อมต่อกับปุ่มกดซึ่งใช้สำหรับป้อนตัวเลขที่สอดคล้องกับแต่ละคำ IC ทำงานในสองฟังก์ชั่น - Clear และ Train เมื่อกดแป้น Train บนแป้นพิมพ์ IC จะเริ่มกระบวนการฝึกอบรม
  • ผู้ใช้กดปุ่มตัวเลขก่อนที่จะกดปุ่มฟังก์ชัน 'Train' และพูดคำที่ต้องการกับไมโครโฟน
  • IC ส่งสัญญาณสูงไปยังพิน ME (Memory Enable) ซึ่งเชื่อมต่อกับขา ME ของ SRAM สัญญาณข้อมูล 8 บิตที่ตรงกับหมายเลขที่กดจะถูกเก็บไว้ใน SRAM (RAM ภายนอก) ผ่านบัสภายนอก
  • หลังจากตรวจพบการป้อนข้อมูลด้วยเสียงแล้วขา RDY จะอยู่ที่ลอจิกสูงและ IC จะเข้าสู่สถานะการรับรู้ซึ่งจะเริ่มกระบวนการรับรู้
  • ผลลัพธ์ของกระบวนการจะได้รับผ่านบัสข้อมูลที่มีพิน DEN (Data Enable) สูง
  • จากนั้นข้อมูล 8 บิตสามารถมอบให้กับไมโครคอนโทรลเลอร์ผ่านโปรเซสเซอร์อินเทอร์เฟซแบบอนุกรมหรือสลักครั้งแรกโดยใช้สลัก IC 74HC573
  • ไมโครคอนโทรลเลอร์เชื่อมต่อกับ LCD และได้รับการตั้งโปรแกรมเพื่อให้คำที่เกี่ยวข้องปรากฏบนจอแสดงผล

ข้อควรระวังประการเดียวที่ต้องใช้คืออย่าใช้คำพ้องเสียง (คำที่มีเสียงคล้ายกัน) และดูแลการกระตุ้นด้วยเสียง

นี่คือวิธีการทั้งหมดของไฟล์ ระบบรู้จำเสียงพื้นฐาน ได้ผล สามารถป้อนข้อมูลเพิ่มเติมได้

เครดิตรูปภาพ

  • ระบบรู้จำเสียงโดย Gstatic
  • การจัดการรูปคลื่นเสียงโดย Dadisp

ส่วนประกอบของระบบรู้จำเสียงโดย An Introduction to Speech and Speaker Recognition - Richard D. Peacocke และ Daryl H. Graf