과학기술/용어 설명

[기술] 음성 인식이란? (소개, 원리, 전망)

tonystark100 2024. 3. 20. 15:00

목차

    음성인식 소개

    음성 인식 기술은 사람의 음성을 텍스트 형식으로 변환하는 기능입니다. 이를 통해 프로그램이 사람의 음성을 처리하고 이해할 수 있습니다. 다양한 분야에서 활용되며, 주로 음성-텍스트 변환 (speech-to-text)이라고도 불립니다.

    • 1952년: 벨 연구소에서 오드레이 (Audrey) 시스템 개발. 숫자를 단일 음성으로 인식하는 시스템.
    • 1963년: IBM이 슈박스 (Shoebox)를 공개. 16개의 영어 단어를 음성으로 인식하고 간단한 숫자 계산 가능.
    • 1970년: 프린스턴대학교의 레니 바움이 통계적 처리 방법 (HMM) 개발. 음성 단위를 통계적으로 모델화한 음성 인식 알고리즘.
    • 1978년: 텍사스 인스트루먼트 (TI)가 디지털 신호 처리를 이용한 유아용 장난감 '스피크 앤드 스펠’을 개발.
    • 1997년: 드래곤 내추럴리스피킹 (Dragon NaturallySpeaking) 출시. 최초로 연속적인 음성을 인식하며 분당 100단어의 속도를 지원.
    • 2000년: 뉘앙스 커뮤니케이션 설립. 음성 포털 업체인 텔미 (TellMe) 등장.
    • 2010년: 애플이 시리 (Siri)를 인수. 구글 보이스 서치 (Google Voice Search) 출시.
    • 현재: 음성 인식 기술은 스마트폰, 음성 검색, 음성 포털, 음성 자동응답 시스템 등 다양한 분야에서 활용되고 있습니다.

    음성인식 원리

    1. 음성 신호 수집: 사람의 음성을 마이크로 받아 전기적 신호로 변환합니다.

    • 소리는 공기 중에서 진동이 일어나는 파동 형태로 전달됩니다. 이러한 파동은 마이크로폰 같은 입력 장치를 통해 수집됩니다. 

    2. 디지털 변환: 신호를 작은 단위로 잘라 디지털 신호로 변환합니다.

    • 이 기계파를 아날로그-디지털 변환기 (ADC)라는 장치를 통해 디지털 신호로 변환합니다. 이 변환기는 입력된 아날로그 신호를 일정한 시간 간격으로 샘플링하여 해당 시점의 신호 값을 디지털 값으로 변환합니다. 이렇게 변환된 디지털 신호는 이후에 디지털 신호 처리기 (DSP)를 통해 필요한 처리를 수행하거나 저장 매체에 저장됩니다.
    • 디지털 신호의 경우, 별도의 아날로그-디지털 변환 과정이 필요하지 않으며, 직접 디지털 신호가 기록 장치에 저장됩니다. 이러한 방식을 통해 많은 양의 음성 데이터를 작은 용량으로 저장할 수 있습니다. 디지털 신호는 이진수로 표현되며, 이진수는 0과 1로 이루어진 숫자 체계를 사용합니다. 음성 파일을 저장하기 위한 대표적인 형식 중 하나는 MP3입니다. MP3는 데이터 압축 기술을 사용하여 음성 데이터를 작은 크기로 압축하여 저장할 수 있습니다. 

    3. 특징 추출: 음성에서 음소를 추출하여 어떤 글자에 해당하는지 파악합니다.

    • 특징은 데이터에서 의미 있는 부분을 나타내는 속성입니다.
    • 특징은 크게 두 가지 기준에 대해 우수해야 합니다:
    • 분별력 (Discriminatory Power) : 좋은 특징은 서로 다른 부류를 잘 분별해 주어야 합니다.
    • 차원 (Dimensionality) : 특징 벡터의 차원이 낮을수록 계산 효율이 좋고 차원의 저주에서 멀어집니다.
    • 특징은 패턴 원천 (pattern source)이 처한 외부 환경에 맞추어 설계되어야 합니다.
    • 특징 생성을 위해 필요한 작업을 특징 추출 (Feature Extraction)과 특징 선택 (Feature Selection)으로 구분합니다.
    • 특징 추출은 신호나 데이터로부터 특징 벡터를 만드는 과정입니다.
    • 특징 선택은 추출된 특징 벡터 중 분별력이 좋은 특징만 선택하여 새로운 특징 벡터를 만드는 과정입니다.

    4. 패턴 인식: 음성의 반복 패턴을 특정 단어나 문장과 매칭시키는 기술을 사용하여 음성을 텍스트로 변환합니다.

    • 패턴 인식은 추출된 특징을 바탕으로 데이터를 분류하거나 패턴을 인식하는 과정입니다.
    • 예를 들어, 음성 인식에서 음성 특징을 추출한 후, 그 특징을 바탕으로 단어를 인식하거나 화자를 식별할 수 있습니다.
    • 패턴 인식은 다양한 분야에서 활용되며, 기계 학습, 컴퓨터 비전, 음성 처리 등에서 중요한 역할을 합니다.
    • 주요 알고리즘에는 신경망 (Neural Networks), 서포트 벡터 머신 (Support Vector Machines), 최근접 이웃 (k-Nearest Neighbors) 등이 있습니다.

    음성인식 전망

    음성 인식 기술은 빠른 속도로 발전하고 있으며, 미래에는 더욱 정교한 기술과 다양한 응용이 가능해질 것으로 전망됩니다. 향후 음성 인식 기술의 발전을 위해서는 딥러닝 알고리즘, 클라우드 기반 서비스, 보안 기술 등 다양한 기술적 발전이 필요하며, 이를 통해 사용자들은 보다 효율적이고 안전한 음성 인식 기술을 이용할 수 있게 될 것입니다. 미래에는 음성 인식 기술이 더욱 놀라운 혁신을 이룰 것으로 예측됩니다. 강화학습(reinforcement learning)과 감정 인식(emotion recognition)과 같은 기술의 접목으로, 스마트폰은 사용자의 감정을 더 정확하게 파악하고 대화의 맥락을 더욱 자연스럽게 이해하는 데 도움이 될 것입니다. 국내 음성 AI 플랫폼도 한국어에 특화된 음성 인식∙합성 성능과 IPTV 셋톱박스 기능, 검색, 팟캐스트나 음악 스트리밍 등 국내 인터넷∙모바일 서비스와의 연동을 강조하고 있습니다.

     

    ** 이 글이 좋았다면 좋아요와 구독을 눌러주세요. **

     

     

     

     

     

     

     

    로또로 화성 - Google Play 앱

    간편한 로또 번호 생성 및 QR 결과 확인 어플입니다.

    play.google.com