> AV게시판 > 정보/꿀팁

Whisper AI 사용해서 자막 추출하기 (대실패!)

(접기)

회원레벨이치카와에마게시글 보기 작성: 23-03-30 23:55:02 조회: 8,538 댓글: 39

8,538 44 39 회원레벨이치카와에마게시글 보기 1년 전

* https://www.avdbs.com/board/632121 글을 참조했습니다.

근데 설명이 너무 간단해서, 오히려 뭐가 뭔지 잘 모르겠다는 느낌이 들어서, 초보자 입장에서 A to Z 정리하는 글입니다.


결론부터 말하자면 추출에는 성공했지만, 컴퓨터 사양이 낮아서 낮은 성능의 모델로만 가능했습니다. ㅠ







오랜만에 취향저격에 너무 꼴리는 스토리 작품을 접했습니다.



SDMF-029 동정인 나와 키스 연습에 사귀어 준 남편 언니.폭주해서 안으로 계속 내보냈다.분홍색 가족 VOL.31 미사키 가나 
소주컵 키스 레게노...

 

 자막으로 더욱 몰입하고 싶다!!



어라. 자막 없네...


젠장. 


그래서 시작하는 자막 만들기 프로젝트~!







과정은 총 3단계 입니다.


1. mp4 -> mp3 음성파일 추출하기

* 추출 안하고 바로 동영상 파일로 적용해도 됩니다!


2. mp3 -> Whisper AI 로 srt 자막 파일 생성하기

3. 자막파일 -> DeepL AI 번역기로 번역하기





* 추출 안하고 바로 동영상 파일로 적용해도 됩니다! 

* 다만, 동영상 자체로 돌리면 램 용량을 많이 잡아먹는것 같습니다.

* 필요한 분들을 위해 내용은 지우지 않겠습니다.


1. mp4 -> mp3 음성파일 추출하기


whisper AI 는 영상이 아니라 "음성을 인식하는 AI" 입니다.


 고로 먼저 mp4 파일에서 mp3 를 추출해야합니다.. 


각자의 방법대로 추출하시면 됩니다. 


모르시는 분들은 샤나인코더 또는 losslesscut 프로그램을 추천드립니다. 

(설치는 구글링 ㄱㄱ)



파일을 열고 상단에 트랙 클릭



저것만 눌러서 음성부분만 따로 추출할 수 있습니다.
(조금 시간이 걸리니 다른일 하고 옵시다)


샤나 인코더에서는 프리셋 설정을 통해 mp3로 변환할 수 있습니다.






2. Whisper AI 로 srt 자막 파일 생성하기


Whisper AI 를 사용하려면 두가지 방법이 있습니다. 


1) 구글 클라우드의 힘을 빌린다 (구글 콜랩) 

- 초보자용

- GPU가 없다, 혹은 내 컴터로 하기 싫다

- 근데 콜랩 GPU 사용 제한이 있어서... 쓰다가 튕김 주의



2) 내 컴터 GPU 로 돌린다

- 고사양 그래픽카드(VRAM 8GB 이상) 를 가졌고, API 사용에 익숙하신 분들

- 고수용


- VRAM 확인하는 방법 : 작업관리자 - 성능 - 엔비디아 GPU - "전용" GPU 메모리


* 그냥 GPU 메모리 = CPU 메모리 ("공유" GPU 메모리) + "전용" GPU 메모리 






2-1) 구글 클라우드의 힘을 빌린다 

참고: https://arca.live/b/momoirocode/63021531


아래 링크를 들어가시면....

https://colab.research.google.com/drive/1qeTSvi7Bt_5RMm88ipW4fkcsMOKlDDss?usp=sharing#scrollTo=IuL5nGTIWYTY


짜잔!

이미 코드가 완성되어 있습니다.


딱 한가지만 설정하고 바로 실행시키면 됩니다.


(1) 수정 - 노트 설정 클릭

            

(2) 하드웨어 가속기 - GPU - 저장

(3) 런터임 - 모두 실행 클릭

 





그러면 코드가 쭉 실행되면서, 따라 스크롤 내려보면 다음과 같은 부분이 있을겁니다.

중간에 보시면 파란 URL 두줄 보이시나요? 그게 whisper AI를 webui 로 만든 결과물입니다.

클릭해서 들어가시면 됩니다.

(URL 은 72시간만 유지됩니다.)


일단 처음에는 한번 mp3 음악 파일로 테스트해보시길 추천드립니다.


모델은 medium 또는 large를 추천드립니다. large 는 높은 정확도 대신에 두배 느린 속도가 걸립니다.

* large v2는 더 개선된 large 입니다. 당연히 더 성능 좋습니다.


Languae 는 해당 파일에서 "인식"하고 싶은 언어입니다.  주의하세요. 번역하는 언어 아닙니다.


밑에 Task에서 transcribe 을 선택하면 Language 의 언어 그대로 출력되는 것이고, 

(영어를 인식하면 영어로, 일본어를 인식하면 일본어로 출력)


translate를 선택하면 "영어"로 번역해서 출력해줍니다.

(일본어를 인식해서 영어로 번역, 한국어를 인식해서 영어로 번역)


우린 deepL 을 사용해서 번역할 것이기 때문에, 그냥 transcribe 으로 냅두시면 됩니다.

 

 




2-2) 내 컴터 GPU 로 돌린다

참고: https://www.clien.net/service/board/lecture/17699124


제가 설명하는것보다 위에 참고 링크에 자세히 설명되어 있으니 쭉 따라가시면 됩니다.


모델은 small, medium, large 가 있는데


small 은 성능이 낮지만 VRAM 2GB로도 충분합니다. 속도도 아주 빠릅니다.

medium 은 평범한 성능이고, VRAM 5GB가 필요합니다. 속도는 적당히 빠릅니다.

large 는 medium 보다 조금 좋거나 비슷합니다. VRAM 10GB 필요합니다. 속도는 느립니다.


만약 그래픽카드가 없거나, 사양이 낮은데 CPU는 좋은거 끼고 있다? 

그럼 CPU로도 가능은 합니다. 


대신 속도는 엄청 아주 매우 느립니다. 거의 10배 이상으로 느립니다. 

(밤에 잘때나 돌려야 할듯..)


맨 처음 실행하면, 딱 한번만 모델을 다운받습니다. small 은 400MB, medium 은 1.4GB.. 

* 파일 경로, 파일 이름에 띄어쓰기가 있으면 큰따옴표로 묶어주세요

* 참고로 위에꺼는 medium 으로 돌렸는데 VRAM 부족으로 실패 ㅠ small 로 변경후 성공함.






3. 자막파일 -> DeepL AI 번역기로 번역하기

참고: https://www.avdbs.com/board/619703


음.... 이거 번역 중간에 3천자 넘으니까 에러뜨고 종료나서 포기... ㅠ ㅅ..ㅂ..


그냥 팟플레이어에 자막 실시간 번역 기능 씁시다!

구글 번역, 파파고 번역, 카카오 번역 등등 가능합니다. 성능도 나쁘진 않습니다.



( 없으니만 못한것 같기도 하고... ㅠㅠ )


* 추가) 위에 영상의 자막은 small 모델로 추출한건데, 

새로 medium 모델로 추출한 것(아래사진)을 적용해보니 꽤나 비슷한 맥락으로 번역되었습니다.





* 결론) 

1. 진짜 진짜 자막을 찾기 어렵고, 근데 너무 작품이 좋아서 소장하고 싶을 경우, 자막 대충 만들어서 저장해두는 용도로 딱 좋음. 

2. medium 이상으로 추출하자. small 은 퀄리티가 안좋음.

3. 좋은 그래픽 카드 사고싶다..







대실패로 끝났지만, 추후 방법을 알게된다면 업데이트 해놓겠습니다 ㅠㅠㅠㅠ 


제가 만든 일본어 자막은 [ 에딥톡방 ] 에 올려놓겠습니다. 필요하시면 가져다가 번역해서 보세요 ㅠㅠ

즐딸!



  • 추천 30회 달성, 이치카와에마님에게 10포인트 적립
  • 마지막 장면 들어보니 출가한여자 다시 받아주는거 아니라고 생각했을뿐야라고 한것같네요
  • 자막 검색 사이트에서 외국어 자막을 한국어로 번역해 주는 기능이 있습니다.
    자신이 가진 외국어 자막 파일을 한국어로 번역해 줍니다.(아마 구글 번역 같습니다.)
    답글 1
  • 아 콜랩으로 해주시는 방법 알려주셔서 너무 감사드립니다.
    파이썬 설치는 어떻게 해도 안됐거든요 ㅠㅠㅠ
  • Whisper를 쓰시는 분들께 도움이 되실만한 글 게시했습니다. Whisper 신음 or 오류 자막 제거 스크립트(파이썬) https://www.avdbs.com/board/635865
  • 보기만 해도 어려운거 같네요
    답글 1
  • 추천 20회 달성, 이치카와에마님에게 10포인트 적립
  • 시험삼아 콜렙으로 12분짜리를 mp3추출해서 돌려보는데 반나절인데도 아직도 돌아가고 있어요; 이건 뭐가 문제가 있는거죠?;;
    답글 3 1
    • GPU를 설정을 안하셨거나, 파일 업로드가 완전히 된게 아닌데 추출하기를 눌러서 버그가 난 상태일수도 있어요.

      그거 말고도 저도 콜랩으로 돌리면 너무 오래걸려서 PC로 하고 있네요. ㅠㅠ PC도 오래걸리긴 하지만, 뭔가 반응이 확실하게 오니까(버그가 나던 에러가 나던) 마음이 편하다랄까...
    • CTYPE 님이 알려주기로는 콜랩으로 하면 빠르게 된다던데... 전 왠지 모르게 안됩니다 ㅠㅠ
    • 아, 저는 테스트로 mp3 3분짜리 할때는 1분? 2분 밖에 안걸렸어요. 12분짜리여도 몇분 안걸리는게 맞을거에요
  • 대단하네요
  • Whisper말고 편하게 하려면 JAutosub 클로바노트도 있어요 퀄리티는 안좋지만 쓸만합니다
    답글 1 1
  • 안 들어온 사이에 ai 번역에 대한 글이 많이 올라왔군요.. 혹시 저 Whisper ai를 핸드폰으로도 사용가능할까요?
    답글 3 1
    • 번역 능력까지는 기대 안하고 일본어 받아쓰기만 괜찮으면 쓸만할 것 같은데..
    • 유튜브 찾아보시면 많아요. 시리나 빅스비에 적용해서 개인용 챗봇으로 만드는 방법도 있고,
      whisper ai 를 핸드폰으로 쓸 수 있냐고 질문하신걸 보면, 뭔가 오해를 하고 있으신거 같은데,
      이건 그냥 API 입니다. 어플리케이션이나 그런게 아니에요.

      예를 들어 챗GPT 를 핸드폰에서 사용가능할까요? 라고 질문하시면 당연히 YES 입니다.
      챗GPT는 web ui 로 만들어져서 바로 인터넷만 가능하면 접속해서 쓰면 되니까요.

      근데 GPT-4 를 핸드폰으로 쓸 수 있냐고 물어보면, 당연히 NO 입니다.
      GPT-4 는 API 라서, 그걸로 다른 어플리케이션을 만드는 용도입니다.
      whisper AI도 같은 개념이구요.

      whisper AI로 누가 녹음 및 받아쓰기 어플리케이션을 만들면 핸드폰으로 쓸 수 있겠죠?
    • 아 그렇군요.. 답변 감사합니다! 저는 챗gpt 같은거 생각하고 있었네요.
      얼마 전에 vrew인가 써서 받아쓰기 했는데 기능을 아예 안해서 포기했었거든요;
  • 회원레벨q1w2e3r4rr 1년 전
    삭제된 글입니다(1).
    답글 1
  • 인기 게시글로 등록되었습니다 (23-03-31 04:50:13)
  • 추천 10회 달성, 이치카와에마님에게 10포인트 적립
  • 회원레벨프레임 1년 전
    톡방도 있었군요 신기하네요ㅎ
    답글 1 2
  • 뭔가 굉장히 험난한 과정을 거치셨네요.
    1) Mp3 추출 안해도 됩니다. Whisper가 알아서 합니다.
    local로 해도 colab으로 해도 마찬가지입니다.

    2) 팟플레이어 번역은 파파고로 선택하시면 됩니다. 옵션에서 선택 가능합니다.
    최근의 번역 붐!?은 VR 때문인걸로 압니다. 평면 영상을 위해 굳이 수고할 필요가 있을까 싶습니다. 개인적인 생각입니다.

    3) 저 srt translator가 특정알고리즘 하에서 반복 요청을 하면 deepl에서 밴을 때리는거 같습니다. max character option 수를 줄이면 좀 낫습니다만... 그냥 셀레니움 자동화도 어렵지 않습니다.

    자막 받으실 수 있는 이메일같은거 남겨주시면 작업해서 드릴께요.
    답글 6 4
    • 1) 에...? 그런가요? 이런.... 뻘짓을 했네요 내일 한번 다시 해봐야겠네요

      2) 파파고 번역은 로그인 정보까지 넣어도 안되길래 뭐 따로 설정해야하나 싶어서 냅뒀는데 그냥 해도되는건가요?

      3) deepl 번역기는 저도 셀레니움이용해서 따로 만들어놓긴 했는데, srt 작업하는 과정이 귀찮아서 냅뒀습니다. ㅋㅋㅋ

    • 쪽지로 이메일 주세요. 생각보다 번역량이 별로 없네요.
    • ㅎㅎ 거기까진 괜찮습니다 저도 따로 해보던지 하려구요
    • 도움주셔서 감사합니다!
    • 아 이미 뽑아서... 그... 텔레그램 방 출첵방인지 모르고 거기에 파일 던지고 왔습니다.
    • 파파고는 저는 그냥 쓰고 있는데 오래전부터 쓰고 있는거라 이전에 뭘 어떻게 했었는지는 기억이 안나네요 -0-
  • 추천 5회 달성, 이치카와에마님에게 5포인트 적립
  • 역시 전문가 같으시네요 ㄷㄷ
    답글 1 2
  • 회원레벨希美まゆ 1년 전
    그래도 참 좋은 세상이 된것 같아요. 자동번역이라도 이렇게 해주니. 예전엔 진짜 아무것도 모르고 봤었는데
    답글 1 1
  • 고생하셨습니다 ^^
    답글 1 2
  • 글번호
  • 제목
  • 작성자
  • 작성일
검색 글쓰기