O que você não gosta Descript?
Após três anos de reclamações repetidas e pedidos de melhoria, o motor de IA do Descript ainda "sai dos trilhos" com os mesmos tipos de frases. Isso não é exclusivo do Descript. Já vi isso com outros produtos também, e todos têm uma resposta semelhante, de que o modelo LLM está sempre "aprendendo" ou "tentando aprender" para melhorar o resultado, e não há como controlar os problemas específicos sobre os quais reclamei e "ensinar" o motor de IA a digitar exatamente o que ouve. Mas eu não compro essa ideia. Outras respostas sugeriram repetidamente que o áudio menos claro é o culpado, o que *nunca* foi o caso.
O que aumenta minha angústia em relação a esse comportamento é que não acontece 100% do tempo, mas pelo menos 50% do tempo, e esses problemas específicos são padrões que não podem ser superados com macros ou outra automação de limpeza editorial porque você não sabe quais estão incorretos até ouvir o áudio. Isso desacelera muito o processo de revisão para áudio ter que corrigir esses problemas que não são "erros de escuta", mas decisões de IA descontroladas.
Em nenhuma ordem particular de importância:
"DE" COM DATAS:
Falado: "1º de janeiro de 2021" ou "1 de janeiro de 2021"
Às vezes transcrito: "1º de janeiro, 2021" ou "1 de janeiro, 2021"
ORDINAIS ADICIONADOS OU REMOVIDOS:
Falado: "1º de janeiro, 2021"
Às vezes transcrito: "1 de janeiro, 2021"
Falado: "1 de janeiro, 201"
Às vezes transcrito: "1º de janeiro, 2021"
CONTRAÇÕES:
Falado: "Eu não ouvi uma resposta."
Às vezes transcrito: "Eu não ouvi uma resposta."
Falado: "Eu não ouvi uma resposta."
Às vezes transcrito: "Eu não ouvi uma resposta."
Recentemente descobri outro motor de IA que transcreveu esses tipos de frases com 100% de precisão, usando o mesmo áudio que havia sido processado pelo Descript com uma taxa de erro de 50% ou mais. Então, certamente É possível ajustar o motor de IA para transcrever exatamente o que é falado e não o que ele acha que é melhor.
Outro problema que tenho é a utilidade limitada do recurso de Glossário de Transcrição. Ele não permite o uso de números, para começar. No meu trabalho, recebo muitas das mesmas palavras ou frases que incluem números, como Regra 404(b), que o Descript transcreve como 4 0 4 B ou 4 0 4 b. Também parece arbitrário em como interpreta e aplica palavras e frases no glossário, aplicando-as algumas vezes e ignorando-as outras vezes quando é claro que deveria ter feito. Por exemplo, se eu sei que o áudio incluirá muitas referências a "Joann", e eu adiciono isso ao glossário, posso obter 15 instâncias de "Joann" junto com várias instâncias de "Jo Ann" e "Jo Anne".
A grande vantagem que me mantém ligado ao Descript é a capacidade de remover palavras duplicadas. Nunca remove todas, mas remove o suficiente para reduzir muito o tempo necessário para removê-las durante a revisão. Isso não é algo que pode ser facilmente automatizado, então continuo a dar mais peso a esse recurso do que provavelmente deveria. No caso do outro motor de IA que também uso, a vantagem é o recurso de horas de upload ilimitadas por mês, o que é significativo (o modelo de assinatura do Descript é limitado a 30 horas por mês). Mas estou continuamente em busca de um motor de IA que atenda a todos os critérios de precisão de transcrição, facilidade de uso, custo geral e remoção de palavras repetidas. Análise coletada por e hospedada no G2.com.