ABONAMENTE VIDEO REDACȚIA
RO
EN
Numărul 148 Numărul 147 Numărul 146 Numărul 145 Numărul 144 Numărul 143 Numărul 142 Numărul 141 Numărul 140 Numărul 139 Numărul 138 Numărul 137 Numărul 136 Numărul 135 Numărul 134 Numărul 133 Numărul 132 Numărul 131 Numărul 130 Numărul 129 Numărul 128 Numărul 127 Numărul 126 Numărul 125 Numărul 124 Numărul 123 Numărul 122 Numărul 121 Numărul 120 Numărul 119 Numărul 118 Numărul 117 Numărul 116 Numărul 115 Numărul 114 Numărul 113 Numărul 112 Numărul 111 Numărul 110 Numărul 109 Numărul 108 Numărul 107 Numărul 106 Numărul 105 Numărul 104 Numărul 103 Numărul 102 Numărul 101 Numărul 100 Numărul 99 Numărul 98 Numărul 97 Numărul 96 Numărul 95 Numărul 94 Numărul 93 Numărul 92 Numărul 91 Numărul 90 Numărul 89 Numărul 88 Numărul 87 Numărul 86 Numărul 85 Numărul 84 Numărul 83 Numărul 82 Numărul 81 Numărul 80 Numărul 79 Numărul 78 Numărul 77 Numărul 76 Numărul 75 Numărul 74 Numărul 73 Numărul 72 Numărul 71 Numărul 70 Numărul 69 Numărul 68 Numărul 67 Numărul 66 Numărul 65 Numărul 64 Numărul 63 Numărul 62 Numărul 61 Numărul 60 Numărul 59 Numărul 58 Numărul 57 Numărul 56 Numărul 55 Numărul 54 Numărul 53 Numărul 52 Numărul 51 Numărul 50 Numărul 49 Numărul 48 Numărul 47 Numărul 46 Numărul 45 Numărul 44 Numărul 43 Numărul 42 Numărul 41 Numărul 40 Numărul 39 Numărul 38 Numărul 37 Numărul 36 Numărul 35 Numărul 34 Numărul 33 Numărul 32 Numărul 31 Numărul 30 Numărul 29 Numărul 28 Numărul 27 Numărul 26 Numărul 25 Numărul 24 Numărul 23 Numărul 22 Numărul 21 Numărul 20 Numărul 19 Numărul 18 Numărul 17 Numărul 16 Numărul 15 Numărul 14 Numărul 13 Numărul 12 Numărul 11 Numărul 10 Numărul 9 Numărul 8 Numărul 7 Numărul 6 Numărul 5 Numărul 4 Numărul 3 Numărul 2 Numărul 1
×
▼ LISTĂ EDIȚII ▼
Numărul 139
Abonament PDF

Transcrierea și citirea unui text folosind modele OpenAI

Ovidiu Mățan
Fondator @ Today Software Magazine



PROGRAMARE


OpenAI prin chatGPT a reușit să transforme ușor lumea și să devină asistentul ideal și mereu la dispoziția noastră pentru micile taskuri sau creații grafice. Și asta, doar cu ajutorul unui prompt. Programatori fiind, vrem de obicei mai mult decât un simplu chat. Așa că haideți să folosim OpenAI API.

Setup

În cazul OpenAI-ului, folosirea API-ului nu este gratuită, așa că pe lângă abonamentul lunar la chat-gpt vom avea nevoie să adăugăm o mică sumă și în contul the API. Câțiva dolari ar trebui să fie suficienți pentru testarea și învățarea acestuia.

Următorul pas este să ne generăm o cheie privată și să setăm cu valoarea acesteia proprietatea sistemului: OPENAI_API_KEY

Conversia textului în sunet

import fs from "fs";
import path from "path";
import OpenAI from "openai";

const openai = new OpenAI();

const speechFile = path.resolve("./speech_hd_onyx_opening.mp3");

async function main() {
  const mp3 = await openai.audio.speech.create({
    model: "tts-1-hd",
    voice: "onyx",
    input: "This is a voice generated audio stream. Vă invităm să vă așezați pe scaune, începem evenimentul în 2 minute",
  });

  console.log(speechFile);
  const buffer = Buffer.from(
    await mp3.arrayBuffer());

await fs.promises
  .writeFile(speechFile, buffer);
}

main();

Folosim un exemplu de cod din documentație. Pentru model avem două opțiuni:

și avem de-a face cu latență vs. calitate. Dacă aplicația noastră are cerințe real time, atunci vom merge cu tts-1.

Setul de voci existente este optimizat pentru engleză, dar se comportă destul de bine și în română. De exemplu, putem alege unul din următoarele caractere: alloy, echo, fable, onyx, nova și shimmer.

În general fișierele mp3 generate sunt de bună calitate. Din perspectiva IP (Intellectual Property) fișierele generate ne aparțin, singura cerință este să afișăm un text clar prin care să se menționeze că acestea au fost generate cu ajutorul AI-ului.

Conversia sunetului în text

Vom folosi pentru aceasta toolul open source Whisper. Fișierele de intrare pot fi, de exemplu, cele generate anterior sau altele audio sau video. Dat fiind că toolul rulează local veți avea nevoie de un calculator performant. Calitatea transcrierii este foarte bună din engleză, dar lasă de dorit pentru română.

Pentru rulare folosim linia de comandă astfel:

whisper 

Exemplu de răspuns:

[00:00.000 --> 00:04.800]  buying proper architectur
al patterns and design patterns,
[00:04.800 --> 00:09.240]  they can abstract the cloud provider concepts that
[00:09.240 --> 00:12.200]  were spread around the code.
[00:12.200 --> 00:14.680]  So they actually put in an effort,
[00:14.680 --> 00:19.080]  created a lot of additional elements in place, 
......

Alternativ, putem folosi serviciile online, dar aici, din păcate, există o limitare dată de dimensiunea fișierului și primim eroarea: 'Maximum content size limit (26214400) exceeded (26446942 bytes read)',

import fs from „fs”;
import OpenAI from „openai”;

const openai = new OpenAI();

async function main() {
    const translation = await openai.audio
      .translations.create({
        file: fs.createReadStream(„speech.mp3”),
        model: „whisper-1”,
    });

    console.log(translation.text);
}
main();

Concluzie

Simularea vocii umane și generarea transcrierii nu au fost niciodată mai ușor de realizat. Exemplele de mai sus arată cât de repede și simplu se pot realiza cu ajutorul API-ului OpenAI. Deși serviciul de traducere nu este disponibil, vom putea în curând modifica modul în care conferințele și workshopurile sunt transmise online live prin traduceri în timp real. La aceasta se va putea adăuga și generarea de conținut audio, atunci când va fi nevoie.

LANSAREA NUMĂRULUI 149

Marți, 26 Octombrie, ora 18:00

sediul Cognizant

Facebook Meetup StreamEvent YouTube

NUMĂRUL 147 - Automotive

Sponsori

  • Accenture
  • BT Code Crafters
  • Accesa
  • Bosch
  • Betfair
  • MHP
  • BoatyardX
  • .msg systems
  • P3 group
  • Ing Hubs
  • Cognizant Softvision
  • Colors in projects