Modele de algoritmi in #Excel – Vectori (2.2)

Pentru acest articol am continuat partea de vectori din articolul trecut și propun o rezolvare a problemei
OddOccurrencesInArray.

În această problemă ni se propune un vector cu un set de numere naturale, unele dintre ele se repetă. Scopul este de a identifica câte din numerele respectivă se repetă de un număr impar de ori.

Nu mai detaliez mica parte de teorie din articolul precedent ci detaliez direct problema și explic soluțiile.

Se dă șirul {9, 3, 9, 3, 9, 7, 9, 1}. În acest șir sunt unice valorile {1, 3, 7, 9}. Dintre acestea, 1 și 7 apar de un număr impar de ori (o singură dată).

OddOccurrencesInArray propunere rezolvare în Excel.

Rezolvarea pas cu pas

Șirul de numere este trecut în celula A2.

Pentru a descompune șirul în A5 folosesc funcția =–TEXTSPLIT(A2;;”, „) , caracterele – vor transforma rezolvatul text al funcției de split într-un număr.

Pentru a determina valorile unice în C5 folosesc funcția: =SORT(UNIQUE(A5#)) prin care determin valorile unice de pe array A5#, cu funcția UNIQUE() și apoi le sortez în ordine crescătoare cu funcția SORT(). Tendința în Excel este de a transforma cât mai mult operațiile în funcții. Avantajul acestei abordări este că operațiunile nu sunt replicabile, sau pot fi oarecum replicate prin înregistrare și editare de macro. Funcțiile în schimb pot fi replicate și copiate.

Tehnica de apelare cu # este utilă când nu știm câte numere sunt în șir, ceea ce face dinamic rezultatul dar și apelarea sa.

Ca să determin câte valori sunt de fiecare număr folosesc în D5 un simplu COUNTIF() pentru numărarea condiționată a valorilor de pe array A5# cu condiția ca ele să fie egale cu cele din unicele de pe array C5#.

Ca să pot compara dacă valoarea rezultată pe coloana D este un număr impar folosesc funcția ISODD(). Ca să preiau valoarea impară de pe coloana din dreapta folosesc funcția TAKE() cu parametrul -1. Ca să afișez în IF() valoarea de pe coloana din stânga folosesc un TAKE cu valoarea 1. Pentru a scana tot tabelul rezultat din array C5#:D5# linie cu linie folosim funcția BYROW() care are nevoie de un tabel ca input și o funcție LAMBDA() cu parametrul de input r (echivalentul liniei) pentru interpretare.

Pentru a afișa rezultatul final al prelucrării folosesc funcția TEXTJOIN() cu delimitator „, „.

Rezolvarea dintr-o singură funcție

Rezolvarea pas cu pas a fost aproape o nimica toată, cheia fiind BYROW()-ul descris anterior.

Ca să rezolvi problema într-o singură funcție, ai aproape întotdeauna pentru probleme puțin mai complexe de funcția LET() în care poți compune gradual variabilele pe care pot fiu folosite în alte funcții din același LET(). LET()-urile se pot combina între ele cu alte funcții. Doar că una din funcții nu funcționează corect în context de LET(). Minumata funcție COUNTIF() returnează eroare de fiecare dată când încerci să o incluzi în LET().

Într-o abordare conform scenariului anterior, funcția intermediară de determinare a fiecărei apariții a numărului ar fi trebuit să arate ca în imagine:

Încercare de rezolvare OddOccurrencesInArray prin utilizare COUNTIF() în LET()

în care funcția MAP() ar trebui să parcurgă element cu element din valorile unice, iar LAMBDA() ar trebui să execute operațiunea de numărare condiționată a vectorului rezultat arr, pentru fiecare valore. Doar că nici COUNTIF() nici COUNTIFS() nu returnează valori corecte în acest context. Am încercat să realizez o funcție personalizată ca să includă COUNTIF()-ul și MAP() nu funcționează.

În acest context a trebuit să schimb funcția și în loc de un COUNTIF() să fac un COUNT() de un FILTER().

Funcția finală:

=LET( arr;--TEXTSPLIT(A2;;", ");
unice; SORT(UNIQUE(arr));
cate; MAP(unice;
LAMBDA(v; COUNT(FILTER(arr; arr=v))));
interm; HSTACK(unice;cate);
TEXTJOIN(", ";TRUE;
BYROW(interm;
LAMBDA(r;IF(ISODD(TAKE(r;;-1));TAKE(r;;1);""))))
)

în care aplic tehnicile descrise anterior pentru a obține un șir cu valorile care apar într-un număr impar de ori într-un șir de numere naturale.

Descrierea variabilelor:

arr – preia șirul și-l descompune apoi îl tranformă în număr;
unice – sortează valorile unice de pe arr;
cate – pentru fiecare valoare (v) din unice (MAP), aplică o funcție LAMBDA pentru a număra rezultatul fintrării arr după v curentă. Unice și Cate sunt variabile de o singură coloană care au același număr de rânduri.
interm – este variabila prin care realizez o matrice din cele două variabile;
matricea interm este parcursă de BYROW() prin care aplic o funcție LAMBDA() pentru fiecare linie (r) în așa fel încât să determin dacă valoarea de pe coloana din dreapta (TAKE cu -1) este număr impar (funcția ISODD).

Update 24.04.2024

În cazul în care vrem totuși să optimizăm execuția în loc să folosim funcția COUNT() de FILTER() ar fi mai util să folosim SUMPRODUCT() un fel de substitut pentru COUNTIF() și care funcționează atât în LET cât și în MAP().

Pentru a determina numărul de apariții a ficărui număr atunci putem folosi funcția:

=LET( arr;--TEXTSPLIT(A2;;", ");
unice; SORT(UNIQUE(arr));
cate; MAP(unice;
LAMBDA(v; SUMPRODUCT(--(arr=v)))); cate)

Cam asta este. Nu sunt sigur că este cea mai optimă variantă. Dacă aveți alte modele de rezolvare inclusiv în alte limbaje (Phyton de exemplu, sau VBA) sau vă rog să le partajați în comentarii dacă doriți.

Sper să fie util cuiva.

23/04/2024

Modele de algoritmi in #Excel – Vectori (2.1)

Pentru aceast articol am ales să rezolv problema vectorilor (arrays) în Excel. Sursa de inspirație este https://app.codility.com/programmers/lessons/2-arrays/cyclic_rotation/

Un pic de teorie

Termenul de vector este des întâlnit în matematică/geometrie, fizică și nu numai. În Excel sau informatică în general se folosește de cele mai multe ori termenul englezesc array. De multe ori problemele de vectori au legătură cu șirurile de numere sau caractere în general.

În Excel un vector poate fi un șir de caractere/numere parsabile sau o linie, sau o coloană cu valori multiple, sau chiar un bloc de căsuțe NxM care poate fi parcurs. Problemele de vectori se referă în general la manipularea acestora (parcurgere, extragere valori, numărare elemente, etc).

Dacă avem un șir de valori într-o celulă, acesta poate fi descompus după unul sau mai mulți delimitatori. Una din funcțiile de bază pentru descompunerea unui șir în celule este: TEXTSPLIT() dacă identificăm unul sau mai mulți delimitatori sau o combinație de MID() cu SEQUENCE() prezentată în articolul trecut în cazul în care nu avem un delimitator definit.

Exemple:

Funcțiile TEXTSPLIT() și MID() cu SEQUENCE()

În formula din C2 folosim TEXTSPLIT() cu delimitatorul , (virgulă). De menționat că se pot pune mai mulți delimitatori în cadrul aceleiași formule.

În C5 am folosit funcția MID() combinată cu SEQUENCE() de LEN() de valoare pentru a descompune literă cu literă textul. UPPER() este pentru a transforma toate literele în litere mari.

O funcție matematică foarte importantă în acest context este funcția MOD() care determină restul împărțirii a două numere între ele. Aceasta ne ajută în general în probleme cu ciclicitate pe același interval de valori. Restul împărțirii unui număr la el însuși este întotdeauna 0: MOD(n;n) = 0. Dacă dorim să forțăm o secvență de numere în care trebuie să obținem valoarea numărului, atunci va trebui să facem un artificiu matematic pentru acest lucru: MOD(n-1; n)+1 = n.

în care: avem o secvență de 16 numere în care dacă rulăm MOD(n;8) obținem valori de la 1 la 7 după care 0. Dacă dorim să realizăm numere repetitive de la 1 la 8 atunci va trebui să utilizăm: MOD(n-1;8)+1 în care n-1 va determina pentru n=8 valoarea 7 care în MOD cu 8 devine 7 la care adăugăm 1 pentru a se transforma în 8.

CyclicRotation în Excel

Așa cum specificam la începutul seriei, provocarea este de a rezolva probleme clasice de algoritmică în Excel. În zona de vectori o problemă clasică este aceea de a roti repetitiv elementele sale după un anumit K dat, în care K este numărul de rotații. Numărul de valori ale vectorului care se rotesc este în această problemă valoarea 1, ceea ce înseamnă că la fiecare execuție nouă ultima valoare devine prima în vector.

CycleRotation in Excel, model de implementare pas cu pas.

în care:

B5: =TEXTSPLIT(A2;”,”) – descompun șirul într-un vector pe linie.

B6: =LET(arr; B5#; last; TAKE(arr;;-1); firsts; TAKE(arr;;COLUMNS(arr)-1); HSTACK(last;firsts))

În care preiau rezultatul split de pe rând anterior. Vectorii dinamici rezultați din execuția funcțiilor dynamic array se pot apela cu formatul celula_start# referind toate liniile sau coloanele rezultat. Funcția TAKE() cu parametrul -1 o folosesc pentru a prelua ultima valoare din dreapta vectorului. Următoarea funcție TAKE() care compune variabila firsts este folosită pentru a prelua numărul de elemente ale vectorului determinat de funcția COLUMNS() -1 care este cel preluat deja în variabila last . Pentru a da noua stare a șirului folosesc funcția HSTACK() în care combin cele două variabile rezultat.

Formula din B6 se copie în jos cu drag-and-drop pentru oricâte iterații sunt necesare. Eu am afișat numărul de iterații pe coloana A printr-o funcție SEQUENCE( de K).

C2: și E2: sunt doar formule care nu au implicații în acest model de rezolvare.

Unificarea într-o singură funcție

Pentru a rezolva problema de rotație pentru orice șir de numere la orice K dat, inclusiv K negativ, atunci când vectorul s-ar muta în sens descerscător am propus o rezolvare care ia în calcul restul împărțirii K la lungimea vectorului. În imagine:

C2: =COLUMNS(B5#) – determinarea lungimii vectorului descompus.

E2: =MOD(B4-1;C2)+1 – Funcția MOD de determinare a restului împărțirii.

Logica este că la fiecare pas se realizează incrementarea cu 1 a vectorului față de K. Asta înseamnă că șirul ajunge în poziția inițială în momentul în care lungimea vectorului este egală cu K sau multipli de K. Ceea ce rezultă că mișcările efective sunt doar în zona de rest a împărțirii lui K cu numărul de coloane ale blocului.

Funcția propusă:

=LET(arr; TRIM(TEXTSPLIT(A2;","));
vk; B4;
vMod; MOD(vk;COLUMNS(arr));
IF(vMod=0;arr;HSTACK(TAKE(arr;;-vMod);TAKE(arr;;COLUMNS(arr)-vMod))) )

În care:

arr – este variabila care stochează descompunea șirului într-un vector. Forma din imaginea de mai sus este reprezentarea în localizarea Romanian a blocului.

Hint: într-o funcție oarecum mai complexă dacă dorim să vedem rezultate intermediare ele apar ca tool-tip pe funcție în Excel sau se pot afișa direct în construcția formulei folosind tasta F9:

Afișare valori intermediare în timpul depanării unei funcții.

vk – preia valoarea lui K din celula B4
vMod – calculează restul împărțirii dintre K și numărul de coloane a șirului arr
IF-ul tratează excepțiile când vMod ia valoarea 0 ceea ce înseamnă că lungimea vectorului este egală cu K, deci afișez vectorul, iar dacă vMod nu este 0 se afișează cele două șiruri construite cu HSTACK() asemănător cu versiunea din B6 dar puțin mai concentrată funcția.

În formatul cu K negativ, șirul se descompune din stânga spre dreapta, prima valoare din stânga devenind ultima valoare din dreapta. Șirul: {1, 2, 3, 4, 5, 6, 7, 8} devine în -2 rotații: {3, 4, 5, 6, 7, 8, 1, 2}.

Rotația șirurilor de K ori în seturi specifice

Oare de ce nu am complica puțin problema?! Adică în loc de valoarea 1 să introducem un număr nou care să reprezinte un set de numere cu care să treacă la iterația următoare. Aici probocarea a fost puțin mai mare pentru că lucrurile merg destul de rău cu numere de rotații și seturi de numere care depășesc lungimea șirului.

Rotație șiruri după un K și set cunoscut.

Pentru rezolvare a trebuit să calculez și MOD-ul de set ca rest al împărțirii setului dat la lungimea șirului, în așa fel încât dacă setul este mai mare ca șirul să se rotească doar restul valorilor rămase. De exemplu dacă am avea un șir: {1, 2, 3, 4, 5, 6, 7, 8} într-un set de 9 ar însemna să ne întoarcem de la capătul șirului cu numărarea până la nouă, ceea ce înseamnă că avem un rest de 1. Șirul rezultat într-o rotație (K=1) ar fi: {8, 1, 2, 3, 4, 5, 6, 7}

Ca să pot calcula totuși într-o singură funcție avem nevoie de MOD(ModK * ModSet; lungimea șirului). Funcția din G2 este în exemplul meu: =MOD(E2*F2;C2)

Rotațiile pe fiecare K în seturi specifice numere naturale pozitive sau negative, se pot rezolva cu funcția:

=LET(arr;TEXTSPLIT(A2;",");
vk;B4;
vSet;B5;
vLen;COLUMNS(arr);
vModk;MOD(vk;vLen);
vModSet;MOD(vSet;vLen);
vMod;MOD(vModk*vModSet;vLen);
final;IF(vMod=0;arr;HSTACK(TAKE(arr;;-vMod);TAKE(arr;;vLen-vMod)));final)

în care:

arr – preia șirul splitat;
vk – preia valoarea lui K;
vSet – preia valoarea setului;
vLen – calculează lungimea vectorului;
vModK – calculează restul înmpărțirii lui K la lungime vector;
vModSet – calculează restul înmpărțirii setului la lungime vector;
vMod – calculează restul împărțirii celor două resturi anterioare la lungime;
final – este calcului de final în care folosesc aceeași tehnică specificată anterior.

Cel mai dificil a fost să ajung la acel MOD de MOD-uri, în rest manipulare de valori simplă.

Dincolo de exercițiu matematic, la ce putem folosi? Eu mă gândesc la criptografie dar și la schimbul de ture pentru angajați sau alocarea de tickete și poate și altele.

În articolul viitor voi trata tot o problemă de vectori, poate puțin mai simplă: OddOccurrencesInArray

Sper să fie util cuiva!

19/04/2024

Modele de algoritmi in #Excel – Iteratiile (1)

Acest articol face parte dintr-o serie de articole dedicate implementării de algoritmi clasici în Microsoft Excel 365.

Sursa de inspirație este site-ul: https://app.codility.com/programmers/lessons/1-iterations/binary_gap/

Doar puțină teorie

Iterațiile sau structurile de control clasice includ:

IF cu sintaxa pseudocod: dacă condiție atunci acțiune_adevăr altfel acțiune_fals
FOR cu sintaxa pseudocod: for variabilă in interval_de_valori acțiune
WHILE cu sintaxa pseudocod: while condiție acțiune

În Excel în schimb nu există nici FOR nici WHILE implementată ceea ce face oarecum diferită abordarea. O simulare a unui FOR este întâlnită uneori prin utilizarea funcției SEQUENCE() combinată cu funcția SCAN() sau REDUCE(). De exemplu dacă am avea un pseudocod de tipul: pentru fiecare număr de la 1 la 9 adunați numărul cu suma numerelor anterioare. Exemplu:

Problema supusă rezolvării este BinaryGap

Aceasta presupune transformarea unui număr zecimal în număr binar după care trebuie determinate numărul maxim de secvențe de 0 care apar în numărul binar, urmate de valoarea 1.

În exemplu este prezentat numărul 9 care în binar este 1001 și care are un număr de 2 de 0 consecutivi urmați de valoarea 1. În numărul 32 care este în binar: 100000 numărul de 0 nu este urmat de 1 ceea ce înseamnă că rezultatul va fi 0.

Problema de pe Codility oferă un set de numere de test [1..2,147,483,647]. Doar că în Excel ultimul număr zecimal care poate fi transformat în binar este numărul 511, de la 512 încolo obținem eroarea #NUM!

În imagine propuneri de rezolvare.

Menționez că localizarea pe calculatorul meu este localizarea în română ceea ce face ca separatorii de formule să fie ; (punct și virgulă) nu , (virgula).

Ca să transform numărul în binar folosesc funcția DEC2BIN(). Funcția din celula B2 este: =DEC2BIN(A2)

Dacă aș dori să văd câți de 0 sunt în total în număr în D2 am introdus funcția LEN() pentru a determina lungimea șirului rezultat în binar și SUBSTITUTE() pentru a înlocui numerele de 1 cu nimic. Funcția din D2 este: =LEN(B2)-LEN(SUBSTITUTE(B2;”0″;””)).

Dacă ar trebui să determin doar numărul maxim de 0 consecutivi atunci folosesc în E2 funcția: =MAX(SCAN(0;MID(B2;SEQUENCE(LEN(B2));1); LAMBDA(a;v; IF(v=”1″; 0; a+1))))

În care:

SCAN() scanează un array de valori rezultat prin descompunerea valoare cu valoare a numărului binar din B2 pe baza lungimii sale SEQUENCE(LEN(B2)). Funcția SCAN() are nevoie de o funcție LAMBDA pentru calculul valorii finale. În Lambda avem variabilele a – acumulator, și v- valoarea curentă. Dacă valoarea curentă este 1 ca text, pentru vă provine din MID(), atunci acumulatorul va lua valoarea 0, altfel va lua valoarea iterată cu 1. La final aplic un MAX() pentru a determina exact care este cea mai mare secvență de valori 0.

Pentru numărul 401 care în binar este 110010001 rezultatul SCAN() este:

În exemplul lui 401 voi obține valoarea finală 3.

Dacă dorim să răspundem corect la problemă și să numărăm doar valorile 0 care sunt urmate de 1 atunci formula se complică puțin.

În F2 am introdus o funcție LET() ca să pot scrie mai puține caractere. Scopul în algoritmi este să ai un cod cât mai optim și poate mai puține caractere într-o formulă / cod.

=LET(bloc; MID(B2;SEQUENCE(LEN(B2));1); zu; IF(RIGHT(B2)=”0″;0;1); cate; MAX(SCAN(0; bloc; LAMBDA(a;v; IF(v=”1″; 0; a+1)))); conc; CONCAT(zu;”-„;cate); IF(zu=0;0;cate))

În această funcție am introdus variabila zu pentru a determina dacă la finalul șirului este sau nu valoarea 1. Această abordare are în schimb o eroare de logică pentru că nu tratează excepțiile în care avem totuși valori 0 urmate de 1 în numărul binar și se finalizează cu valoarea 1. Exemplu este numărul 486 care se termină cu 0 dar are 2 de 0 în interior urmați de valoarea 1.

Variantele cu emulare de FOR sunt interesante și pot duce la soluții destul de frumoase. Doar că în rezolvarea problemelor mai complexe de Excel important este să ai formule cât mai reduse ca dimensiune pentru a asigura un optim de execuție dar și pentru a face mai ușor depanarea formulelor. În acest sens propun o metodă de rezolvare fără iterații explicite.

Formula din B46 este: =MAX(LEN(DROP(TEXTSPLIT(B46;1);;-1)))

În care:

TEXTSPLIT() – împarte numărul binar în funcție de fiecare apariție a valorii 1 rezultând vectori cu număr de coloane diferite:

În cazul în care numărul splitat nu conține nici un 0 vom vedea o listă de celule vide.
În cazul în care în ultima coloană a fiecărui vector avem valoarea 0 înseamnă că secvența de 0 nu este urmată de valoarea 1.

DROP() – este utilizat pentru a elimina excepția când la final-ul vectorului avem valoarea 0. Elimină ultima celulă din rezultat.

LEN() – numără pentru fiecare celulă rămasă în vector cât de lungă este secvența de 0 rezultatul intermediar fiind de forma:

MAX() extrage din lista de valori valoarea maximă a numărului de 0 consecutivi urmați de valoarea 1.

În Google Spreadsheets nu există funcția TEXTSPLIT() dar există o funcție SPLIT() care nu funcționează asemănător cu cea din Excel.

Cam asta ar fi. Sper să fie util cuiva.

18/04/2024