@PHDTHESIS{0953Neto1987, AUTHOR = {Benedito Aguiar Neto}, TITLE = {Signalaufbereitung in digitalen Sprachübertragungssystemen}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {1987}, ABSTRACT = {Durch Störungen in Sprachübertragungssytemen können die empfangenen Signale ungewünschte Komponenten enthalten, die die Sprachqualität und die Sprachverständlichkeit stark beeinträchtigen. Störungen können in der Umgebung des sprechenden Teilnehmers sowie im Übertragunskanal entstehen. In der Umgebung des Teilnehmers treten häufig rauschartige Störungen auf in Form von akustischen Geräuschen , die dem Sprachsignal überlagert sind. Bei dieser Störungsart wird die Verständlichkeit der gestörten Sprache stark beeinträchtigt, da die energiearmen stimmlosen Sprachsegmente häufig vom Störsignal verdeckt werden. Im digitalen Übertragungskanal bewirken die eingetretenen Störungen impulsartige Amplitudenverfälschungen im empfangenen Sprachsignal, die als unangenehm störende "Knack"-Geräusche empfunden werden. Diese Störungsart vermindert die Sprachqualität erheblich. In dieser Arbeit wurden die akustischen Störungen in der Umgebung des sprechenden Teilnehmers durch eine sendeseitige Signalaufbereitung mittels Rauschunterdrückungsverfahren reduziert, die auf der Optimalfiltertheorie und der Theorie von Kurzzeit-Spektral-Schätzungen beruhen. Bei diesen Verfahren wrden die erforderlichen statistischen Informationen über das Störsignal bzw. das Sprachsignal aus Kurzzeit-Analysen des gestörten Sprachsignals gewonnen. Die auf der Optimalfiltertheorie basierenden Verfahren sind einige im Zeit- bzw. Frequenzbereich durchgeführte Varianten der Wiener-Kolmogoroff-Filterung. Die optimale Impulsantwort dieses Filters wird nach dem Kriterium des minimalen mittleren quadratischen Fehlers bestimmt. Hierbei wird vorausgesetzt, daß das Sprachsignal mit dem Störsignal nicht korreliert ist. Im Frequenzbereich wird die Wiener-Kolmogoroff-Filterung über Schätzungen von Kurzzeit-Spektren durchgeführt. Die Filterung erfolgt durch Gewichtung des Kurzzeit-Amplitudenspektrums des gestörten Sprachsignals in Abhängigkeit von einer Schätzung des Kurzzeit-Leistungsspektrums des Störsignals, die in den Sprachpausen durchgeführt wird. Neben den untersuchten Varianten der Wiener-Komogoroff-Filterung wurden noch zwei Verfahren mit spektraler Gewichtung untersucht, die auf Verfahren der spektralen Subtraktion basieren. Bei dem einen Verfahren erfolgt die Gewichtung nach Schätzungen von Kurzzeit-Amplitudenspektren und bei dem anderen nach Schätzungen von Kurzzeit-Leistungsspektren. Die nach objektiven und subjektiven Beurteilungen beste Rauschunterdrückung wurde nicht bei den auf der Optimalfiltertheorie beruhenden Verfahren, sondern bei einem auf einer spektralen Subtraktion der Schätzungen von Kurzzeit-Spektren basierenden Verfahren festgestellt. Mit diesem Verfahren wurden im Mittel über mehrere Sprecher Gewinne des Signal-Rausch-Abstands von z. B. 7,5 dB und des Segment-Signal-Rausch-Abstands von 14 dB bei der Unterdrückung von Fahrzeuggeräusch erreicht. Der Erfolg der Rauschunterdrückung ist von einer einwandfreien Sprachpausendetektion abhängig, da die Adaption des Rauschunterdrückungsalgorithmus nur in den Sprachpausen durch Aktualisierung der spektralen Schätzwerte des Störsignals vorgenommen wird. Welche Verbesserung der gestörten Sprache erreicht werden kann, hängt wesentlich von der Stationarität des Störsignals ab. Ist das Störsignal stark instationär, so ist die Wirkung des Rauschunterdrückungssystems bei Sprachaktivität gering, da in diesem Zeitintervall des Sprachsignals keine Aktualisierung der Schätzung des Sprektrums des Störsignals möglich ist. Die durch Übertragungsfehler entstehende Verschlechterung der Eigenschaften eines PCM-Übertragungssystems wurde durch Anwendung von empfangsseitigen Verfahren zur Erkennung und Korrektur digitaler Fehler (EKDF) bedeutend reduziert. Diese Verfahren nutzen zur Erkennung und Korrektur der Übertragungsfehler die natürliche Redundanz der Sprachsignale, die es erlaubt, den wahrscheinlichen Wertebereich für das Auftreten eines Abtastwertes aus der Umgebung dieses Abtastwertes abzuleiten. Die Fehlerabfrage eines beobachteten Abtastwertes erfolgt durch Vergleich eines für diesen Abtastwert gewonnenen Schätzwertes mit einer signalabhängigen Referenzgröße. Die Korrektur erfolgt als Substitution der erkannten fehlerhaften Abtastwerte durch Schätzwerte. Die Schätzwerte wurden durch Extrapolations- und Interpolationsverfahren oder Kombination dieser beiden Schätzverfahren gewonnen. Bei Anwendung dser empfangsseitigen EKDF-Verfahren in einer gestörten PCM-Übesrtragung ergab sich für Bitfehlerraten bis p = 0,5 % eine annehmbare Sprachqualität, die ungefähr der Qualität eines PCM-Systems ohne Fehlerkorrektur bis p = 0,1 % entspricht. Bei sehr niedrigen Bitfehlerraten p < 0,01 % ergibt sich jedoch keine Verbesserung. In dieser Arbeit wurden aus Aufwandsgründen keine subjektiven Bewertungsmaßstäbe, z. B. des MOS (Mean Opinion Score), bei der Optimierung der Aufbereitungsverfahren verwendet. In ersten Hörversuchen wurden jedoch subjektive Verbesserungen der Qualität und Verständlichkeit der Sprache bei den untersuchten Rauschunterdrückungs- und EKDF-Verfahren festgestellt, die zumindest qualitativ den objektiven Ergebnissen entsprechen.} } @PHDTHESIS{0952Kuang1988, AUTHOR = {Jing-Ming Kuang}, TITLE = {Untersuchungen zur Modellierung digitaler Mobilfunkkanäle}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {1988} } @PHDTHESIS{0949Ohm1989, AUTHOR = {Jens-Rainer Ohm}, TITLE = {Festbildcodierung bei niedrigen Bitraten unter Verwendung kombinierter Block- und Faltungscodes}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {1989}, ABSTRACT = {In der vorliegenden Arbeit wurde eine Klasse neuartiger Codierverfahren für Festbildsignale untersucht, die auf einer Kombination des Verfahrens der prädiktiven Codierung mit den Methoden sowohl der Block- als auch der Faltungscodierung beruhen. Auf diese Weise war es möglich, die in der Codierungstherorie geforderten großen Codewortlängen zu erreichen, und trotzdem ein Codierverfahren mit realisierbarer Komplexität zu erhalten. Die wichtigsten Ergebnisse sollen kurz zusammengefaßt werden: 1. Durch eine neuartige Vektoranordnung im zweidimensionalen Bildsignal war es möglich, einen prädiktiven Vektorquantisierer (Blockcode) so in eine Treecodierung (Faltungscode) einzubetten, daß die Arbeitsweise beider Komponenten weitgehend voneinander trennbar wird. 2. Es konnte gezeigt werden, daß der Vektorquantisierer in der Lage ist, eine Vorauswahl aussichtsreicher Codewort-Kandidaten zu treffen, wodurch eine gute Wirkungsweise in Zusammenhang mit suboptimalen Suchalgorithmen der Treecodierung erzielt wird. 3. Der erhöhte Freiheitsgrad, den ein Vektorcode aufgrund der Ausnutzung mehrdimensionaler Verteilungsdichtefunktionen des Prädiktionsfehlersignals bietet, wirkt sich positiv auf sein Zusammenwirken mit der Treecodierung aus. Der Gewinn der prädiktiven Treecodierung mit Vektorquantisierung (PTVQ) gegenüber der prädiktiven Vektorquantisierung ist erheblich höher als der einer prädiktiven Treecodierung mit deterministischem Codebuch gegenüber DPCM. 4. Stochastische Codebücher sind in prädiktiven Bildcodierverfahren unbrauchbar; Vektoranregungen mit korrelierten Vektoren bieten im niedrigen Bitratenbereich Vorteile gegenüber unkorrelierten Anregungen. 5. Komponenten zur Adaption linearer Prädiktionsfilter verlieren bei prädiktiven Bildcodierverfahren an Bedeutung, wenn die Codewortlänge für die Anregungsfunktion des Synthesefilters erhöht wird. 6. Verfahren zur lokalen Adaption der Bitrate können auch in prädiktiven Bildcodierverfahren mit großen Codewortlängen wirksam werden. 7. Durch eine Kombination prädiktiver Codierverfahren mit dem Verfahren der Teilbandcodierung (SBC) ist auch bei Verwendung großer Codewortlängen ein weiterer Gewinn erzielbar. Es konnte gezeigt werden, daß das PTVQ-Verfahren als prädiktives Codierverfahren nicht nur mit den im Bereich der Bildcodierung häufig bevorzugten Transformationscodierverfahren konkurrenzfähig ist, sondern diese im Bereich niedriger Bitraten in Bezug auf die Fähigkeit zur naturgetreuen Wiedergabe von Details übertrifft. Ein weiterer großer Vorteil des PTVQ-Verfahrens im Vergleich zu Transformationscodierverfahren - bei denen im Empfänger eine rechenaufwendige inverse Transformation durchzuführen ist - ist die sehr einfache Decodiererstsruktur. Hierdurch wird das Verfahren für den Einsatz in "Broadcast"-Anwendungen (bei denen ein Sender viele Empfänger versorgt) und in Bilddatenbanken (bei denen einmal codierte Bilder vielfach abgerufen werden) attraktiv. Die Untersuchungen im Rahmen dieser Arbeit weisen nur die allgemeine Tauglichkeit des PTVQ-Verfahrens und seine prinzipielle Anwendbarkeit nach. Die notwendige Optimierung muß später für eine konkrete Realisierung bei einer bestimmten praktischen Anwendung mit vorgegebener Bitrate erfolgen. Dies betrifft vor allem folgende Punkte: 1. Zur Verringerung der Codiererkomplexität sollte im Vektorquantisierer nicht die bisher verwendete vollständige Suche, sondern ein suboptimales, baumstrukturiertes Suchverfahren eingesetzt werden. Es ist dabei zu erproben, wie weit eine Reinvestition der so gewonnenen Komplexitätsverringerung in die Treecodierungskomponente (Erhöhung der Suchintensität) Gewinne bringt. 2. Die Wirkung einer adaptiven Nachfilterung kann nur bei Kenntnis der bei einer bestimmten Bitrate auftretenden Verzerrung genau untersucht werden. 3. Die Wikrungsweise adaptiver Komponenten bei den klassifizierenden Varianten des Verfahrens kann nur bei Vorgabe eines konkret angestrebten Bitratenbereiches endgültig optimiert werden. Eine Kombination der klassifizierend-adaptiven Verfahren mit den Verfahren adaptiver Präditkion, die weitere Gewinne erwarten läßt, wurde bisher nicht untersucht. 4. Bei den Verfahren mit vorwärtsgesteuert-adaptiver Prädiktion sollte die Möglichkeit einer Vektorquantisierung der Prädiktorparameter untersucht werden. Ein Codebuch mit Prädiktorparamentern müßte gleichzeitig so optimiert werden, daß es nur stabile Koeffizientensätze enthält. 5. Eine Verfahrensoptimierung unter visulellen Gesichtspnkten wurde bisher nicht vorgenommen. Hierfür bieten sich vor allem eine Kanten- und Texturdetektion im Originalsignal zur speziellen Codeadaption bei den klassifizierenden Verfahren sowie eine Gewichtung des Codierungsfehlers im Frequenzbereich bei den PTVQ-SBC-Verfahen an. 6. Bei Forschung einer progressiven Festbildübertragung (stufenweise qualitätsverbesserter Bildaufbau) ist das Verfahren so zu modifizieren, daß der Codierer mehrstufig arbeitet. Im extrem niedrigen Bitratenbereich (0,1-0,3 bit/pixel) bestehen gute Aussichten, durch Anwendung von Methoden der digitalen Bildrestauration weitere Qualitätsverbesserungen zu erzielen. Hier sind sowohl Verfahren denkbar, die nur decodierseitig arbeiten, aber auch solche, die die Möglichkeit der empfängerseitigen Nachbearbeitung bereits bei der Codeauswahl im Codierer berücksichtigen. Schließlich sollte auch eine Verallgemeinerung des bisher zweidimensionalen Verfahrens auf eine dreidimensionale Bewegtbildocierung untersucht werden. An dieser Stelle seien nur zwei mögliche Varianten genannt: - Einbettung des zweidimensionalen Codierverfahrens in ein hybrides, dreidimensionales Verfahren mit einer bewegungskompensierenden Prädiktion entlang der Zeitachse, - Kombination einer prädiktiven Treecodierung entlang der zeitlichen Dimension mit einer zweidimensionalen Teilband-Vektorquantisierung in den örtlihen Dimensionen. Das entwickelte Codiererkonzept einer separierbaren Kombination von prädiktiver Block- und Faltungscodierung (Prädiktive Tree-Vektorquantisierung) setzt neue Akzente gegenüber den in der Fest- und Bewegtbildcodierung vorzugsweise verwendeten Transformationscodierverfahren. Dieses prädiktive Codierverfahren kann selbst detailreiche Bildregionen bei Bitraten zwischen 0,5 und 1 bit/pixel noch in guter Qualität wiedergeben. Es eignet sich damit hervorragend für regionenorientierte Bildcodierungsanwendungen bei sehr niedrigen Bitraten, bei denen nach einer Segmentierung und Klassifizierung wenige detailreiche Bildteile sehr effizient zu codieren sind. Der Bedarf nach einem derartigen Verfahren besteht sowohl in der Bewegtbildocierung mit bewegungskompensierender Prädiktion bei Szenenwechseln und schwer erfaßbaren Bewegungen, als auch in Kontur-Textur-Codier-Verfahren zur Festbildcodierung. Ein besonderer Vorteil des entwickelten Verfahrens ist in diesem Zusammenhang darin zu sehen, daß es keine feste Blockstruktur besitzt, sondern durch einfache Variation der Vektorlängen Regionen mit beliebigen Konturformungen codiert werden können.} } @PHDTHESIS{0950Reuter1989, AUTHOR = {T. Reuter}, TITLE = {Allgemeine mehrdimensionale Abtastratenumsetzung und ihre Anwendung zur Normumsetzung von Fernsehsignalen}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {1989} } @PHDTHESIS{0951Volmary1989, AUTHOR = {Claudia Volmary}, TITLE = {Ein Beitrag zur effizienten Codierung von Nebeninformationsparametern in adaptiven Sprachcodierverfahren}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {1989} } @PHDTHESIS{0948Granzow1990, AUTHOR = {Wolfgang Granzow}, TITLE = {Untersuchung zur prädiktiven Codierung von Sprachsignalen mit Mehrfachimpuls-Anregungsfunktionen}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {1990} } @PHDTHESIS{0947Hahn1991, AUTHOR = {M. Hahn}, TITLE = {Vergleich des Aufwandes von algebraischen Codierverfahren für einen flexiblen fehlerkorrigierenden Kanalcodec}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {1991} } @PHDTHESIS{0946Schamel1993, AUTHOR = {G. Schamel}, TITLE = {Optimierung einer Teilband-Codierung für HDTV mit bewegungsgesteuerter dreidimensionaler Frequenzzerlegung}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {1993} } @PHDTHESIS{0944Bruhn1995, AUTHOR = {Stefan Bruhn}, TITLE = {Sprachcodierung bei sehr niedrigen Bitraten unter Verwendung verlustbehafteter und verlustloser Interblock-Codes}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {1995} } @PHDTHESIS{0945Kanbach1995, AUTHOR = {Andreas Kanbach}, TITLE = {Ein Beitrag zur Beurteilung der Robustheit von ATM-Koppelnetzen unter Berücksichtigung der Verkehrsschiefe}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {1995} } @PHDTHESIS{0941Weck1996, AUTHOR = {Christfried Weck}, TITLE = {Optimierung der Kanalcodierung im Hinblick auf das Aufstiegsverhalten eines digitalen Hörrundfunksystems}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {1996}, PDF = {http://elvera.nue.tu-berlin.de/files/0941Weck1996.pdf} } @PHDTHESIS{0942Bitó1996, AUTHOR = {János Bitó}, TITLE = {Digitale Mobilfunk-Kanalmodelle unter besonderer Berücksichtigung von adaptiven digitalen Modellen}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {1996}, PDF = {http://elvera.nue.tu-berlin.de/files/0942Bitó1996.pdf} } @PHDTHESIS{0943Barthel1996, AUTHOR = {Kai Uwe Barthel}, TITLE = {Festbildcodierung bei niedrigen Bitraten unter Verwendung fraktaler Methoden im Orts- und Frequenzbereich}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {1996}, PDF = {http://elvera.nue.tu-berlin.de/files/0943Barthel1996.pdf} } @PHDTHESIS{0940Li1997, AUTHOR = {Hui Li}, TITLE = {Punktierte Faltungscodes und trelliscodierte Modulation mit ungleichförmigem Fehlerschutz}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {1997}, ABSTRACT = {Die vorliegende Arbeit beschreibt Kanalcodierungen mit ungleichförmigem Fehlerschutz (UEP), die nicht nur effizienten Schutz vor Störungen bieten, sondern auch bei der Implementierung flexibel und aufwandsarm sind. Sie wurden zwar für die Übertragung digitaler Sprachsignale in Mobilfunkkanälen vorgesehen, lassen sich jedoch auch in anderen Bereichen verwenden, wo ungleichförmiger Fehlerschutz gefordert wird (z. B. bei digitalem Hör- und Fernsehfunk). In Satelliten-Mobilfunkkanälen wird die Datenrate eines ursprünglichen digitalen Sprachsignals (z. B. 64kbits/s) vor der Übertragung durch einen Quellencodierer deutlich reduziert (z. B. 4 bis 8 kbit/s), um eine bessere Ausnutzung der vorhandenen Bandbreite zu erreichen. Dadurch steigt jedoch die Fehlerempfindlichkeit der Übertragung. Es ist daher notwendig, eine Kanalcodierung einzuführen. Die zur Verfügung stehende Redundanz für die Kanalcodierung ist jedoch beschränkt. Um eine möglichst gute Übertragungsqualität bei der geforderten Übertragungsrate zu gewährleisten, wird das Konzept eines ungleichförmigen Fehlerschutzes bei der Kanalcodierung berücksichtigt, da die Fehlerempfindlichkeit der einzelnen Codebits im codierten Sprachsignal unterschiedlich ist. In der vorliegenden Arbeit wurden zwei neue Verfahren für die UEP-Kanalcodierung entwickelt und optimiert. Sie beziehen sich auf punktierte Faltungscodierung und trelliscodierte Modulation und werden als raten-selektive punktierte Faltungscodierung (RSPC) und hzybridphasige trelliscodierte Modulation (HPTCM) bezeichnet. In beiden Verfahren wurden zwei Kriterien beim Entwurf des optimalen Faltungscodierers separat benutzt, nämlich die minimale Hamming-Distanz und die euklidische Distanz. Die punktierten Faltungscodes mit fester Codesymbollänge wurden in dieser Arbeit als RSPC-Codes bezeichnet. Sie wurden von den bekannten, besten Faltungscodierern der Coderate ½ und mit Hilfe der in dieser Arbeit optimierten Punktierungsmatrizen generiert. Die optimierten RSPC-Codes der Raten 6/12, 7/12, 8/12, 9/12, 10/12 und 11/12 wurden ausführlich beschrieben, andere RSPC-Codes sind im Anhang angegeben. Die Vorteile der RSPC-Codes lassen sich folgendermaßen zusammenfassen: * Der RSPC-Code der Rate (Ömk)/(mn)(m=1,2...) ermöglicht eine Verbesserung der Codierungseigenschaften eines normalen PC-Codes der Rate k/n, da der RSPC-Code von einer größeren Punktierungsmatrix erzeugt wird. Dies ist an Hand der gefundenen RSPC-Codes bestätigt worden. * Kanalcodierungssysteme mit RSPC-Codes sind sehr flexibel, da Interleaver und Modulator im System wegen der gleichen Codesymbollänge der RSPC-Codes nicht von der Variation der Coderate beeinflußt werden. Um die Übertragungsrate zu erhöhen, wurde ein RSPC-89PSK-System mit einer aufwandsreduzierten dreistufigen Viterbi-Decodierung untersucht. Die Ergebnisse zeigen, daß die Aufwandsreduzierung im Decodierer zu keinem wesentlichen Leistungsverlust führt. Im Vergleich mit der in [ KZS92] veröffentlichten mehrstufigen codierten Modulation, in der das "set partition"-Verfahren verwendet wurde, braucht das RSPC-.8PSK-System bei der Übertragunsrate von 2 bit/Symbol und BER = 10-4 im AWGN- und Rice-Kanalbenötigen beide jedoch den gleichen SNR-Wert. Zur weiteren Verbesserung der Flexibilität des RSPC-8PSK-Systems wurden hierarchische RSPC-8PSK-Systeme untersucht, in denen die Eigenschaften des 8PSK-Modulators und die mehrstufige Viterbi-Decodierung besser genutzt werden können. In 8PSK-Phasenzustandsdiagrammen haben die vom 8PSK-Symbol dargestellten 3 Bits normalerweise unterschiedliche Fehlerempfindlichkeiten. Werden die 3 B ist jedes 8 PSK-Symbols im RSPC-8PSK-System aus drei verschiedenen RSPC-Codes zusammengesetzt, wird das System als hierarchisches RSPC-8PSK-System bezeichnet, und im System stehen mehrere Fehlerschutzstufen gleichzeitig zur Verfügung. Die Differenzen zwischen den Fehlerschutzstufen lassen sich zusätzlich durch den Einsatz eines ungleichförmigen Phasenzustandsdiagramms verändern. Die UEP-kanalcodierung im hierarchischen System kann dabei zwei Varianten benutzen, nämlich die RSPC-Codierung und den Einsatz eines ungleichförmigen Phasenzustandsdiagramms. Trelliscodierte Modulation (TCM) ist in der letzten Zeit häufig als sehr effektive Kanalcodierung untersucht worden. In dieser Arbeit wurde das TCM-Verfahren auf UEP-Anwendungen erweitert. Dazu wurde die hybridphasige Trelliscodierte Modulation (HPTCM) vorgeschlagen. Ein einfaches HPTCM-System wurde auf der Basis der Viterbi-TCM entwickelt, es besteht aus je einem Faltungscodierer und Decodierer (HPTCM-1). Im Trellisdiagramm des Faltungscodierers gibt es parallele Zweige zwischen den Zuständen, und deswegen gibt es im System codierte und uncodierte Invormationsbits. Die Übertragungsrate des Systems wurde durch die Einschaltung oder Ausschaltung der parallelen Zweige variiert. Es wurde bestätigt, daß die codierten und uncodierten Informationsbits bei UEP-Kanalcodierung separat behandelt werden sollten, da die Bitfehlerrate der codierten und uncodierten Informationsbits im AWGN-Kanal,. insbesondere aber im Rice- und Rayleigh-Kanal, deutlich unterschiedlich sind. Der wesentliche Nachteil des HPTCM-1-Systems liegt darin, daß die Anzahl uncodierter Informationsbits bei Erhöhung der Übertragungsrate des Systems erhöht wird, während die Anzahl codierter Informationsbits unverändert bleibt. Zur Vermeidung uncodierter Informationsbits im HPTCM-System wurde ein aus drei TCM-Systemen (4PSK-, 8PSK- und 16PSK-TCM) bestehendes HPTCM-System (HPTCM-3) untersucht. Die Trellisdiagramme der drei Faltungscodierer dürfen keine parallelen Zweige haben. Solche 4PSK-TCM und 8 PSK-TCM waren aus der Literatur bekannt. Die 16PSK-TCM wurde in dieser Arbeit neu eingeführt. Die Simulationen zeigten, daß das HPTCM-3-System im Rice- und Rayleigh-Kanal eine deutlich bessered Leistungsfähigkeit als das HPTCM-1-System aufweist. Eine weitere Optimierung des HPTCM-3-Systems wurde in der Arbeit begonnen, erwies sich jedoch bisher noch nicht als sehr erfolgreich. Die Schwierigkeit besteht in der Auswahl des Optimierungskriteriums. Die bisher verwendete euklidische Distanz ist für die Optimierung des HPTCM-3-Systems nicht sehr geeignet. Die Leistungsfähigkeit der beiden entwickelten Coldierungssysteme, RSPC-8PSK und HPTCM-3, wurden im AWGN-, Rice und Rayleigh-Kanal miteinander verglichen. Es zeigt sich, daß im AWGN-Kanal das HPTCM-3-System eine bessere Leistungsfähigkeit hat als das RSPC-8PSK-System; im Rice-Kanal weisen die beiden Systeme fast gleiche Codierungseigenschaften auf, während im Rayleigh-Kanal das RSPC-8PSK-System eine deutlich bessere Leistungsfähigkeit hat als das HPTCM-3-System. Der Rechenaufwand im RSPC-8PSK-Decodierer bei niedriger Übertragungsrate ist höher als im HPTCM-3-Deocierer, während bei hoher Übesrtragungsrate das RSPC-8PSK-System aufwandsärmer als das HPTCM-3 ist. Ein digitales Sprachübertragungssystem, bestehend aus CELP-Codierer und –Decodierer, Kanalcodierer und Kanaldecodierer, Modulator und Demodulator wurde simuliert. Die gesamte Bitrate des Systems beträgt 10 kbit/s, davon benutzt der CELP-Codierer 6,65 kbits/s. Die mittlere Übertragungsrate im Kanal beträgt ca. 2 bit/Symbol. Die im System untersuchten 6 Kanalcodierungen waren: * RSPC-8PSK-Verfahren * hierarchisches RSPC-8PSK-Verfahren * HPTCM-1-Verfahren * HPTCM-3-Verfahren * punktierte Faltungscodierung mit einem gleichgewichtigen Fehlerschutz (PC-EEP) * QPSK-Modulation ohne Kanalcodierung Sie wurden im AWGN-, Rice- und Rayleigh-Kanal durch die Bewertung des Segment-SNR miteinander verglichen. Die Ergebnisse sind: * im AWGN-Kanal weist das decodierte Sprachsignal mit HOPTCM-1 den größten Segment-SNR- der 6 Codierungsverfahren auf. Der Codierungsgewinn kann 2 dB erreichen (bei Segment-SNR = 5 dB, HPTCM-1 gegenüber QPSK). * im Rice-Kanal hat das decodierte Sprachsignal mit HPTCM-1 den größten Segment-SNR. Der maximale Codierungsgewinn (HPTCM-1 gegenüber QPSK) beträgt 3 dB. * im Rayleigh-Kanal hat das decodierte Sprachsignal mit RSPC das beste Ergebnis erreicht. Der maximale Codierungsgewinn (RSPC-8PSK gegenüber OPSK) beträgt 5 dB. Weitere Untersuchungen könnten effiziente Decodierungen in UEP-Codiersystemen und algebraische Codierverfahren für UEP-Anwendungen einschließen, z. B. die Anwendung von Reed-Solomon-Codes (RS-Codes) und Bose-Chaudhuri-Hocquenghem-Codes (BCH-Codes).} } @PHDTHESIS{0939Purat1998, AUTHOR = {Marcus Purat}, TITLE = {Zum Einsatz von Wavelet- und Waveletpacket-Transformationen in niederratigen, wahrnehmungsangepaßten Audiocodierverfahren}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {1998}, ABSTRACT = {Most audio coding algorithms use time frequency transforms with a high spectral resolution to exploit the masking phenomena of the human ear and to reduce the redundancy of the signal efficiently. This may lead to time domain artefacts (pre-echoes) when coding critical items with low bit rates. To avoid these clearly audible noise special methods as hybrid filter banks, window switching, time domain companding or temporal noise shaping are used. However, these methods may considerably increase the coding complexity and often involve more or less disadvantages regarding coding efficiency. Under this aspect, my thesis considers wavelet packet transforms as an alternative tool. These transforms combine a high frequency resolution in the low frequency domain with a high temporal resolution in the high frequency domain and, thus, seem to be very suitable for the use in a low bit rate perceptual audio coder. Moreover, the algorithms that underlie the transforms allow for a number of possible adaptations that are useful in a audio coding system. Most commonly, the Mallat algorithm is used for the implementation of a wavelet packet transform. This algorithm is based on a filter bank. Different types of filters (QMF, CQF, biorthogonal filters) are investigated and optimized in a coding system that had been developed especially for the comparison of different transforms. My thesis states the practicality of using time variant filter banks, gives an overview about possible realizations of transition filters (periodic extension, Gram-Schmidt-orthogonalization, lattice switching), and compares the results of fixed and time variant filters. Finally, a general view makes clear that practicable filters will always lead to strong spectral side lobes in a coding system that will be audible for critical signals. The concept of Frequency-Varying Modulated Lapped Transforms (FVMLT) that is shown in detail avoids these major drawback of the Mallat algorithm for audio coding while theoretically maintaining the same time frequency resolution. It is proved to be more efficient for audio coding for both subjective and obective measures. The possibility of using fast algorithms for the underlying modulated lapped transforms (MLT) and the lower coding delay constitutes two more advantages for a practical realization. FVMLT are conceptually related to Lemarié-Meyer-Wavelets and temporal noise shaping. These relations are discussed as well. Using window switching both in time and frequency domain FVMLT allows for an efficient algorithm to adapt the time-frequency analysis to the signal characteristics. By this adaptation, a remarkable gain can be achieved in comparison with fixed transforms. Also in comparison with window switching in time-domain only gains can be achieved. Results and investigations are given in detail for some modifications of this adaptation, taking also into consideration the concept of a best-base transform.} } @PHDTHESIS{0014Clüver1998, AUTHOR = {Kai Clüver}, TITLE = {Rekonstruktion fehlender Signalblöcke bei blockorientierter Sprachübertragung}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {1998}, MONTH = jan, PDF = {http://elvera.nue.tu-berlin.de/files/0014Cluever1998.pdf} } @PHDTHESIS{0938Thiede1999, AUTHOR = {Thilo Thiede}, TITLE = {Perceptual Audio Quality Assessment using a Non-Linear Filter Bank}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {1999}, PDF = {http://elvera.nue.tu-berlin.de/files/0938Thiede1999.pdf}, ABSTRACT = {This thesis describes a new method for the objective measurement of perceived audio quality. The method is based on a non-linear filter bank which provides a good approximation of auditory filter shapes and even models the level dependence of these filter characteristics. Unlike other measurement schemes, the quality estimation is not solely based on models for steady-state signals, but considers also the temporal structure of the envelopes of the auditory filter outputs. A further improvement compared to other measurement methods is a separation between linear and nonlinear distortions. This takes into account the fact that imbalances in the frequency response of an audio device are less annoying than the same amount of non-linear distortions like, for example, quantisation noise. The computational complexity of the filter bank implemented in this method is lower than for most other filter banks applicable to perceptual measurement. The method has proven to be superior to most other measurement methods used in this field and a large part of it will be included in the ITU-recommendation „method for objective measurements of perceived audio quality“. Especially the part of this recommendation that addresses applications requiring maximum possible accuracy („advanced version“) is mainly based on this method.} } @PHDTHESIS{0010Drews1999, AUTHOR = {Martin Drews}, TITLE = {Mikrofonarrays und mehrkanalige Signalverarbeitung zur Verbesserung gestörter Sprache}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {1999}, PDF = {http://elvera.nue.tu-berlin.de/files/0010Drews1999.pdf} } @PHDTHESIS{1222Fuchs2000, AUTHOR = {Dipl.-Ing. Hendrik Fuchs}, TITLE = {Adaptive Stereo-Prädiktion für die MPEG-2 Audiocodierung}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2000} } @PHDTHESIS{0937Lajmi2003, AUTHOR = {Lilia Lajmi}, TITLE = {Paketsubstitution in Audiosignalen bei paketorientierter Audioübertragung}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2003}, MONTH = apr, PDF = {http://elvera.nue.tu-berlin.de/files/0937Lajmi2003.pdf}, ABSTRACT = {In paketvermittelnden Netzen - wie insbesondere dem Internet - werden zunehmend auch Audiodaten bertragen. Typische Anwendungen sind z.B. Real-Time-Streaming oder Voice-over-IP. Diese basieren i.A. auf dem unzuverlässigem Datagram-Service UDP, um Verzögerungen durch erneute Übertragung von verlorenen Paketen (wie bei TCP) zu vermeiden. Die UDP- und RTP-Internet-Protokolle bieten keine Möglichkeit, eine fehlerfreie Übertragung von Paketen für Echtzeitdienste wie Audio oder Sprache zu garantieren. Es entstehen Paketverluste, welche die Dienstqualität beeinträchtigen und einen Qualitätsverlust der Audiodaten verursachen. Es existieren verschiedene Verfahren, um diesen Qualitätsverlust möglichst klein zu halten. Ziel dieser Arbeit war es, die bei paketorientierter Übertragung von Audiosignalen durch Paketverluste hervorgerufenen Störeffekte mit geeigneten Paketsubstitutionsverfahren zu reduzieren oder gar zu beheben. Ziel war es also einen besseren subjektiven Höreindruck des empfängerseitig ausgegebenen Audiosignals zu erreichen. Im Verlauf dieser Arbeit wurde eine Reihe von Verfahren zur Paketsubstitution in Audiosignalen untersucht. Für die Verdeckung einer Lücke, die auf einen Paketverlust während der Übertragung zurckzuführen ist, ist eine weitgehende Parametrisierung, Analyse und darauf beruhende Inter- bzw. Extrapolation des Audiosignals erforderlich. Die Signalbehandlung erfolgte sowohl im Zeit- als auch im Frequenzbereich, ausgehend von den aus der Audiocodierung und -verarbeitung bekannten Algorithmen. Beispiele hierfür sind die lineare Prädiktion, die Stereoprädiktion und die sinusoidale Modellierung von Audiosignalen. Die Signalbehandlung im Zeitbereich basiert auf abstrakten, mathematisch motivierten Zielvorstellungen, welche das Audiosignal im Zeitbereich betrachten und eine bestmögliche Annäherung an den Signalverlauf des Idealsignals anstreben. Für die Rekonstruktion von Paketverlusten in Audiosignalen ist die damit erreichbare subjektive Audioqualität notwendigerweise begrenzt, aufgrund der Diskrepanz zwischen dem zugrundeliegenden mathematischen Konzept und dem völlig andersartigen Funktionsschema des menschlichen Hörsinns. Eine entscheidende Verbesserung in der wahrnehmungsbezogenen Anpassung gelang durch den Übergang in der verwendeten Signalrepräsentation von der Zeitbereichs- in eine mathematisch äquivalente Spektralbereichsdarstellung. Durch den Übergang auf dieses Konzept konnte gegenüber der Signalbehandlung im Zeitbereich eine wesentliche Steigerung der subjektiven Audioqualität erreicht werden.} } @PHDTHESIS{0734Ekmekci2004, AUTHOR = {Sila Ekmekci}, TITLE = {Multi-State Video Coding over Error Prone Channels}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2004}, MONTH = dec } @PHDTHESIS{1028Cooke2005, AUTHOR = {Edward Cooke}, TITLE = {Modular Multi-View Synthesis in a Scalable Image-Based Rendering System}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2005}, MONTH = feb } @PHDTHESIS{1030Müller2006, AUTHOR = {Karsten Müller}, TITLE = {Rekonstruktion und Codierung von Free Viewpoint Video}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2006}, MONTH = may } @PHDTHESIS{1036Fehn2006, AUTHOR = {Christoph Fehn}, TITLE = {Depth-Image-Based Rendering (DIBR), Compression, and Transmission for a Flexible Approach on 3DTV}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2006}, MONTH = jul } @PHDTHESIS{1031Batke2006, AUTHOR = {Johann-Markus Batke}, TITLE = {Untersuchung von Melodiesuchsystemen sowie von Verfahren zu ihrer Funktionsprüfung}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2006}, MONTH = sep } @PHDTHESIS{1098Belkoura2007, AUTHOR = {Zouhair M. Belkoura}, TITLE = {Analysis and Application of Turbo Coder based Distributed Video Coding}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2007}, MONTH = jul, ABSTRACT = {This work investigates a Distributed Video Coding (DVC) method for single view video sources. DVC is different from hybrid block-based video coding as there is no temporal prediction included in the encoding process. This makes video codecs with low encoder workload possible. DVC in this thesis is an extension of source coding with side information, a subset of Slepian-Wolf coding. The theoretical bounds are given for source coding with systematic side information (SCSSI), a special case using systematic channel codes to perform data compression. Practical SCSSI coding using systematic turbo codes is compared to the theoretical bounds. The Berlin Distributed Video Coder (BDVC) is implemented using turbo coder based SCSSI. Potential limiting factors that bound the BDVC performance away from hybrid coders are summarised. Experimental analyses show the influence of turbo coder variation on compression performance. A review of the error resilience properties of the BDVC is given. Based on the analyses, modifications to the BDVC are proposed to improve the compression performance. Experiments show these modifications to allow rate reductions of up to 60%. Finally, a doubly hybrid video coder (DHVC) combining H.264 and BDVC is proposed. The DHVC allows to allocate workload between coder and decoder depending on the desired operating conditions.} } @PHDTHESIS{1274Eisenberg2008, AUTHOR = {Gunnar Eisenberg}, TITLE = {Identifikation und Klassifikation von Musikinstrumentenklängen in monophoner und polyphoner Musik}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2008} } @PHDTHESIS{1142Kunter2008, AUTHOR = {Matthias Kunter}, TITLE = {Advances in Sprite-based Video Coding - Towards Universal Usability}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2008}, MONTH = jan, PDF = {http://elvera.nue.tu-berlin.de/files/1142Kunter2008.pdf}, ABSTRACT = {This dissertation presents new approaches end extended techniques for the coding of digital video using background sprites, also called background mosaics. Sprites form a visual summarization of the rigid background of a captured scene shot. They are represented in oversized images, which preferably do not contain any foreground objects. This type of redundancy reduction is an ideal tool for video coding since the complete background information can be stored in the sprite image and some additional projection parameters. However, the generation of sprites is only possible for certain scenes. Since a successful coding strategy has to be universally applicable, the development of techniques for facilitating a broader use of sprite-based video coding represents the main focus of this thesis. Early approaches, as the one adopted in the MPEG-4 standard, have not been utilized due to the lack of universality and usability. For this purpose, we present techniques for the generation of multiple sprites and provide automatic segmentation approaches for the independently moving foreground objects. While multiple sprites prevent the construction of degenerated sprites and simultaneously minimize the impact of geometrical distortions, the segmentation enables the automatic discrimination in foreground and background objects. Thus, it is a fundamental tool for object-based video coding. The presented segmentation techniques are built upon the background sprites and thus, are easy to integrate into the overall coding process. The improvement of the background modeling using sprites marks another important aspect of this dissertation. Since state-of-the-art hybrid coding strategies work very efficient and yield high quality results, the prediction quality of the background using sprites has to be improved remarkably. In order to achieve this goal, we present novel image registration and sprite generation algorithms. Especially the potential of super-resolution processing will be exploited. Due to the capturing process, we obtain several differently sampled versions of the same image content. This fact can be used for the construction of background sprites of enhanced resolution, which has a positive influence on the resulting coding quality as well as on the rate-distortion results. Eventually, two techniques for sprite-based video coding are presented. Both approaches utilize above mentioned tools for improving quality and universality of the sprites. The coding gain over latest standards proves their usefulness. A complete coding system for the processing of any video content is still not achieved, but an outlook of its possible architecture is drafted. Thus, this thesis contributes to a gradual change of the video coding paradigm, where additional instruments from computer vision and computer graphics are utilized to unequally encode independent parts of a video scene.} } @PHDTHESIS{1186Ndjiki-Nya2008, AUTHOR = {Patrick Ndjiki-Nya}, TITLE = {Mid-Level Content-Based Video Coding using Texture Analysis and Synthesis}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2008}, MONTH = may, ABSTRACT = {The work aims to show that the Mean Squared Error (MSE) criterion, typically used in hybrid video codecs as H.264/MPEG4-AVC, is not an adequate coding distortion measure for high frequency regions displayed with limited spatial resolution. It shall be shown that global similarity measures are better suited for assessing the distortion of such textures, as no MSE-accurate reconstruction of the latter is required.} } @PHDTHESIS{1169Burred2008, AUTHOR = {Juan Jose Burred}, TITLE = {From Sparse Models to Timbre Learning: New Methods for Musical Source Separation}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2008}, MONTH = jun, PDF = {http://elvera.nue.tu-berlin.de/files/1169Burred2008.pdf}, ABSTRACT = {The goal of source separation is to detect and extract the individual signals present in a mixture. Its application to sound signals and, in particular, to music signals, is of interest for content analysis and retrieval applications arising in the context of online music services. Other applications include unmixing and remixing for post-production, restoration of old recordings, object-based audio compression and upmixing to multichannel setups. This work addresses the task of source separation from monaural and stereophonic linear musical mixtures. In both cases, the problem is underdetermined, meaning that there are more sources to separate than channels in the observed mixture. This requires taking strong statistical assumptions and/or learning a priori information about the sources in order for a solution to be feasible. On the other hand, constraining the analysis to instrumental music signals allows exploiting specific cues such as spectral and temporal smoothness, note-based segmentation and timbre similarity for the detection and extraction of sound events. The statistical assumptions and, if present, the a priori information, are both captured by a given source model that can greatly vary in complexity and extent of application. The approach used here is to consider source models of increasing levels of complexity, and to study their implications on the separation algorithm. The starting point is sparsity-based separation, which makes the general assumption that the sources can be represented in a transformed domain with few high-energy coefficients. It will be shown that sparsity, and consequently separation, can both be improved by using nonuniform-resolution time-frequency representations. To that end, several types of frequency-warped filter banks will be used as signal front-ends in conjunction with an unsupervised stereo separation approach. As a next step, more sophisticated models based on sinusoidal modeling and statistical training will be considered in order to improve separation and to allow the consideration of the maximally underdetermined problem: separation from single-channel signals. An emphasis is given in this work to a detailed but compact approach to train models of the timbre of musical instruments. An important characteristic of the approach is that it aims at a close description of the temporal evolution of the spectral envelope. The proposed method uses a formant-preserving, dimension-reduced representation of the spectral envelope based on spectral interpolation and Principal Component Analysis. It then describes the timbre of a given instrument as a Gaussian Process that can be interpreted either as a prototype curve in a timbral space or as a time-frequency template in the spectral domain. A monaural separation method based on sinusoidal modeling and on the mentioned timbre modeling approach will be presented. It exploits common-fate and good-continuation cues to extract groups of sinusoidal tracks corresponding to the individual notes. Each group is compared to each one of the timbre templates on the database using a specially-designed measure of timbre similarity, followed by a Maximum Likelihood decision. Subsequently, overlapping and missing parts of the sinusoidal tracks are retrieved by interpolating the selected timbre template. The method is later extended to stereo mixtures by using a preliminary spatial-based blind separation stage, followed by a set of refinements performed by the above sinusoidal modeling and timbre matching methods and aiming at reducing interferences with the undesired sources. A notable characteristic of the proposed separation methods is that they do not assume harmonicity, and are thus not based on a previous multipitch estimation stage, nor on the input of detailed pitch-related information. Instead, grouping and separation relies solely on the dynamic behavior of the amplitudes of the partials. This also allows separating highly inharmonic sounds and extracting chords played by a single instrument as individual entities. The fact that the presented approaches are supervised and based on classification and similarity allows using them (or parts thereof) for other content analysis applications. In particular the use of the timbre models, and the timbre matching stages of the separation systems will be evaluated in the tasks of musical instrument classification and detection of instruments in polyphonic mixtures.} } @PHDTHESIS{1168Kim2008, AUTHOR = {Jang Heon Kim}, TITLE = {The Robust 3-D Sceneflow}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2008}, MONTH = sep, PDF = {http://elvera.nue.tu-berlin.de/files/1168Kim2008.pdf}, ABSTRACT = {Recovering 3-D information from several 2-D images is one of the most important topics in computer vision. Multi-stereo and Structure-from-Motion methods aim to recover the 3-D camera pose and scene structure for a rigid scene from an uncalibrated sequence of 2-D images. The 3-D camera pose can be estimated as the principle projection ray for a camera observing a rigid scene. The estimation of dense scene geometry is a process to recover the metric geometry and to adjust the global ray projection passing through each 2-D image point to a 3-D scene point on real object surfaces. The generalization of 3-D video analysis depends on the density and robustness of the scene geometry estimation. In this dissertation, the 3-D sceneflow method that analyzes jointly stereo and motion is proposed for retrieving the camera geometry and recontructing dense scene geometry accurately.} } @PHDTHESIS{1176Knorr2008, AUTHOR = {Sebastian Knorr}, TITLE = {Synthese stereoskopischer Sequenzen aus 2-dimensionalen Videoaufnahmen}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2008}, MONTH = oct, NOTE = {Taschenbuch: 244 Seiten Verlag: Suedwestdeutscher Verlag fuer Hochschulschriften (15. Januar 2009) Sprache: Deutsch ISBN-10: 3838102347 ISBN-13: 978-3838102344 Erhältlich bei Amazon}, PDF = {http://elvera.nue.tu-berlin.de/files/1176Knorr2008.pdf}, ABSTRACT = {Die rasante Entwicklung der 3D-Technologie führt derzeit zu einer verstärkten Nachfrage nach 3D-Spielen, 3D-Filmen, 3D-Präsentationen und interaktiven 3D-Inhalten. Von der Motiviation getrieben, alte Filme als Neuauflage in 3D zu erleben, beschäftigt sich die vorliegende Dissertation mit der automatischen Konvertierung von Videosequenzen von 2D in stereoskopisch 3D. Zur Umsetzung dieses Ziels wird ein neues Verfahren zur realistischen Synthese stereoskopischer Ansichten (RSVS) aus monokularen Videosequenzen, welches auf Ansätzen aus den Forschungsbereichen der Computer Vision (CV) und Computergrafik (CG) basiert, vorgestellt. Die Ergebnisse von RSVS werden anhand zahlreicher Sequenzen mit Verfahren des aktuellen Forschungsstandes verglichen und zeigen die hervorragenden Konvertierungseigenschaften dieses Ansatzes. Ferner werden weitere Ansätze beschrieben, die den Einsatz von RSVS erweitern. Zum einen wird gezeigt, dass RSVS nicht nur stereoskopische Sequenzen aus monokularen Videosequenzen generiert, sondern auch in der Lage ist, Multiview-Video für Multi-user 3D-Displays zu erzeugen. Zum anderen lässt sich RSVS mit Super-Resolutionsansätzen erweitern und somit sowohl die Qualität des Originalvideos als auch der synthetisierten stereoskopischen Ansichten erhöhen.} } @PHDTHESIS{1220Goldmann2009, AUTHOR = {Lutz Goldmann}, TITLE = {Towards a Universal Person Description Framework for Looking at People Applications}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2009}, MONTH = sep } @PHDTHESIS{1221Schwab2009, AUTHOR = {Markus Schwab}, TITLE = {Modellbasiertes einkanaliges Rauschreduktionsverfahren angewendet auf gestörte Sprachsignale kombiniert mit einem mehrkanaligen Beamformingverfahren}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2009}, MONTH = sep } @PHDTHESIS{1271Krutz2010, AUTHOR = {Dipl.-Ing. Andreas Krutz}, TITLE = {From Sprites to Global Motion Temporal Filtering}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2010}, NOTE = {Nr. 26}, ABSTRACT = {The motivation of this thesis is to build a bridge between the Sprite coding and the hybrid video coding approach to combine both advantages and minimize disadvantages. It starts with the classical Sprite coding technique. Then, the Sprite-based representation will be integrated on a coding environment using the latest standardized video codec, H.264/AVC. Finally, a filter design will be introduced using techniques inside the Sprite generation, which has a great potential to be used not only in coding environments but also as post-processing for video enhancement or as pre-processing for further video analysis techniques.} } @PHDTHESIS{1248Rein2010, AUTHOR = {Stephan Rein}, TITLE = {Low Complexity Text and Image Compression for Wireless Devices and Sensors}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2010}, MONTH = jan, NOTE = {Nr. 27}, ABSTRACT = {The primary intention in data compression has been for decades to improve the compression performance, while more computational requirements were accepted due to the evolving computer hardware. In the recent past, however, the attributes to data compression techniques have changed. Emerging mobile devices and wireless sensors require algorithms that get along with very limited computational power and memory. The first part of this thesis introduces a low-copmplexity compression techniqie for short messages in the range of 10 to 400 characters. It combines the principles of statistical context modeling with a novel scalable data model. The proposed scheme can cut the size of such a message in half while it only requires 32 kByte of RAM. Furthermore it is evaluated to account for battery savings on mobile phones. The second part of this thesis concerns a low-complexity wavelet compression technique for pictures. The technique consists of a novel computational scheme for the picture wavelet transform, i.e., the fractional wavelet filter, and the introduced wavelet image two-line (Wi2l) coder, both having extremely little memory requirements: For compression of a 256x256x8 picture only 1.5 kBytes of RAM are needed, while the algorithms get along with 16 bit integer calculations. The technique is evaluated on a small microchip with a total RAM size of 2kBytes, but is yet competitive to current JPEG2000 implementations that run on personal computers. Typical low-cost sensor networks can thus employ state-of-the-art image compression by a software update.} } @PHDTHESIS{1270Petersohn2010, AUTHOR = {Christian Petersohn}, TITLE = {Temporal Video Segmentation}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2010}, MONTH = mar, NOTE = {Nr. 26}, ABSTRACT = {The objective of this thesis is to present steps toward simple and effective video access and browsing, to work towards technologies that can simplify annotation, automatic analysis, or video editing. This is done by developing methods and algorithms for the extraction of structural units in video on different hierarchical levels. The first problem examined is the extraction of video shots. Visually complex shots with significant object or camera motion and a large variance in visual content cannot sufficiently be presented by a single key-frame. A richer and adaptive representation is needed. This second problem is investigated and as a result a new level in the hierarchy of temporal video segments, named sub-shots, is proposed. The third problem addressed is the extraction of scenes. Various types of known approaches to scene detection are investigated.} } @PHDTHESIS{1292Karaman2010, AUTHOR = {Mustafa Karaman}, TITLE = {Towards Robust Object Segmentation in Video Sequences and its Applications}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2010}, MONTH = mar, NOTE = {Nr. 25}, ABSTRACT = {The primary goal of this thesis is to develop a robust object segmentation method for videos acquired from static cameras typically used in surveillance applications. Therefore, it explores and improves background modeling and subtraction techniques. The first part of the dissertation deals with the pre-processing stage of the general object segmentation framework in which a new hierarchical background estimation method is proposed to create a reliable background model even in the presence of moving objects. For the main-processing stage the thesis explores and compares nine state-of-the-art methods using subjective and objective evaluation measures. The advantages and disadvantages of the different methods are analyzed and discussed. Based on that, the most promising ideas are adopted for a more reliable background subtraction method. It combines the invariant color description of a Gaussian color model (GCM) with a temporal consistency criterion. Since reflections of an object on the ground are a major challenge for any object segmentation approach, a reflection detection and removal method is proposed for the post-processing stage. It analyzes the appearance of the over-segmented object to detect the reflection boundary and adapt the object mask accordingly. Furtheremore a new framework for figure-ground image segmentation evaluation is proposed to compare different image segmentation approaches automatically. The developed object segmentation framework has been used in several applications to prove its versatility. Finally, a personalized human computer interface, that detects, tracks and identifies persons and recognizes their gestures being used in an intelligent cash machine scenario, has been developed based on the combination of visual appearance and motion based analysis.} } @PHDTHESIS{1256Knörig2010, AUTHOR = {Rüdiger Knörig}, TITLE = {Multiple Description Coding mittels kaskadierter korrelierender Transformationen}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2010}, MONTH = jun, NOTE = {Nr. 24}, PDF = {http://elvera.nue.tu-berlin.de/files/1256Knörig2010.pdf}, ABSTRACT = {This work covers a new multiple description transform coding approach which, seen as a joint source-channel-coder, provides stepless trade-offs between the source coding goal of a high compression ratio and the channel coding goal of a high robustness against channel errors. The proposed solution consists of two main parts. The first one is a new kind of transformation, based on the idea of Goyal et al in [Goy01b] to cascade the elementary 2x2 correlation transform for gaining transforms of higher order. The second part is a MSE-optimal estimator which uses this variable amount of correlation to estimate a reconstruction of the input signal from a subset of transform coefficients. This would be necessary in case of transmission errors resulting in coefficient losses. With this approach one can select fine-tuned trade-offs between efficient compression and channel error robustness depending on the actual channel situation. Therefore this approach will be most useful with channels strongly varying regarding their transmission quality, like wireless or internet transmissions.} } @PHDTHESIS{1390Haboub2011, AUTHOR = {Haboub and Georges}, TITLE = {Entwicklungen verteilter Bildcodierungsmethoden basierend auf LDPC}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2011}, MONTH = jul } @PHDTHESIS{1362Kaiser2012, AUTHOR = {Florian Kaiser}, TITLE = {Music Structure Segmentation}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2012}, MONTH = apr, NOTE = {Nr. 28}, ABSTRACT = {Musik ist in erster Linie ein Mittel des Ausdrucks und der Kommunikation. Um die Entwicklung eines spezifischen musikalischen Ausdrucks sowie das musikalische Spiel im Ensemble zu ermöglichen, baut Musik notwendigerweise auf einer strukturierten Sprache auf. Der musikalische Diskurs hat daher eine ihm eigene Form. Diese Arbeit behandelt die Erkennung von zugrunde liegenden Musikstrukturen durch die Extraktion von Informationen aus Musiksignalen. Das Problem der Abschätzung der musikalischen Struktur (Musical Structure Estimation) wird hier als Music Structure Segmentation formuliert und zielt auf die größten strukturellen Einheiten die ein Musikstück ausmachen. Solche Einheiten können beispielsweise eine Strophe oder ein Vers in einem populären Musikstück, eine Brücke zwischen zwei Teilen eines Jazzstückes oder ein Satz einer klassischen Komposition sein. Die Ergebnisse dieser Segmentierung können sehr effektiv im Rahmen von Audioindizierung (Audio Indexing Applications) verwendet werden, zum Beispiel für solche Anwendungen wie die Navigation durch große Datenbanken. Die Forschung in diesem Bereich kennt seit der Einführung von Foote solche Audio-Ähnlichkeitsmatritzen (Self-Similarity Matrices), die die Visualisierung von Musikinhalten bzw. musikalischen Signalen auf der Basis ihrer Timbres oder Oberwelleninhalte ermöglichen. In dieser Arbeit werden solche Visualisierungen analysiert, um die musikalische Struktur mittels ihrer nicht-negativen Matritzenfaktorisierung zu schätzen. Wenn die musikalische Struktur aus Teilen mit akustisch homogener Form besteht, ist eine Beschreibung auf mittlerer Ebene der musikalischen Struktur möglich, die von einer solchen Faktorisierung abgeleitet werden kann und eine robuste Klassifikation ermöglicht. Darauf folgend wird aufgezeigt, wie die Darstellung von Strukturinformationen mit Ähnlichkeits-matritzen durch die Anwendung von Forschungsergebnissen aus dem Bereich der Bildsegmentierung verbessert werden kann. Im letzten Teil dieser Arbeit wird eine Beschreibung auf mittlerer Ebene des tonalen Kontextes vorgestellt, die das Ziel hat, die Beschreibung der Homogenität, welche die Teile eine musikalischen Struktur charakterisiert, zu verbessern. Durch die Kombination dieses Ansatzes mit nicht-negativer Faktorisierung der Ähnlichkeitsmatritzen erhält man ein System für die robuste Schätzung der musikalischen Struktur, welches auf der Basis einer Datenbank, die aus populärer und klassischer Musik besteht, evaluiert wird.} } @PHDTHESIS{1442Evangelio2014, AUTHOR = {Rubén Heras Evangelio}, TITLE = {Background Substraction for the Detection of Moving and Static Objects in Video Surveillance}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2014}, MONTH = feb, DOI = {10.14279/depositonce-4044} } @PHDTHESIS{1467Esche2014, AUTHOR = {Marko Esche}, TITLE = {Temporal Pixel Trajectories for Frame Denoising in a Hybrid Video Codec}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2014}, MONTH = may } @PHDTHESIS{1465Arvanitidou2014, AUTHOR = {Marina Georgia Arvanitidou}, TITLE = {Exploiting Motion Information for Video Analysis in Sequences with Moving Camera}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2014}, MONTH = nov } @PHDTHESIS{1468Jin2015, AUTHOR = {Shan Jin}, TITLE = {Noise-robust Open-vocabulary Information Retrieval in Large Spoken Document Collection}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2015}, MONTH = jan } @PHDTHESIS{1477Cobet2015, AUTHOR = {Andreas Cobet}, TITLE = {Detektion und Erkennung von Text in Videos mit niedriger Qualität}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2015}, MONTH = jun } @PHDTHESIS{1481Zilly2015, AUTHOR = {Frederik Zilly}, TITLE = {Method for the Automated Analysis, Control and Correction of Stereocopic Distorsions and Parameters for 3D-TV Applications}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2015}, MONTH = jul, ABSTRACT = {The background and motivation for the research performed within this thesis is the introduction of the Digital Cinema which allows for new workflows based on image processing algorithms. Thereby, the development of algorithms for stereoscopic 3D and multi-camera productions within the era of the Digital Cinema is of special interest.} } @PHDTHESIS{1493Sun2015, AUTHOR = {Wei Sun}, TITLE = {Low Complexity Embedded Fingerprint Vertification and Identification System}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2015}, MONTH = nov } @PHDTHESIS{1559Ide2018, AUTHOR = {Kai-Ole Ide}, TITLE = {Hybrid 3D Reconstruction for Geometry-Based Free Viewpoint Video}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2018}, MONTH = dec } @PHDTHESIS{1570Eiselein2019, AUTHOR = {Volker Eiselein}, TITLE = {Pedestrian Tracking-by-Detection for Video Surveillance Applications}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2019}, MONTH = may } @PHDTHESIS{1573Senst2019, AUTHOR = {Tobias Senst}, TITLE = {Estimation and Analysis of Motion in Video Data}, SCHOOL = {Technische Universit{\"a}t Berlin}, YEAR = {2019}, MONTH = jun, DOI = {10.14279/depositonce-9085} }